Фреймворк Apache Spark для разработчиков: продвинутый уровень
Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL и Spark Streaming.
24 ак.ч.
Онлайн
EAS-024
Фреймворк Apache Spark для разработчиков: продвинутый уровень
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-024
Расписание и цены
18.11.2024 - 03.12.2024
45 000 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей
Фреймворк Apache Spark для разработчиков: продвинутый уровень
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-024
Расписание и цены
18.11.2024 - 03.12.2024
45 000 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей

Описание

Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark под управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуются преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst. 

Цели

  • Понимать внутреннее устройство Spark;
  • Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
  • Научиться оптимизировать программы, обрабатывающие RDD;
  • Понимать механизмы оптимизации программ на Spark SQL;
  • Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.

Целевая аудитория

Разработчики, архитекторы

Предварительная подготовка

Опыт разработки на Java или Scala под Apache Spark от 3 месяцев. 

Разбираемые темы

  • Внутренняя архитектура Spark, Spark Runtime Environment

  • Настройка Spark Context, SparkConf

  • Внутреннее устройство RDD, логический план

  • Лучшие практики программирования с RDD

  • Физический план: работы, стадии, задачи

  • Планировщики и выполнение физического плана

  • Настройка памяти, сериализация, кеширование, сборка мусора

  • Datasource API, внутреннее представление данных Tungsten, форматы файлов

  • Оптимизатор Catalyst

  • Микропакетный Spark Streaming: получение и выдача данных

  • Structured Streaming: получение и выдача данных

Раcписание курсов
Вид:
18.11.2024 - 03.12.2024
18:00-20:00
Локация:Онлайн
Длительность:24 ак.ч.
Время:18:00-20:00
45 000 руб.
Записаться
Смотреть полное расписание
Тренеры
Заигрин Вадим
Специалист в области BigData

О проектах

В рамках своей профессиональной деятельности занимался:
  • развертыванием, управлением и программированием Apache Hadoop, Spark, Kafka и Greenplum;
  • разработкой моделей машинного обучения в Spark и внедрение их в производство;
  • разработкой интеграции Apache Hadoop с СУБД и СХД;
  • разработкой и программированием решений на Google Cloud Platform и Яндекс.Облаке;
  • разработкой информационной безопасности для Apache Hadoop с Ranger и Atlas;
  • программированием на Scala, Java, Python, R, SQL, Go, C и Lisp.
Ваши преимущества
Экспертность
Тренеры-эксперты из реальных проектов крупнейших компаний, лидеров в своей отрасли
Живое обучение
“Живая” коммуникация с тренером даже в онлайн-формате
Практика
Максимально наполненные практикой занятия, работа в группах, выполнение домашних заданий
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.