Описание
Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark под управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуются преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.удостоверение о повышении квалификации государственного образца
Цели
- Понимать внутреннее устройство Spark;
- Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
- Научиться оптимизировать программы, обрабатывающие RDD;
- Понимать механизмы оптимизации программ на Spark SQL;
- Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
Целевая аудитория
Предварительная подготовка
Разбираемые темы
-
Внутренняя архитектура Spark, Spark Runtime Environment
-
Настройка Spark Context, SparkConf
-
Внутреннее устройство RDD, логический план
-
Лучшие практики программирования с RDD
-
Физический план: работы, стадии, задачи
-
Планировщики и выполнение физического плана
-
Настройка памяти, сериализация, кеширование, сборка мусора
-
Datasource API, внутреннее представление данных Tungsten, форматы файлов
-
Оптимизатор Catalyst
-
Микропакетный Spark Streaming: получение и выдача данных
-
Structured Streaming: получение и выдача данных
О проектах
В рамках своей профессиональной деятельности занимался:- развертыванием, управлением и программированием Apache Hadoop, Spark, Kafka и Greenplum;
- разработкой моделей машинного обучения в Spark и внедрение их в производство;
- разработкой интеграции Apache Hadoop с СУБД и СХД;
- разработкой и программированием решений на Google Cloud Platform и Яндекс.Облаке;
- разработкой информационной безопасности для Apache Hadoop с Ranger и Atlas;
- программированием на Scala, Java, Python, R, SQL, Go, C и Lisp.