Описание
Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark под управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуются преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.удостоверение о повышении квалификации государственного образца
Цели
- Понимать внутреннее устройство Spark;
- Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
- Научиться оптимизировать программы, обрабатывающие RDD;
- Понимать механизмы оптимизации программ на Spark SQL;
- Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
Целевая аудитория
Предварительная подготовка
Разбираемые темы
-
Внутренняя архитектура Spark, Spark Runtime Environment
-
Настройка Spark Context, SparkConf
-
Внутреннее устройство RDD, логический план
-
Лучшие практики программирования с RDD
-
Физический план: работы, стадии, задачи
-
Планировщики и выполнение физического плана
-
Настройка памяти, сериализация, кеширование, сборка мусора
-
Datasource API, внутреннее представление данных Tungsten, форматы файлов
-
Оптимизатор Catalyst
-
Микропакетный Spark Streaming: получение и выдача данных
-
Structured Streaming: получение и выдача данных