О чём курс
Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark под управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуются преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.
Цели
- Понимать внутреннее устройство Spark;
-
Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
-
Научиться оптимизировать программы, обрабатывающие RDD;
-
Понимать механизмы оптимизации программ на Spark SQL;
-
Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
Целевая аудитория
Разработчики, архитекторы
Предварительная подготовка
Опыт разработки на Java или Scala под Apache Spark от 3
месяцев.