О чём курс
Этот тренинг позволяет получить подробное представление о внутреннем устройстве и функционировании Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming.и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark по управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуется преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.
Цели
Понимать внутреннее устройство Spark;
Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
Научиться оптимизировать программы, обрабатывающие RDD;
Понимать механизмы оптимизации программ на Spark SQL;
Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
Целевая аудитория
Разработчики, архитекторы
Предварительная подготовка
Опыт разработки на Java или Scala под Apache Spark от 3 месяцев.
Для кого
Разработчик
Архитектор ПО
Data Engineer
Улучшаемые навыки
Apache Spark
RDD
Spark SQL
Spark Streaming
Оптимизация производительности
Машинное обучение
Инструменты
IntelliJ IDEA
Apache Maven
HDFS
Spark
PuTTY
Oracle VirtualBox
Gradle
Программа курса
01
Внутренняя архитектура Spark, Spark Runtime Environment
02
Настройка Spark Context, SparkConf
03
Внутреннее устройство RDD, логический план
04
Лучшие практики программирования с RDD
05
Физический план: работы, стадии, задачи
06
Планировщики и выполнение физического плана
07
Настройка памяти, сериализация, кеширование, сборка мусора
08
Datasource API, внутреннее представление данных Tungsten, форматы файлов
10
Микропакетный Spark Streaming: получение и выдача данных
11
Structured Streaming: получение и выдача данных
Чему вы научитесь
01
Научитесь применять методы оптимизации производительности приложений на Apache SparkПонимать и использовать внутреннее устройство RDD и логический план.
02
Освоите использование Spark SQL
03
Научитесь разрабатывать приложения для обработки потоковых данных с использованием Spark Streaming
04
Научитесь интегрировать Apache Spark с другими инструментами и экосистемами