О чём курс
Этот тренинг позволяет получить подробное представление о внутреннем устройстве и функционировании Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming.и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark по управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуется преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.
Цели
Понимать внутреннее устройство Spark;
Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
Научиться оптимизировать программы, обрабатывающие RDD;
Понимать механизмы оптимизации программ на Spark SQL;
Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
Целевая аудитория
Разработчики, архитекторы
Предварительная подготовка
Опыт разработки на Java или Scala под Apache Spark от 3 месяцев.
Для кого
Разработчик
Архитектор ПО
Улучшаемые навыки
Оптимизация производительности приложений Spark
Работа с Spark SQL
Обработка потоковых данных с Spark Streaming
Интеграция с другими системами и инструментами
Расписание курсов
Программа курса
01
Внутренняя архитектура Spark, Spark Runtime Environment
02
Настройка Spark Context, SparkConf
03
Внутреннее устройство RDD, логический план
04
Лучшие практики программирования с RDD
05
Физический план: работы, стадии, задачи
06
Планировщики и выполнение физического плана
07
Настройка памяти, сериализация, кеширование, сборка мусора
08
Datasource API, внутреннее представление данных Tungsten, форматы файлов
10
Микропакетный Spark Streaming: получение и выдача данных
11
Structured Streaming: получение и выдача данных
Чему вы научитесь
01
Научитесь применять методы оптимизации производительности приложений на Apache Spark
02
Освоите использование Spark SQL
03
Научитесь разрабатывать приложения для обработки потоковых данных с использованием Spark Streaming
04
Научитесь интегрировать Apache Spark с другими инструментами и экосистемами
Курс проводят
Воронцов Олег
Эксперт в области архитектуры ПО