Улучшаемые навыки
Apache Spark
RDD
Spark SQL
Spark Streaming
Оптимизация производительности
Машинное обучение
Инструменты
IntelliJ IDEA
Apache Maven
HDFS
Spark
PuTTY
Oracle VirtualBox
Gradle
Чему вы научитесь
01
Научитесь применять методы оптимизации производительности приложений на Apache SparkПонимать и использовать внутреннее устройство RDD и логический план.
02
Освоите использование Spark SQL
03
Научитесь разрабатывать приложения для обработки потоковых данных с использованием Spark Streaming
04
Научитесь интегрировать Apache Spark с другими инструментами и экосистемами
Программа курса
01
Внутренняя архитектура Spark, Spark Runtime Environment
02
Настройка Spark Context, SparkConf
03
Внутреннее устройство RDD, логический план
04
Лучшие практики программирования с RDD
05
Физический план: работы, стадии, задачи
06
Планировщики и выполнение физического плана
07
Настройка памяти, сериализация, кеширование, сборка мусора
08
Datasource API, внутреннее представление данных Tungsten, форматы файлов
10
Микропакетный Spark Streaming: получение и выдача данных
11
Structured Streaming: получение и выдача данных
Для кого
Разработчик
Архитектор ПО
Data Engineer
Предварительная подготовка
Опыт разработки на Java или Scala под Apache Spark от 3 месяцев.