О чём курс

Этот тренинг позволяет получить подробное представление о внутреннем устройстве и функционировании Apache Spark – как Spark Core (RDD), так и Spark SQL, Spark Streaming.и Spark Structured Streaming. Рассматриваются механизмы запуска компонентов кластера Spark по управлением разных менеджеров кластеров, управление выделением ресурсов (в первую очередь – памяти), механизмы работы планировщиков. Подробно исследуется преимущества формата внутреннего представления Tungsten и работы оптимизатора Catalyst.

Цели

  • Понимать внутреннее устройство Spark;
  • Понимать механизмы запуска и настройки компонентов Spark на разных кластерах (Standalone, YARN, Mesos);
  • Научиться оптимизировать программы, обрабатывающие RDD;
  • Понимать механизмы оптимизации программ на Spark SQL;
  • Понимать механизмы оптимизации программ, обрабатывающих потоковые данные, как в микропакетах, так и в Dataset.
  • Целевая аудитория

    Разработчики, архитекторы

    Предварительная подготовка

    Опыт разработки на Java или Scala под Apache Spark от 3 месяцев. 

    Для кого

    Разработчик Разработчик
    Архитектор ПО Архитектор ПО
    Data Engineer Data Engineer

    Улучшаемые навыки

    Apache Spark
    RDD
    Spark SQL
    Spark Streaming
    Оптимизация производительности
    Машинное обучение

    Инструменты

    IntelliJ IDEA IntelliJ IDEA
    Apache Maven Apache Maven
     HDFS HDFS
    Spark Spark
    PuTTY PuTTY
    Oracle VirtualBox Oracle VirtualBox
    Gradle Gradle

    Программа курса

    01 Внутренняя архитектура Spark, Spark Runtime Environment
    02 Настройка Spark Context, SparkConf
    03 Внутреннее устройство RDD, логический план
    04 Лучшие практики программирования с RDD
    05 Физический план: работы, стадии, задачи
    06 Планировщики и выполнение физического плана
    07 Настройка памяти, сериализация, кеширование, сборка мусора
    08 Datasource API, внутреннее представление данных Tungsten, форматы файлов
    09 Оптимизатор Catalyst
    10 Микропакетный Spark Streaming: получение и выдача данных
    11 Structured Streaming: получение и выдача данных

    51 900 ₽

    46 710 ₽ — для физ. лиц

    Записаться на курс

    Чему вы научитесь

    01 Научитесь применять методы оптимизации производительности приложений на Apache SparkПонимать и использовать внутреннее устройство RDD и логический план.
    02 Освоите использование Spark SQL
    03 Научитесь разрабатывать приложения для обработки потоковых данных с использованием Spark Streaming
    04 Научитесь интегрировать Apache Spark с другими инструментами и экосистемами

    51 900 ₽

    46 710 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    51 900 ₽

    46 710 ₽ — для физ. лиц

    Юр. лицо — 51 900 ₽
    Физ. лицо — 46 710 ₽
    Открытая дата

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.