Apache AirFlow: эффективная оркестрация задач
Курс направлен на развитие компетенций по созданию, выполнению, мониторингу и оркестрации потоков операций по обработке данных с использованием Apache AirFlow.
24 ак.ч.
Онлайн
EAS-032
Apache AirFlow: эффективная оркестрация задач
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-032
Расписание и цены
52 500 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей
Apache AirFlow: эффективная оркестрация задач
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-032
Расписание и цены
52 500 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей

Описание

В ходе курса участники получат знания об областях применения, основных возможностях и ограничениях инструмента Apache AirFlow, а также научатся использовать его возможности при работе в Hadoop .

Темы курса включают: введение в ETL и Apache AirFlow, настройку и установку, изучение абстракций и компонентов, работу с DAG, шедулинг и контроль исполнения процессов, мониторинг и отладку, более продвинутые техники и сценарии использования AirFlow, а также лучшие практики интеграции с другими системами, конфигурирование и масштабирование. Кроме того, будут рассмотрены вопросы разработки плагинов, нотификаций, собственных сенсоров и операторов, а также способы тестирования и запуск AirFlow в контейнерах Docker.

По окончании курса участники будут уметь эффективно использовать возможности
Apache AirFlow при работе в Hadoop, создавать, выполнять и мониторить  потоки заданий по обработке данных.



Цели

Развитие компетенции по созданию, выполнению мониторинга и оркестрации потоков операций по обработке данных.

Целевая аудитория

Инженеры данных

Предварительная подготовка

Специалисты, владеющие Python, SQL и имеющие опыт работы в Hadoop.

Разбираемые темы

  • 1.Введение в Apache Airflow [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 1,5]

    • Что такое ETL

    • Оркестрация вручную - Cron и скрипты

    • Первый оркестратор для Hadoop - Oozie

    • Введение в AirFlow

    • Локальная установка AirFlow

    • Установка в Docker

    • Настройка подключений к внешним сервисам

    • REST API & CLI

    Практика 1. Установка и получение доступа к AirFlow

  • 2.Описание и выполнение заданий в AirFlow [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 1,5]

    • Запускаемое задание - граф задач (DAG)

    • Оператор (operator)

    • Процесс исполнения задания

    • Состояния задач (task)

    • Веб-интерфейс

    Практика 2. 
    • Планирование, ручной запуск и мониторинг выполнения заданий.
  • 3.Компоненты AirFlow [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 0,5]

    • Планировщик (Scheduler)

    • Исполнитель заданий (Executor)

    • Исполнитель задач (Worker)

    • Веб-сервер

    • База метаданных

    • Конфигурация

    Практика 3. Настройка исполнителей для заданий.
  • 4.Операторы и их композиции [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 2,5]

    • Виды операторов

    • PythonOperator

    • BashOperator

    • HttpOperator

    • *SQLOperator

    Практика 4. Описание простых заданий.

    • Последовательное выполнение

    • Параллельное выполнение

    • Проверка условий

    • Передача данных между операторами: переменные

    • Шаблоны и макросы

    Практика 5. Описание составных заданий.
  • 5. Условия срабатывания заданий [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 1,5]

    • Готовые сенсоры

    Практика 6. Задание условий срабатывания заданий.

    • Хуки

    • Триггеры

    • Прослушиватели

    • Backfill & catchup

    Практика 7. Установка хуков.

    • Мониторинг и отладка заданий
  • 6.Разработка для AirFlow [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 1,5]

    • Плагины и нотификации.

    • Сенсоры и branch операторы.

    • Операторы и хуки.

    Практика 8. Разработка и использование оператора.

  • 7.Лучшие практики использования [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 3,5]

    • Оптимизация заданий

    • Взаимодействие заданий (XCom)

    • Динамические задания

    • Управление параллелизмом и пулингом

    • Тестирование заданий

    • Примеры практических задач и их решений

    Практика 9. Тестирование и оптимизация заданий.
  • 8.Интеграция Airflow с другими системами [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 3,5]

    • Обращение к файловой системе HDFS

    • Пошаговое выполнение отдельными сессиями Spark

    • Выполнение в одной сессии через Spark REST API

    Практика 10. Запуск заданий Spark.

    • Выполнение запросов Impala

    Практика 11. Запуск запросов Impala.

    • Выполнение запросов ClickHouse

    Практика 12. Запуск заданий ClickHouse.

    • Интеграция с SuperSet
  • 9.Промышленное развертывание AirFlow [Лекции (ак.ч) - 0,5., Практика (ак.ч) - 3,5]

    • Многоузловой кластер

    • AirFlow в Docker

    • Развертывание в Kubernetes

    • Аутентификация, шифрование, управление доступом

    • Журналы

    • Мониторинг

    • Обновление версий

    Практика 13. Выполнение заданий на многоузловом кластере.

  • Итого на курс 24 ак. часа: теория – 4,5 ч (19%), практика – 19,5 ч (81%), ДЗ – по каждой теме.

  • Развернуть программу

Примечание

Улучшаемые навыки: ETL, Apache Airflow, DAG, Docker, Интеграция инструментов BigData.
Раcписание курсов
Вид:
Регистрируйтесь на следующий курс
Предварительная регистрация гарантирует участие в обучении. Мы обязательно оповестим вас, когда курс будет запланирован
+
Связанные курсы
Основы Hadoop
Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.
Онлайн:
09.12.2024 - 13.12.2024
Основы Apache Spark
Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.
Смотреть каталог
Ваши преимущества
Экспертность
Тренеры-эксперты из реальных проектов крупнейших компаний, лидеров в своей отрасли
Живое обучение
“Живая” коммуникация с тренером даже в онлайн-формате
Практика
Максимально наполненные практикой занятия, работа в группах, выполнение домашних заданий
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.