EAS-032

Apache AirFlow: эффективная оркестрация задач

Курс направлен на развитие компетенций по созданию, выполнению, мониторингу и оркестрации потоков операций по обработке данных с использованием Apache AirFlow.

Удостоверение о прохождении

Смотреть пример

24 академ. часов

О чём курс

В ходе курса участники получат знания об областях применения, основных возможностях и ограничениях инструмента Apache AirFlow, а также научатся использовать его возможности при работе в Hadoop.

Темы курса включают: введение в ETL и Apache AirFlow, настройку и установку, изучение абстракций и компонентов, работу с DAG, шедулинг и контроль исполнения процессов, мониторинг и отладку, более продвинутые техники и сценарии использования AirFlow, а также лучшие практики интеграции с другими системами, конфигурирование и масштабирование. Кроме того, будут рассмотрены вопросы разработки плагинов, нотификаций, собственных сенсоров и операторов, а также способы тестирования и запуск AirFlow в контейнерах Docker.

По окончании курса участники будут уметь эффективно использовать возможности
Apache AirFlow при работе в Hadoop, создавать, выполнять и мониторить потоки заданий по обработке данных.

Цели

Развитие компетенции по созданию, выполнению мониторинга и оркестрации потоков операций по обработке данных.

Целевая аудитория

Инженеры данных

Предварительная подготовка

Специалисты, владеющие Python, SQL и имеющие опыт работы в Hadoop.

Программа курса

01 Введение в Apache Airflow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

Что такое ETL
Оркестрация вручную - Cron и скрипты
Первый оркестратор для Hadoop - Oozie
Введение в AirFlow
Локальная установка AirFlow
Установка в Docker
Настройка подключений к внешним сервисам
REST API & CLI

Практика 1. Установка и получение доступа к AirFlow

02 Описание и выполнение заданий в AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

Запускаемое задание - граф задач (DAG)
Оператор (operator)
Процесс исполнения задания
Состояния задач (task)
Веб-интерфейс

Практика 2.

Планирование, ручной запуск и мониторинг выполнения заданий.

03 Компоненты AirFlow (Теория: 0,5 ак. ч., Практика: 0,5 ак. ч.)

Планировщик (Scheduler)
Исполнитель заданий (Executor)
Исполнитель задач (Worker)
Веб-сервер
База метаданных
Конфигурация

Практика 3. Настройка исполнителей для заданий.

04 Операторы и их композиции (Теория: 0,5 ак. ч., Практика: 2,5 ак. ч.)

Виды операторов
PythonOperator
BashOperator
HttpOperator
*SQLOperator

Практика 4. Описание простых заданий.

Последовательное выполнение
Параллельное выполнение
Проверка условий
Передача данных между операторами: переменные
Шаблоны и макросы

Практика 5. Описание составных заданий.

05 Условия срабатывания заданий (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

Готовые сенсоры

Практика 6. Задание условий срабатывания заданий.

Хуки
Триггеры
Прослушиватели
Backfill & catchup

Практика 7. Установка хуков.

Мониторинг и отладка заданий

06 Разработка для AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

Плагины и нотификации.
Сенсоры и branch операторы.
Операторы и хуки.

Практика 8. Разработка и использование оператора.

07 Лучшие практики использования (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

Оптимизация заданий
Взаимодействие заданий (XCom)
Динамические задания
Управление параллелизмом и пулингом
Тестирование заданий
Примеры практических задач и их решений

Практика 9. Тестирование и оптимизация заданий.

08 Интеграция Airflow с другими системами (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

Обращение к файловой системе HDFS
Пошаговое выполнение отдельными сессиями Spark
Выполнение в одной сессии через Spark REST API

Практика 10. Запуск заданий Spark.

Выполнение запросов Impala

Практика 11. Запуск запросов Impala.

Выполнение запросов ClickHouse

Практика 12. Запуск заданий ClickHouse.

Интеграция с SuperSet

09 Промышленное развертывание AirFlow (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

Многоузловой кластер
AirFlow в Docker
Развертывание в Kubernetes
Аутентификация, шифрование, управление доступом
Журналы
Мониторинг
Обновление версий

Практика 13. Выполнение заданий на многоузловом кластере.

10 Итого на курс: 24 академических часа: теория – 4,5 ч (19%), практика – 19,5 ч (81%).

52 500 ₽

47 250 ₽ — для физ. лиц

Записаться на курс

52 500 ₽

47 250 ₽ — для физ. лиц

Записаться на курс

52 500 ₽

47 250 ₽ — для физ. лиц

Юр. лицо — 52 500 ₽

Физ. лицо — 47 250 ₽

Открытая дата

Ознакомлен с политикой обработки персональных данных

Cоглашаюсь с условиями обработки персональных данных

Связанные курсы

EAS-015

24 часа

Основы Hadoop

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.

от Middle

44 000 ₽

EAS-017

26 часов

Основы Apache Spark

Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.

от Middle

47 300 ₽

Наши ученики работают в:

Наши клиенты

Apache AirFlow: эффективная оркестрация задач

52 500 ₽

О чём курс

Цели

Целевая аудитория

Предварительная подготовка

Программа курса

52 500 ₽

52 500 ₽

Записаться на курс

Связанные курсы

Наши ученики работают в:

Наши клиенты

Не нашли, что искали? — Просто напишите, и мы поможем