О чём курс

В ходе курса участники получат знания об областях применения, основных возможностях и ограничениях инструмента Apache AirFlow, а также научатся использовать его возможности при работе в Hadoop.

Темы курса включают: введение в ETL и Apache AirFlow, настройку и установку, изучение абстракций и компонентов, работу с DAG, шедулинг и контроль исполнения процессов, мониторинг и отладку, более продвинутые техники и сценарии использования AirFlow, а также лучшие практики интеграции с другими системами, конфигурирование и масштабирование. Кроме того, будут рассмотрены вопросы разработки плагинов, нотификаций, собственных сенсоров и операторов, а также способы тестирования и запуск AirFlow в контейнерах Docker.

По окончании курса участники будут уметь эффективно использовать возможности
Apache AirFlow при работе в Hadoop, создавать, выполнять и мониторить  потоки заданий по обработке данных.

Цели

Развитие компетенции по созданию, выполнению мониторинга и оркестрации потоков операций по обработке данных.

Целевая аудитория

Инженеры данных

Предварительная подготовка

Специалисты, владеющие Python, SQL и имеющие опыт работы в Hadoop.

Расписание курсов

18.07.2025 - 25.07.2025

14:00-18:00
Дата и время:
18.07.2025-25.07.2025
14:00-18:00

Middle 24 часа

52 500 ₽

47 250 ₽ — для физ. лиц

Программа курса

01 Введение в Apache Airflow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Что такое ETL

  • Оркестрация вручную - Cron и скрипты

  • Первый оркестратор для Hadoop - Oozie

  • Введение в AirFlow

  • Локальная установка AirFlow

  • Установка в Docker

  • Настройка подключений к внешним сервисам

  • REST API & CLI

Практика 1. Установка и получение доступа к AirFlow

02 Описание и выполнение заданий в AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Запускаемое задание - граф задач (DAG)

  • Оператор (operator)

  • Процесс исполнения задания

  • Состояния задач (task)

  • Веб-интерфейс

Практика 2. 
  • Планирование, ручной запуск и мониторинг выполнения заданий.
03 Компоненты AirFlow (Теория: 0,5 ак. ч., Практика: 0,5 ак. ч.)

  • Планировщик (Scheduler)

  • Исполнитель заданий (Executor)

  • Исполнитель задач (Worker)

  • Веб-сервер

  • База метаданных

  • Конфигурация

Практика 3. Настройка исполнителей для заданий.
04 Операторы и их композиции (Теория: 0,5 ак. ч., Практика: 2,5 ак. ч.)

  • Виды операторов

  • PythonOperator

  • BashOperator

  • HttpOperator

  • *SQLOperator

Практика 4. Описание простых заданий.

  • Последовательное выполнение

  • Параллельное выполнение

  • Проверка условий

  • Передача данных между операторами: переменные

  • Шаблоны и макросы

Практика 5. Описание составных заданий.
05 Условия срабатывания заданий (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Готовые сенсоры

Практика 6. Задание условий срабатывания заданий.

  • Хуки

  • Триггеры

  • Прослушиватели

  • Backfill & catchup

Практика 7. Установка хуков.

  • Мониторинг и отладка заданий
06 Разработка для AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Плагины и нотификации.

  • Сенсоры и branch операторы.

  • Операторы и хуки.

Практика 8. Разработка и использование оператора.

07 Лучшие практики использования (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Оптимизация заданий

  • Взаимодействие заданий (XCom)

  • Динамические задания

  • Управление параллелизмом и пулингом

  • Тестирование заданий

  • Примеры практических задач и их решений

Практика 9. Тестирование и оптимизация заданий.
08 Интеграция Airflow с другими системами (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Обращение к файловой системе HDFS

  • Пошаговое выполнение отдельными сессиями Spark

  • Выполнение в одной сессии через Spark REST API

Практика 10. Запуск заданий Spark.

  • Выполнение запросов Impala

Практика 11. Запуск запросов Impala.

  • Выполнение запросов ClickHouse

Практика 12. Запуск заданий ClickHouse.

  • Интеграция с SuperSet
09 Промышленное развертывание AirFlow (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Многоузловой кластер

  • AirFlow в Docker

  • Развертывание в Kubernetes

  • Аутентификация, шифрование, управление доступом

  • Журналы

  • Мониторинг

  • Обновление версий

Практика 13. Выполнение заданий на многоузловом кластере.

10 Итого на курс: 24 академических часа: теория – 4,5 ч (19%), практика – 19,5 ч (81%).

52 500 ₽

47 250 ₽ — для физ. лиц

Записаться на курс

Курс проводят

Егор

Котельников Егор

Специалист в области BigData

О тренере

  • В роли инженера данных участвовал в проекте миграции хранилища с hadoop стека на s3 + kubernetes для ГК «Самолёт».
  • Руководил группой, которая занималась разработкой и поддержкой проекта по загрузке потоковых и пакетных данных в hdfs. А также оптимизацией загрузки большого объёма данных (100 Тб в месяц), построение витрин для Beeline.
  • Занимался руководством команды разработки аналитического хранилища с использованием hadoop, pyspark, airflow (arenadata), kafka, MS SQL. Разворачиванием кластера Arenadata, подключением zeppelin, интеграцией с системами (kafka, ms sql, gbq, sftp). Также группа занималась разработкой загрузки сырых данных с помощью шаблонных дагов в airflow, сборкой витрин для проектов сортировки, рекомендательной системы в Sbermegamarket.ru.
  • Выполнял роль ведущего разработчика на проектах: создание аналитического хранилища на базе Hadoop, Spark (Scala); разработка хранилища данных об использовании маркетплейса для целей маркетинговой аналитики; реализация потоковой обработки больших данных с использованием машинного обучения — в Goods.ru.
  • Был инженером-разработчиком на проектах: разработка библиотеки для использования в отделе больших данных, создание хранилища данных, реализация аналитических продуктов на больших данных — в Платформе ОФД.
  • 52 500 ₽

    47 250 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    52 500 ₽

    47 250 ₽ — для физ. лиц

    Юр. лицо — 52 500 ₽
    Физ. лицо — 47 250 ₽
    18.07.2025, Онлайн
    18.07.2025, Онлайн
    Открытая дата

    Связанные курсы

    EAS-015
    24 часа

    Основы Hadoop

    Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.

    от Middle

    44 000 ₽

    EAS-017
    26 часов

    Основы Apache Spark

    Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.

    от Middle

    47 300 ₽

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.