О чём курс

В ходе курса участники получат знания об областях применения, основных возможностях и ограничениях инструмента Apache AirFlow, а также научатся использовать его возможности при работе в Hadoop.

Темы курса включают: введение в ETL и Apache AirFlow, настройку и установку, изучение абстракций и компонентов, работу с DAG, шедулинг и контроль исполнения процессов, мониторинг и отладку, более продвинутые техники и сценарии использования AirFlow, а также лучшие практики интеграции с другими системами, конфигурирование и масштабирование. Кроме того, будут рассмотрены вопросы разработки плагинов, нотификаций, собственных сенсоров и операторов, а также способы тестирования и запуск AirFlow в контейнерах Docker.

По окончании курса участники будут уметь эффективно использовать возможности
Apache AirFlow при работе в Hadoop, создавать, выполнять и мониторить  потоки заданий по обработке данных.

Цели

Развитие компетенции по созданию, выполнению мониторинга и оркестрации потоков операций по обработке данных.

Целевая аудитория

Инженеры данных

Предварительная подготовка

Специалисты, владеющие Python, SQL и имеющие опыт работы в Hadoop.

Темы курса

01 Введение в Apache Airflow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Что такое ETL

  • Оркестрация вручную - Cron и скрипты

  • Первый оркестратор для Hadoop - Oozie

  • Введение в AirFlow

  • Локальная установка AirFlow

  • Установка в Docker

  • Настройка подключений к внешним сервисам

  • REST API & CLI

Практика 1. Установка и получение доступа к AirFlow

02 Описание и выполнение заданий в AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Запускаемое задание - граф задач (DAG)

  • Оператор (operator)

  • Процесс исполнения задания

  • Состояния задач (task)

  • Веб-интерфейс

Практика 2. 
  • Планирование, ручной запуск и мониторинг выполнения заданий.
03 Компоненты AirFlow (Теория: 0,5 ак. ч., Практика: 0,5 ак. ч.)

  • Планировщик (Scheduler)

  • Исполнитель заданий (Executor)

  • Исполнитель задач (Worker)

  • Веб-сервер

  • База метаданных

  • Конфигурация

Практика 3. Настройка исполнителей для заданий.
04 Операторы и их композиции (Теория: 0,5 ак. ч., Практика: 2,5 ак. ч.)

  • Виды операторов

  • PythonOperator

  • BashOperator

  • HttpOperator

  • *SQLOperator

Практика 4. Описание простых заданий.

  • Последовательное выполнение

  • Параллельное выполнение

  • Проверка условий

  • Передача данных между операторами: переменные

  • Шаблоны и макросы

Практика 5. Описание составных заданий.
05 Условия срабатывания заданий (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Готовые сенсоры

Практика 6. Задание условий срабатывания заданий.

  • Хуки

  • Триггеры

  • Прослушиватели

  • Backfill & catchup

Практика 7. Установка хуков.

  • Мониторинг и отладка заданий
06 Разработка для AirFlow (Теория: 0,5 ак. ч., Практика: 1,5 ак. ч.)

  • Плагины и нотификации.

  • Сенсоры и branch операторы.

  • Операторы и хуки.

Практика 8. Разработка и использование оператора.

07 Лучшие практики использования (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Оптимизация заданий

  • Взаимодействие заданий (XCom)

  • Динамические задания

  • Управление параллелизмом и пулингом

  • Тестирование заданий

  • Примеры практических задач и их решений

Практика 9. Тестирование и оптимизация заданий.
08 Интеграция Airflow с другими системами (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Обращение к файловой системе HDFS

  • Пошаговое выполнение отдельными сессиями Spark

  • Выполнение в одной сессии через Spark REST API

Практика 10. Запуск заданий Spark.

  • Выполнение запросов Impala

Практика 11. Запуск запросов Impala.

  • Выполнение запросов ClickHouse

Практика 12. Запуск заданий ClickHouse.

  • Интеграция с SuperSet
09 Промышленное развертывание AirFlow (Теория: 0,5 ак. ч., Практика: 3,5 ак. ч.)

  • Многоузловой кластер

  • AirFlow в Docker

  • Развертывание в Kubernetes

  • Аутентификация, шифрование, управление доступом

  • Журналы

  • Мониторинг

  • Обновление версий

Практика 13. Выполнение заданий на многоузловом кластере.

10 Итого на курс: 24 академических часа: теория – 4,5 ч (19%), практика – 19,5 ч (81%), домашние задания – по каждой теме.

52 500 ₽

47 250 ₽ — для физ. лиц

Записаться на курс

Ведущий курса

Александр

Брейман Александр

Эксперт в области разработки и архитектуры ПО

Middle

О проектах

Александр занимается разработкой учебных программ, чтением лекций, проведением семинаров, практических и лабораторных работ. Под его руководством уже не один десяток специалистов успешно защитили выпускные квалификационные работы бакалавра и магистерские диссертации.

Среди его кейсов работа в ЗАО «ТИТАН МЕТА», Московском государственном университете приборостроения и информатики, Национальном исследовательском университете «Высшая школа экономики» и Luxoft Training.

Курсы и сертификаты

Александр является членом организаций:

  • IEEE, IEEE Computer Society (Institute of Electrical and Electronics Engineers / Институт инженеров электротехники и электроники).
  • ACM, ACM SIGMOD (Association for Computing Machinery / Ассоциация вычислительной техники).

52 500 ₽

47 250 ₽ — для физ. лиц

Записаться на курс

Записаться на курс

52 500 ₽

47 250 ₽ — для физ. лиц

Юр. лицо — 52 500 ₽
Физ. лицо — 47 250 ₽
17.03.2025, Онлайн
17.03.2025, Онлайн
Открытая дата
Продолжая, я подтверждаю, что ознакомлен с Условиями использования и Порядком обработки персональных данных

Связанные курсы

EAS-015
24 часа

Основы Hadoop

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.

от Middle

41 900 ₽

EAS-017
26 часов

Основы Apache Spark

Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.

от Middle

45 000 ₽

Наши ученики работают в:

Наши клиенты

Mail.ru
Альфа-Банк, банковская группа
Лаборатория Касперского
Магнит, розничная сеть
Спортмастер, сеть спортивных магазинов
ПСБ
Сбертех
Дзен
IT One
Ростелеком
Мегафон
Nexign
Ozon
Декатлон
X5 Group
Технониколь
Росатом
Газпром
Нлмк
ВСК
Синимекс

Не нашли, что искали? — Просто напишите, и мы поможем

Продолжая, я подтверждаю, что ознакомлен с Условиями использования и Порядком обработки персональных данных
Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.