В ходе курса участники получат знания об областях применения, основных возможностях и ограничениях инструмента Apache AirFlow, а также научатся использовать его возможности при работе в Hadoop.
Темы курса включают: введение в ETL и Apache AirFlow, настройку и установку, изучение абстракций и компонентов, работу с DAG, шедулинг и контроль исполнения процессов, мониторинг и отладку, более продвинутые техники и сценарии использования AirFlow, а также лучшие практики интеграции с другими системами, конфигурирование и масштабирование. Кроме того, будут рассмотрены вопросы разработки плагинов, нотификаций, собственных сенсоров и операторов, а также способы тестирования и запуск AirFlow в контейнерах Docker.
По окончании курса участники будут уметь эффективно использовать возможности
Что такое ETL
Оркестрация вручную - Cron и скрипты
Первый оркестратор для Hadoop - Oozie
Введение в AirFlow
Локальная установка AirFlow
Установка в Docker
Настройка подключений к внешним сервисам
REST API & CLI
Практика 1. Установка и получение доступа к AirFlow
Запускаемое задание - граф задач (DAG)
Оператор (operator)
Процесс исполнения задания
Состояния задач (task)
Веб-интерфейс
Практика 2.
Планировщик (Scheduler)
Исполнитель заданий (Executor)
Исполнитель задач (Worker)
Веб-сервер
База метаданных
Конфигурация
Практика 3. Настройка исполнителей для заданий.
Виды операторов
PythonOperator
BashOperator
HttpOperator
*SQLOperator
Практика 4. Описание простых заданий.
Последовательное выполнение
Параллельное выполнение
Проверка условий
Передача данных между операторами: переменные
Шаблоны и макросы
Практика 5. Описание составных заданий.
Практика 6. Задание условий срабатывания заданий.
Хуки
Триггеры
Прослушиватели
Backfill & catchup
Практика 7. Установка хуков.
Плагины и нотификации.
Сенсоры и branch операторы.
Операторы и хуки.
Практика 8. Разработка и использование оператора.
Оптимизация заданий
Взаимодействие заданий (XCom)
Динамические задания
Управление параллелизмом и пулингом
Тестирование заданий
Примеры практических задач и их решений
Практика 9. Тестирование и оптимизация заданий.
Обращение к файловой системе HDFS
Пошаговое выполнение отдельными сессиями Spark
Выполнение в одной сессии через Spark REST API
Практика 10. Запуск заданий Spark.
Практика 11. Запуск запросов Impala.
Практика 12. Запуск заданий ClickHouse.
Многоузловой кластер
AirFlow в Docker
Развертывание в Kubernetes
Аутентификация, шифрование, управление доступом
Журналы
Мониторинг
Обновление версий
Практика 13. Выполнение заданий на многоузловом кластере.
Middle
Александр занимается разработкой учебных программ, чтением лекций, проведением семинаров, практических и лабораторных работ. Под его руководством уже не один десяток специалистов успешно защитили выпускные квалификационные работы бакалавра и магистерские диссертации.
Среди его кейсов работа в ЗАО «ТИТАН МЕТА», Московском государственном университете приборостроения и информатики, Национальном исследовательском университете «Высшая школа экономики» и Luxoft Training.
52 500 ₽
47 250 ₽ — для физ. лиц
Основы Hadoop
Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.
41 900 ₽
Основы Apache Spark
Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.
45 000 ₽