О чём курс
Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.
Цели
Понимать ключевые концепции и архитектуру Hadoop;
Получить представление об экосистеме, сложившейся вокруг Hadoop, и ее ключевых компонентах;
Уметь записывать и читать данные в/из HDFS;
Понимать устройство MapReduce-программ;
Уметь обращаться к табличным данным с использованием Hive;
Уметь обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;
Уметь обрабатывать потоки данных с использованием Spark Structured Streaming;
Уметь использовать HBase для низколатентного сохранения и чтения данных.
Целевая аудитория
Разработчики, архитекторы, разработчики баз данных, администраторы баз данных.
Предварительная подготовка
Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.
Для кого
Data Engineer
Big Data Analyst
Data Scientist
Улучшаемые навыки
Hadoop
HDFS
YARN
Hive
Spark
HBase
Big Data
Data Engineering
SQL
MapReduce
Инструменты
Apache HBase
HDFS
Spark
YARN
Расписание курсов
Программа курса
01
Основные концепции современной архитектуры данных
⠀
02
HDFS: Hadoop Distributed File System
Архитектура, репликация, чтение и запись данных, команды HDFS.
Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
03
Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming
Практика: запуск приложений.
04
YARN: управление распределенным выполнением приложений
Архитектура YARN, запуск приложений в YARN.
Практика: запуск приложений и наблюдение за кластером через UI.
Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
07
Введение в потоковую обработку данных
Spark Streaming, Spark Structured Streaming, Flink.
Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
Архитектура, язык запросов.
Практика (HBase shell): запись и чтение данных.
09
Итого на курс 24 часов: теория – 13 ч ( 54%), практика – 11ч ( 46%)
Чему вы научитесь
01
Понимать ключевые концепции и архитектуру Hadoop;
02
Записывать и читать данные в/из HDFS;
03
Понимать устройство MapReduce-программ;
04
Обращаться к табличным данным с использованием Hive;
05
Обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;
06
Обрабатывать потоки данных с использованием Spark Structured Streaming;
07
Использовать HBase для низколатентного сохранения и чтения данных.
Курс проводят
Воронцов Олег
Эксперт в области архитектуры ПО
О тренере
Более 20 в IT от разработки до архитектуры. Более 10 лет работы с Большими Данными в Российских и зарубежных проектах. Олег принимал участие в проектировании и разработке высоконагруженных систем на базе Hadoop технологий, в том числе в проектировании высоконагруженных систем потоковой обработки данных в реальном времени (Kafka, Hadoop, Spark, Scala)