Улучшаемые навыки
Hadoop
HDFS
YARN
Hive
Spark
HBase
Big Data
Data Engineering
SQL
MapReduce
Инструменты
Apache HBase
HDFS
Spark
YARN
Чему вы научитесь
01
Понимать ключевые концепции и архитектуру Hadoop;
02
Записывать и читать данные в/из HDFS;
03
Понимать устройство MapReduce-программ;
04
Обращаться к табличным данным с использованием Hive;
05
Обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;
06
Обрабатывать потоки данных с использованием Spark Structured Streaming;
07
Использовать HBase для низколатентного сохранения и чтения данных.
Программа курса
01
Основные концепции современной архитектуры данных
⠀
02
HDFS: Hadoop Distributed File System
Архитектура, репликация, чтение и запись данных, команды HDFS.
Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
03
Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming
Практика: запуск приложений.
04
YARN: управление распределенным выполнением приложений
Архитектура YARN, запуск приложений в YARN.
Практика: запуск приложений и наблюдение за кластером через UI.
Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
07
Введение в потоковую обработку данных
Spark Streaming, Spark Structured Streaming, Flink.
Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
Архитектура, язык запросов.
Практика (HBase shell): запись и чтение данных.
09
Итого на курс 24 часов: теория – 13 ч ( 54%), практика – 11ч ( 46%)
Для кого
Data Engineer
Big Data Analyst
Data Scientist
Предварительная подготовка
Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.
Расписание курсов
Курс проводят
Воронцов Олег
Эксперт в области архитектуры ПО
О тренере
Более 20 в IT от разработки до архитектуры. Более 10 лет работы с Большими Данными в Российских и зарубежных проектах. Олег принимал участие в проектировании и разработке высоконагруженных систем на базе Hadoop технологий, в том числе в проектировании высоконагруженных систем потоковой обработки данных в реальном времени (Kafka, Hadoop, Spark, Scala)