EAS-015

Основы Hadoop

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.

Удостоверение о прохождении

Смотреть пример

24 академ. часов

Онлайн

Подробнее

О чём курс

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

Цели

Понимать ключевые концепции и архитектуру Hadoop;

Получить представление об экосистеме, сложившейся вокруг Hadoop, и ее ключевых компонентах;

Уметь записывать и читать данные в/из HDFS;

Понимать устройство MapReduce-программ;

Уметь обращаться к табличным данным с использованием Hive;

Уметь обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;

Уметь обрабатывать потоки данных с использованием Spark Structured Streaming;

Уметь использовать HBase для низколатентного сохранения и чтения данных.

Целевая аудитория

Разработчики, архитекторы, разработчики баз данных, администраторы баз данных.

Предварительная подготовка

Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.

Для кого

Разработчик

Big Data Analyst

Архитектор ПО

Программа курса

01 Основные концепции современной архитектуры данных (теория – 1 ч.).

⠀

02 HDFS: Hadoop Distributed File System (теория – 2 ч., практика – 1 ч.)

Архитектура, репликация, чтение и запись данных, команды HDFS.

Практика: подключение к кластеру, работа с файловой системой из shell и Hue.

03 Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming (теория – 2 ч., практика – 1 ч.).

Практика: запуск приложений.

04 YARN: управление распределенным выполнением приложений (теория – 1 ч., практика – 1 ч.)

Архитектура YARN, запуск приложений в YARN.

Практика: запуск приложений и наблюдение за кластером через UI.

05 Введение в Hive (теория – 2 ч., практика – 3 ч.).

Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.

Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.

06 Введение в Spark (теория – 2 ч., практика – 3 ч.).

DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.

Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.

07 Введение в потоковую обработку данных (теория – 2 ч., практика – 1 ч.).

Spark Streaming, Spark Structured Streaming, Flink.

Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.

08 Введение в HBase (теория – 1 ч., практика – 1 ч.).

Архитектура, язык запросов.

Практика (HBase shell): запись и чтение данных.

09 Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)

44 000 ₽

39 600 ₽ — для физ. лиц

Записаться на курс

44 000 ₽

39 600 ₽ — для физ. лиц

Записаться на курс

44 000 ₽

39 600 ₽ — для физ. лиц

Юр. лицо — 44 000 ₽

Физ. лицо — 39 600 ₽

Открытая дата

Ознакомлен с политикой обработки персональных данных

Cоглашаюсь с условиями обработки персональных данных

Отзывы о курсе

Повысьте квалификацию И получите диплом

Отзывы учеников

Читать все отзывы

Для меня очень полезным было рассмотрение архитектуры технологий, относящихся к Hadoop; понимание плюсов и минусов использования Hadoop, областей применения данных технологий. Очень понравился стиль изложения материала, метод преподавания тренера, эмоциональные ударения, удержание внимания аудитории.

Отличный тренинг. Получил общее понимание Hadoop и приложений из его экосистемы. Узнал цели использования, плюсы, минусы и т.п. Основы Spark и его преимущества/недостатки по сравнению с Hadoop. Спасибо!

Отличный курс: комплексный подход к изложению: доступно, понятно, кратко, с примерами. Общий обзор продуктов, интересные реальные примеры. Особенно описание внутреннего устройства hdfs, Vanilla Hadoop, Apache Spark.

Очень приятные впечатления от курса - от организации до наполнения. Обучение позволило собрать воедино разрозненные обрывки знаний и в дискуссиях с коллегами и тренером - повысить компетенцию.

Насыщенность курса превысила ожидания. Помимо верхнеуровневой архитектуры удалось познакомиться и с более низкоуровневыми особенностями и подходами к реализации и использованию.

Тренингом очень доволен, качественное погружение в интересующие аудиторию детали, алгоритмы. Тренер активно работает с аудиторией, грамотно и доступно преподносит материал.

Для меня это был полезный курс. Я узнал, как устроены компоненты больших данных, и получил практический опыт их использования. В общем, очень понравилась практическая часть – это большой «плюс» тренинга. Отдельно спасибо за блоки с информацией про историю развития Hadoop, общее понимание технологий и экосистемы. Это было интересно, рекомендую.

Хороший курс. Все темы были для меня чем-то новым, но интересным и полезным. В целом было много теории и упор на основные механизмы, но нам дали возможность потренироваться на стендах, выполнить домашние задания и разобрать их вместе с тренером. После курса для меня многое стало понятным, и я вдохновился на дальнейшее самообучение – это главное!

Все хорошо. Самая полезная часть курса – это информация про то, что представляет из себя хауоп, как его установить и конфигурировать, материалы о командах HDFS, вендорах и других составляющих (нам рассказали про Pig, Hive, Sqoop, Flume и др.). Я думаю, что этот курс, подходит для разработчиков или инженеров по обработке данных, которые строят инфраструктуру, поэтому, могу смело рекомендовать им обучение.

Связанные курсы

EAS-016

8 часов

BigData SQL: Hive

В курсе изучаются основы архитектуры Hive , разработка скриптов по загрузке, трансформации и выгрузке данных. Рассматриваются все необходимые технические подробности. Конфигурирование и настройки производительности.

от Middle

15 600 ₽

EAS-017

26 часов

Основы Apache Spark

Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.

от Middle

47 300 ₽

EAS-024

24 часа

Фреймворк Apache Spark для разработчиков: продвинутый уровень

Этот тренинг позволяет получить подробное представление о внутреннем устройстве и функционировании Apache Spark – как Spark Core (RDD), так и Spark SQL и Spark Streaming.

от Senior

51 900 ₽

Наши ученики работают в:

Наши клиенты

Основы Hadoop

44 000 ₽

О чём курс

Цели

Целевая аудитория

Предварительная подготовка

Для кого

Программа курса

44 000 ₽

44 000 ₽

Записаться на курс

Отзывы о курсе

Связанные курсы

Наши ученики работают в:

Наши клиенты

Не нашли, что искали? — Просто напишите, и мы поможем