Основы Hadoop
Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.
24 ак.ч.
Онлайн
EAS-015
Основы Hadoop
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-015
Расписание и цены
40 000 руб.
Планируете обучить команду из 7-8 или более человек?
Закажите корпоративное обучение с учетом ваших потребностей
Основы Hadoop
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-015
Расписание и цены
40 000 руб.
Планируете обучить команду из 7-8 или более человек?
Закажите корпоративное обучение с учетом ваших потребностей

Описание

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

Цели

  • Понимать ключевые концепции и архитектуру Hadoop;
  • Получить представление об экосистеме, сложившейся вокруг Hadoop, и ее ключевых компонентах;
  • Уметь записывать и читать данные в/из HDFS;
  • Понимать устройство MapReduce-программ;
  • Уметь обращаться к табличным данным с использованием Hive;
  • Уметь обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;
  • Уметь обрабатывать потоки данных с использованием Spark Structured Streaming;
  • Уметь использовать HBase для низколатентного сохранения и чтения данных.

Целевая аудитория

Разработчики, архитекторы, разработчики баз данных, администраторы баз данных.

Предварительная подготовка

Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.

Разбираемые темы

  • 1. Основные концепции современной архитектуры данных (теория 1 ч)

  • 2. HDFS: Hadoop Distributed File System (теория 2 ч, практика 1 ч)

    • Архитектура, репликация, чтение и запись данных, команды HDFS;
    • Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
  • 3. Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming (теория 2 ч, практика 1 ч)

    • Практика: запуск приложений.
  • 4. YARN: управление распределенным выполнением приложений (теория 1 ч, практика 1 ч)

    • Архитектура YARN, запуск приложений в YARN;
    • Практика: запуск приложений и наблюдение за кластером через UI.
  • 5. Введение в Hive (теория 2 ч, практика 3 ч)

    • Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL;
    • Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
  • 6. Введение в Spark (теория 2 ч, практика 3 ч)

    • DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD;
    • Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
  • 7. Введение в потоковую обработку данных (теория 2 ч, практика 1 ч)

    • Spark Streaming, Spark Structured Streaming, Flink;
    • Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
  • 8. Введение в HBase (теория 1 ч, практика 1 ч)

    • Архитектура, язык запросов;
    • Практика (HBase shell): запись и чтение данных.
  • Развернуть программу
Раcписание курсов
Вид:
Регистрируйтесь на следующий курс
Предварительная регистрация гарантирует участие в обучении. Мы обязательно оповестим вас, когда курс будет запланирован
+
Отзывы (9)
Для меня очень полезным было рассмотрение архитектуры технологий, относящихся к Hadoop; понимание плюсов и минусов использования Hadoop, областей применения данных технологий. Очень понравился стиль изложения материала, метод преподавания тренера, эмоциональные ударения, удержание внимания аудитории.
Участник тренинга
Отличный тренинг. Получил общее понимание Hadoop и приложений из его экосистемы. Узнал цели использования, плюсы, минусы и т.п. Основы Spark и его преимущества/недостатки по сравнению с Hadoop. Спасибо!
Участник тренинга
Отличный курс: комплексный подход к изложению: доступно, понятно, кратко, с примерами. Общий обзор продуктов, интересные реальные примеры. Особенно описание внутреннего устройства hdfs, Vanilla Hadoop, Apache Spark.
Участник тренинга
Очень приятные впечатления от курса - от организации до наполнения. Обучение позволило собрать воедино разрозненные обрывки знаний и в дискуссиях с коллегами и тренером - повысить компетенцию.
Участник тренинга
Насыщенность курса превысила ожидания. Помимо верхнеуровневой архитектуры удалось познакомиться и с более низкоуровневыми особенностями и подходами к реализации и использованию.
Участник тренинга
Тренингом очень доволен, качественное погружение в интересующие аудиторию детали, алгоритмы. Тренер активно работает с аудиторией, грамотно и доступно преподносит материал.
Участник тренинга
Для меня это был полезный курс. Я узнал, как устроены компоненты больших данных, и получил практический опыт их использования. В общем, очень понравилась практическая часть – это большой «плюс» тренинга. Отдельно спасибо за блоки с информацией про историю развития Hadoop, общее понимание технологий и экосистемы. Это было интересно, рекомендую.
Участник тренинга
Хороший курс. Все темы были для меня чем-то новым, но интересным и полезным. В целом было много теории и упор на основные механизмы, но нам дали возможность потренироваться на стендах, выполнить домашние задания и разобрать их вместе с тренером. После курса для меня многое стало понятным, и я вдохновился на дальнейшее самообучение – это главное!
Участник тренинга
Все хорошо. Самая полезная часть курса – это информация про то, что представляет из себя хауоп, как его установить и конфигурировать, материалы о командах HDFS, вендорах и других составляющих (нам рассказали про Pig, Hive, Sqoop, Flume и др.). Я думаю, что этот курс, подходит для разработчиков или инженеров по обработке данных, которые строят инфраструктуру, поэтому, могу смело рекомендовать им обучение.
Участник тренинга
Показать все отзывы
Связанные курсы
Основы Apache Spark
Этот тренинг дает представление об основных понятиях фреймворка Apache Spark и методах его использования для разработки приложений, обрабатывающих данные. Мы рассмотрим применение этого фреймворка для автоматической генерации кода и его распределенного выполнения. Слушатели научатся работать с файлами данных в различных форматах (CSV, Json, Avro, Parquet) в приложениях на Spark, используя SQL и DataFrame. Кроме того, речь пойдет о загрузке данных с внешних хранилищ и во внешние хранилища, такие как Cassandra, Kafka, Postgres и S3. Практические упражнения выполняются на языке Python с использованием веб-ноутбуков Jupyter.
Фреймворк Apache Spark для разработчиков: продвинутый уровень
Тренинг даёт подробное представление о внутреннем устройстве и функционировании фреймворка Apache Spark – как Spark Core (RDD), так и Spark SQL и Spark Streaming.
Онлайн:
03.10.2022 - 12.10.2022
Смотреть каталог
Ваши преимущества
Экспертность
Тренеры-эксперты из реальных проектов крупнейших компаний, лидеров в своей отрасли
Живое обучение
“Живая” коммуникация с тренером даже в онлайн-формате
Практика
Максимально наполненные практикой занятия, работа в группах, выполнение домашних заданий
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.