Улучшаемые навыки

Hadoop
HDFS
YARN
Hive
Spark
HBase
Big Data
Data Engineering
SQL
MapReduce

Инструменты

Apache HBase Apache HBase
 HDFS HDFS
Spark Spark
YARN YARN

Чему вы научитесь

01 Понимать ключевые концепции и архитектуру Hadoop;
02 Записывать и читать данные в/из HDFS;
03 Понимать устройство MapReduce-программ;
04 Обращаться к табличным данным с использованием Hive;
05 Обращаться к табличным данным с использованием Spark SQL/DataFrame в пакетном режиме;
06 Обрабатывать потоки данных с использованием Spark Structured Streaming;
07 Использовать HBase для низколатентного сохранения и чтения данных.

Программа курса

01 Основные концепции современной архитектуры данных

02 HDFS: Hadoop Distributed File System
  • Архитектура, репликация, чтение и запись данных, команды HDFS.
  • Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
  • 03 Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming
  • Практика: запуск приложений.
  • 04 YARN: управление распределенным выполнением приложений
  • Архитектура YARN, запуск приложений в YARN.
  • Практика: запуск приложений и наблюдение за кластером через UI.
  • 05 Введение в Hive
  • Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
  • Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
  • 06 Введение в Spark
  • DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
  • Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
  • 07 Введение в потоковую обработку данных
  • Spark Streaming, Spark Structured Streaming, Flink.
  • Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
  • 08 Введение в HBase
  • Архитектура, язык запросов.
  • Практика (HBase shell): запись и чтение данных.
  • 09 Итого на курс 24 часов: теория – 13 ч ( 54%), практика – 11ч ( 46%)

    46 200 ₽

    41 580 ₽ — для физ. лиц

    Записаться на курс

    Для кого

    Data Engineer Data Engineer
    Big Data Analyst Big Data Analyst
    Data Scientist Data Scientist

    Предварительная подготовка

    Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.

    46 200 ₽

    41 580 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    46 200 ₽

    41 580 ₽ — для физ. лиц

    Юр. лицо — 46 200 ₽
    Физ. лицо — 41 580 ₽
    Открытая дата

    Отзывы о курсе

    Повысьте квалификацию И получите диплом
    Отзывы учеников
    Для меня очень полезным было рассмотрение архитектуры технологий, относящихся к Hadoop; понимание плюсов и минусов использования Hadoop, областей применения данных технологий. Очень понравился стиль изложения материала, метод преподавания тренера, эмоциональные ударения, удержание внимания аудитории.
    Отличный тренинг. Получил общее понимание Hadoop и приложений из его экосистемы. Узнал цели использования, плюсы, минусы и т.п. Основы Spark и его преимущества/недостатки по сравнению с Hadoop. Спасибо!
    Отличный курс: комплексный подход к изложению: доступно, понятно, кратко, с примерами. Общий обзор продуктов, интересные реальные примеры. Особенно описание внутреннего устройства hdfs, Vanilla Hadoop, Apache Spark.
    Очень приятные впечатления от курса - от организации до наполнения. Обучение позволило собрать воедино разрозненные обрывки знаний и в дискуссиях с коллегами и тренером - повысить компетенцию.
    Насыщенность курса превысила ожидания. Помимо верхнеуровневой архитектуры удалось познакомиться и с более низкоуровневыми особенностями и подходами к реализации и использованию.
    Тренингом очень доволен, качественное погружение в интересующие аудиторию детали, алгоритмы. Тренер активно работает с аудиторией, грамотно и доступно преподносит материал.
    Для меня это был полезный курс. Я узнал, как устроены компоненты больших данных, и получил практический опыт их использования. В общем, очень понравилась практическая часть – это большой «плюс» тренинга. Отдельно спасибо за блоки с информацией про историю развития Hadoop, общее понимание технологий и экосистемы. Это было интересно, рекомендую.
    Хороший курс. Все темы были для меня чем-то новым, но интересным и полезным. В целом было много теории и упор на основные механизмы, но нам дали возможность потренироваться на стендах, выполнить домашние задания и разобрать их вместе с тренером. После курса для меня многое стало понятным, и я вдохновился на дальнейшее самообучение – это главное!
    Все хорошо. Самая полезная часть курса – это информация про то, что представляет из себя хауоп, как его установить и конфигурировать, материалы о командах HDFS, вендорах и других составляющих (нам рассказали про Pig, Hive, Sqoop, Flume и др.). Я думаю, что этот курс, подходит для разработчиков или инженеров по обработке данных, которые строят инфраструктуру, поэтому, могу смело рекомендовать им обучение.

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Связанные курсы

    EAS-016
    8 часов

    BigData SQL: Hive

    В курсе изучаются основы архитектуры Hive , разработка скриптов по загрузке, трансформации и выгрузке данных. Рассматриваются все необходимые технические подробности. Конфигурирование и настройки производительности.

    от Middle

    16 400 ₽

    EAS-017
    26 часов

    Основы Apache Spark

    Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.

    от Middle

    49 700 ₽

    EAS-024
    24 часа

    Фреймворк Apache Spark для разработчиков: продвинутый уровень

    Глубокое погружение в внутреннее устройство Apache Spark и его компонентов. Этот курс поможет вам понять, как устроены и работают различные модули Spark, такие как Spark Core, Spark SQL, и Spark Streaming. Вы научитесь оптимизировать производительность и эффективно использовать ресурсы кластера.

    от Senior

    54 500 ₽

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.