Предварительная подготовка

Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.

Для кого

DevOps-инженер DevOps-инженер
Data Engineer Data Engineer
Системный администратор Системный администратор

Улучшаемые навыки

Big Data
Hadoop
HDFS
YARN
Мониторинг
Оптимизация Запросов
Распределенные системы

Инструменты

Apache HBase Apache HBase
 HDFS HDFS
Spark Spark
Zookeeper Zookeeper

Программа курса

01 Введение в экосистему RT.DataLake
  • История возникновения Hadoop: понятия BigData, Data Lake. История проекта.
  • Основные проекты Hadoop: HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper. Описание и основные компоненты.
  • Архитектура кластера Hadoop: HDFS. YARN. Отказоустойчивость.
  • 02 Подготовка окружения к установке Hadoop
  • Планирование кластера: типы узлов. Профили нагрузки. Аппаратное обеспечение. Примеры кластеров.
  • Настройка параметров окружения. Подготовка к установке. Настройка сети и DNS.
  • Монтирование и настройка файловой системы.
  • 03 Введение в RT.ClusterManager
  • Основные понятия и компоненты.
  • Развертывание системы управления.
  • Планирование и первичная конфигурация кластера Hadoop.
  • Установка и настройка мониторинга.
  • Установка кластера Hadoop.
  • Мониторинг. Работа с метриками в интерфейсе. Расширенный мониторинг через плагин RT.Monitoring.
  • Подходы к конфигурированию сервисов экосистемы Hadoop.
  • 04 Основные конфигурационные файлы и описание
  • HDFS+YARN (hdfs-site, yarn-site, hadoop-env).
  • Hive+Tez (hive-site, tez-site, hive-env).
  • HBase (hbase-site, hbase-env).
  • Spark (spark-env).
  • Zookeeper (zoo.cfg).
  • Работа с логами сервисов, поиск и выявление проблем работы с сервисами.
  • Контроль состояния сервисов в RT.ClusterManager.
  • Обзор возможностей RT.ClusterManager:
  • Аутентификация.
  • Конфигурирование.
  • API.
  • Логирование.
  • Аудит.
  • Удаление кластера.
  • 05 Пост-настройка кластера Hadoop: HDFS, YARN
  • Файловая система HDFS.
  • Основные операции в HDFS: работа с файлами и каталогами. Balancer. Распределенное копирование. HttpFS.
  • Обслуживание и диагностика HDFS: DataNodes, NameNodes, HA. HDFS UI.
  • Политики хранения и размещения в HDFS: Политики хранения. Tiering. Erasure Coding. Rack Awareness.
  • Компрессия и форматы файлов.
  • Парадигма Map Reduce.
  • Архитектура YARN, HA-режим. Работа с YARN UI.
  • Scheduler YARN.
  • 06 Проверка работоспособности кластера
  • ZooKeeper. Основные понятия и операции. Работа с Zookeeper CLI.
  • HBase. Основные понятия и примеры операций. Установка и конфигурирование (GC, Memstore, Compression, Load balancing, Flush). High Availability. Работа с утилитами HBase (check, repair).
  • Phoenix. Основные операции с данными. Примеры запросов Hive. Основные понятия и примеры операций. Установка и конфигурирование. High Availability HiveServer.
  • Работа с утилитами Hive (schema-tool). Работа с Tez UI.
  • Оптимизация запросов Hive.
  • Spark. Основные понятия и операции.
  • Установка и конфигурирование. Работа со Spark UI. Примеры кода.
  • Работа с Livy сервером (REST API).
  • Zeppelin. Основные интерпретаторы и примеры кода.
  • 07 Итого на курс 44 академических часа: теория — 20 ак. ч. (45%), практика — 24 ак. ч. (55%)

    85 000 ₽

    76 500 ₽ — для физ. лиц

    Записаться на курс

    Чему вы научитесь

    01 Развертывать и настраивать кластер Hadoop с RT.ClusterManager.
    02 Оптимизировать работу HDFS, YARN и Hive.
    03 Анализировать логи и метрики для диагностики проблем.
    04 Управлять политиками доступа.

    85 000 ₽

    76 500 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    85 000 ₽

    76 500 ₽ — для физ. лиц

    Юр. лицо — 85 000 ₽
    Физ. лицо — 76 500 ₽
    Открытая дата

    Связанные курсы

    EAS-015
    24 часа

    Основы Hadoop

    Освойте основы Hadoop и экосистемы Big Data. Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

    от Middle

    44 000 ₽

    EAS-017
    26 часов

    Основы Apache Spark

    Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.

    от Middle

    47 300 ₽

    EAS-024
    24 часа

    Фреймворк Apache Spark для разработчиков: продвинутый уровень

    Глубокое погружение в внутреннее устройство Apache Spark и его компонентов. Этот курс поможет вам понять, как устроены и работают различные модули Spark, такие как Spark Core, Spark SQL, и Spark Streaming. Вы научитесь оптимизировать производительность и эффективно использовать ресурсы кластера.

    от Senior

    51 900 ₽

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.