Предварительная подготовка
Умение работать в командной оболочке Unix/Linux (bash). Опыт работы с базами данных желателен, но не обязателен.
Для кого
DevOps-инженер
Data Engineer
Системный администратор
Улучшаемые навыки
Big Data
Hadoop
HDFS
YARN
Мониторинг
Оптимизация Запросов
Распределенные системы
Инструменты
Apache HBase
HDFS
Spark
Zookeeper
Программа курса
01
Введение в экосистему RT.DataLake
История возникновения Hadoop: понятия BigData, Data Lake. История проекта.
Основные проекты Hadoop: HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper. Описание и основные компоненты.
Архитектура кластера Hadoop: HDFS. YARN. Отказоустойчивость.
02
Подготовка окружения к установке Hadoop
Планирование кластера: типы узлов. Профили нагрузки. Аппаратное обеспечение. Примеры кластеров.
Настройка параметров окружения. Подготовка к установке. Настройка сети и DNS.
Монтирование и настройка файловой системы.
03
Введение в RT.ClusterManager
Основные понятия и компоненты.
Развертывание системы управления.
Планирование и первичная конфигурация кластера Hadoop.
Установка и настройка мониторинга.
Установка кластера Hadoop.
Мониторинг. Работа с метриками в интерфейсе. Расширенный мониторинг через плагин RT.Monitoring.
Подходы к конфигурированию сервисов экосистемы Hadoop.
04
Основные конфигурационные файлы и описание
HDFS+YARN (hdfs-site, yarn-site, hadoop-env).
Hive+Tez (hive-site, tez-site, hive-env).
HBase (hbase-site, hbase-env).
Spark (spark-env).
Zookeeper (zoo.cfg).
Работа с логами сервисов, поиск и выявление проблем работы с сервисами.
Контроль состояния сервисов в RT.ClusterManager.
Обзор возможностей RT.ClusterManager:
Аутентификация.
Конфигурирование.
API.
Логирование.
Аудит.
Удаление кластера.
05
Пост-настройка кластера Hadoop: HDFS, YARN
Файловая система HDFS.
Основные операции в HDFS: работа с файлами и каталогами. Balancer. Распределенное копирование. HttpFS.
Обслуживание и диагностика HDFS: DataNodes, NameNodes, HA. HDFS UI.
Политики хранения и размещения в HDFS: Политики хранения. Tiering. Erasure Coding. Rack Awareness.
Компрессия и форматы файлов.
Парадигма Map Reduce.
Архитектура YARN, HA-режим. Работа с YARN UI.
Scheduler YARN.
06
Проверка работоспособности кластера
ZooKeeper. Основные понятия и операции. Работа с Zookeeper CLI.
HBase. Основные понятия и примеры операций. Установка и конфигурирование (GC, Memstore, Compression, Load balancing, Flush). High Availability. Работа с утилитами HBase (check, repair).
Phoenix. Основные операции с данными. Примеры запросов Hive. Основные понятия и примеры операций. Установка и конфигурирование. High Availability HiveServer.
Работа с утилитами Hive (schema-tool). Работа с Tez UI.
Оптимизация запросов Hive.
Spark. Основные понятия и операции.
Установка и конфигурирование. Работа со Spark UI. Примеры кода.
Работа с Livy сервером (REST API).
Zeppelin. Основные интерпретаторы и примеры кода.
07
Итого на курс 44 академических часа: теория — 20 ак. ч. (45%), практика — 24 ак. ч. (55%)
Чему вы научитесь
01
Развертывать и настраивать кластер Hadoop с RT.ClusterManager.
02
Оптимизировать работу HDFS, YARN и Hive.
03
Анализировать логи и метрики для диагностики проблем.
04
Управлять политиками доступа.