О чём курс
Курс охватывает все основные аспекты работы с Apache Impala.
В ходе курса вы изучите устройство кластера Impala, в том числе компонентов, выполняющих запросы, координирующих работу кластера и хранящих метаданные.
В курсе подробно рассмотрены типы данных для столбцов таблицы и возможные операции с ними.
Вы изучите структуру запросов на выборку, варианты синтаксиса соединений и подзапросов.
Кроме того, вы разберетесь с форматами файлов данных, с которыми работает Impala, и способами загрузки данных в таблицы.
В
кластерах Hadoop часто
используют несколько SQL-инструментов для выполнения запросов. В курсе продемонстрированы отличия Impala
от наиболее распространенного SQL-движка
Hive, с точки зрения производительности, надежности и поддерживаемого
синтаксиса.
Цели
После прохождения курса Вы сможете:
- Анализировать данные в различных форматах с испольованием Impala;
- Создавать различные типы таблиц и загружать в них данные;
- Выполнять запросы на выборку данных;
- Использовать пользовательские функции UDF;
- Понимать, для каких задач лучше использовать Impala, а для каких – Hive.
Целевая аудитория
Аналитики данных, разработчики, тестировщики.
Темы курса
01
1. Кластер Impala и его компоненты
- Кластер Impala и его задачи.
-
Обзор компонентов кластера Impala.
-
Разбор процесса выполнения запросов в Impala.
-
Практика – базовые операции с Impala
- IMPALAD – планировщик и исполнитель запросов.
-
STATESTORED – хранитель состояния кластера.
-
CATALOGD – кеш метаданных таблиц
- Ознакомление с языком описания данных DDL
-
Изучение различных типов данных, используемых в Impala, включая строковые, численные, типы данных для дат и времени, логические и составные типы данных
-
Практика – типы данных, создание таблиц
- Структура запроса Select
-
Обзор вариантов синтаксиса соединений
-
Изучение подзапросов
-
Практика – запросы на выборку
05
5. Загрузка данных и UDF
- Обзор идентификаторов и их использование в Impala
-
Анализ различных видов объектов базы данных и команд DDL
-
Рассмотрение синхронизации метаданных
-
Изучение различных видов таблиц и их создание
-
Освоение команд для изменения и удаления таблиц
-
Обзор возможностей для вставка данных, пакетной загрузки данных, изменения данных
-
Разбор пользовательских функций UDF
-
Практика – загрузка данных, работа с UDF
- Обзор сходств Hive и Impala
-
Анализ отличий Hive и Impala
07
Итого 8 часов: теория – 3 ч. (37%), практика – 5 ч. (63%)