О чём курс
Курс охватывает все основные аспекты работы с Apache Impala.
В ходе курса вы изучите устройство кластера Impala, в том числе компонентов, выполняющих запросы, координирующих работу кластера и хранящих метаданные.
В курсе подробно рассмотрены типы данных для столбцов таблицы и возможные операции с ними.
Вы изучите структуру запросов на выборку, варианты синтаксиса соединений и подзапросов.
Кроме того, вы разберетесь с форматами файлов данных, с которыми работает Impala, и способами загрузки данных в таблицы.
В кластерах Hadoop часто используют несколько SQL-инструментов для выполнения запросов. В курсе продемонстрированы отличия Impala от наиболее распространенного SQL-движка Hive, с точки зрения производительности, надежности и поддерживаемого синтаксиса.
Цели
После прохождения курса Вы сможете:
Анализировать данные в различных форматах с испольованием Impala;
Создавать различные типы таблиц и загружать в них данные;
Выполнять запросы на выборку данных;
Использовать пользовательские функции UDF;
Понимать, для каких задач лучше использовать Impala, а для каких – Hive.
Целевая аудитория
Аналитики данных, разработчики, тестировщики.
Для кого
Разработчик
Тестировщик
Улучшаемые навыки
Понимание архитектуры Impala
Создание и управление таблицами
Запросы на SQL с использованием Impala
Оптимизация производительности запросов
Интеграция с инструментами анализа данных
Программа курса
01
Кластер Impala и его компоненты
Кластер Impala и его задачи.
Обзор компонентов кластера Impala.
Разбор процесса выполнения запросов в Impala.
Практика – базовые операции с Impala
IMPALAD – планировщик и исполнитель запросов.
STATESTORED – хранитель состояния кластера.
CATALOGD – кеш метаданных таблиц
Ознакомление с языком описания данных DDL
Изучение различных типов данных, используемых в Impala, включая строковые, численные, типы данных для дат и времени, логические и составные типы данных
Практика – типы данных, создание таблиц
Структура запроса Select
Обзор вариантов синтаксиса соединений
Изучение подзапросов
Практика – запросы на выборку
Обзор идентификаторов и их использование в Impala
Анализ различных видов объектов базы данных и команд DDL
Рассмотрение синхронизации метаданных
Изучение различных видов таблиц и их создание
Освоение команд для изменения и удаления таблиц
Обзор возможностей для вставка данных, пакетной загрузки данных, изменения данных
Разбор пользовательских функций UDF
Практика – загрузка данных, работа с UDF
Обзор сходств Hive и Impala
Анализ отличий Hive и Impala
07
Итого 8 часов: теория – 3 ч. (37%), практика – 5 ч. (63%)
Чему вы научитесь
01
Научитесь основным компонентам архитектуры Impala, включая его взаимодействие с Hadoop
02
Освоите методы создания и управления таблицами в Impala
03
Научитесь писать запросы на SQL для извлечения и анализа данных в Impala
04
Освоите методы оптимизации производительности запросов в Impala, включая использование индексов
05
Научитесь интегрировать Impala с различными инструментами для анализа данных и визуализации