Улучшаемые навыки
Apache Impala
Big Data
SQL
UDF
Data Analysis
Инструменты
HDFS
Apache Impala
Чему вы научитесь
01
Анализировать данные в различных форматах с испольованием Impala.
02
Создавать различные типы таблиц и загружать в них данные.
03
Выполнять запросы на выборку данных.
04
Использовать пользовательские функции UDF.
05
Понимать, для каких задач лучше использовать Impala, а для каких — Hive.
Программа курса
01
Кластер Impala и его компоненты
Кластер Impala и его задачи.
Обзор компонентов кластера Impala.
Разбор процесса выполнения запросов в Impala.
Практика: базовые операции с Impala
IMPALAD — планировщик и исполнитель запросов.
STATESTORED — хранитель состояния кластера.
CATALOGD — кеш метаданных таблиц
Ознакомление с языком описания данных DDL
Изучение различных типов данных, используемых в Impala, включая строковые, численные, типы данных для дат и времени, логические и составные типы данных
Практика: типы данных, создание таблиц
Структура запроса Select
Обзор вариантов синтаксиса соединений
Изучение подзапросов
Практика: запросы на выборку
Обзор идентификаторов и их использование в Impala
Анализ различных видов объектов базы данных и команд DDL
Рассмотрение синхронизации метаданных
Изучение различных видов таблиц и их создание
Освоение команд для изменения и удаления таблиц
Обзор возможностей для вставка данных, пакетной загрузки данных, изменения данных
Разбор пользовательских функций UDF
Практика: загрузка данных, работа с UDF
Обзор сходств Hive и Impala
Анализ отличий Hive и Impala
07
Итого 8 часов:теория — 3 часа (37%), практика — 5 часов (63%)
Для кого
Data Scientist
Big Data Analyst
Data Engineer
Предварительная подготовка
Опыт использования SQL