О чём вебинар
Вебинар посвящен созданию Data Lakehouse — архитектуры, объединяющей гибкость озера данных и производительность хранилища данных. Будут подробно рассмотрены три ключевых табличных формата, позволяющих построить такую архитектуру: Apache Iceberg, Delta Lake и Apache Hudi. Вебинар поможет разобраться в особенностях каждого формата, их преимуществах и недостатках, а также понять, как выбрать подходящий инструмент для конкретных задач.
В современном мире данных Data Lakehouse становится все более популярной архитектурой, объединяющей масштабируемость и экономичность озера данных с надежностью и производительностью хранилища данных. Ключевым элементом построения Data Lakehouse является выбор подходящего табличного формата. Этот вебинар посвящен глубокому погружению в три ведущих формата: Apache Iceberg, Delta Lake и Apache Hudi. Мы рассмотрим их архитектуру, ключевые особенности, преимущества и недостатки, а также предоставим практические рекомендации по выбору оптимального решения для ваших конкретных потребностей. Вебинар будет полезен как начинающим, так и опытным специалистам в области обработки данных, стремящимся построить современную и эффективную платформу для работы с большими объемами информации.
Цели вебинара:
-
1. Понять, что такое Data Lakehouse и как его построить.
-
2. Изучить форматы таблиц Iceberg, Delta Lake и Hudi.
-
3. Научиться выбирать оптимальный формат для своих задач.
-
4. Увидеть примеры практического применения.
Предварительная подготовка:
Предполагается базовое понимание концепций Big Data и SQL.
Содержание
1. Введение
- Что такое озеро данных (data lake) и почему возникла потребность в data lakehouse?
- Проблемы традиционных озер данных (отсутствие ACID-транзакций, сложность обновления и удаления данных, schema enforcement).
- Концепция data lakehouse: объединение преимуществ озера данных и хранилища данных.
- Зачем нужны форматы таблиц для озер данных?
- Решение проблем с согласованностью данных, версионностью, schema evolution.
- Обеспечение ACID-транзакций.
- Улучшение производительности запросов.
- Краткий обзор Apache Iceberg, Delta Lake и Hudi.
2. Apache Iceberg
Архитектура Iceberg:
- Каталог (Hive Metastore, Nessie, JDBC).
- Метаданные (манифесты, снимки).
- Файлы данных (Parquet, ORC, Avro).
Ключевые особенности Iceberg:
- Изменение схемы данных.
- Запросы к данным на указанный момент времени.
- Автоматическое управление разделами.
- Изменение стратегий разделения.
- Типичные кейсы для Iceberg
- Демонстрация
3. Delta Lake
Архитектура Delta Lake:
- Хранение истории изменений (Delta Log).
- Файлы данных (Parquet).
Ключевые особенности Delta Lake:
- ACID-транзакции.
- Изменение схемы данных и контроль соответствия.
- Запросы к данным на указанный момент времени.
- Оптимизация запросов за счет пропуска ненужных данных.
- Запросы к данным на указанный момент времени.
- Операции изменения записей (upsert, delete).
- Типичные кейсы для Delta Lake
- Демонстрация.
4. Apache Hudi
Архитектура Hudi:
- Файлы данных (Parquet).
- Журналы.
- Индексы.
Типы таблиц в Hudi (Copy-on-Write, Merge-on-Read):
- Преимущества и недостатки каждого типа.
Ключевые особенности Hudi:
- Инкрементальная обработка.
- Инкрементальные запросы
- Запросы к снимкам.
- Операции изменения записей (upsert, delete).
- Типичные кейсы для Hudi
- Демонстрация
5. Сравнение и критерии выбора
Другие разделы
Для кого
Data Engineer
Big Data Analyst