Главная Открытое обучение Бесплатные семинары и вебинары

Как построить домик у озера данных: табличные форматы Iceberg, Delta, Hudi

Data Engineer

Big Data Analyst

Время (Мск): 15:00-16:00

Дата проведения: 23.01.2025

О чём вебинар

Вебинар посвящен созданию Data Lakehouse — архитектуры, объединяющей гибкость озера данных и производительность хранилища данных. Будут подробно рассмотрены три ключевых табличных формата, позволяющих построить такую архитектуру: Apache Iceberg, Delta Lake и Apache Hudi. Вебинар поможет разобраться в особенностях каждого формата, их преимуществах и недостатках, а также понять, как выбрать подходящий инструмент для конкретных задач.

В современном мире данных Data Lakehouse становится все более популярной архитектурой, объединяющей масштабируемость и экономичность озера данных с надежностью и производительностью хранилища данных. Ключевым элементом построения Data Lakehouse является выбор подходящего табличного формата. Этот вебинар посвящен глубокому погружению в три ведущих формата: Apache Iceberg, Delta Lake и Apache Hudi. Мы рассмотрим их архитектуру, ключевые особенности, преимущества и недостатки, а также предоставим практические рекомендации по выбору оптимального решения для ваших конкретных потребностей. Вебинар будет полезен как начинающим, так и опытным специалистам в области обработки данных, стремящимся построить современную и эффективную платформу для работы с большими объемами информации.
Цели вебинара:

1. Понять, что такое Data Lakehouse и как его построить.
2. Изучить форматы таблиц Iceberg, Delta Lake и Hudi.
3. Научиться выбирать оптимальный формат для своих задач.
4. Увидеть примеры практического применения.

Предварительная подготовка:

Предполагается базовое понимание концепций Big Data и SQL.

Содержание

1. Введение
- Что такое озеро данных (data lake) и почему возникла потребность в data lakehouse?
- Проблемы традиционных озер данных (отсутствие ACID-транзакций, сложность обновления и удаления данных, schema enforcement).
- Концепция data lakehouse: объединение преимуществ озера данных и хранилища данных.
- Зачем нужны форматы таблиц для озер данных?
- Решение проблем с согласованностью данных, версионностью, schema evolution.
- Обеспечение ACID-транзакций.
- Улучшение производительности запросов.
- Краткий обзор Apache Iceberg, Delta Lake и Hudi.
2. Apache Iceberg
Архитектура Iceberg:
- Каталог (Hive Metastore, Nessie, JDBC).
- Метаданные (манифесты, снимки).
- Файлы данных (Parquet, ORC, Avro).
Ключевые особенности Iceberg:
- Изменение схемы данных.
- Запросы к данным на указанный момент времени.
- Автоматическое управление разделами.
- Изменение стратегий разделения.
- Типичные кейсы для Iceberg
- Демонстрация
3. Delta Lake
Архитектура Delta Lake:
- Хранение истории изменений (Delta Log).
- Файлы данных (Parquet).
Ключевые особенности Delta Lake:
- ACID-транзакции.
- Изменение схемы данных и контроль соответствия.
- Запросы к данным на указанный момент времени.
- Оптимизация запросов за счет пропуска ненужных данных.
- Запросы к данным на указанный момент времени.
- Операции изменения записей (upsert, delete).
- Типичные кейсы для Delta Lake
- Демонстрация.
4. Apache Hudi
Архитектура Hudi:
- Файлы данных (Parquet).
- Журналы.
- Индексы.
Типы таблиц в Hudi (Copy-on-Write, Merge-on-Read):
- Преимущества и недостатки каждого типа.
Ключевые особенности Hudi:
- Инкрементальная обработка.
- Инкрементальные запросы
- Запросы к снимкам.
- Операции изменения записей (upsert, delete).
- Типичные кейсы для Hudi
- Демонстрация
5. Сравнение и критерии выбора

Другие разделы

Открытое расписание Каталог курсов Бесплатные семинары FAQ по обучению

Для кого

Data Engineer

Big Data Analyst

Тренер

Брейман Александр Эксперт в области разработки и архитектуры ПО

Время (Мск):
15:00-16:00

Дата проведения:
23.01.2025

Бесплатно

Регистрация окончена

Как построить домик у озера данных: табличные форматы Iceberg, Delta, Hudi

Не нашли, что искали? — Просто напишите, и мы поможем