Бесплатно
Регистрация окончена
О чём вебинар

Вебинар посвящен созданию Data Lakehouse — архитектуры, объединяющей гибкость озера данных и производительность хранилища данных. Будут подробно рассмотрены три ключевых табличных формата, позволяющих построить такую архитектуру: Apache Iceberg, Delta Lake и Apache Hudi. Вебинар поможет разобраться в особенностях каждого формата, их преимуществах и недостатках, а также понять, как выбрать подходящий инструмент для конкретных задач.

В современном мире данных Data Lakehouse становится все более популярной архитектурой, объединяющей масштабируемость и экономичность озера данных с надежностью и производительностью хранилища данных. Ключевым элементом построения Data Lakehouse является выбор подходящего табличного формата. Этот вебинар посвящен глубокому погружению в три ведущих формата: Apache Iceberg, Delta Lake и Apache Hudi. Мы рассмотрим их архитектуру, ключевые особенности, преимущества и недостатки, а также предоставим практические рекомендации по выбору оптимального решения для ваших конкретных потребностей. Вебинар будет полезен как начинающим, так и опытным специалистам в области обработки данных, стремящимся построить современную и эффективную платформу для работы с большими объемами информации.
Цели вебинара:

  • 1. Понять, что такое Data Lakehouse и как его построить.

  • 2. Изучить форматы таблиц Iceberg, Delta Lake и Hudi.

  • 3. Научиться выбирать оптимальный формат для своих задач.

  • 4. Увидеть примеры практического применения.

Предварительная подготовка:
  • Предполагается базовое понимание концепций Big Data и SQL.
  • Содержание

    1. Введение
    - Что такое озеро данных (data lake) и почему возникла потребность в data lakehouse?
    - Проблемы традиционных озер данных (отсутствие ACID-транзакций, сложность обновления и удаления данных, schema enforcement).
    - Концепция data lakehouse: объединение преимуществ озера данных и хранилища данных.
    - Зачем нужны форматы таблиц для озер данных?
    - Решение проблем с согласованностью данных, версионностью, schema evolution.
    - Обеспечение ACID-транзакций.
    - Улучшение производительности запросов.
    - Краткий обзор Apache Iceberg, Delta Lake и Hudi.
    2. Apache Iceberg
    Архитектура Iceberg:
    - Каталог (Hive Metastore, Nessie, JDBC).
    - Метаданные (манифесты, снимки).
    - Файлы данных (Parquet, ORC, Avro).
    Ключевые особенности Iceberg:
    - Изменение схемы данных.
    - Запросы к данным на указанный момент времени.
    - Автоматическое управление разделами.
    - Изменение стратегий разделения.
    - Типичные кейсы для Iceberg
    - Демонстрация
    3. Delta Lake
    Архитектура Delta Lake:
    - Хранение истории изменений (Delta Log).
    - Файлы данных (Parquet).
    Ключевые особенности Delta Lake:
    - ACID-транзакции.
    - Изменение схемы данных и контроль соответствия.
    - Запросы к данным на указанный момент времени.
    - Оптимизация запросов за счет пропуска ненужных данных.
    - Запросы к данным на указанный момент времени.
    - Операции изменения записей (upsert, delete).
    - Типичные кейсы для Delta Lake
    - Демонстрация.
    4. Apache Hudi
    Архитектура Hudi:
    - Файлы данных (Parquet).
    - Журналы.
    - Индексы.
    Типы таблиц в Hudi (Copy-on-Write, Merge-on-Read):
    - Преимущества и недостатки каждого типа.
    Ключевые особенности Hudi:
    - Инкрементальная обработка.
    - Инкрементальные запросы
    - Запросы к снимкам.
    - Операции изменения записей (upsert, delete).
    - Типичные кейсы для Hudi
    - Демонстрация
    5. Сравнение и критерии выбора
    Другие разделы
    Для кого
    Data Engineer
    Big Data Analyst
    Тренер
    Брейман Александр
    Брейман Александр Эксперт в области разработки и архитектуры ПО

    Александр – кандидат технических наук, доцент. С 1991 г. занимается разработкой информационных и коммуникационных систем, за это время прошел путь от программиста до начальника отдела информационных систем.


    С 1994 г. преподает дисциплины, связанные с управлением данными, проектированием информационных систем и разработкой программного обеспечения.

    С 2014 г. Александр является штатным экспертом Luxoft Training по направлению «Разработка и архитектура ПО, СУБД Oracle», где занимается проведением тренингов, разработкой тренинговых программ и развитием данного направления.

    Курсы, сертификаты, членство в профессиональных организациях:

    2009 г. — повышение квалификации в Московском государственном университете приборостроения и информатики по программе «Информационная компетентность в профессиональной деятельности преподавателя вуза».

    2011 г. — повышение квалификации в Информационно-Вычислительном Центре Московского энергетического института (технического университета) по программе «Современные технологии построения баз данных на примере Microsoft SQL Server 2008. Web-приложения и современные средства разработки. Современные технологии построения компьютерных сетей с использованием Microsoft Windows Server 2008 R2».

    2024 г. — Сертифицированный тренер PostgreSQL по курсу DBA1 «Администрирование PostgreSQL 13. Базовый уровень».



    Время (Мск):
    15:00-16:00
    Дата проведения:
    23.01.2025
    Бесплатно
    Регистрация окончена

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.