Улучшаемые навыки

Искусственный интеллект
Генеративное программирование
Автоматизация ETL/ELT
Оптимизация запросов
RAG (Retrieval-Augmented Generation)
Разработка пайплайнов данных

Чему вы научитесь

01 Автоматизировать создание тестов для качества данных (DQ) и документации.
02 Строить интеллектуальные пайплайны с ИИ-нодами в n8n для алертинга и принятия решений.
03 Разворачивать корпоративный RAG-чат для мгновенного поиска по метаданным и техдокументации.
04 Оптимизировать облачную инфраструктуру и запросы через текстовые промпты к ИИ.
05 Проектировать прототипы автономных AI-агентов для рутинных инженерных задач.

Программа курса

01 Фундамент: ИИ как соавтор кода и архитектор.
  • От промптов к прототипам: стратегия работы с ИИ в инженерии данных.
  • Инструментарий: обзор больших языковых моделе (LLM) для кодинга (GPT-4o, Claude 3.5 Sonnet, локальные модели Ollama для конфиденциальных данных). Связка VS Code + Cursor/AI-плагины как основной рабочий стол.
  • Контекст — это всё (Advanced Context Management): техники инжекции контекста: не только DDL, но и диаграммы сущность-связь (ERD), примеры данных (data sample), требования к SLA и стоимость выполнения запроса.
  • Паттерны промптов для инженера данных: Системный промптинг для роли Senior Data Engineer. Шаблоны для: «Сгенерируй оптимизированный PySpark джоб», «Перепиши этот ETL с Pandas на Dask», «Создай DAG Airflow для инкрементальной загрузки».

  • Практические задания:
  • Генерация ETL-пайплайна.
  • Оптимизация «тяжелого» SQL.
  • 02 Автоматизация жизненного цикла данных: качество данных (DQ), тесты, документирование.
  • ИИ для надежности: автоматизированное тестирование, мониторинг качества данных и документация.
  • Генерация DQ-чеков и unit-тестов: большие языковые модели (LLM) для создания pytest-скриптов и проверок: свежесть данных (freshness), согласованность (consistency), выбросы, соответствие схеме.
  • Автоматическое документирование: генерация документации в формате Markdown или диаграмм Mermaid (для отображения графа зависимостей) из кода DAG или SQL. Создание описаний линий передачи данных (data lineage) «на лету».
  • Объяснение и рефакторинг legacy-кода: техники для быстрого анализа и модернизации унаследованных скриптов («Объясни эту функцию», «Рефакторь с учетом лучших практик»).

  • Практические задания:
  • Создание DQ-пакета:
  • Документирование пайплайна.
  • 03 Интеллектуальная оркестрация и генерация с расширенным поиском (RAG) для метаданных.
  • Умные пайплайны и чат с вашей инфраструктурой: n8n и RAG-системы.
  • Оркестрация с ИИ (n8n / Airflow + ноды OpenAI): проектирование пайплайнов, где LLM-ноды принимают решения, например: анализ результатов выполнения задачи и выбор следующего шага (retry, alert, skip).
  • Генерация с расширенным поиском (RAG) для инженера данных: специфика применения для технической документации, схем баз данных, логов ошибок и контрактов данных. Инструменты: от облачных (Dify) до фреймворков (LangChain/LlamaIndex) для кастомных решений.
  • Создание «Чата с метаданными» — архитектура системы, где можно спросить: «Какие витрины зависят от таблицы user_events?» или «Почему пайплайн X упал вчера в 03:00?».

  • Практические задания:
  • Сборка «умного» алертинга в n8n: Создать workflow, который:
  • (Триггер) получает логи об ошибках из Grafana/Cloud Logging.
  • (Действие) отправляет лог в большие языковые модели (LLM) с промптом «Проанализируй ошибку и предложи 1-2 наиболее вероятные причины».
  • (Действие) отправляет вывод инженеру в Telegram, предлагая варианты решений.

  • Настройка генерации с расширенным поиском (RAG) с помощью Dify:
  • Загрузить в сервис документацию по внутренним API и схему баз данных. Затем задать вопросы, например: «Какой endpoint использовать для получения данных о заказах за последний час?» — и проверить точность ответов со ссылками на источники.
  • 04 Оптимизация инфраструктуры и прототипы ИИ-агентов.
  • Диалог с облаком и автономные агенты для управления данными.
  • Оптимизация инфраструктуры через большие языковые модели (LLM): анализ query-планов BigQuery/Snowflake, выдача рекомендаций по кластеризации и партиционированию с помощью промптов. Генерация Terraform-конфигов или скриптов управления Spark-конфигурацией.
  • Введение в ИИ-агентов: отличие агента от простого чата. Архитектура (Planner, Tools, Memory). Обзор фреймворков (LangGraph, AutoGen). Практические сценарии для инженера данных: агент для сбора требований и генерации спецификации пайплайна.
  • Безопасность и этика: риски при работе с конфиденциальными данными и большими языковыми моделями (LLM). Стратегии: анонимизация, локальные модели, приватные шлюзы. Контроль галлюцинаций в технических ответах.

  • Практические задания:
  • Оптимизация облачного запроса.
  • Проектирование агента-ассистента.
  • 49 500 ₽

    44 550 ₽ — для физ. лиц

    Записаться на курс

    Для кого

    Data Engineer Data Engineer
    Big Data Analyst Big Data Analyst
    BI-специалист BI-специалист

    Предварительная подготовка

    Опыт в роли Data Engineer, Дата-аналитика (с серьезной ELT-составляющей) или на аналогичной позиции, связанной с построением и поддержкой пайплайнов данных.

    49 500 ₽

    44 550 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    49 500 ₽

    44 550 ₽ — для физ. лиц

    Юр. лицо — 49 500 ₽
    Физ. лицо — 44 550 ₽
    Открытая дата

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Скачать карту ИИ-эффективности

    Не нашли что искали? — Просто напишите и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стать тренером Блог Личный кабинет
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.