Улучшаемые навыки
Искусственный интеллект
Генеративное программирование
Автоматизация ETL/ELT
Оптимизация запросов
RAG (Retrieval-Augmented Generation)
Разработка пайплайнов данных
Чему вы научитесь
01
Автоматизировать создание тестов для качества данных (DQ) и документации.
02
Строить интеллектуальные пайплайны с ИИ-нодами в n8n для алертинга и принятия решений.
03
Разворачивать корпоративный RAG-чат для мгновенного поиска по метаданным и техдокументации.
04
Оптимизировать облачную инфраструктуру и запросы через текстовые промпты к ИИ.
05
Проектировать прототипы автономных AI-агентов для рутинных инженерных задач.
Программа курса
01
Фундамент: ИИ как соавтор кода и архитектор.
От промптов к прототипам: стратегия работы с ИИ в инженерии данных.
Инструментарий: обзор больших языковых моделе (LLM) для кодинга (GPT-4o, Claude 3.5 Sonnet, локальные модели Ollama для конфиденциальных данных). Связка VS Code + Cursor/AI-плагины как основной рабочий стол.
Контекст — это всё (Advanced Context Management): техники инжекции контекста: не только DDL, но и диаграммы сущность-связь (ERD), примеры данных (data sample), требования к SLA и стоимость выполнения запроса.
Паттерны промптов для инженера данных: Системный промптинг для роли Senior Data Engineer. Шаблоны для: «Сгенерируй оптимизированный PySpark джоб», «Перепиши этот ETL с Pandas на Dask», «Создай DAG Airflow для инкрементальной загрузки».
Практические задания:
Генерация ETL-пайплайна.
Оптимизация «тяжелого» SQL.
02
Автоматизация жизненного цикла данных: качество данных (DQ), тесты, документирование.
ИИ для надежности: автоматизированное тестирование, мониторинг качества данных и документация.
Генерация DQ-чеков и unit-тестов: большие языковые модели (LLM) для создания pytest-скриптов и проверок: свежесть данных (freshness), согласованность (consistency), выбросы, соответствие схеме.
Автоматическое документирование: генерация документации в формате Markdown или диаграмм Mermaid (для отображения графа зависимостей) из кода DAG или SQL. Создание описаний линий передачи данных (data lineage) «на лету».
Объяснение и рефакторинг legacy-кода: техники для быстрого анализа и модернизации унаследованных скриптов («Объясни эту функцию», «Рефакторь с учетом лучших практик»).
Практические задания:
Создание DQ-пакета:
Документирование пайплайна.
03
Интеллектуальная оркестрация и генерация с расширенным поиском (RAG) для метаданных.
Умные пайплайны и чат с вашей инфраструктурой: n8n и RAG-системы.
Оркестрация с ИИ (n8n / Airflow + ноды OpenAI): проектирование пайплайнов, где LLM-ноды принимают решения, например: анализ результатов выполнения задачи и выбор следующего шага (retry, alert, skip).
Генерация с расширенным поиском (RAG) для инженера данных: специфика применения для технической документации, схем баз данных, логов ошибок и контрактов данных. Инструменты: от облачных (Dify) до фреймворков (LangChain/LlamaIndex) для кастомных решений.
Создание «Чата с метаданными» — архитектура системы, где можно спросить: «Какие витрины зависят от таблицы user_events?» или «Почему пайплайн X упал вчера в 03:00?».
Практические задания:
Сборка «умного» алертинга в n8n: Создать workflow, который:
(Триггер) получает логи об ошибках из Grafana/Cloud Logging.
(Действие) отправляет лог в большие языковые модели (LLM) с промптом «Проанализируй ошибку и предложи 1-2 наиболее вероятные причины».
(Действие) отправляет вывод инженеру в Telegram, предлагая варианты решений.
Настройка генерации с расширенным поиском (RAG) с помощью Dify:
Загрузить в сервис документацию по внутренним API и схему баз данных. Затем задать вопросы, например: «Какой endpoint использовать для получения данных о заказах за последний час?» — и проверить точность ответов со ссылками на источники.
04
Оптимизация инфраструктуры и прототипы ИИ-агентов.
Диалог с облаком и автономные агенты для управления данными.
Оптимизация инфраструктуры через большие языковые модели (LLM): анализ query-планов BigQuery/Snowflake, выдача рекомендаций по кластеризации и партиционированию с помощью промптов. Генерация Terraform-конфигов или скриптов управления Spark-конфигурацией.
Введение в ИИ-агентов: отличие агента от простого чата. Архитектура (Planner, Tools, Memory). Обзор фреймворков (LangGraph, AutoGen). Практические сценарии для инженера данных: агент для сбора требований и генерации спецификации пайплайна.
Безопасность и этика: риски при работе с конфиденциальными данными и большими языковыми моделями (LLM). Стратегии: анонимизация, локальные модели, приватные шлюзы. Контроль галлюцинаций в технических ответах.
Практические задания:
Оптимизация облачного запроса.
Проектирование агента-ассистента.
Для кого
Data Engineer
Big Data Analyst
BI-специалист
Предварительная подготовка
Опыт в роли Data Engineer, Дата-аналитика (с серьезной ELT-составляющей) или на аналогичной позиции, связанной с построением и поддержкой пайплайнов данных.