Улучшаемые навыки

Big Data
Spark
Spark SQL
DataFrame
RDD
Python
HDFS
Kafka
Cassandra
Data Engineering

Инструменты

Kafka Kafka
Python Python
 HDFS HDFS
Cassandra Cassandra
Spark Spark

Чему вы научитесь

01 Создавать и распараллеливать RDD и DataFrame
02 Запускать Spark и управлять кластерами для распределенной обработки данных
03 Читать и записывать данные из внешних хранилищ
04 Оптимизировать производительность Spark-приложений
05 Использовать веб-ноутбуки Jupyter для разработки и тестирования кода

Программа курса

01 Концепции и архитектура Spark
  • Map/Reduce и Spark в Hadoop. Примеры
  • Spark в Lambda-архитектуре
  • Кластеры для распределенной обработки данных
  • Как запустить Spark
  • Исполнители, задания, задачи в Spark
  • 02 Программирование с помощью RDD: трансформации и действия
  • В чем разница между SparkSession и SparkContext
  • Как создавать и распараллеливать RDD
  • Как трансформировать RDD
  • Как анализировать и управлять обработкой RDD (план и DAG)
  • Как сохранять и хранить RDD в HDFS
  • Как группировать и соединять RDD
  • 03 Программирование с помощью DataFrame
  • В чем разница между RDD и DataFrame
  • Как создавать и распараллеливать DataFrame
  • Как анализировать и управлять выполнением DataFrame (план и DAG)
  • Как сохранять DataFrame в HDFS
  • 04 Загрузка данных с внешних хранилищ и во внешние хранилища
  • Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы)
  • Какой формат данных выбрать
  • Как распараллеливать чтение/запись в JDBC
  • Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum)
  • Как работать с Kafka
  • 05 Написание логики с использованием Spark DSL
  • Как считать строки
  • Как обрабатывать математические агрегации
  • Как группировать строки
  • Как правильное соединять DataFrames
  • 06 Написание логики с использованием Spark SQL
  • Как и зачем переключаться на Spark SQL
  • Как работать с таблицей EXTERNAL
  • Как работать с таблицей MANAGED
  • 07 Использование функций Window и UDF
  • Какие оконные функции существуют и как их использовать в Spark
  • Когда не следует использовать оконные функции
  • Что такое UDF, UDAF и как их использовать
  • Как оптимизировать UDFs в PySpark
  • 08 Типы Spark
  • Логические: как добавить фильтр
  • Численные: как подсчитать сумму, произведение, статистику
  • Строковый: как использовать регулярные выражения
  • Комплексные: как работать со структурами, массивами
  • Как работать с данными
  • 09 Примеры оптимизации Spark
  • Недостаточно памяти
  • Маленькие файлы в HDFS
  • Асимметричные данные
  • Медленные соединения
  • Трансляция больших таблиц
  • Совместное использование ресурсов
  • Новые механизмы оптимизации: AQE и DPP
  • 10 Запуск Spark в Airflow
  • Оркестраторы
  • Устройство Airflow
  • Встроенные операторы Airflow
  • SparkSubmitOperator
  • 11 Всего: теория – 13 ч. (50%), практика и демонстрация – 13 ч. (50%)

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Записаться на курс

    Для кого

    Разработчик Разработчик
    Архитектор ПО Архитектор ПО
    Big Data Analyst Big Data Analyst

    Предварительная подготовка

    Базовые навыки программирования на языке Python. Базовые знания SQL..

    Расписание курсов

    12.11.2025 - 28.11.2025

    18:00-20:00
    Дата и время:
    12.11.2025-28.11.2025
    18:00-20:00

    Middle 26 часов

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Курс проводят

    Вадим

    Заигрин Вадим

    Специалист в области BigData

    О тренере

    Более 35 лет в ИТ, с 2016 года работает с большими данными как разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах.

    В рамках своей профессиональной деятельности :
    • развивал проекты в банках, в телекоммуникационных и розничных компаниях.
    • разработал архитектуру миграции системы Teradata RTCM на Teradata VCX для телекоммуникационной компании.
    • разработал архитектура системы обработки данных на базе Hadoop для совместного проекта международной платежной системы и крупного банка.
    • разработал систему безопасности Hadoop на основе Atlas и Ranger.
    • тестировал системы безопасности Protegrity в Hadoop для крупного банка.

    Практический опыт базируется на знании Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Greenplum, Vertica), фреймворка Spark и платформ Google Cloud Platform и Yandex Cloud.

    Образование:
    Прикладная математика, Московский институт электроники и математики (МИЭМ)

    Курсы и сертификаты

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Юр. лицо — 49 700 ₽
    Физ. лицо — 44 730 ₽
    12.11.2025, Онлайн
    12.11.2025, Онлайн
    Открытая дата

    Отзывы о курсе

    Повысьте квалификацию И получите диплом
    Отзывы учеников
    Спасибо за курс! Мы изучили основы использования одного из самых популярных фреймворков, и я наконец-то понял, как он работает 😊 хорошо, что всю информацию нам «разжёвывали», поэтому все было понятно. Понравился очень глубокий анализ каждого случая, практические примеры обзор Spark, практические упражнения с RDD, DataFrame, DataSet и домашние задания.
    Не думал, что изучение BigData может быть таким простым и интересным с одной стороны, и объёмным и информативным с другой. Больше всего понравился широкий обзор ключевых концепций и методов обработки данных с помощью Spark и глубокое объяснение всей экосистемы Spark. Поэтому считаю, что вся информация, которую мы обсудили, была важной и полезной. Курс понравился, рекомендую!
    Когда я записывался на курс, то хотел изучить Apache Spark. К моему счастью, моя цель была достигнута. Главные «плюсы» курсы для меня – это материалы об архитектуре, RDD, Spark SQL, DataFrames, Datasets и возможность упражняться. Все задания проверял тренер, он давал рекомендации и помогал выполнить задания, с которыми у нас были трудности. В общем, все супер!

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Связанные курсы

    EAS-015
    24 часа

    Основы Hadoop

    Освойте основы Hadoop и экосистемы Big Data. Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

    от Middle

    46 200 ₽

    EAS-024
    24 часа

    Фреймворк Apache Spark для разработчиков: продвинутый уровень

    Глубокое погружение в внутреннее устройство Apache Spark и его компонентов. Этот курс поможет вам понять, как устроены и работают различные модули Spark, такие как Spark Core, Spark SQL, и Spark Streaming. Вы научитесь оптимизировать производительность и эффективно использовать ресурсы кластера.

    от Senior

    54 500 ₽

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.