Улучшаемые навыки

Big Data
Spark
Spark SQL
DataFrame
RDD
Python
HDFS
Kafka
Cassandra
Data Engineering

Инструменты

Kafka Kafka
Python Python
 HDFS HDFS
Cassandra Cassandra
Spark Spark

Чему вы научитесь

01 Создавать и распараллеливать RDD и DataFrame
02 Запускать Spark и управлять кластерами для распределенной обработки данных
03 Читать и записывать данные из внешних хранилищ
04 Оптимизировать производительность Spark-приложений
05 Использовать веб-ноутбуки Jupyter для разработки и тестирования кода

Программа курса

01 Концепции и архитектура Spark
  • Map/Reduce и Spark в Hadoop. Примеры
  • Spark в Lambda-архитектуре
  • Кластеры для распределенной обработки данных
  • Как запустить Spark
  • Исполнители, задания, задачи в Spark
  • 02 Программирование с помощью RDD: трансформации и действия
  • В чем разница между SparkSession и SparkContext
  • Как создавать и распараллеливать RDD
  • Как трансформировать RDD
  • Как анализировать и управлять обработкой RDD (план и DAG)
  • Как сохранять и хранить RDD в HDFS
  • Как группировать и соединять RDD
  • 03 Программирование с помощью DataFrame
  • В чем разница между RDD и DataFrame
  • Как создавать и распараллеливать DataFrame
  • Как анализировать и управлять выполнением DataFrame (план и DAG)
  • Как сохранять DataFrame в HDFS
  • 04 Загрузка данных с внешних хранилищ и во внешние хранилища
  • Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы)
  • Какой формат данных выбрать
  • Как распараллеливать чтение/запись в JDBC
  • Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum)
  • Как работать с Kafka
  • 05 Написание логики с использованием Spark DSL
  • Как считать строки
  • Как обрабатывать математические агрегации
  • Как группировать строки
  • Как правильное соединять DataFrames
  • 06 Написание логики с использованием Spark SQL
  • Как и зачем переключаться на Spark SQL
  • Как работать с таблицей EXTERNAL
  • Как работать с таблицей MANAGED
  • 07 Использование функций Window и UDF
  • Какие оконные функции существуют и как их использовать в Spark
  • Когда не следует использовать оконные функции
  • Что такое UDF, UDAF и как их использовать
  • Как оптимизировать UDFs в PySpark
  • 08 Типы Spark
  • Логические: как добавить фильтр
  • Численные: как подсчитать сумму, произведение, статистику
  • Строковый: как использовать регулярные выражения
  • Комплексные: как работать со структурами, массивами
  • Как работать с данными
  • 09 Примеры оптимизации Spark
  • Недостаточно памяти
  • Маленькие файлы в HDFS
  • Асимметричные данные
  • Медленные соединения
  • Трансляция больших таблиц
  • Совместное использование ресурсов
  • Новые механизмы оптимизации: AQE и DPP
  • 10 Запуск Spark в Airflow
  • Оркестраторы
  • Устройство Airflow
  • Встроенные операторы Airflow
  • SparkSubmitOperator
  • 11 Всего: теория – 13 ч. (50%), практика и демонстрация – 13 ч. (50%)

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Записаться на курс

    Для кого

    Разработчик Разработчик
    Архитектор ПО Архитектор ПО
    Big Data Analyst Big Data Analyst

    Предварительная подготовка

    Базовые навыки программирования на языке Python. Базовые знания SQL..

    Расписание курсов

    10.12.2025 - 17.12.2025

    10:00-15:00
    Дата и время:
    10.12.2025-17.12.2025
    10:00-15:00

    Middle 26 часов

    49 700 ₽

    44 730 ₽ — для физ. лиц

    10.02.2026 - 27.02.2026

    18:00-20:00
    Дата и время:
    10.02.2026-27.02.2026
    18:00-20:00

    Middle 26 часов

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Курс проводят

    Александр

    Брейман Александр

    Эксперт в области разработки и архитектуры ПО

    О тренере

    Александр занимается разработкой учебных программ, чтением лекций, проведением семинаров, практических и лабораторных работ. Под его руководством уже не один десяток специалистов успешно защитили выпускные квалификационные работы бакалавра и магистерские диссертации.

    Среди его кейсов работа в ЗАО «ТИТАН МЕТА», Московском государственном университете приборостроения и информатики, Национальном исследовательском университете «Высшая школа экономики» и Luxoft Training.

    Александр – кандидат технических наук, доцент. С 1991 г. занимается разработкой информационных и коммуникационных систем, за это время прошел путь от программиста до начальника отдела информационных систем.


    С 1994 г. преподает дисциплины, связанные с управлением данными, проектированием информационных систем и разработкой программного обеспечения.

    С 2014 г. Александр являлся штатным экспертом Luxoft Training по направлению «Разработка и архитектура ПО, СУБД Oracle», где занимается проведением тренингов, разработкой тренинговых программ и развитием данного направления.

    Курсы, сертификаты, членство в профессиональных организациях:

    2009 г. — повышение квалификации в Московском государственном университете приборостроения и информатики по программе «Информационная компетентность в профессиональной деятельности преподавателя вуза».

    2011 г. — повышение квалификации в Информационно-Вычислительном Центре Московского энергетического института (технического университета) по программе «Современные технологии построения баз данных на примере Microsoft SQL Server 2008. Web-приложения и современные средства разработки. Современные технологии построения компьютерных сетей с использованием Microsoft Windows Server 2008 R2».

    2024 г. — Сертифицированный тренер PostgreSQL по курсу DBA1 «Администрирование PostgreSQL 13. Базовый уровень».


    Курсы и сертификаты

    Александр является членом организаций:

    • IEEE, IEEE Computer Society (Institute of Electrical and Electronics Engineers / Институт инженеров электротехники и электроники).
    • ACM, ACM SIGMOD (Association for Computing Machinery / Ассоциация вычислительной техники).

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    49 700 ₽

    44 730 ₽ — для физ. лиц

    Юр. лицо — 49 700 ₽
    Физ. лицо — 44 730 ₽
    10.12.2025, Онлайн
    10.12.2025, Онлайн
    10.02.2026, Онлайн
    Открытая дата

    Отзывы о курсе

    Повысьте квалификацию И получите диплом
    Отзывы учеников
    Спасибо за курс! Мы изучили основы использования одного из самых популярных фреймворков, и я наконец-то понял, как он работает
    Не думал, что изучение BigData может быть таким простым и интересным с одной стороны, и объёмным и информативным с другой. Больше всего понравился широкий обзор ключевых концепций и методов обработки данных с помощью Spark и глубокое объяснение всей экосистемы Spark. Поэтому считаю, что вся информация, которую мы обсудили, была важной и полезной. Курс понравился, рекомендую!
    Когда я записывался на курс, то хотел изучить Apache Spark. К моему счастью, моя цель была достигнута. Главные «плюсы» курсы для меня – это материалы об архитектуре, RDD, Spark SQL, DataFrames, Datasets и возможность упражняться. Все задания проверял тренер, он давал рекомендации и помогал выполнить задания, с которыми у нас были трудности. В общем, все супер!
    Самое полезное для меня - это были нюансы оптимизации спарка, всякие хинты, работа с партициями, бакетизация и много другое

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Связанные курсы

    EAS-015
    24 часа

    Основы Hadoop

    Освойте основы Hadoop и экосистемы Big Data. Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

    от Middle

    46 200 ₽

    EAS-024
    24 часа

    Фреймворк Apache Spark для разработчиков: продвинутый уровень

    Глубокое погружение в внутреннее устройство Apache Spark и его компонентов. Этот курс поможет вам понять, как устроены и работают различные модули Spark, такие как Spark Core, Spark SQL, и Spark Streaming. Вы научитесь оптимизировать производительность и эффективно использовать ресурсы кластера.

    от Senior

    54 500 ₽

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.