EAS-017

Основы Apache Spark

Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.

Удостоверение о прохождении

Смотреть пример

26 академ. часов

Онлайн

Подробнее

Улучшаемые навыки

Big Data

Spark

Spark SQL

DataFrame

RDD

Python

HDFS

Kafka

Cassandra

Data Engineering

Инструменты

Kafka

Python

HDFS

Cassandra

Spark

Чему вы научитесь

01 Создавать и распараллеливать RDD и DataFrame

02 Запускать Spark и управлять кластерами для распределенной обработки данных

03 Читать и записывать данные из внешних хранилищ

04 Оптимизировать производительность Spark-приложений

05 Использовать веб-ноутбуки Jupyter для разработки и тестирования кода

Программа курса

01 Концепции и архитектура Spark

Map/Reduce и Spark в Hadoop. Примеры

Spark в Lambda-архитектуре

Кластеры для распределенной обработки данных

Как запустить Spark

Исполнители, задания, задачи в Spark

02 Программирование с помощью RDD: трансформации и действия

В чем разница между SparkSession и SparkContext

Как создавать и распараллеливать RDD

Как трансформировать RDD

Как анализировать и управлять обработкой RDD (план и DAG)

Как сохранять и хранить RDD в HDFS

Как группировать и соединять RDD

03 Программирование с помощью DataFrame

В чем разница между RDD и DataFrame

Как создавать и распараллеливать DataFrame

Как анализировать и управлять выполнением DataFrame (план и DAG)

Как сохранять DataFrame в HDFS

04 Загрузка данных с внешних хранилищ и во внешние хранилища

Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы)

Какой формат данных выбрать

Как распараллеливать чтение/запись в JDBC

Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum)

Как работать с Kafka

05 Написание логики с использованием Spark DSL

Как считать строки

Как обрабатывать математические агрегации

Как группировать строки

Как правильное соединять DataFrames

06 Написание логики с использованием Spark SQL

Как и зачем переключаться на Spark SQL

Как работать с таблицей EXTERNAL

Как работать с таблицей MANAGED

07 Использование функций Window и UDF

Какие оконные функции существуют и как их использовать в Spark

Когда не следует использовать оконные функции

Что такое UDF, UDAF и как их использовать

Как оптимизировать UDFs в PySpark

08 Типы Spark

Логические: как добавить фильтр

Численные: как подсчитать сумму, произведение, статистику

Строковый: как использовать регулярные выражения

Комплексные: как работать со структурами, массивами

Как работать с данными

09 Примеры оптимизации Spark

Недостаточно памяти

Маленькие файлы в HDFS

Асимметричные данные

Медленные соединения

Трансляция больших таблиц

Совместное использование ресурсов

Новые механизмы оптимизации: AQE и DPP

10 Запуск Spark в Airflow

Оркестраторы

Устройство Airflow

Встроенные операторы Airflow

SparkSubmitOperator

11 Всего: теория – 13 ч. (50%), практика и демонстрация – 13 ч. (50%)

49 700 ₽

44 730 ₽ — для физ. лиц

Записаться на курс

Для кого

Разработчик

Архитектор ПО

Big Data Analyst

Предварительная подготовка

Базовые навыки программирования на языке Python. Базовые знания SQL..

49 700 ₽

44 730 ₽ — для физ. лиц

Записаться на курс

49 700 ₽

44 730 ₽ — для физ. лиц

Юр. лицо — 49 700 ₽

Физ. лицо — 44 730 ₽

Открытая дата

Ознакомлен с политикой обработки персональных данных

Cоглашаюсь с условиями обработки персональных данных

Отзывы о курсе

Повысьте квалификацию И получите диплом

Отзывы учеников

Читать все отзывы

Спасибо за курс! Мы изучили основы использования одного из самых популярных фреймворков, и я наконец-то понял, как он работает

Имя Ф.

Не думал, что изучение BigData может быть таким простым и интересным с одной стороны, и объёмным и информативным с другой. Больше всего понравился широкий обзор ключевых концепций и методов обработки данных с помощью Spark и глубокое объяснение всей экосистемы Spark. Поэтому считаю, что вся информация, которую мы обсудили, была важной и полезной. Курс понравился, рекомендую!

Имя Ф.

Когда я записывался на курс, то хотел изучить Apache Spark. К моему счастью, моя цель была достигнута. Главные «плюсы» курсы для меня – это материалы об архитектуре, RDD, Spark SQL, DataFrames, Datasets и возможность упражняться. Все задания проверял тренер, он давал рекомендации и помогал выполнить задания, с которыми у нас были трудности. В общем, все супер!

Имя Ф.

Наши ученики работают в:

Наши клиенты

Связанные курсы

EAS-015

24 часа

Основы Hadoop

Освойте основы Hadoop и экосистемы Big Data. Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

от Middle

46 200 ₽

EAS-024

24 часа

Фреймворк Apache Spark для разработчиков: продвинутый уровень

Глубокое погружение в внутреннее устройство Apache Spark и его компонентов. Этот курс поможет вам понять, как устроены и работают различные модули Spark, такие как Spark Core, Spark SQL, и Spark Streaming. Вы научитесь оптимизировать производительность и эффективно использовать ресурсы кластера.

от Senior

54 500 ₽

Ознакомлен с политикой обработки персональных данных

Cоглашаюсь с условиями обработки персональных данных

Основы Apache Spark

49 700 ₽

Улучшаемые навыки

Инструменты

Чему вы научитесь

Программа курса

49 700 ₽

Для кого

Предварительная подготовка

49 700 ₽

Записаться на курс

Отзывы о курсе

Наши ученики работают в:

Наши клиенты

Связанные курсы

Не нашли, что искали? — Просто напишите, и мы поможем