О чём курс
При проектировании приложений одним из важных решений является выбор способа хранения данных. Несколько десятилетий реляционные СУБД были первым и единственным вариантом, проекты отличались только степенью нормализации, местом размещения бизнес логики и т.д.
Последние же десять-пятнадцать лет бурно расцвели альтернативные системы – от объектно-ориентированных и документно-ориентированных СУБД до распределенных файловых систем и систем обработки потоков данных.
В курсе рассматривается спектр современных решений, позволяющих долгосрочно надежно хранить данные, причины возникновения решений разных классов, их достоинства, недостатки и предпочтительные способы использования.
Цели
После завершения обучения слушатели смогут:
понимать, какие характеристики данных и запросов необходимо учитывать на этапе анализа требований и выбора систем управления данными;
знать возможности и ограничения современных реляционных и нереляционных систем управления данными;
уметь анализировать требования при выборе систем управления данными.
Целевая аудитория
Архитекторы, разработчики приложений, аналитики, администраторы баз данных.
Для кого
Разработчик
Архитектор ПО
Data Engineer
Улучшаемые навыки
Реляционные СУБД
NoSQL
Cassandra
Hadoop
Spark
Машинное обучение
Обработка данных
Шардирование
Репликация
Инструменты
MongoDB
HDFS
Microsoft Office
Cassandra
Spark
Tarantool
Clickhouse
Druid
Adobe Reader
Cisco AnyConnect VPN Client
PuTTY
Расписание курсов
Программа курса
01
Эволюция подходов к хранению данных
Базы данных
Хранилища данных
Машины баз данных
Массово-параллельные архитектуры
Гиперконвергенция
Какие проблемы решает, за счет чего
Репликация
Шардинг
Распределенные транзакции
03
Минимальная модель "Ключ-значение
Варианты структуры ключа
Варианты структуры значения
Программные интерфейсы
Эффективность применения нереляционных баз данных: необходимые и достаточные условия [Cassandra, HBase]
04
Документно-ориентированная модель
Модель [MongoDB]
05
Распределенные файловые системы вместо моделей данных: архитектура кластера.
Архитектура кластера.[HDFS]
06
SQL поверх распределенных файловых систем
Варианты архитектур, форматы файлов, ограничения, транзакции [Hive,Spark,Spark SQL,Parquet,ORC]
07
Распределенные системы хранения данных в оперативной памяти
Распределенные системы хранения данных в оперативной памяти [Hazelcast,Ignite,Tarantool]
08
Распределенные OLAP-системы
Распределенные OLAP-системы [Clickhouse, Druid]
09
Обработка потоков данных
Обработка потоков данных [Spark Streaming]
10
Самонастраиваемые и автономные базы данных
Самонастраиваемые и автономные базы данных
11
Итого на курс 16 часов: теория – 11,5 ч ( 72%), практика – 4.5 ч ( 28%)
Чему вы научитесь
01
Понимать какие характеристики данных и запросов необходимо учитывать на этапе анализа требований и выбора систем управления данными
02
Понимать возможности и ограничения реляционных и нереляционных СУБД.
03
Применять эффективные методы шардирования и репликации.
04
Работать с распределенными файловыми системами и OLAP-системами.
05
Обрабатывать потоки данных с помощью Spark Streaming.
Видео
Курс проводят
Филин Виталий
Специалист в области Системного и Бизнес-анализа
О тренере
За время своей профессиональной карьеры участвовал в разработке и внедрении различных проектов, включая:
платежные системы;
интернет-сайты и мобильные приложения;
специализированное ПО, в том числе с применением методов искусственного интеллекта;
хранилища данных (DWH).
Курсы и сертификаты