Машинное обучение с подкреплением: обычное и глубокое
В этом курсе дается общий обзор метода обучения с подкреплением (Reinforcement Learning, RL). Мы начнем с необходимой математики, рассмотрим базовые алгоритмы RL и поговорим о глубоком обучении с подкреплением (Deep RL), а также о новейших методах машинного обучения, используемых в настоящее время. Мы подробно рассмотрим некоторые применения и расскажем о важнейших достижениях в этой области.
30 ак.ч.
Онлайн
EAS-027
Машинное обучение с подкреплением: обычное и глубокое
Записаться на курс
Длительность
30 ак.ч.
Локация
Онлайн
Код
EAS-027
Расписание и цены
29.11.2022 - 06.12.2022
41 900 руб.
Планируете обучить команду из 7-8 или более человек?
Закажите корпоративное обучение с учетом ваших потребностей
Машинное обучение с подкреплением: обычное и глубокое
Записаться на курс
Длительность
30 ак.ч.
Локация
Онлайн
Код
EAS-027
Расписание и цены
29.11.2022 - 06.12.2022
41 900 руб.
Планируете обучить команду из 7-8 или более человек?
Закажите корпоративное обучение с учетом ваших потребностей

Описание

Данный курс ориентирован на программистов, использующих Python или имеющих дело с машинным обучением, которые хотят более детально разбираться в возможностях RL.

Основное внимание в курсе уделяется вопросам, которые возникают при работе с RL в реальной жизни, а также рассматриваются основные алгоритмы, которые лежат в основе новейших систем RL.

Слушатели получат теоретические знания не только о RL, но и о машинном обучении в целом, а также возможность применить эти знания на практике. Начав с основ линейной алгебры, математического анализа и теории вероятностей, мы затем рассмотрим вопросы динамического программирования и марковские процессы, распространенные методы Q-обучения и его глубокие варианты, а также некоторые градиентные методы.

В этом курсе мы стремимся дать исчерпывающий обзор данной темы, по крайней мере в отношении различных базовых методов, описанных в специальной литературе.

Вторая половина курса посвящена исключительно RL с нейронными сетями, с подробным обсуждением современных исследований и разъяснение различных вариантов применения этого метода.

Кроме того, обсуждаются практические инструменты (от Pytorch до Ray), которые слушатели смогут использовать в упражнениях.

Цели

  • Понять основные сложности моделирования при разработке алгоритмов RL;
  • Научиться использовать существующие алгоритмы и понимать проблемы, которые возникают в представлении состояния и формировании поощрений;
  • Визуализировать и адаптировать алгоритм или механизм поощрений для обучения агента определенным вещам;
  • Научиться применять или разрабатывать алгоритмы RL для решения реальных проблем.

Целевая аудитория

Основная:
  • Разработчики, знакомые с языком Python / машинным обучением, но не имеющие опыта применения обучения с подкреплением.
Дополнительная:
  • ML инженеры, специалисты по обработке данных.

Предварительная подготовка

Необходимая подготовка:

  • Вузовская программа по математическому анализу, теории вероятностей, дискретной математике

  • Базовые знания в области машинного обучения

  • Понимание кода на языке Python

Разбираемые темы

  • Часть I. Предыстория (5 ч 30 мин)

    1. Линейная алгебра (30 мин)
    • Обзор основных концепций.

    2. Математический анализ (1 ч)
    • Интегралы.
    • Производные.
    • Примеры.

    3. Теория вероятностей (4 ч)
    • Случайные величины.
    • Функции плотности вероятности.
    • Математическое ожидание.
    • Условные, совместные и безусловные вероятности.
    • Примеры.
    • Практика.
  • Часть II. Обзор (11 ч)

    1. Введение в RL (4 ч)
    • Марковские процессы принятия решений.
    • Динамическое программирование с примером.
    • Уравнение Беллмана.
    • Оценка стратегии.
    • Итерация по стратегиям.
    • Итерация по ценностям.
    • Примеры.
    • Практика.

    2. На основе модели и без модели (3 ч)
    • Обучение и планирование.
    • Детерминированное.
    • Стохастическое.
    • Аппроксимация линейной функции-значения.
    • Сравнение и практика.

    3. Алгоритмы (4 ч)
    • Q-обучение.
    • SARSA.
    • Методы Исполнитель-критик.
    • Градиент стратегии.
    • Методы дерева Монте-Карло.
    • Обучение и исполнение.
    • Примеры.
    • Практика.
  • Часть III. RL + глубокое обучение (6 ч 30 мин)

    1. Глубокое обучение с подкреплением (1,5 ч)
    • Аппроксимация нелинейной функции.
    • Прорыв DeepMind.
    • Объяснение Alpha-Star.

    2. Новейшие технологии в глубоком RL (3 ч)
    • Память, внимание, рекурсия.
    • Обратное RL.
    • Обучение нескольких агентов.
    • Иерархическое обучение.
    • Развитие поощрений – AutoRL.
    • Оптимизации стратегий.

    3. Применения и использование (2 ч)
    • Трейдинг.
    • Понимание речи и вопросно-ответные системы (опционально).
    • Балансировка нагрузки (опционально).
    • Другие применения (опционально).
  • Часть IV. Практические примеры и инструменты (7 ч)

    1. Pytorch / Tensorflow (2 ч)
    • Основы тензорного исчисления.
    • Реализация алгоритма RL с нуля.
    • Тестирование и визуализация.
    • Практика.

    2. Ray + RLlib (3 ч 30 мин)
    • Основы тензорного исчисления.
    • Реализация алгоритма RL с нуля.
    • Тестирование и визуализация.
    • Практика.

    3. Визуализация и объяснимость (1 ч 30 мин)
    • SMDP, AMDP, SAMDP.
    • Проекция на 3D-пространство с помощью TSNE.
    • Примеры.
  • Развернуть программу
Раcписание курсов
Вид:
29.11.2022 - 06.12.2022
10:00-15:00
Локация:Онлайн
Длительность:30 ак.ч.
Время:10:00-15:00
41 900 руб.
Записаться
Смотреть полное расписание
Тренеры
Брейман Александр
Эксперт в области разработки и архитектуры ПО
Александр – кандидат технических наук, доцент. С 1991 г. занимается разработкой информационных и коммуникационных систем, за это время прошел путь от программиста до начальника отдела информационных систем.

С 1994 г. преподает дисциплины, связанные с управлением данными, проектированием информационных систем и разработкой программного обеспечения.

С 2014 г. Александр является штатным экспертом Luxoft Training по направлению «Разработка и архитектура ПО, СУБД Oracle», где занимается проведением тренингов, разработкой тренинговых программ и развитием данного направления.

О проектах:

Александр занимается разработкой учебных программ, чтением лекций, проведением семинаров, практических и лабораторных работ. Под его руководством уже не один десяток специалистов успешно защитили выпускные квалификационные работы бакалавра и магистерские диссертации.

Среди его кейсов работа в ЗАО «ТИТАН МЕТА», Московском государственном университете приборостроения и информатики, Национальном исследовательском университете «Высшая школа экономики» и Luxoft Training.

Курсы, сертификаты, членство в профессиональных организациях:

2009 г. — повышение квалификации в Московском государственном университете приборостроения и информатики по программе «Информационная компетентность в профессиональной деятельности преподавателя вуза».

2011 г. — повышение квалификации в Информационно-Вычислительном Центре Московского энергетического института (технического университета) по программе «Современные технологии построения баз данных на примере Microsoft SQL Server 2008. Web-приложения и современные средства разработки. Современные технологии построения компьютерных сетей с использованием Microsoft Windows Server 2008 R2».

Александр является членом организаций:

  • IEEE, IEEE Computer Society (Institute of Electrical and Electronics Engineers / Институт инженеров электротехники и электроники).

  • ACM, ACM SIGMOD (Association for Computing Machinery / Ассоциация вычислительной техники).


Связанные курсы
Основы машинного обучения
На курсе дается представление об основных группах методов машинного обучения: классификации, предсказании, кластеризации, ансамблях, рекомендационных системах, глубоком обучении.
Онлайн:
22.11.2022 - 25.11.2022
Машинное обучение на практике
Вводный практический курс по машинному обучению. Рассматривается полный цикл построения решения: от выделения исходных данных («.xlsx файл») через построение модели и до объяснения конечному заказчику особенностей данных и специфики полученного результата. Теоретические разделы - классификация, регрессия, предсказания, ансамбли – даются в обзорном режиме, в объёме, необходимом для корректного построения и понимания разбираемых примеров.
Смотреть каталог
Ваши преимущества
Экспертность
Тренеры-эксперты из реальных проектов крупнейших компаний, лидеров в своей отрасли
Живое обучение
“Живая” коммуникация с тренером даже в онлайн-формате
Практика
Максимально наполненные практикой занятия, работа в группах, выполнение домашних заданий
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.