О чём курс

Данный курс ориентирован на программистов, использующих Python или имеющих дело с машинным обучением, которые хотят более детально разбираться в возможностях RL.

Основное внимание в курсе уделяется вопросам, которые возникают при работе с RL в реальной жизни, а также рассматриваются основные алгоритмы, которые лежат в основе новейших систем RL.

Слушатели получат теоретические знания не только о RL, но и о машинном обучении в целом, а также возможность применить эти знания на практике. Начав с основ линейной алгебры, математического анализа и теории вероятностей, мы затем рассмотрим вопросы динамического программирования и марковские процессы, распространенные методы Q-обучения и его глубокие варианты, а также некоторые градиентные методы.

В этом курсе мы стремимся дать исчерпывающий обзор данной темы, по крайней мере в отношении различных базовых методов, описанных в специальной литературе.

Вторая половина курса посвящена исключительно RL с нейронными сетями, с подробным обсуждением современных исследований и разъяснение различных вариантов применения этого метода.

Кроме того, обсуждаются практические инструменты (от Pytorch до Ray), которые слушатели смогут использовать в упражнениях.

Цели

  • Понять основные сложности моделирования при разработке алгоритмов RL;
  • Научиться использовать существующие алгоритмы и понимать проблемы, которые возникают в представлении состояния и формировании поощрений;
  • Визуализировать и адаптировать алгоритм или механизм поощрений для обучения агента определенным вещам;
  • Научиться применять или разрабатывать алгоритмы RL для решения реальных проблем.

Целевая аудитория

Основная:
  • Разработчики, знакомые с языком Python / машинным обучением, но не имеющие опыта применения обучения с подкреплением.
Дополнительная:
  • ML инженеры, специалисты по обработке данных.

Предварительная подготовка

Необходимая подготовка:

  • Вузовская программа по математическому анализу, теории вероятностей, дискретной математике

  • Базовые знания в области машинного обучения

  • Понимание кода на языке Python

Темы курса

01 Часть I. Предыстория (5 ч 30 мин)
1. Линейная алгебра (30 мин)
  • Обзор основных концепций.

2. Математический анализ (1 ч)
  • Интегралы.
  • Производные.
  • Примеры.

3. Теория вероятностей (4 ч)
  • Случайные величины.
  • Функции плотности вероятности.
  • Математическое ожидание.
  • Условные, совместные и безусловные вероятности.
  • Примеры.
  • Практика.
02 Часть II. Обзор (11 ч)
1. Введение в RL (4 ч)
  • Марковские процессы принятия решений.
  • Динамическое программирование с примером.
  • Уравнение Беллмана.
  • Оценка стратегии.
  • Итерация по стратегиям.
  • Итерация по ценностям.
  • Примеры.
  • Практика.

2. На основе модели и без модели (3 ч)
  • Обучение и планирование.
  • Детерминированное.
  • Стохастическое.
  • Аппроксимация линейной функции-значения.
  • Сравнение и практика.

3. Алгоритмы (4 ч)
  • Q-обучение.
  • SARSA.
  • Методы Исполнитель-критик.
  • Градиент стратегии.
  • Методы дерева Монте-Карло.
  • Обучение и исполнение.
  • Примеры.
  • Практика.
03 Часть III. RL + глубокое обучение (6 ч 30 мин)
1. Глубокое обучение с подкреплением (1,5 ч)
  • Аппроксимация нелинейной функции.
  • Прорыв DeepMind.
  • Объяснение Alpha-Star.

2. Новейшие технологии в глубоком RL (3 ч)
  • Память, внимание, рекурсия.
  • Обратное RL.
  • Обучение нескольких агентов.
  • Иерархическое обучение.
  • Развитие поощрений – AutoRL.
  • Оптимизации стратегий.

3. Применения и использование (2 ч)
  • Трейдинг.
  • Понимание речи и вопросно-ответные системы (опционально).
  • Балансировка нагрузки (опционально).
  • Другие применения (опционально).
04 Часть IV. Практические примеры и инструменты (7 ч)
1. Pytorch / Tensorflow (2 ч)
  • Основы тензорного исчисления.
  • Реализация алгоритма RL с нуля.
  • Тестирование и визуализация.
  • Практика.

2. Ray + RLlib (3 ч 30 мин)
  • Основы тензорного исчисления.
  • Реализация алгоритма RL с нуля.
  • Тестирование и визуализация.
  • Практика.

3. Визуализация и объяснимость (1 ч 30 мин)
  • SMDP, AMDP, SAMDP.
  • Проекция на 3D-пространство с помощью TSNE.
  • Примеры.

45 500 ₽

40 950 ₽ — для физ. лиц

Записаться на курс

45 500 ₽

40 950 ₽ — для физ. лиц

Записаться на курс

Записаться на курс

45 500 ₽

40 950 ₽ — для физ. лиц

Юр. лицо — 45 500 ₽
Физ. лицо — 40 950 ₽
Открытая дата
Продолжая, я подтверждаю, что ознакомлен с Условиями использования и Порядком обработки персональных данных

Связанные курсы

EAS-020
24 часа

Основы машинного обучения

Этот тренинг дает представление об основных группах методов машинного обучения: классификация, регрессия, кластеризация, ансамбли, нейронные сети. Участники узнают, как решать распространенные задачи анализа текстов, прогнозирования цены, выдачи рекомендаций и другие. В практических заданиях много времени уделяется работе с признаками, перебору параметров моделей и построению ансамблей.

от Middle

31 000 ₽

EAS-025
24 часа

Машинное обучение на практике

Вводный практический курс по машинному обучению. Рассматривается полный цикл построения решения: от выделения исходных данных («.xlsx файл») через построение модели и до объяснения конечному заказчику особенностей данных и специфики полученного результата. Теоретические разделы - классификация, регрессия, предсказания, ансамбли – даются в обзорном режиме, в объёме, необходимом для корректного построения и понимания разбираемых примеров.

от Middle

41 900 ₽

Наши ученики работают в:

Наши клиенты

Mail.ru
Альфа-Банк, банковская группа
Лаборатория Касперского
Магнит, розничная сеть
Спортмастер, сеть спортивных магазинов
ПСБ
Сбертех
Дзен
IT One
Ростелеком
Мегафон
Nexign
Ozon
Декатлон
X5 Group
Технониколь
Росатом
Газпром
Нлмк
ВСК
Синимекс

Не нашли, что искали? — Просто напишите, и мы поможем

Продолжая, я подтверждаю, что ознакомлен с Условиями использования и Порядком обработки персональных данных
Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.