О чём курс
Курс построен вокруг нескольких практических кейсов, содержащих таблицы с исходными данными.
По каждому кейсу проходим полный жизненный цикл проекта машинного обучения:
- исследование, очистка и подготовка данных,
- выбор метода обучения, соответствующего задаче (линейная регрессия для регрессии, случайный лес для классификации, К-средние и DBSCAN для кластеризации),
- обучение с использованием выбранного метода,
- оценка результата,
- оптимизация модели,
- представление результата заказчику.
На дискуссионной части курса обсуждаем стоящие перед слушателями практические задачи, которые можно решить рассмотренными методами.
Цели
- Понять, какие задачи можно решать машинным обучением (и узнать, что Big Data это всего лишь подраздел, а не обязательное требование).
- Научиться применять начальные методы машинного обучения и с помощью быстрого прототипирования научиться отвечать на вопрос «оценить реальную прибыль от возможного внедрения».
- Подсветить, какие данные необходимо собирать и что может потребоваться от них в ближайшем будущем. Почему «хотим хранить петабайты» это не всегда просто прихоть.
- Подготовится к более сложным темам, в частности – к полным решениям реальных сложных бизнес-задач.
- Посмотреть, как именно машинное обучение стыкуется с классической аналитикой. В частности, убедиться, что не обязательно (и даже вредно) увольнять всех существующих аналитиков для внедрения концепции.
Целевая аудитория
Основная:
- Аналитики
- Менеджеры проектов, связанных с данными
- Технические лидеры / ведущие разработчики в любых проектах, связанных с данными
- Бизнес-аналитики
Дополнительная:
- Разработчики
- Инженеры данных (Data Engineer)
- Архитекторы, системные проектировщики
Предварительная подготовка
Умение читать простой код на Python и
писать на любом скриптовом языке.
Темы курса
01
1. Обзор задачи (теория – 1 час)
- Какие задачи хорошо решаются машинным обучением, а какие им пытаются решать.
- Что произойдёт, если вместо Data Scientist взять неспециалиста в данной области (просто разработчика/аналитика/менеджера) с ожиданием, что в процессе научится.
02
2. Подготовка, очистка, исследование данных (теория – 1 ч, практика – 1 ч)
- Как разобраться в исходных бизнес-данных (и вообще обнаружить в них какой бы то ни было порядок).
- Последовательность обработки.
- Что можно и нужно переложить на аналитиков предметной области, а что лучше сделать самому Data Scientist.
- Приоритеты решения конкретной задачи.
03
3. Классификаторы и Регрессоры (теория – 2 ч, практика – 2 ч)
- Практический раздел - хорошо формализованные задачи с подготовленными данными.
- Разница между задачами (бинарная/небинарная/вероятностная классификация, регрессии), перераспределение задач между классами.
- Примеры классификации практических задач.
04
4. Кластеризация (теория – 1 ч, практика – 2 ч)
- Где и как проводить кластеризацию: исследование данных, проверка постановки задачи, проверки результатов.
- Какие случаи можно свести к кластеризации.
05
5. Оценка моделей (теория – 1 ч, практика – 1 ч)
- Бизнес-метрики и технические метрики.
- Метрики для задач классификации и регрессии, матрица ошибок.
- Внутренние и внешние метрики качества кластеризации.
- Кросс-валидация.
- Оценка переобучения.
06
6. Оптимизация (теория – 5 ч, практика – 3 ч)
- Что делает одну модель лучше другой: параметры, признаки, ансамбли.
- Управление параметрами.
- Практика выбора признаков.
- Обзор инструментария для поиска лучших параметров, признаков и методов.
07
7. Графики, отчеты, работа с живыми задачами (теория – 2 ч, практика – 2 ч)
- Как доступно объяснить происходящее: себе, команде, клиенту.
- Более красивые ответы на бессмысленные вопросы.
- Как презентовать три терабайта результатов на одном слайде.
- Полуавтоматические тесты, какие точки контроля процесса действительно нужны.
- От живых задач к полному R&D процессу («НИОКР на практике») – разбор и анализ задач от аудитории.
08
Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)