О чём курс
Курс построен вокруг нескольких практических кейсов, содержащих таблицы с исходными данными.
По каждому кейсу проходим полный жизненный цикл проекта машинного обучения:
исследование, очистка и подготовка данных,
выбор метода обучения, соответствующего задаче (линейная регрессия для регрессии, случайный лес для классификации, К-средние и DBSCAN для кластеризации),
обучение с использованием выбранного метода,
оценка результата,
оптимизация модели,
представление результата заказчику.
На дискуссионной части курса обсуждаем стоящие перед слушателями практические задачи, которые можно решить рассмотренными методами.
Цели
Понять, какие задачи можно решать машинным обучением (и узнать, что Big Data это всего лишь подраздел, а не обязательное требование).
Научиться применять начальные методы машинного обучения и с помощью быстрого прототипирования научиться отвечать на вопрос «оценить реальную прибыль от возможного внедрения».
Подсветить, какие данные необходимо собирать и что может потребоваться от них в ближайшем будущем. Почему «хотим хранить петабайты» это не всегда просто прихоть.
Подготовится к более сложным темам, в частности – к полным решениям реальных сложных бизнес-задач.
Посмотреть, как именно машинное обучение стыкуется с классической аналитикой. В частности, убедиться, что не обязательно (и даже вредно) увольнять всех существующих аналитиков для внедрения концепции.
Целевая аудитория
Основная:
Аналитики
Менеджеры проектов, связанных с данными
Технические лидеры / ведущие разработчики в любых проектах, связанных с данными
Бизнес-аналитики
Дополнительная:
Разработчики
Инженеры данных (Data Engineer)
Архитекторы, системные проектировщики
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.
Для кого
Разработчик
Бизнес-аналитик
Руководитель проекта
Data Engineer
Архитектор ПО
Расписание курсов
Программа курса
Какие задачи хорошо решаются машинным обучением, а какие им пытаются решать.
Что произойдёт, если вместо Data Scientist взять неспециалиста в данной области (просто разработчика/аналитика/менеджера) с ожиданием, что в процессе научится.
02
Подготовка, очистка, исследование данных
Как разобраться в исходных бизнес-данных (и вообще обнаружить в них какой бы то ни было порядок).
Последовательность обработки.
Что можно и нужно переложить на аналитиков предметной области, а что лучше сделать самому Data Scientist.
Приоритеты решения конкретной задачи.
03
Классификаторы и Регрессоры
Практический раздел - хорошо формализованные задачи с подготовленными данными.
Разница между задачами (бинарная/небинарная/вероятностная классификация, регрессии), перераспределение задач между классами.
Примеры классификации практических задач.
Где и как проводить кластеризацию: исследование данных, проверка постановки задачи, проверки результатов.
Какие случаи можно свести к кластеризации.
Бизнес-метрики и технические метрики.
Метрики для задач классификации и регрессии, матрица ошибок.
Внутренние и внешние метрики качества кластеризации.
Кросс-валидация.
Оценка переобучения.
Что делает одну модель лучше другой: параметры, признаки, ансамбли.
Управление параметрами.
Практика выбора признаков.
Обзор инструментария для поиска лучших параметров, признаков и методов.
07
Графики, отчеты, работа с живыми задачами
Как доступно объяснить происходящее: себе, команде, клиенту.
Более красивые ответы на бессмысленные вопросы.
Как презентовать три терабайта результатов на одном слайде.
Полуавтоматические тесты, какие точки контроля процесса действительно нужны.
От живых задач к полному R&D процессу («НИОКР на практике») – разбор и анализ задач от аудитории.
08
Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)
Курс проводят
Исламгулов Тимур
Python-разработчик, профессиональный преподаватель разработки на Python.