Улучшаемые навыки
Машинное обучение
Python
Scikit-learn
Pandas
Seaborn
Регрессия
Классификация
Кластеризация
Инструменты
Python
Scikit-learn
Pandas
Jupyter Notebook
Seaborn
Чему вы научитесь
01
Понять, какие задачи можно решать машинным обучением (и узнать, что Big Data это всего лишь подраздел, а не обязательное требование)
02
Подготавливать и очищать данные для анализа.
03
Выбирать и применять методы машинного обучения для решения задач классификации, регрессии и кластеризации.
04
Оценивать качество моделей и оптимизировать их параметры.
05
Визуализировать и представлять результаты анализа заказчику.
06
Создавать простые и ансамблевые модели для предсказаний и обнаружения структур в данных.
Программа курса
Какие задачи хорошо решаются машинным обучением, а какие им пытаются решать.
Что произойдёт, если вместо Data Scientist взять неспециалиста в данной области (просто разработчика/аналитика/менеджера) с ожиданием, что в процессе научится.
02
Подготовка, очистка, исследование данных
Как разобраться в исходных бизнес-данных (и вообще обнаружить в них какой бы то ни было порядок).
Последовательность обработки.
Что можно и нужно переложить на аналитиков предметной области, а что лучше сделать самому Data Scientist.
Приоритеты решения конкретной задачи.
03
Классификаторы и Регрессоры
Практический раздел - хорошо формализованные задачи с подготовленными данными.
Разница между задачами (бинарная/небинарная/вероятностная классификация, регрессии), перераспределение задач между классами.
Примеры классификации практических задач.
Где и как проводить кластеризацию: исследование данных, проверка постановки задачи, проверки результатов.
Какие случаи можно свести к кластеризации.
Бизнес-метрики и технические метрики.
Метрики для задач классификации и регрессии, матрица ошибок.
Внутренние и внешние метрики качества кластеризации.
Кросс-валидация.
Оценка переобучения.
Что делает одну модель лучше другой: параметры, признаки, ансамбли.
Управление параметрами.
Практика выбора признаков.
Обзор инструментария для поиска лучших параметров, признаков и методов.
07
Графики, отчеты, работа с живыми задачами
Как доступно объяснить происходящее: себе, команде, клиенту.
Более красивые ответы на бессмысленные вопросы.
Как презентовать три терабайта результатов на одном слайде.
Полуавтоматические тесты, какие точки контроля процесса действительно нужны.
От живых задач к полному R&D процессу («НИОКР на практике») – разбор и анализ задач от аудитории.
08
Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)
Для кого
Data Scientist
Бизнес-аналитик
Разработчик
Data Engineer
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.