Улучшаемые навыки
Machine Learning
ML
Natural Language Processing
Data Science
Машинное Обучение
Анализ текстов
Обработка текстов
Языковые модели
Эмбеддинги
Нейронные сети
Инструменты
Python
Scikit-learn
TensorFlow
Чему вы научитесь
01
Применять основы машинного обучения и обработки текстов на практике.
02
Использовать методы предобработки текстов и извлечения признаков для анализа текстовых данных.
03
Научитесь использовать популярные библиотеки для обработки естественного языка
04
Оценивать качество алгоритмов с помощью методов валидации данных.
05
Реализовывать методы классификации и разметки текстов, включая сверточные (CNN) и рекуррентные (RNN) нейронные сети.
06
Снижать размерность данных и применять эти методы для извлечения ключевых слов, суммаризации текстов и тематического моделирования.
07
Работать с предобученными языковыми моделями (BERT, GPT и др.) для решения задач обработки текстов.
08
Применять библиотеки машинного обучения (Scikit-learn, NLTK, gensim) в реальных проектах.
09
Анализировать текстовые данные с использованием современных методов машинного обучения.
10
Готовиться к работе с коммерческими и исследовательскими проектами в области NLP.
Программа курса
01
Основы машинного обучения
Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
Практика: Предобработка и визуализация данных, классические модели ML.
[Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]
02
Основы обработки текстов
Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
Библиотеки NLTK, gensim, SpaCy, Yargy.
Практика: Предобработка текстов.
[Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]
03
Эмбеддинги в обработке текстов
Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
Практика: Использование word2vec и fastText.
[Теория — 1 час, практика + демо — 3 часа]
04
Методы классификации и разметки текстов
Архитектура и применение сверточных нейронных сетей для задач классификации.
Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
Извлечение именованных сущностей.
Практика: Использование CNN и LSTM.
[Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]
05
Методы снижения размерности
Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
Практика: Использование BigARTM.
[Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]
06
Предобученные языковые модели
Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
Практика: Использование BERT, RuGPT.
[Теория — 1 час, демо — 3 часа, д/з 1,5 часа]
07
Всего: теория — 7 часов (30%), демо и практика — 17 часов (70%). Домашние задания — 9 часов (+ 38%)
Для кого
Дата-аналитик
Разработчик
Архитектор ПО
Проектировщик
ML Engineer
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.