Улучшаемые навыки
Предобработка текстовых данных
Модели и алгоритмы машинного обучения для NLP
Работа с библиотеками для NLP
Создание и обучение моделей для анализа текста
Оценка и улучшение моделей NLP
Чему вы научитесь
01
Научитесь методам предобработки текстовых данных
02
Освоите алгоритмы и модели машинного обучения, используемые в NLP
03
Научитесь использовать популярные библиотеки для обработки естественного языка
04
Освоите методы создания и обучения моделей для задач NLP, таких как классификация текстов, анализ тональности и извлечение информации
05
Научитесь оценивать производительность моделей NLP с использованием различных метрик
Программа курса
01
Основы машинного обучения
Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
Практика: Предобработка и визуализация данных, классические модели ML.
[Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]
02
Основы обработки текстов
Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
Библиотеки NLTK, gensim, SpaCy, Yargy.
Практика: Предобработка текстов.
[Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]
03
Эмбеддинги в обработке текстов
Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
Практика: Использование word2vec и fastText.
[Теория — 1 час, практика + демо — 3 часа]
04
Методы классификации и разметки текстов
Архитектура и применение сверточных нейронных сетей для задач классификации.
Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
Извлечение именованных сущностей.
Практика: Использование CNN и LSTM.
[Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]
05
Методы снижения размерности
Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
Практика: Использование BigARTM.
[Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]
06
Предобученные языковые модели
Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
Практика: Использование BERT, RuGPT.
[Теория — 1 час, демо — 3 часа, д/з 1,5 часа]
07
Всего: теория — 7 часов (30%), демо и практика — 17 часов (70%). Домашние задания — 9 часов (+ 38%)
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.