О чём курс
Тренинг по обработке естественного языка с помощью машинного обучения предназначен для тех, кто хочет познакомиться со сложными методами обработки текстовых данных. Он включает в себя необходимый минимум теории и большой объем практических занятий, позволяющих участникам овладеть необходимыми навыками для работы в области анализа данных. К каждому модулю предлагаются задания для самостоятельного выполнения - домашние работы.
В рамках тренинга участники изучат методы преобразования текстовых данных, такие как стемминг, лемматизация и векторизация, а также базовые задачи, которые могут быть решены с помощью методов машинного обучения, такие как классификация, суммаризация текстов, выделение имен и другие. Будет уделено особое внимание практическому применению методов машинного обучения на языке Python с использованием современных нейросетей, таких как FastText, BERT и GPT-2.
Цели
- Ознакомление с основами машинного обучения и обработки текстов;
- Изучение методов предобработки текстов и извлечения признаков для анализа текстовых данных;
- Понимание методов валидации данных и оценки качества алгоритмов;
- Изучение методов классификации и разметки текстов, включая использование сверточных и рекуррентных нейронных сетей;
- Понимание методов снижения размерности и их применения для извлечения ключевых слов, суммаризации текстов и тематического моделирования;
- Ознакомление с предобученными языковыми моделями и их применением для работы с текстовыми данными;
- Приобретение практических навыков работы с библиотеками для машинного обучения и обработки текстов, такими как Scikit-learn, NLTK, gensim;
- Развитие навыков работы с текстовыми данными и применения современных методов машинного обучения для решения задач в этой области;
- Подготовка к работе с реальными проектами в области анализа текстовых данных.
Целевая аудитория
Аналитики, разработчики, архитекторы, системные проектировщики, менеджеры проектов, связанных с данными, технические лидеры/ведущие разработчики в любых проектах, связанных с данными.
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.
Темы курса
01
Модуль 1. Основы машинного обучения (теория 2 ч, практика + демо 2 ч, дз 1,5 ч)
- Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
-
Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
- Практика: Предобработка и визуализация данных, классические модели ML.
02
Модуль 2. Основы обработки текстов (теория 1ч, практика + демо 3ч, дз 1 ч)
- Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
-
Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
-
Библиотеки NLTK, gensim, SpaCy, Yargy.
- Практика: Предобработка текстов.
03
Модуль 3. Эмбеддинги в обработке текстов (теория 1ч, практика + демо 3ч)
- Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
- Практика: Использование word2vec и fastText.
04
Модуль 4. Методы классификации и разметки текстов (теория 1ч, практика + демо 3ч, дз 3 ч)
- Архитектура и применение сверточных нейронных сетей для задач классификации.
-
Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
-
Извлечение именованных сущностей.
- Практика: Использование CNN и LSTM.
05
Модуль 5. Методы снижения размерности (теория 1ч, практика + демо 3ч, дз 2 ч)
- Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
- Практика: Использование BigARTM.
06
Модуль 6. Предобученные языковые модели (теория 1ч, демо 3ч, дз 1,5 ч)
- Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
-
Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
- Практика: Использование BERT, RuGPT.
07
Всего: теория 7 ч (30%), демо и практика 17 ч (70%). Домашние задания 9 ч (+ 38%)