Машинное обучение для анализа естественного языка (NLP)
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-028
39 900 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей
Описание
Тренинг по обработке естественного языка с помощью машинного обучения предназначен для тех, кто хочет познакомиться со сложными методами обработки текстовых данных. Он включает в себя необходимый минимум теории и большой объем практических занятий, позволяющих участникам овладеть необходимыми навыками для работы в области анализа данных. К каждому модулю предлагаются задания для самостоятельного выполнения - домашние работы.В рамках тренинга участники изучат методы преобразования текстовых данных, такие как стемминг, лемматизация и векторизация, а также базовые задачи, которые могут быть решены с помощью методов машинного обучения, такие как классификация, суммаризация текстов, выделение имен и другие. Будет уделено особое внимание практическому применению методов машинного обучения на языке Python с использованием современных нейросетей, таких как FastText, BERT и GPT-2.
После прохождения курса выдается
удостоверение о повышении квалификации государственного образца
удостоверение о повышении квалификации государственного образца
Цели
- Ознакомление с основами машинного обучения и обработки текстов;
- Изучение методов предобработки текстов и извлечения признаков для анализа текстовых данных;
- Понимание методов валидации данных и оценки качества алгоритмов;
- Изучение методов классификации и разметки текстов, включая использование сверточных и рекуррентных нейронных сетей;
- Понимание методов снижения размерности и их применения для извлечения ключевых слов, суммаризации текстов и тематического моделирования;
- Ознакомление с предобученными языковыми моделями и их применением для работы с текстовыми данными;
- Приобретение практических навыков работы с библиотеками для машинного обучения и обработки текстов, такими как Scikit-learn, NLTK, gensim;
- Развитие навыков работы с текстовыми данными и применения современных методов машинного обучения для решения задач в этой области;
- Подготовка к работе с реальными проектами в области анализа текстовых данных.
Целевая аудитория
Аналитики, разработчики, архитекторы, системные проектировщики, менеджеры проектов, связанных с данными, технические лидеры/ведущие разработчики в любых проектах, связанных с данными.
Предварительная подготовка
Умение читать простой код на Python и писать на любом скриптовом языке.
Разбираемые темы
-
Модуль 1. Основы машинного обучения (теория 2 ч, практика + демо 2 ч, дз 1,5 ч)
- Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
- Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
- Практика: Предобработка и визуализация данных, классические модели ML.
-
Модуль 2. Основы обработки текстов (теория 1ч, практика + демо 3ч, дз 1 ч)
- Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
- Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
- Библиотеки NLTK, gensim, SpaCy, Yargy.
- Практика: Предобработка текстов.
-
Модуль 3. Эмбеддинги в обработке текстов (теория 1ч, практика + демо 3ч)
- Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
- Практика: Использование word2vec и fastText.
-
Модуль 4. Методы классификации и разметки текстов (теория 1ч, практика + демо 3ч, дз 3 ч)
- Архитектура и применение сверточных нейронных сетей для задач классификации.
- Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
- Извлечение именованных сущностей.
- Практика: Использование CNN и LSTM.
-
Модуль 5. Методы снижения размерности (теория 1ч, практика + демо 3ч, дз 2 ч)
- Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
- Практика: Использование BigARTM.
-
Модуль 6. Предобученные языковые модели (теория 1ч, демо 3ч, дз 1,5 ч)
- Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
- Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
- Практика: Использование BERT, RuGPT.
-
Всего: теория 7 ч (30%), демо и практика 17 ч (70%). Домашние задания 9 ч (+ 38%)
Раcписание курсов
Вид:
Регистрируйтесь на следующий курс
Предварительная регистрация гарантирует участие в обучении. Мы обязательно оповестим вас, когда курс будет запланирован