Машинное обучение для анализа естественного языка (NLP)
Практический курс по обработке текстов методами машинного обучения. Участники узнают и разберутся с тем, для каких задач применяется машинное обучение, как правильно ставить задачи, собирать и готовить данные, как работать с признаками, как оценивать качество результата. В курсе рассмотрены различные методы предобработки текстов, векторные представления слов и их использование для классификации и других задач. Участники изучат методы разметки текстов, извлечения именованных сущностей и снижения размерности. Отдельное внимание будет уделено предобученным языковым моделям, таким как BERT и GPT, и их применению для работы с текстовыми данными.
24 ак.ч.
Онлайн
EAS-028
Машинное обучение для анализа естественного языка (NLP)
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-028
Расписание и цены
39 900 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей
Машинное обучение для анализа естественного языка (NLP)
Записаться на курс
Длительность
24 ак.ч.
Локация
Онлайн
Код
EAS-028
Расписание и цены
39 900 руб.
* Для физических лиц действует скидка 10% Закажите корпоративное обучение с учетом ваших потребностей

Описание

Тренинг по обработке естественного языка с помощью машинного обучения предназначен для тех, кто хочет познакомиться со сложными методами обработки текстовых данных. Он включает в себя необходимый минимум теории и большой объем практических занятий, позволяющих участникам овладеть необходимыми навыками для работы в области анализа данных. К каждому модулю предлагаются задания для самостоятельного выполнения - домашние работы.

В рамках тренинга участники изучат методы преобразования текстовых данных, такие как стемминг, лемматизация и векторизация, а также базовые задачи, которые могут быть решены с помощью методов машинного обучения, такие как классификация, суммаризация текстов, выделение имен и другие. Будет уделено особое внимание практическому применению методов машинного обучения на языке Python с использованием современных нейросетей, таких как FastText, BERT и GPT-2.

Цели

  • Ознакомление с основами машинного обучения и обработки текстов;
  • Изучение методов предобработки текстов и извлечения признаков для анализа текстовых данных;
  • Понимание методов валидации данных и оценки качества алгоритмов;
  • Изучение методов классификации и разметки текстов, включая использование сверточных и рекуррентных нейронных сетей;
  • Понимание методов снижения размерности и их применения для извлечения ключевых слов, суммаризации текстов и тематического моделирования;
  • Ознакомление с предобученными языковыми моделями и их применением для работы с текстовыми данными;
  • Приобретение практических навыков работы с библиотеками для машинного обучения и обработки текстов, такими как Scikit-learn, NLTK, gensim;
  • Развитие навыков работы с текстовыми данными и применения современных методов машинного обучения для решения задач в этой области;
  • Подготовка к работе с реальными проектами в области анализа текстовых данных.

Целевая аудитория

Аналитики, разработчики, архитекторы, системные проектировщики, менеджеры проектов, связанных с данными, технические лидеры/ведущие разработчики в любых проектах, связанных с данными.

Предварительная подготовка

Умение читать простой код на Python и писать на любом скриптовом языке.

Разбираемые темы

  • Модуль 1. Основы машинного обучения (теория 2 ч, практика + демо 2 ч, дз 1,5 ч)

    • Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
    • Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
    • Практика: Предобработка и визуализация данных, классические модели ML.

  • Модуль 2. Основы обработки текстов (теория 1ч, практика + демо 3ч, дз 1 ч)

    • Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
    • Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
    • Библиотеки NLTK, gensim, SpaCy, Yargy.
    • Практика: Предобработка текстов.
  • Модуль 3. Эмбеддинги в обработке текстов (теория 1ч, практика + демо 3ч)

    • Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
    • Практика: Использование word2vec и fastText.
  • Модуль 4. Методы классификации и разметки текстов (теория 1ч, практика + демо 3ч, дз 3 ч)

    • Архитектура и применение сверточных нейронных сетей для задач классификации.
    • Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
    • Извлечение именованных сущностей.
    • Практика: Использование CNN и LSTM.
  • Модуль 5. Методы снижения размерности (теория 1ч, практика + демо 3ч, дз 2 ч)

    • Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
    • Практика: Использование BigARTM.
  • Модуль 6. Предобученные языковые модели (теория 1ч, демо 3ч, дз 1,5 ч)

    • Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
    • Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
    • Практика: Использование BERT, RuGPT.
  • Всего: теория 7 ч (30%), демо и практика 17 ч (70%). Домашние задания 9 ч (+ 38%)

  • Развернуть программу
Раcписание курсов
Вид:
Регистрируйтесь на следующий курс
Предварительная регистрация гарантирует участие в обучении. Мы обязательно оповестим вас, когда курс будет запланирован
+
Ваши преимущества
Экспертность
Тренеры-эксперты из реальных проектов крупнейших компаний, лидеров в своей отрасли
Живое обучение
“Живая” коммуникация с тренером даже в онлайн-формате
Практика
Максимально наполненные практикой занятия, работа в группах, выполнение домашних заданий
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.