Улучшаемые навыки

Предобработка текстовых данных
Модели и алгоритмы машинного обучения для NLP
Работа с библиотеками для NLP
Создание и обучение моделей для анализа текста
Оценка и улучшение моделей NLP

Чему вы научитесь

01 Научитесь методам предобработки текстовых данных
02 Освоите алгоритмы и модели машинного обучения, используемые в NLP
03 Научитесь использовать популярные библиотеки для обработки естественного языка
04 Освоите методы создания и обучения моделей для задач NLP, таких как классификация текстов, анализ тональности и извлечение информации
05 Научитесь оценивать производительность моделей NLP с использованием различных метрик

Программа курса

01 Основы машинного обучения
  • Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
  • Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
  • Практика: Предобработка и визуализация данных, классические модели ML.
  • [Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]
    02 Основы обработки текстов
  • Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
  • Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
  • Библиотеки NLTK, gensim, SpaCy, Yargy.
  • Практика: Предобработка текстов.
  • [Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]
    03 Эмбеддинги в обработке текстов
  • Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
  • Практика: Использование word2vec и fastText.
  • [Теория — 1 час, практика + демо — 3 часа]
    04 Методы классификации и разметки текстов
  • Архитектура и применение сверточных нейронных сетей для задач классификации.
  • Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
  • Извлечение именованных сущностей.
  • Практика: Использование CNN и LSTM.
  • [Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]
    05 Методы снижения размерности
  • Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
  • Практика: Использование BigARTM.
  • [Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]
    06 Предобученные языковые модели
  • Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
  • Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
  • Практика: Использование BERT, RuGPT.
  • [Теория — 1 час, демо — 3 часа, д/з 1,5 часа]
    07 Всего: теория — 7 часов (30%), демо и практика — 17 часов (70%). Домашние задания — 9 часов (+ 38%)

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Записаться на курс

    Предварительная подготовка

    Умение читать простой код на Python и писать на любом скриптовом языке.

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Юр. лицо — 39 900 ₽
    Физ. лицо — 35 910 ₽
    Открытая дата

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.