О чём курс

Тренинг по обработке естественного языка с помощью машинного обучения предназначен для тех, кто хочет познакомиться со сложными методами обработки текстовых данных. Он включает в себя необходимый минимум теории и большой объем практических занятий, позволяющих участникам овладеть необходимыми навыками для работы в области анализа данных. К каждому модулю предлагаются задания для самостоятельного выполнения - домашние работы.

В рамках тренинга участники изучат методы преобразования текстовых данных, такие как стемминг, лемматизация и векторизация, а также базовые задачи, которые могут быть решены с помощью методов машинного обучения, такие как классификация, суммаризация текстов, выделение имен и другие. Будет уделено особое внимание практическому применению методов машинного обучения на языке Python с использованием современных нейросетей, таких как FastText, BERT и GPT-2.

Цели

  • Ознакомление с основами машинного обучения и обработки текстов;
  • Изучение методов предобработки текстов и извлечения признаков для анализа текстовых данных;
  • Понимание методов валидации данных и оценки качества алгоритмов;
  • Изучение методов классификации и разметки текстов, включая использование сверточных и рекуррентных нейронных сетей;
  • Понимание методов снижения размерности и их применения для извлечения ключевых слов, суммаризации текстов и тематического моделирования;
  • Ознакомление с предобученными языковыми моделями и их применением для работы с текстовыми данными;
  • Приобретение практических навыков работы с библиотеками для машинного обучения и обработки текстов, такими как Scikit-learn, NLTK, gensim;
  • Развитие навыков работы с текстовыми данными и применения современных методов машинного обучения для решения задач в этой области;
  • Подготовка к работе с реальными проектами в области анализа текстовых данных.
  • Целевая аудитория

    Аналитики, разработчики, архитекторы, системные проектировщики, менеджеры проектов, связанных с данными, технические лидеры/ведущие разработчики в любых проектах, связанных с данными.

    Предварительная подготовка

    Умение читать простой код на Python и писать на любом скриптовом языке.

    Улучшаемые навыки

    Предобработка текстовых данных
    Модели и алгоритмы машинного обучения для NLP
    Работа с библиотеками для NLP
    Создание и обучение моделей для анализа текста
    Оценка и улучшение моделей NLP

    Расписание курсов

    14.04.2025 - 21.04.2025

    14:00-18:00
    Дата и время:
    14.04.2025-21.04.2025
    14:00-18:00

    Middle 24 часа

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Программа курса

    01 Основы машинного обучения
  • Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
  • Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
  • Практика: Предобработка и визуализация данных, классические модели ML.
  • [Теория 2 ч, практика + демо 2 ч, дз 1,5 ч]
    02 Основы обработки текстов
  • Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
  • Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
  • Библиотеки NLTK, gensim, SpaCy, Yargy.
  • Практика: Предобработка текстов.
  • [Теория 1ч, практика + демо 3ч, дз 1 ч]
    03 Эмбеддинги в обработке текстов
  • Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
  • Практика: Использование word2vec и fastText.
  • [Теория 1ч, практика + демо 3ч]
    04 Методы классификации и разметки текстов
  • Архитектура и применение сверточных нейронных сетей для задач классификации.
  • Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
  • Извлечение именованных сущностей.
  • Практика: Использование CNN и LSTM.
  • [Теория 1ч, практика + демо 3ч, дз 3 ч]
    05 Методы снижения размерности
  • Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
  • Практика: Использование BigARTM.
  • [Теория 1ч, практика + демо 3ч, дз 2 ч]
    06 Предобученные языковые модели
  • Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
  • Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
  • Практика: Использование BERT, RuGPT.
  • [Теория 1ч, демо 3ч, дз 1,5 ч]
    07 Всего: теория 7 ч (30%), демо и практика 17 ч (70%). Домашние задания 9 ч (+ 38%)

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Записаться на курс

    Чему вы научитесь

    01 Научитесь методам предобработки текстовых данных
    02 Освоите различные алгоритмы и модели машинного обучения, используемые в NLP
    03 Научитесь использовать популярные библиотеки для обработки естественного языка
    04 Освоите методы создания и обучения моделей для задач NLP, таких как классификация текстов, анализ тональности и извлечение информации
    05 Научитесь оценивать производительность моделей NLP с использованием различных метрик

    Курс проводят

    Сергей

    Аксёнов Сергей

    Специалист в области разработки ПО

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Записаться на курс

    Записаться на курс

    39 900 ₽

    35 910 ₽ — для физ. лиц

    Юр. лицо — 39 900 ₽
    Физ. лицо — 35 910 ₽
    14.04.2025, Онлайн
    14.04.2025, Онлайн
    Открытая дата

    Наши ученики работают в:

    Наши клиенты

    Mail.ru
    Альфа-Банк, банковская группа
    Лаборатория Касперского
    Магнит, розничная сеть
    Спортмастер, сеть спортивных магазинов
    ПСБ
    Сбертех
    Дзен
    IT One
    Ростелеком
    Мегафон
    Nexign
    Ozon
    Декатлон
    X5 Group
    Технониколь
    Росатом
    Газпром
    Нлмк
    ВСК
    Синимекс

    Не нашли, что искали? — Просто напишите, и мы поможем

    Корпоративное обучение Оценка персонала Сертификация О нас Стань тренером Блог
    Пользователь только что записался на курс ""
    Спасибо!
    Форма отправлена успешно.