О чём вебинар
Представьте, что у вас есть огромная коллекция текстов — от научных статей до постов в социальных сетях. Как понять, о чем они? Тематическое моделирование помогает автоматически выявлять скрытые темы, упрощая анализ больших данных.
На этом семинаре вы познакомитесь с ключевыми методами, такими как Latent Dirichlet Allocation (LDA) и Additive Regularization of Topic Models (ARTM). Мы разберем, как эти алгоритмы работают, где их применяют — от анализа клиентских отзывов до исследования новостных потоков — и как интерпретировать результаты. Практическая часть покажет, как использовать инструменты, такие как Gensim и BigARTM, для решения реальных задач.
Цели:
Сформировать у участников практические навыки применения методов тематического моделирования (LDA, NMF) для анализа текстовых данных в контексте финансовой тематики, включая подготовку данных, построение моделей, визуализацию и интерпретацию результатов.
Познакомить участников с основными методами тематического моделирования. Показать, как эти методы применяются в реальных задачах анализа текстов. Научить интерпретировать результаты тематического моделирования. Дать начальные навыки работы с инструментами, такими как Gensim и BigARTM.
Предварительная подготовка:
Базовые знания статистики и теории вероятностей.
Знакомство с программированием (желательно Python, но не обязательно).
Интерес к анализу данных и обработке текстов.
Содержание
1. Введение в тематическое моделирование
2. Алгоритм LDA: принципы и применение
3. Метод ARTM: улучшения и регуляризация
4. Интерпретация результатов
5. Практические примеры и кейсы на языке Python
6. Инструменты для тематического моделирования
Другие разделы