Улучшаемые навыки
                
                                            
                            Machine Learning
                        
                                            
                            ML
                        
                                            
                            Natural Language Processing
                        
                                            
                            Data Science
                        
                                            
                            Машинное Обучение
                        
                                            
                            Анализ текстов
                        
                                            
                            Обработка текстов
                        
                                            
                            Языковые модели
                        
                                            
                            Эмбеддинги
                        
                                            
                            Нейронные сети
                        
                                     
                                        Инструменты
                
                                            
                            
                            Python
                         
                                            
                            
                            Scikit-learn
                         
                                            
                            
                            TensorFlow
                         
                                     
                                        Чему вы научитесь
                
                                                                    
                            01
                            Применять основы машинного обучения и обработки текстов на практике.
                        
                                                                    
                            02
                            Использовать методы предобработки текстов и извлечения признаков для анализа текстовых данных.
                        
                                                                    
                            03
                            Научитесь использовать популярные библиотеки для обработки естественного языка
                        
                                                                    
                            04
                            Оценивать качество алгоритмов с помощью методов валидации данных.
                        
                                                                    
                            05
                            Реализовывать методы классификации и разметки текстов, включая сверточные (CNN) и рекуррентные (RNN) нейронные сети.
                        
                                                                    
                            06
                            Снижать размерность данных и применять эти методы для извлечения ключевых слов, суммаризации текстов и тематического моделирования.
                        
                                                                    
                            07
                            Работать с предобученными языковыми моделями (BERT, GPT и др.) для решения задач обработки текстов.
                        
                                                                    
                            08
                            Применять библиотеки машинного обучения (Scikit-learn, NLTK, gensim) в реальных проектах.
                        
                                                                    
                            09
                            Анализировать текстовые данные с использованием современных методов машинного обучения.
                        
                                                                    
                            10
                            Готовиться к работе с коммерческими и исследовательскими проектами в области NLP.
                        
                                     
                                        Программа курса
                
                                                                                                
                                
                                    01
                                    Основы машинного обучения 
                                    
                                 
                                
                                    
Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
 Практика: Предобработка и визуализация данных, классические модели ML.
 
[Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]                                
                             
                                                                                                                        
                                
                                    02
                                    Основы обработки текстов 
                                    
                                 
                                
                                    
Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick. 
Библиотеки NLTK, gensim, SpaCy, Yargy.
 Практика: Предобработка текстов.
 
[Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]                                
                             
                                                                                                                        
                                
                                    03
                                    Эмбеддинги в обработке текстов 
                                    
                                 
                                
                                    
Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
 Практика: Использование word2vec и fastText.
 
[Теория — 1 час, практика + демо — 3 часа]                                
                             
                                                                                                                        
                                
                                    04
                                    Методы классификации и разметки текстов 
                                    
                                 
                                
                                    
Архитектура и применение сверточных нейронных сетей для задач классификации.
Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
Извлечение именованных сущностей. 
 Практика: Использование CNN и LSTM.
 
[Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]                                
                             
                                                                                                                        
                                
                                    05
                                    Методы снижения размерности 
                                    
                                 
                                
                                    
Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
 Практика: Использование BigARTM.
 
[Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]                                
                             
                                                                                                                        
                                
                                    06
                                    Предобученные языковые модели 
                                    
                                 
                                
                                    
Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
 Практика: Использование BERT, RuGPT.
 
[Теория — 1 час, демо — 3 часа, д/з 1,5 часа]                                
                             
                                                                                                                    
                            
                                07
                                Всего: теория — 7 часов (30%), демо и практика — 17 часов (70%). Домашние задания — 9 часов (+ 38%)
                            
                         
                                                             
                        
                                        Для кого
                
                                            
                            
                            Дата-аналитик
                         
                                            
                            
                            Разработчик
                         
                                            
                            
                            Архитектор ПО
                         
                                            
                            
                            Проектировщик
                         
                                            
                            
                            ML Engineer
                         
                                     
                                        Предварительная подготовка
                Умение читать простой код на Python и писать на любом скриптовом языке.
                                        Расписание курсов
                
                
                                                        Курс проводят
                
                    
                        
                        
                            Аксёнов Сергей
                                                            
                                    Специалист в области разработки ПО
                                
                                                                                 
                     
                    
                                                                            О тренере
                            
                                Специалист в области разработки высокопроизводительных систем искусственного интеллекта в прикладных областях с опытом работы более 20 лет, кандидат технических наук, работает в области аналитики данных, искусственного интеллекта и высокопроизводительных вычислений с 2002 года.
 
Доцент Томского политехнического университета (ТПУ, специализация: Технологии Больших данных), Томского государственного университета (ТГУ, специализация: Интеллектуальный анализ Больших данных), Томского государственного университета систем управления и радиоэлектроники (ТУСУР, специализация: Программная инженерия), Сибирского государственного медицинского университета (СибГМУ, специализация: Медицинская кибернетика). Является преподавателем вышеперечисленных университетов, преподает дисциплины, связанные с ключевыми областями своих знаний.
 
С 2018 года проводит курсы по профессиональной переподготовке. Занимается разработкой и актуализацией образовательных материалов.