• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Первое знакомство с методами тематического моделирования

На очередном открытом семинаре участники научно-учебной группы начали осваивать методы тематического моделирования - автоматической обработки большого массива текстов с целью выделения в них тем.

Первое знакомство с методами тематического моделирования

Тематическое моделирование - это технология статистического анализа текстов для автоматического выявления тематики в больших коллекциях документов. Тематическая модель определяет, к каким темам относится каждый анализируемый документ, и какими словами описывается каждая выделенная тема. Семинар НУГ 12 октября прошел в необычном формате мастер-класса: участники группы под руководством Светланы Жучковой попробовали самостоятельно построить свои первые тематические модели на данных, извлеченных ранее из сети. Заместитель руководителя рассказала, из каких этапов состоит подготовка данных для тематического моделирования (токенизация текста, лемматизация слов, удаление стоп-слов, подготовка файла специального формата), какие метрики качества используются при построении тематических моделей, каковы принципы работы и роль регуляризаторов в них. 

В качестве начального примера использовался массив текстов, извлеченных с сайта https://killpls.me/ - портала, на котором пользователи размещают истории о трудных жизненных обстоятельствах. Тематическая модель, полученная на этом примере, содержала легко интерпретируемые темы: так, чаще всего пользователи затрагивают в своих историях вопросы здоровья, личных и семейных отношений. Разобранный пример впоследствии стал основой для построения моделей на данных, извлеченных каждым участником самостоятельно с других сайтов. 

Взаимодействия - основной предмет исследования участников научно-учебной группы - в тематическом моделировании можно представить как сочетания слов, которым свойственно встречаться вместе в тексте. Построение более сложных тематических моделей, учитывающих взаимодействия и таким образом уточняющих интерпретацию тем, запланировано на дальнейшие семинары группы.