• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Марья Воробьева рассказала об использовании CatPCA для тематического моделирования блогов пользователей портала SmartLab

В рамках прикладных семинаров, посвященных изучению тематического моделирования методами BigARTM и новым методом тематического моделирования, предложенным исследовательской группой, Марья Воробьёва построила модель тематического моделирования методом CatPCA на данных SmartLab за январь 2019 г.

 

SmartLab – крупнейшее в России онлайн сообщество трейдеров и инвесторов. Помимо архива котировок и рейтинга брокеров, на портале размещены экономические прогнозы участников, истории успешных инвестиций и многое другое.


Всего Марье Воробьёвой удалось собрать около 35 тыс. постов, опубликованных аудиторией сайта за январь 2019 г. Далее,
c помощью CatPCA было выделено 68 содержательных тем. Однако в работе алгоритма Марья выявила ряд проблем. Во-первых, в одну тему вошли практически только имена. Во-вторых, алгоритм объединяет в темы слова-синонимы. В-третьих, данный метод автоматически сортирует токены внутри темы по алфавиту, что, скорее всего, сигнализирует о существовании проблемы с сортировкой исходных данных. И, наконец, временные затраты, – всего тематическая модель сходилась в течение 4 ч.

Тем не менее, предложенный метод тематического моделирования справился со своей задачей. В результате построения модели удалось выявить пул содержательно интерпретируемых тем: нефть и нефтегазовое дело, валюта и казначейство, доступ к глобальной сети Интернет. В отдельную тему вошли поздравления пользователей с Новым годом и Рождеством.

Доклад являлся частью прикладных семинаров, посвященных изучению тематического моделирования (topic modeling) методами BigARTM. Работа тематической модели во многом напоминает кластеризацию, за тем исключением, что делает она это “мягче”, допуская пересечения элементов. Именно на основании этого сходства участниками исследовательской группы был предложен новый метод тематического моделирования, в основу которого лёг категориальный метод главных компонент CatPCA.

Здесь Вы можете ознакомиться с докладом подробнее, а посмотреть видеозапись выступления Марьи - здесь.