Работа с регуляризаторами в тематическом моделировании с помощью BigArtm
Во время сдвоенного семинара 3 и 10 ноября младшие участники НУГ рассказали о работе трёх разных регуляризаторов в тематическом моделировании с помощью BigArtm на примерах своих исследований.
Прошедший открытый семинар был посвящён новому направлению работы научно-учебной группы – использованию тематического моделирования с помощью библиотеки BigArtm, в частности обсуждалось применение и принципы работы регуляризаторов. Тематическое моделирование позволяет выделить пул тем из коллекции документов через разложение исходной матрицы слов в документах на две новых матрицы: слов в темах (Phi) и тем в документах (Theta). Регуляризаторы в тематическом моделировании нацелены на улучшение интерпретируемости выделяемых тем и показателей качества модели путём сглаживания или разреживания подмножества тем в итоговых матрицаx.
Руководитель НУГ Алексей Ротмистров рассказал слушателям о методе тематического моделирования, о его применении в социологии в целом и в задачах поиска взаимодействий в частности.
Участница НУГ Мария Родионова поделилась своим опытом работы с регуляризатором Smooth/Sparse Phi, который работает непосредственно с матрицей Phi. Примером текстов для тематического моделирования стали тексты, собранные Машей ранее при работе с анализом локального BDSM-сообщества с сайта онлайн-поиска партнёра. Задачей Маши было с помощью тематического моделирования выделить темы, которые встречаются в описании профилей участников сайта. Для улучшения интерпретируемости тем Маша использовала регуляризатор Smooth/Sparse Phi, опыт Маши показал, что в её случае при работе с регуляризатором необходимо было увеличивать по модулю отрицательное значение коэффициента регуляризатора, однако слишком резкое увеличение по модулю значения коэффициента быстро приводит к вырождению матриц – явлению, при котором темы в документах не выделяются вообще.
Другим разобранным регуляризатором был регуляризатор Smooth/Sparse Theta. Использованием этого регуляризатора на эмпирическом примере занималась участница НУГ Воробьева Марья. Регуляризатор Smooth/Sparse Theta направлен на сглаживание или разреживание подмножества тем в матрице Theta. При этом для того, чтобы сгладить темы необходимо работать с положительным значением коэффициента tau, а для разреживания тем необходимо работать с отрицательными значениями данного коэффициента. В качестве эмпирического примера Маша использовала тексты, собранные с сайта о людях в креативной индустрии: thecreativeindependent.com. Её задачей было выделение тем, которые поднимаются в статьях на этом сайте. При использовании регуляризатора Smooth/Sparse Theta Маша пришла к выводу, что в её случае для улучшения интерпретируемости тем необходимо разреживать темы, используя отрицательные значения коэффициента tau.
Вольный участник НУГ, Бойченко Антон, работал с регуляризатором Decorrelator Phi. Данный регуляризатор работает по другому принципу, декоррелируя темы в матрице Phi, т.е. делая их более контрастными, менее похожими друг на друга. Антон работал с регуляризаторами на данных, собранных с сайта killpls.me, на котором пользователи делятся тяжелыми историями из жизни. Опыт Антона показал, что в случае использования Decorrelator Phi нужно работать с положительными значениями коэффициента tau, поскольку отрицательные значения коэффициента приводят к появлению в темах одинаковых слов.