Нужна ли лемматизация перед text mining англоязычных текстов?

На семинаре научного коллектива прошло обсуждение необходимости лемматизации исходного текста перед применением тематического моделирования.

Дискуссия стала продолжением предыдущего доклада участницы коллектива Марьи Воробьевой. В своей работе, посвящённой анализу текстовых описаний независимых арт-пространств, Марья с помощью тематического моделирования изучает их цели и ценности. В предыдущем анализе, который проводился в среде R, отсутствовал один из этапов предобработки текста – лемматизация. Участники коллектива высказали свои опасения относительного того, как это может повлиять на качество полученных результатов. Это стало идей для небольшого эксперимента, о котором и рассказала Марья в этот раз.

Марья построила две LDA модели с одинаковым количеством тем, однако в первой модели тексты предварительно были лемматизированны, а во второй модели – нет. В результате лемматизация позволила получить более статистически качественную и содержательно интерпретируемую модель. Модель без выполнения лемматизация образовала список тем с большим количеством пересекающихся слов, многие из которых имеют форму множественного числа.

Анализ частотности полученных токенов показал проблемы, возникающие при предобработке текстовых данных: появление мусорных символов, разделение слов. В процессе обсуждения доклада были выдвинуты предположения о причинах этих проблем, а также предложены шаги по их решению.

Дата

30 июня 2020

Темы

дискуссии

В статье упомянуты

Научный коллектив Randan

Персоны

Воробьева Марья Дмитриевна