• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Текстовые данные и городская повседневность

Обсуждение тематики «дополнительных» цифровых данных было продолжено на очередном семинаре рабочей группы.

Текстовые данные и городская повседневность

Рабочая группа «Городская повседневность на микроуровне» провела очередной семинар 27 апреля.  Иван Ботов, студент НИУ ВШЭ и практикант нашей рабочей группы, рассказал о Natural Language Preprocessing - цифровых методах анализа текстовых данных, их применении в социологии в целом и в анализе городской повседневности. Повсеместное использование интернета привело к появлению огромных массивов текстовых данных. Докладчик представил обзорную информацию об NLP - использовании вычислительных методов для анализа текстов, и подробнее остановился на методе Topic Modeling, позволяющем искать определенные темы в больших объёмах текстовых данных. Особенно интересным и перспективным данный метод видится при анализе медиапространства, относящегося к различным территориальным единицам (районам, городам, регионам и т.д.).

Докладчик пояснил, что идея computational grounded theory - в выстраивании объяснений, вырастающих из самих данных, а не из теории, т.е. применяется индуктивный подход в исследовании: сначала обрабатывается эмпирический материал, а потом происходи его осмысление и построение теорий вокруг него. В то же время Topic Modelling позволяет вычленять определённые темы из корпуса текстов, присваивать каждой теме распределение слов,  а каждому документу - своё распределение тем. Text Processing - это процесс унификации и нормализации, а также приведения слов в их первоначальные формы. Далее, после такой очистки и проработки массива данных создаётся “Bag-of-words”, то есть матрица с повторяющимися словами в корпусах текста.

В контексте применения данного инструмента в социологии можно выделить идентификацию трендов в социальных сетях, анализ общественного мнения, анализ освещения в СМИ и пробелы в знаниях, например, узнать, какие темы плохо или хорошо исследованы на сегодняшний день.

В ходе дискуссии были отмечены и недостатки, присущие большинству методов работы с большими данными, а именно, необходимость четкого ограничения поискового запроса, необходимость четкой конкретизации исследовательских задач, а не попытки найти какие-либо абстрактные различия. Во-вторых, это трудоемкость, т.е. огромная работа, связанная с предварительной обработкой данных, а позднее и с постобработкой, то есть экспертной оценкой результатов моделирования и интерпретации данных. И, в третьих, необходимость вовлеченности в контекст исследования.

 


Рабочая группа «Городская повседневность на микроуровне» ведет свой неформальный телеграм-канал и приглашает присоединиться к нему.