Исследование русских националистов и Data mining: почему социальным наукам нужны компьютерные
3 апреля состоялась очередная встреча участников НУГ, посвященная специфике парадигмы Data Mining в социологии. В качестве докладчика выступил Алексей Ротмистров. Его рассказ также затронул тему исследования русских националистов.
Исследование русских националистов Алексей Николаевич начал довольно давно. Но, по его словам, за последние несколько лет из-за конфликтных событий в ближнем Зарубежье, активных преследований экстремистских организаций и блокировки групп в социальных сетях поддерживать контакты с информантами стало проблематичнее. Время, затраченное на сбор данных, заставило руководителя НУГ задуматься о других способах составления базы - в том числе с помощью методов, более распространенных в компьютерных науках.
По мнению Алексея Николаевича, социологи уделяют недостаточно внимания исследовательским возможностям, которые предоставляет интернет-пространство, из-за чего методы социальных наук в некоторой степени отстают от методов компьютерных наук. Однако восполнить этот пробел и расширить коллекцию методов сбора и анализа данных в социологии возможно с помощью Data Mining. Особенности использования этой парадигмы в социологии руководитель НУГ видит в нескольких компонентах, одной из которых выступает активное применение онлайн-скрэппинга - этим методом Алексей Николаевич предложил воспользоваться и участникам НУГ в рамках их собственных проектов. На примере националистов он объяснил, что этот метод позволяет выискивать заранее условленные данные в интернете и собирать их в базу. Так, скрэппинг используется в том числе в приложении с технологией распознавания лиц для сравнения фотографии, сделанной или сохраненной пользователем, с миллионами фотографий в социальных сетях. Самом руководителю НУГ этот метод позволит восполнить пробелы в базе с информацией о националистах с помощью активного поиска групп в социальных сетях, выполняемого машиной, а не собственноручно.
Другие компоненты, отличающие Data Mining в социальных науках от более привычного понимания этого исследовательского направления и выделенные Алексеем Николаевичем, связаны с соотношением теории и эмпирики, с важной ролью оцифровки имеющихся данных для более глубокого “понимания” респондента, а также с необходимостью комплексного применения методов анализа - таким образом, чтобы “добывать” из данных все знания, которые в них содержатся.
Также в рамках семинара обсуждались и другие отличия computer science от социальных наук, одним из которых является соотношение выборки и генеральной совокупности в имеющейся базе данных. Как известно, в социальных науках данные представляют собой выборку - лишь малую, грамотно отобранную часть генеральной совокупности. Поэтому социологам часто приходится проверять модели на устойчивость и непереобученность. В computer science данные, с которыми имеет дело исследователь, - это зачастую и есть генеральная совокупность, поэтому проблема с переобученностью становится менее актуальной.
Кроме того, прошедший семинар был отмечен радостным событием - приездом соруководителя НУГ Захарова Николая Валерьевича. Часть семинара была посвящена знакомству участников со шведским коллегой и обсуждению личных проектов, в том числе тех, которые НУГ не затрагивает.