Исследование локального BDSM-сообщества, изучение социальных детерминант выбора кинофильма, поведение в социальных сетях – о дальнейших направлениях исследований НУГ с использованием парсинга
Летние каникулы не помешали состояться очередному семинару НУГ, который прошел 24 июля. На семинаре, посвященном обсуждению дальнейших направлений работы, участники НУГ поделились первыми результатами своих исследований, а также обсудили возможности и недостатки методов парсинга сайтов.
На прошедшем семинаре младшие участники НУГ презентовали проекты своих исследований с использованием данных, извлеченных из Интернета – именно в таком направлении НУГ будет осуществлять свою работу в ближайшие месяцы. Так, Родионова Мария планирует продолжить изучение темы насилия в отношениях – в этот раз на примере изучения локального BDSM-сообщества. Базой для извлечения данных стал русскоязычный сайт для онлайн-поиска партнера, позволяющий собрать данные о поле, возрасте, месте проживания участника сообщества, а также информацию о его интересах и предпочтениях в BDSM-культуре. На текущем этапе Мария столкнулась с проблемой отсутствия четкой структуры в коде веб-страниц – это затруднило сбор данных с помощью изученных ранее «пауков», реализуемых на языке Python (в русле WYSIWYM – What You See Is What You Mean). Однако такая проблема не стала препятствием к выполнению задания: участница НУГ изучила и освоила иной способ извлечения данных с использованием визуализации этого процесса (в русле WYSIWYG – What You See Is What You Get), о котором рассказала на семинаре. Всего Марии удалось собрать 98 тысяч наблюдений для проведения своего исследования: это анонимизированные профили пользователей исследуемой веб-платформы.
Другая участница НУГ, Хайруллина Динара, рассказала о проекте своего исследования, целью которого станет сравнение поведения поколений Y (люди, родившиеся между 1981 и 1994 годами) и Z (люди, родившиеся между 1995 и 2004 годами) в социальных сетях (на примере сети ВКонтакте). Сравнение будет проведено по общедоступным показателям, извлекаемым с персональных страниц пользователей, таким как мировоззрение, жизненные приоритеты, а также показателям, характеризующим активность пользователя в социальной сети. Смежной тематикой планирует заниматься и Тамара Мхитарян: ее исследование посвящено изучению жизненных ориентиров студентов университетов, занимающих разные места в рейтинге вузов. Для изучения жизненных ориентиров Тамара планирует собрать показатели, отражающие интересы студентов, например, подписки на сообщества, посты на личной странице, а также показатели активности и социально-демографические данные. Поскольку сбор данных ориентирован на использование конкретной социальной сети, девушки решили освоить и воспользоваться API ВКонтакте – специально созданным разработчиками сайта интерфейсом.
Наконец, еще одним направлением исследования стало изучение социальных детерминант выбора кинофильма. Для проведения этого исследования участница НУГ, Воробьева Марья, использует сбор данных с помощью scrapy (“веб-паука”, написанного на Python). Марья собирала данные с сайта IMDb (Internet Movie Database). Несмотря на возникшие в ходе извлечения данных технические трудности, Марье удалось собрать 17 тысяч наблюдений для проведения своего исследования – это художественные фильмы, выпущенные в период с 2014 по 2018 год. В качестве потенциальных детерминант выбора кинофильма в исследовании Марьи выступают пользовательские оценки, оценки кинокритиков, количество наград и номинаций фильма.
В целом сбор данных с использованием парсинга сайтов прошел успешно, а возникшие трудности только помогли участницам лучше разобраться с методом и познакомиться с альтернативными подходами к автоматизированному сбору информации из Интернета. Впереди следующий этап – анализ собранных данных, первыми результатами которых участники НУГ поделятся на ближайшем семинаре.