Возможности и ограничения использования Big Data в социологическом исследовании
13 марта в рамках серии семинаров «Социология рынков» ЛЭСИ НИУ ВШЭ руководитель НУГ Алексей Ротмистров выступил в роли дискуссанта к докладу «Возможности и проблемы работы с big data: исследование конкурсов на бирже удаленной работы».
В рамках семинара обсуждались возможности и ограничения использования big data в социологических исследованиях на примере анализа конкурсов на сайте фрилансеров. Сотрудники Лаборатории экономико-социологических исследований и студенты департамента социологии поделились своим опытом использования «больших данных» и обозначили ряд особенностей, с которыми может столкнуться социолог в подобном исследовании – как методологических (данные становятся основой теории вопреки привычному в социологии подходу), так и технических (например, необходимость постоянно поддерживать актуальность алгоритма сбора данных, большое количество пропущенных значений и т.д.).
Руководитель научно-учебной группы Алексей Ротмистров, выступая одним из дискуссантов исследования, сделал акцент на тех проблемах, которые особенности big data привносят именно в анализ данных. Так, к примеру, огромное число наблюдений и сильно смещенное при этом распределение бинарного отклика делают практически бесполезным применение привычной логистической регрессии, поскольку этот метод эффективен тогда, когда получается качественно предсказать именно «редкую», мало наполненную группу. Для корректного использования метода требуется дополнительная подготовка данных – например, искусственное «выравнивание» распределения с помощью извлечения подвыборки из более наполненной категории и другие техники, применяющиеся в различных методах машинного обучения. Однако, по замечанию Алексея Николаевича, ориентация на такие методы в социологических исследованиях должна происходить осторожно и с постоянной рефлексией, потому что в компьютерных науках, в отличие от социологии, вопрос о точности модели всегда является более приоритетным по сравнению с возможностями интерпретации и генерализации результатов.
В качестве рекомендаций к улучшению построенной в работе модели и при этом получению более глубоких содержательных выводов руководитель НУГ также предложил включить в модель эффекты взаимодействия, поскольку большие данные дают широкие возможности для подобного хода и поскольку многие теоретически важные предикторы в итоговой модели авторов оказались не задействованы. В целом обсуждаемая работа – первый и хороший пример использования интернет-данных для нужд социологического исследования.