Прогноз частичных неответов с помощью наивного байесовского классификатора и логистической регрессии: сравнение результатов
В рамках дистанционного семинара аспирантка НИУ ВШЭ Александрова Марина рассказала о применении машинного обучения к прогнозированию неответов (пропусков) на данных исследований ESS.
Причины неответов: свойства как респондента (из-за незнания, отсутствия выраженного мнения или нежелания отвечать), так и вопроса (сложные предложения, сложные слова, сензитивные темы).
В своей работе Марина работает с формулировками вопросов, с целью понять, что может вызывать частичные неответы. Для этого она использует методы работы с текстами и методы машинного обучения: мультиномиальный наивный байесовский классификатор и логистическую регрессию на основе частот слов и TF-IDF, сравнивая два метода. Предполагается, что наивный байесовский классификатор позволяет получать качественные результаты и на небольших выборках и устойчив к переобучению.
После построения моделей Марина приходит к выводу, что респонденты менее охотно отвечают на вопросы, связанные с сензитивными темами. Также некоторые слова из инструкции к вопросам, вероятно, могут приводить к росту отказа от ответа (использование карточек, необходимость что-то оценить «в целом»).
После доклада были обсуждены вопросы интерпретации полученных результатов. Что коэффициенты при словах говорят о влиянии слов на вероятность неответа? Коллеги из научного коллектива также высказали предположения о необходимости дополнительной проверки прогностического качества полученных моделей и их непереобученности.
Александрова Марина Юрьевна
Кафедра методов сбора и анализа социологической информации: Преподаватель