• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 101000 Москва, Мясницкая 9/11, комн.331

Телефон: +7 (495) 772-95-90 *12018

E-mail: method@hse.ru

Руководство
заведующая кафедрой Козина Ирина Марксовна
Кафедра методов сбора и анализа социологической информации: заместитель заведующего кафедрой Зангиева Ирина Казбековна

Прогноз частичных неответов с помощью наивного байесовского классификатора и логистической регрессии: сравнение результатов

В рамках дистанционного семинара Научно-учебной группы «Randan – группа анализа социологических данных» преподавательница кафедры методов сбора и анализа социологической информации Марина Александрова рассказала о применении машинного обучения к прогнозированию неответов (пропусков) на данных исследований ESS.

Причины неответов: свойства как респондента (из-за незнания, отсутствия выраженного мнения или нежелания отвечать), так и вопроса (сложные предложения, сложные слова, сензитивные темы).



В своей работе Марина работает с формулировками вопросов, с целью понять, что может вызывать частичные неответы. Для этого она использует методы работы с текстами и методы машинного обучения: мультиномиальный наивный байесовский классификатор и логистическую регрессию на основе частот слов и TF-IDF, сравнивая два метода. Предполагается, что наивный байесовский классификатор позволяет получать качественные результаты и на небольших выборках и устойчив к переобучению. 



После построения моделей Марина приходит к выводу, что респонденты менее охотно отвечают на вопросы, связанные с сензитивными темами. Также некоторые слова из инструкции к вопросам, вероятно, могут приводить к росту отказа от ответа (использование карточек, необходимость что-то оценить «в целом»).



После доклада были обсуждены вопросы интерпретации полученных результатов. Что коэффициенты при словах говорят о влиянии слов на вероятность неответа? Коллеги из научного коллектива также высказали предположения о необходимости дополнительной проверки прогностического качества полученных моделей и их непереобученности.