• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Что делать с пропущенными данными? Эксперимент по сравнению метода анализа полных наблюдений и метода индикаторной переменной

На семинаре научного коллектива прошло обсуждение работы по сравнению двух методов обработки пропусков в категориальных данных.

Пропуски в данных могут значительно искажать результаты исследований. С ростом объёма собираемых данных, растёт и объем пропущенных значений. В представленной работе проводится сравнение анализа полных наблюдений и метода индикаторной переменной как подходов к обработке пропусков.



Алексей Ротмистров и Светлана Жучкова проводят экспериментальное сравнение этих двух методов на сгенерированных данных с целью выяснить какой метод даёт более стабильные результаты. Они сравнивают методы по трём критериям: получаемые итоговые коэффициенты регрессионных моделей, размеры стандартных ошибок, показатель R2. 
В результате работы были сделаны выводы, что анализ полных наблюдений является универсальным способом работы с пропущенными значениями в исследованиях. Для оценки связи может быть использован также метод индикаторной переменной. 



Однако, у проведённого эксперимента существует ряд ограничений, на устранение которых будет направлена дальнейшая работа. В частотности, во время дискуссии было высказано предположение о том, что «искусственность» данных могла исказить результаты и при работе с реальными данными методы заполнения пропусков могут показать другие результаты.