Что делать с пропущенными данными? Эксперимент по сравнению метода анализа полных наблюдений и метода индикаторной переменной
На семинаре научного коллектива прошло обсуждение работы по сравнению двух методов обработки пропусков в категориальных данных.
Пропуски в данных могут значительно искажать результаты исследований. С ростом объёма собираемых данных, растёт и объем пропущенных значений. В представленной работе проводится сравнение анализа полных наблюдений и метода индикаторной переменной как подходов к обработке пропусков.
Алексей Ротмистров и Светлана Жучкова проводят экспериментальное сравнение этих двух методов на сгенерированных данных с целью выяснить какой метод даёт более стабильные результаты. Они сравнивают методы по трём критериям: получаемые итоговые коэффициенты регрессионных моделей, размеры стандартных ошибок, показатель R2.
В результате работы были сделаны выводы, что анализ полных наблюдений является универсальным способом работы с пропущенными значениями в исследованиях. Для оценки связи может быть использован также метод индикаторной переменной.
Однако, у проведённого эксперимента существует ряд ограничений, на устранение которых будет направлена дальнейшая работа. В частотности, во время дискуссии было высказано предположение о том, что «искусственность» данных могла исказить результаты и при работе с реальными данными методы заполнения пропусков могут показать другие результаты.