Пропущенные данные в исследованиях: виды, причины и способы работы с ними
Участники научного коллектива поделились опытом работы с пропущенными данными в исследованиях по своим тематикам.
Воробьева Марья рассказала о пропущенных данных в исследовании базы кинофильмов IMDb и в работе, посвящённой анализу текстовых описаний арт-пространств. В кейсе базы IMDb пропущенные данные стали большой проблемой, из-за которой одну переменную пришлось исключить из анализа, а также использовать pairwise методы работы с пропущенными значениями. Причиной большого количества пропусков можно назвать отсутствие информации по уникальным наблюдениям, которые затрагиваются при автоматизированном сборе данных. Чем больше база данных, тем больше таких наблюдений, о которых мало информации: данных по собираемым переменным.
При работе с текстовыми данными пропуски не играют большой роли, поскольку зачастую анализируется весь массив текста, а не отдельное наблюдение. Но и тут пропущенные данные могут существенно сократить массив анализируемой информации.
В исследовании дейтингового приложения Tinder наличие пропусков стало не столько проблемой, сколько помощником. Бойченко Антон провёл перекодировку данных на основе наличия или отсутствия информации в профиле пользователя по собираемым переменным. В этом случае пропуски сигнализировали о степени заполненности профиля. Антон затем строил классификацию пользователей на основе заполненности их профилей, описывая, таким образом, стратегии саморепрезентации в социальной сети.