• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Пропущенные данные в исследованиях: виды, причины и способы работы с ними

Участники научного коллектива поделились опытом работы с пропущенными данными в исследованиях по своим тематикам.

Пропущенные данные в исследованиях: виды, причины и способы работы с ними

Воробьева Марья рассказала о пропущенных данных в исследовании базы кинофильмов IMDb и в работе, посвящённой анализу текстовых описаний арт-пространств. В кейсе базы IMDb пропущенные данные стали большой проблемой, из-за которой одну переменную пришлось исключить из анализа, а также использовать pairwise методы работы с пропущенными значениями. Причиной большого количества пропусков можно назвать отсутствие информации по уникальным наблюдениям, которые затрагиваются при автоматизированном сборе данных. Чем больше база данных, тем больше таких наблюдений, о которых мало информации:  данных по собираемым переменным. 

При работе с текстовыми данными пропуски не играют большой роли, поскольку зачастую анализируется весь массив текста, а не отдельное наблюдение. Но и тут пропущенные данные могут существенно сократить массив анализируемой информации. 

 

В исследовании дейтингового приложения Tinder наличие пропусков стало не столько проблемой, сколько помощником. Бойченко Антон провёл перекодировку данных на основе наличия или отсутствия информации в профиле пользователя по собираемым переменным. В этом случае пропуски сигнализировали о степени заполненности профиля. Антон затем строил классификацию пользователей на основе заполненности их профилей, описывая, таким образом, стратегии саморепрезентации в социальной сети.