Пропущенные данные в CHAID: насколько оправдано их использование?

17 апреля состоялся очередной открытый семинар НУГ. Светлана Жучкова представила результаты исследования, которые легли в основу доклада на XIX Апрельской международной научной конференции по проблемам развития экономики и общества. Доклад был посвящен использованию пропущенных данных при построении деревьев классификации с помощью метода CHAID.

Методологический семинар НУГ 17 апреля был посвящен CHAID - одному из алгоритмов построения деревьев решений, наиболее распространенному в социологии. Большинство существующих алгоритмов деревьев решений позволяют включать в анализ пропущенные данные, и CHAID не исключение: в нем все пропущенные данные в определенной переменной рассматриваются как отдельная категория этой переменной. Светлана Жучкова рассказала о своем исследовании, которое было проведено совместно с руководителем НУГ Ротмистровым А. Н. и в рамках которого было проанализировано воздействие пропущенных данных на результаты построения моделей. Для того чтобы установить, как включение пропусков сказывается на дереве, была проведена серия статистических экспериментов с “идеальным” (сгенерированным) деревом. Суть экспериментов состояла в следующем: исследователи целенаправленно заменяли валидные значения переменных на пропущенные и фиксировали, как изменялось дерево по сравнению с исходным, о котором исследователям все известно. Само исходное дерево состояло из номинальной зависимой переменной и трех переменных-предикторов: номинальной переменной у корня, интервальной переменной на уровень ниже и ещё одной номинальной переменной уровнем ниже. Пропущенные значения вводились случайным образом только к номинальным предикторам. Половина экспериментов была проведена с добавлением пропущенных данных к переменной у корня дерева, а половина с добавлением их к предиктору не у корня. Также, эксперименты различались по точности прогноза исходного дерева (75% и 100%) и доле пропущенных данных (10%, 25% и 50%). Общее число проведенных экспериментов составило 780.

Было установлено, что пропущенные данные могут существенно менять структуру дерева, не ухудшая при этом качество прогноза. Иными словами, объекты продолжают в целом классифицироваться верно, но “доверять” содержательной интерпретации найденных эффектов взаимодействия становится невозможно. Так, например, могут появляться новые узлы и изменяться или отсутствовать существующие, что иллюстрирует наличие в решении статистических ошибок. На основе индекса порчи дерева, рассчитанного Светланой и Алексеем Николаевичем, были составлены рекомендации, когда пропущенные данные можно оставлять в анализе: их доля должна быть низкой, пропуски должны располагаться вдали от корня дерева, исследователь должен преследовать цель прогноза, а не поиска взаимодействий, характер пропусков должен быть неслучайным (то есть пропуски должны обозначать единую содержательную категорию).

Кроме того, Светлана проанализировала изменение структуры дерева из модели Мхитарян Тамары, доклад которой состоялся 20 марта, при добавлении в него пропущенных данных. Статистические эксперименты подтвердились, дерево действительно претерпело значительные изменения.

После разговора об ограничениях и перспективах исследования состоялось обсуждение участниками НУГ метода CHAID в целом, его недостатков и преимуществ, а также возможностей использования с учётом наличия пропущенных данных в выборке.

Возможности работы с пропущенными данными в CHAID.pdf

Дата

17 апреля 2018

Рубрики

Наука

Темы

дискуссии статистические данные

В статье упомянуты

Научный коллектив Randan

Персоны

Жучкова Светлана Васильевна

Ротмистров Алексей Николаевич