Поиск многомерной связи категориальных признаков: сравнение CHAID, логлинейного анализа и множественного анализа соответствий
5 июня в рамках семинара НУГ прошла очередная предзащита выпускной работы. На этот раз с докладом выступила студентка бакалавриата Светлана Жучкова. В своей дипломной работе Светлана рассматривает методы поиска многомерной связи категориальных признаков, работая в парадигме Data Mining.
Несмотря на то, что категориальные переменные (переменные, измеренные по порядковым или номинальным шкалам) широко распространены в социологических исследованиях, анализ категориальных данных зачастую ограничивается рассмотрением этих признаков в двумерном «разрезе». Одновременно с этим в литературе можно обнаружить довольно много предпосылок – как теоретических, так и эмпирических – к поиску и анализу гораздо более сложных, многомерных связях таких признаков. Данную проблему Светлана подчеркивает в своей работе, в которой она сравнивает возможности CHAID, логлинейного анализа и множественного анализа соответствий в задачах поиска подобной многомерной связи. Её целью стало выявление наиболее эффективных с точки зрения насыщенности содержательной интерпретации и с точки зрения прогноза методов поиска взаимодействий категориальных признаков. Основываясь на своём исследовательском опыте, а также на глубоком анализе литературы, студентка предположила, что самым эффективным методом с точки зрения получения наиболее «насыщенных» содержательных результатов окажется логлинейный анализ, а метод CHAID станет самым эффективным с точки зрения прогнозирования зависимой переменной с помощью выявленных сочетания признаков.
После теоретического сравнения методов и операционализации основных показателей для эмпирического сравнения Светлана строила модели мультиноминальной регрессии, в которые она включала эффекты взаимодействия, ранее выявленные тремя различными способами (CHAID, логлинейным анализом и множественным анализом соответствий) с одной и той же зависимой переменной. Полученные результаты дали основания для отвержения гипотез исследования. Вопреки ожиданиям, лучшие с точки зрения насыщенности получаемых сочетаний результаты показал множественный анализ соответствий (метод выделил больше комбинаций признаков, размерность которых значимо превосходила размерность сочетаний из других методов), а самым эффективным в задачах дальнейшего прогноза стал метод логлинейного анализа (регрессионная модель с эффектами взаимодействия, полученными с помощью логлинейного анализа, имела показатель псевдо-R2 Nagelkerke 0,186 против 0,115 для модели с эффектами взаимодействий, выявленных CHAID – различия статистически значимы). В конце своей работы Светлана высказала предположения о том, почему могли получиться такие результаты, намечая поле для возможных будущих исследований.