Описание научного проекта
Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях (2019-2020 гг.)
Аннотация исследования
Исследование представляет собой комплексное сравнение различных методов обработки пропущенных данных в социологических исследованиях. Существует множество различных методов обработки пропусков, и выбор конкретного из них связан со многими факторами: какие переменные участвуют в анализе, какой метод анализа применяется, каковы свойства пропущенных данных (их пропорция и механизм порождения) и т. д. Несмотря на существование различных методов, до сих пор самым распространённым в эмпирических исследованиях остаётся анализ полных наблюдений – стратегия, при которой все наблюдения с пропущенными данными просто не включаются в анализ. Одновременно с этим известно, что такой способ применим только в случае, если пропуски в данных полностью случайны, в противном случае анализ полных наблюдений влечёт за собой смещённые оценки параметров моделей, а следовательно и неверные содержательные результаты.
На текущий момент выбор иного метода обработки пропусков в исследовании – это отдельная трудоёмкая задача, усугубляющаяся тем, что для большинства методов результаты исследования их свойств остаются противоречивы. Если в каких-то исследованиях отдельные методы дают несмещённые результаты в сравнении с другими методами, то в других исследованиях может наблюдаться противоположная картина. Отчасти это связано с тем, что стандартизированная методология сравнения разных методов между собой отсутствует и зачастую методы сравниваются на реальных данных, что не позволяет исследователям полностью контролировать все факторы, влияющие на получаемые результаты. Наше исследование посвящено систематизации знаний о существующих методах обработки пропусков путём комплексного сравнения их свойств и составления простых рекомендаций по их выбору в определённой исследовательской ситуации. В отличие от предыдущих похожих исследований, мы предлагаем использовать более строгую методологию, объединяющую проведение контролируемого статистического эксперимента на симулированных данных и иллюстрацию получаемых результатов на реальных данных. Исследование направлено на изучение свойств как методов, применимых к непрерывным переменным, так и методов, применимых к категориальным переменным – наиболее распространённым в социологических исследованиях. Результаты исследования станут некоторым практическим руководством по выбору правильного метода обработки пропусков в конкретной исследовательской ситуации, а также разрешат противоречия в текущих результатах сравнения методов за счёт более строгой и стандартизированной методологии.
Новизна и перспективность
Мы выделяем два основных недостатка методологии текущих исследований, посвящённых сравнению различных методов обработки пропущенных данных. Во-первых, эти сравнения чаще всего основаны на реальных данных. Использование реальных данных в статистических экспериментах приводит к тому, что исследователь не может контролировать все факторы эксперимента, т.е. результаты, получаемые в таких экспериментах, могут быть подвержены влиянию особенностей используемых данных и не объясняться изучаемыми свойствами методов. В том числе из-за этого многие текущие результаты сравнения одних и тех же методов являются противоречивыми. Во-вторых, в таких исследованиях чаще всего используются непрерывные (континуальные) данные, которые слабо распространены в социологических исследованиях. Свойствам методов обработки категориальных (дискретных) переменных с пропусками уделяется мало внимания.
Новизна и перспективность предлагаемой в нашем проекте методологии заключается в преодолении этих двух недостатков. Первый недостаток устраняется через использование в первую очередь симулированных, а не реальных эмпирических данных, второй - через рассмотрение категориальных данных наряду с непрерывными. Отдельной задачей нашего исследования мы видим предложение единой стандартизированной методологии проведения статистических экспериментов для изучения свойств методов обработки пропущенных значений.
Практическая значимость предполагаемых результатов данного исследования, их значение для конкретных прикладных областей деятельности
Результаты исследования станут некоторым практическим руководством по выбору правильного метода обработки пропусков в конкретной исследовательской ситуации, полезным для любого исследователя, работающего с количественными данными, а также разрешат противоречия в текущих результатах сравнения методов за счёт более строгой и стандартизированной методологии.
Обоснование преимуществ поиска эффектов взаимодействия и их учета в социологических регрессионных моделях (2018-2019 гг.)
Аннотация исследования
Работа призвана обосновать и продемонстрировать конкретные преимущества использования в социологических исследованиях методов поиска взаимодействий по сравнению с традиционными методами поиска связей в данных. Под взаимодействием здесь понимается «сочетание значений признаков, детерминирующих интересующее социолога явление». Несмотря на существование специальных методов по их поиску, большинство отечественных социологов практиков избегают их использования, таким образом сознательно или бессознательно упрощая представления о социальной реальности в своих моделях. При этом исследователи, оставаясь в рамках классических моделей, которые ориентируются на линейную связь и не учитывают взаимодействия, находятся в ситуации, когда заложенные в методе предпосылки не адекватны характеру изучаемого социального явления. В результате этого получаемые содержательные выводы могут интерпретироваться неверно, а выводы, не лежащие на поверхности, и вовсе остаются вне поля зрения исследователей. Об этом свидетельствует качество получаемых социологами моделей: типичный социолог «теряет» в результате моделирования не просто половину информации о явлении, а практически всю имеющуюся у него информацию.
Предлагаемое методологическое исследование базируется на вторичном анализе данных в рамках четырех тематических мини-групп, возглавляемых руководителем проекта с активным участием студентов. В рамках этого вторичного анализа предполагается рассмотреть и комплексно охарактеризовать познавательные и прогностические возможности двух широких классов методов, позволяющих обнаруживать взаимодействия: логарифмически линейных моделей и моделей деревьев решений. Оба класса методов отличаются универсальностью, простотой и доступностью.
Результаты работы могут быть полезны специалистам в области анализа количественных данных в социальных науках и смежных дисциплинах, поскольку разработанные рекомендации по использованию методов поиска взаимодействий станут инструментом, во-первых, для более глубокого анализа номинальных и порядковых переменных, столь распространенных в социальных науках, и, во-вторых, для построения высокоточных прогностических моделей, т.е. таких, точность прогноза которых сможет превзойти точность «метода подбрасывания монетки». Планируемые научные результаты послужат устранению одной из главных причин непопулярности использования методов поиска взаимодействий в социологических моделях – отсутствия в литературе как теоретических, так и эмпирических обоснований преимуществ их использования. С содержательной стороны, научные результаты с выявленными многомерными связями в конкретных тематических направлениях работы группы помогут дополнить выводы, полученные в уже существующих эмпирических работах по соответствующим темам.
Новизна и перспективность применяемых в работе методов исследования
Сами по себе заявленные к рассмотрению и использованию методы не новы: большая часть из них были разработаны в 60-80х гг. прошлого столетия; новым же станет их применение к конкретным социологическим данным из разных тематических областей, а также сравнение между собой результатов, полученных с использованием классических и выбранных методов. Абсолютно новой можно назвать запланированную попытку применить для поиска взаимодействий в социологических данных так называемые ансамбли деревьев решений (альтернатива одиночным деревьям): в настоящее время подобные алгоритмы применяются только в компьютерных науках, хотя их назначение актуально и для социальных наук – сделать более устойчивым решение, полученное на одиночной модели дерева, и исключить переобученность модели. Кроме того, в ходе исследования для получения более надежных содержательных результатов планируется применение байесовских аналогов некоторых логарифмически линейных моделей, использование которых в социальных науках совершенно не распространено, и их сравнение с соответствующими традиционными моделями. Сравнение двух выбранных классов методов поиска взаимодействий (логарифмически линейных моделей и моделей деревьев решений) также относительно ново для исследований в социальных науках.
Перспективность заявленных к рассмотрению и использованию методов обусловлена двумя составляющими: во-первых, это их свойства (универсальность, простота и доступность), во-вторых, это предполагаемое в генеральной гипотезе достижение улучшения качества прогностических моделей при использовании выбранных методов.
Практическая значимость предполагаемых результатов данного исследования, их значение для конкретных прикладных областей деятельности
Результаты исследования могут быть полезны специалистам в области анализа количественных данных в социальных науках и смежных дисциплинах, поскольку разработанные рекомендации по использованию методов поиска взаимодействий станут инструментом, во-первых, для более глубокого анализа номинальных и порядковых переменных, столь распространенных в социальных науках, и, во-вторых, для построения высокоточных прогностических моделей, т.е. таких, точность прогноза которых сможет превзойти точность «метода подбрасывания монетки».
Кроме того, систематизация существующих методов поиска взаимодействий, описание возможностей их применения к данным социологических исследований (включая преимущества, недостатки и ограничения методов, проиллюстрированные на конкретных эмпирических примерах согласно тематическим направлениям работы группы) могут существенно дополнить материал продвинутых курсов по методам анализа социологических данных в высших учебных заведениях.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.