Публикации
Представлены результаты эксплораторного анализа русского рэпа на основе корпуса текстов русскоязычных песен этого жанра. Корпус содержит более 11 000 текстов, собранных авторами посредством автоматического извлечения данных с веб-страниц (веб-скрапинга) и покрывающих более 500 исполнителей, творчество которых приходится на разное время и отличается разной степенью известности. Отталкиваясь от идеи о том, что медиа и музыка могут выступать агентом социализации, исследование ставит своей целью поиск тех нарративов, которые представлены в русском рэпе и которые могут оказывать социализирующее действие на многомиллионную аудиторию жанра, особенно на молодых людей. С помощью модели аддитивной регуляризации BigARTM проводится тематическое моделирование, в результате которого выделяются 17 основных тем, встречающихся в русском рэпе. Анализ результатов тематического моделирования показывает: среди всех тем наиболее распространены в рэпе нарративы поиска и становления себя, несчастной любви и смерти, а реже других встречаются размышления о родине и нарратив успеха. Для определения тех тем, которые транслируются наибольшему числу слушателей, анализируется распространенность полученных тем в текстах трех ключевых исполнителей российской хип-хоп сцены: Басты, Тимати и Oxxxymiron. С содержательной точки зрения результаты исследования представляют русский рэп в неожиданном свете, показывают его особенности по сравнению с рэпом, возникшим в США, и могут быть использованы в качестве источника гипотез для будущих исследований русского рэпа. С методологической точки зрения исследование становится обширной иллюстрацией возможностей применения тематического моделирования в исследованиях социальных наук.
Рассматривается проблема гендерного неравенства, проявляющегося в процессе социализации школьников и молодежи и обусловливающего снижение мотивации девочек к выбору технических наук и STEM-профессий в качестве карьеры. Анализируются данные опроса школьников г. Москва и г. Губкин (Белгородская область). Подчеркивается, что, несмотря на объективно высокие достижения девочек, они значительно ниже мальчиков оценивают свои способности и реже связывают свое дальнейшее образование с техническими науками. Раскрывается важность обращения к бинарной логистической регрессии c эффектами взаимодействия для определения детерминант выбора STEMдисциплин школьницами. Установлено, что родители, преподаватель математики, гендерные убеждения, профиль класса обучения, оценка своих знаний по математике и организация школьного учебного плана при конкретных сочетаниях влияют на выбор STEM-дисциплин школьницами. Развивается понятие «скрытый учебный план», предлагается шкала для его измерения. Выявлено, что наиболее значимым фактором выступает «организация учебной жизни и обучающие программы».
Рассматривается вариант работы с пропущенными данными (далее «пропуски») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант работы с пропусками кардинально отличается от других вариантов работы с ними: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Единственный известный нам метод, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. CHAID относится к классу методов деревьев решений; сам по себе этот метод очень интересный и актуальный именно для исследователей, имеющих дело с категориальными переменными и нелинейными связями.
Мы не обнаружили в литературе ответ на вопрос, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. Несмотря на это модели деревьев с пропусками нередко встречаются в эмпирических исследованиях. Чтобы начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. В работе также представлены рекомендации на предмет того, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть».
В работе затрагивается проблема отсутствия разработанных концепций анализа многомерных связей между категориальными признаками при том, что такие признаки и многомерные связи между ними довольно распространены в социологических исследованиях. Об этом свидетельствует ряд методологических работ, в которых делается вывод о необходимости анализа многомерных связей, а не только парных, поскольку многомерные связи не сводятся к набору парных связей. Тем не менее, опыт изучения многомерных связей между категориальными признаками в социологии остаётся довольно ограничен и практически отсутствует его теоретическое обобщение. Настоящим исследованием мы попытались восполнить этот пробел через сравнение трёх методов, подходящих для поиска многомерной связи между категориальными признаками: дерева решений CHAID, логлинейного анализа и множественного анализа соответствий. Сравнение методов происходило на теоретическом и эмпирическом уровнях. Содержательной задачей эмпирического этапа выступило составление портрета типичного представителя электората различных российских политических партий на основе базы 8-й волны Европейского социального исследования, проведённого в 2016 году, и социологического теоретико-методологического подхода к изучению электорального поведения. Результаты применения этих методов были приведены к форме комбинаций категорий; были введены числовые критерии сравнения, благодаря чему был выделен наиболее эффективный метод в двух типах аналитических задач: описании и прогнозировании. Согласно результатам исследования, наиболее эффективным в описательных задачах выступил множественный анализ соответствий, а в задачах прогноза – логлинейный анализ. Последний вывод противоречит сложившемуся мнению о преимуществе CHAID в случаях наличия в данных какого-либо целевого признака и в связи с этим обладает высокой практической значимостью для дальнейшего развития идеи построения высокоточных прогностических моделей в социологических исследованиях.