• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 101000, Москва,
ул. Мясницкая, д. 11.

Телефон:
8 (495) 772-95-90*12349

E-mail: izangieva@hse.ru

Руководство
Руководитель департамента Зангиева Ирина Казбековна
Научный руководитель Чепуренко Александр Юльевич
Заместитель руководителя Стребков Денис Олегович
Заместитель руководителя Большаков Никита Викторович

Кофе, R и большие данные: о методологической летней школе в Анн Арборе

Летняя программа обучения количественным методам в социальных науках Межуниверситетского консорциума политических и социальных исследований, является, вероятно, самой престижной методологической летней школой в социальных науках. Каждый год Университет Мичигана принимает тысячи молодых ученых, стремящихся развить свои исследовательские навыки под руководством специалистов мирового уровня. О своем опыте обучения на программе рассказывает доцент кафедры методов сбора и анализа социологической информации Максим Руднев.

Этим летом благодаря поддержке Центра повышения квалификации и факультета социальных наук мне удалось пройти обучение в Летней программе Межуниверситетского консорциума по политическим и социальным исследованиям, которая уже более семидесяти лет ежегодно проходит в Университете Мичигана, США, в городе Анн Арбор.

Это был уже второе мое участие в данной программе. Она предлагает очень концентрированные курсы, которые позволяют за месяц освоить материал, рассчитанный на семестр или два обычной учебы. Учебная нагрузка настолько велика, что едва хватает времени на обед.  Курсов много и все участники могут ходить на любые из них, начинать и прерывать посещение, когда почувствуют в этом потребность.

Сначала я посещал три курса, но потом понял, что это слишком много и остановился на двух наиболее важных для меня — «Углубленная Байесовская статистика» (Advanced Bayesian Statistics) и «Анализ причинно-следственных отношений» (Causal Inference). Наиболее интересной и полезной мне показались первые две недели Байесовской статистики, которые читал Джеффри Харден из Университета Колорадо, здесь мы разбирали основы байесовских принципов и процедур сэмплинга при поиске апостериорных распределений, в том числе прошли пошагово EM-алгоритм и различные виды алгоритмов Монте-Карло-Сети-Маркова, включая Метрополис-Хастингс, Гиббс и другие. Теоретические основы перемежались с их прикладной реализацией в различных пакетах R и на примерах анализа конкретных данных. Вторая часть курса, которую вел Дэниел Стегмюллер, была посвящена байесовскому подходу к знакомым методам анализа данных, таких как разнообразные регрессии, факторный анализ, анализ смешанных распределений. Здесь больше всего внимания важно уделить подбору априорных распределений, что и составляет основную сложность этого подхода (наряду, разумеется, с рядом важных преимуществ перед фреквентистами).  

Анализ причинно-следственных отношений начался с исторического экскурса в основы экспериментального дизайна. Бен Хансен в свойственной ему непринужденной манере активно вовлекал студентов в общение и демонстрировал логику, лежащую за классическим примером эксперимента Рональда Фишера с дамой, которая утверждает, что может определить последовательность, в которой наливали в чашке кофе и молоко. Вместо этого Бен предлагал попробовать собственноручно сваренный кофе и тот, что бесплатно наливали в офисе Летней программы. После ряда проб мы вычисляли, насколько испытуемый приблизился к истине, и принимали решение о способности испытуемого определять тип кофе. Это было весело и по-новому открывало хорошо известный смысл p-значений. В дальнейшем курс углубился в различные отклонения от случайности рандомизации в эксперименте и методах их коррекции с помощью, в частности, propensity scores matching. 

Помимо основных курсов, Летняя программа предлагает множество лекций имени Блалока — это короткие курсы, состоящие из одной-пяти лекций на заданную тему. Курс Мэтью Денни был посвящен анализу big data, и там описывались самые общие проблемы. Например, Мэтью дал представление о том, что разные алгоритмы обладают разной эффективностью и показал, например, что гораздо эффективнее для анализа огромных массивов данных использовать язык программирования С++, чем широко применяемый R, и продемонстрировал, как им пользоваться прямо из среды R. Такие обзорные курсы дают очень практически полезную информацию, которая очень облегчает жизнь исследователя-аналитика. Среди других таких практически ориентированных курсов были "Введение в R",  использование издательской системы LaTeX, а также тренинг по публикации в академических журналов с редакторами ведущих политологических журналов. 

В целом, эта школа дает огромное количество материала, которое мне предстоит переваривать еще не один месяц, и, что очень важно, вооружает не только теоретическими знаниями, но и инструментами для реализации собственных исследований.


Максим Руднев,
ведущий научный сотрудник Лаборатории сравнительных исследований массового сознания