• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

Материалы работы научно-учебной группы

В течение этого года коллектив научно-учебной группы активно занимался развитием методов поиска взаимодействий и освоением веб-скрапинга. Собранные данные и подготовленные скрипты опубликованы в открытом доступе.

Материалы работы научно-учебной группы

Все опубликованные материалы могут быть использованы для учебных или научных целей.

Часть 1. Скрипты для реализации методов поиска взаимодействий


Backward_AnOVa.R - код для реализации пошагового алгоритма многофакторного дисперсионного анализа (на языке R). Автор - Антон Бугаев.

Log-linear.ipynb - код для расчета оценок параметров ненасыщенных логлинейных моделей с sum-to-zero кодированием переменных (на языке Python). Автор - Светлана Жучкова.

Backward_Regression.ipynb - код для реализации пошагового алгоритма линейной регрессии с перебором всех возможных эффектов взаимодействия (на языке Python). Автор - Светлана Жучкова.

Часть 2. Базы данных, извлеченных из интернета


imdb.csvimdb.savimdb.xlsx - база фильмов 2007-2017 года выпуска и их характеристик с сайта IMDb.com (N = 39679). Подходит для задач регрессии и классификации. Автор - Марья Воробьева.

kinopoisk.csvkinopoisk.savkinopoisk.xlsx - база оценок разных пользователей, поставленных фильмам, входящим в топ-250 фильмов портала Кинопоиск (N = 14895). Подходит для задач факторизации и кластеризации. Автор - Светлана Жучкова.

creativeindependent.csvcreativeindependent.xlsx - база текстов интервью работников креативной индустрии с сайта https://thecreativeindependent.com/ (N = 515). Подходит для задач тематического моделирования и прочих задач из области Natural Language Processing (NLP). Автор - Марья Воробьева.

killpls.csvkillpls.xlsx - база текстов большей части постов с сайта https://killpls.me/ (N = 23004). Подходит для задач тематического моделирования и прочих задач из области NLP. Автор - Светлана Жучкова.

russian_rap.csvrussian_rap.xlsx - база текстов песен российских хип-хоп исполнителей с сайта рэп-текст.рф (N = 10196). Подходит для задач тематического моделирования и прочих задач из области NLP. Автор - Светлана Жучкова.