Материалы работы научно-учебной группы
В течение этого года коллектив научно-учебной группы активно занимался развитием методов поиска взаимодействий и освоением веб-скрапинга. Собранные данные и подготовленные скрипты опубликованы в открытом доступе.
Все опубликованные материалы могут быть использованы для учебных или научных целей.
Часть 1. Скрипты для реализации методов поиска взаимодействий
Backward_AnOVa.R - код для реализации пошагового алгоритма многофакторного дисперсионного анализа (на языке R). Автор - Антон Бугаев.
Log-linear.ipynb - код для расчета оценок параметров ненасыщенных логлинейных моделей с sum-to-zero кодированием переменных (на языке Python). Автор - Светлана Жучкова.
Backward_Regression.ipynb - код для реализации пошагового алгоритма линейной регрессии с перебором всех возможных эффектов взаимодействия (на языке Python). Автор - Светлана Жучкова.
Часть 2. Базы данных, извлеченных из интернета
imdb.csv, imdb.sav, imdb.xlsx - база фильмов 2007-2017 года выпуска и их характеристик с сайта IMDb.com (N = 39679). Подходит для задач регрессии и классификации. Автор - Марья Воробьева.
kinopoisk.csv, kinopoisk.sav, kinopoisk.xlsx - база оценок разных пользователей, поставленных фильмам, входящим в топ-250 фильмов портала Кинопоиск (N = 14895). Подходит для задач факторизации и кластеризации. Автор - Светлана Жучкова.
creativeindependent.csv, creativeindependent.xlsx - база текстов интервью работников креативной индустрии с сайта https://thecreativeindependent.com/ (N = 515). Подходит для задач тематического моделирования и прочих задач из области Natural Language Processing (NLP). Автор - Марья Воробьева.
killpls.csv, killpls.xlsx - база текстов большей части постов с сайта https://killpls.me/ (N = 23004). Подходит для задач тематического моделирования и прочих задач из области NLP. Автор - Светлана Жучкова.
russian_rap.csv, russian_rap.xlsx - база текстов песен российских хип-хоп исполнителей с сайта рэп-текст.рф (N = 10196). Подходит для задач тематического моделирования и прочих задач из области NLP. Автор - Светлана Жучкова.