Семинар «Чистка баз данных: первичная обработка данных географических наименований» ПГ «Миграционные намерения жителей России»
В субботу 13 апреля состоялся четвертый семинар проектной группы “Миграционные намерения жителей России”. Семинар был методическим. Руководитель проектной группы Екатерина Шарепина (преподаватель и младший научный сотрудник Института демографии им. А.Г. Вишневского) и студентка ОП “Вычислительные социальные науки” Анна Моисеева рассказали об алгоритме, разработанном на языке программирования Python, который упрощает процесс подготовки данных географических наименований к анализу. Оппонентом выступила Смирнова Анастасия, стажер-исследователь лаборатории социогуманитарных исследований Севера и Арктики, преподаватель Школы лингвистики.
Во время экспедиций в регионах проводились опросы, направленные на получение сведений о миграции населения. Интервьюеры спрашивали у респондентов, откуда те приехали; куда мигрировали их родственники и т.д. и вносили страну, регион, район и населённый пункт в специальные формы. В полученных данных (в названиях топонимов) могли быть опечатки, или могла быть указана неполная информация. Задача разработанной программы – исправить опечатки и восстановить пропущенные значения.
Екатерина Шарепина рассказала о специфике сбора данных, а также о подходах, которые используются для исправления опечаток в анкетных опросах. Слушатели узнали, какие виды опечаток существуют, и какие типы алгоритмов можно применять для их исправления. Далее спикеры раскрыли принцип работы взвешенного алгоритма Левенштейна - именно он был использован для редактирования данных экспедиционных опросов проектной группы.
Анна Моисеева рассказала, что данный алгоритм предполагает подготовку «корпуса» - набора «правильно» написанных значений для последующего сравнения, поиска опечаток и заполнения пропусков. Для каждой пары слов (одна – из корпуса правильных значений, вторая – из базы анкетного опроса), поступающих на вход, он рассчитывает редакционное расстояние: сколько необходимо сделать вставок, замен и удалений символов для того, чтобы из первой строки сделать вторую.
Исследователи усовершенствовали алгоритм, сделав его более подходящим для корректировки данных проектной группы. Была разработана логика функционирования программы: для этого рассчитывалось возможное количество опечаток в топонимах, их иерархия (от страны до населенного пункта), создавались корпуса топонимов, на которые будет опираться алгоритм.
По итогам подготовки данных с помощью разработанного алгоритма оказалось, что только 33% общих данных было изначально оценено программой, как верные и не требующие исправления. В 22% случаев алгоритм видел ошибку, но не мог ее исправить. Это связывалось с отсутствием корпуса топонимов по другим странам, помимо РФ, которые также встречаются в миграционных опросах, и с омонимами. 45% данных были изменены программой.
Это впечатляющий результат, но перспективы для совершенствования программы еще есть. По окончании доклада спикеры и гости (в том числе подключенные онлайн) обсудили проблемы алгоритма - задавались вопросы о корпусе географических наименований, о том, как быть в случае изменений в административном делении. Слушатели с опытом экспедиционных опросов доказывали, что, действительно, заполнить анкету без единой ошибки в поле практически невозможно.
Оппонентка Анастасия Смирнова поделилась опытом лаборатории социогуманитарных исследований Севера и Арктики. Участники проектной группы и слушатели узнали, как можно подготавливать к анализу большие массивы качественных данных. Анастасия представила примеры баз данных, в которых по ключевым словам удобно находить необходимые для анализа цитаты и характеристики информантов.
Семинар завершился традиционным чаепитием с пирогами и обсуждением перспектив проектной группы “Миграционные намерения жителей России”.