Введение в парсинг: опыт работы с Python студентки ФСН
Несмотря на приближение майских праздников, семинар НУГ, проведенный 30 апреля, не остался без внимания слушателей. Анастасия Родыгина, приглашенная студентка 3 курса департамента социологии ФСН, рассказала о своем опыте парсинга сайтов на языке Python.
Анастасия давно интересуется анализом данных и использованием возможностей Python в социальных науках. Ее опыт поможет участникам НУГ разобраться с техникой парсинга и web-скрэппинга для применения их в своих собственных исследованиях. Анастасия представила три способа получить информацию из интернета: Scrapy, Beautiful Soup или API. Scrapy — это фреймворк, который создает “веб-паука”, выполняющего GET-запросы, и таким образом извлекает данные из HTML-файла. Анастасия объяснила принципы работы с ним на примере собственного опыта парсинга сайта журнала “Нож”: перед ней стояла задача извлечения ссылок и названий статей из первой страницы раздела How to. Следующий способ, Beautiful Soup — это парсер для синтаксического разбора HTML/XML файлов, преимущество которого состоит в возможности преобразовать даже неправильную разметку страниц в дерево синтаксического разбора. Анастасия продемонстрировала его работу на примере сбора данных с сайта журнала Demoscope Weekly. Наконец, API (application programming interface) — это интерфейс, созданный разработчиками определенного сайта для того, чтобы сделать информацию более доступной для пользователей. Например, раздел API “ВКонтакте” позволяет выгружать личные сообщения, комментарии в группах, списки друзей и многое другое.
Не всем участникам сразу удалось разобраться с новым для них языком программирования. Это подтолкнуло руководителя учебной группы Алексея Ротмистрова задуматься о назначении внепланового закрытого практического занятия, посвящённого освоению парсинга.
Все материалы с семинара, в том числе презентация и файлы с кодами, а также гайд по установке Anaconda for Python, доступны на сайте.