Марья Воробьева рассказала о возможностях парсинга сайтов с помощью Selenium
В рамках практических семинаров НУГ, посвящённых изучению различных методов веб-скрапинга, Марья Воробьева подготовила доклад о парсинге сайтов с помощью Selenium. На семинаре она рассказывала о возможностях автоматической работы с браузером и разбирала примеры взаимодействия с сайтом и парсинга текстовой информации.
Автоматизация работы с браузером с помощью библиотеки Selenium, реализуемой на Python, имеет особую пользу, если информация на страницах сайта представлена в виде прокрутки и загрузки новых объектов, так как позволяет собрать все объекты без взаимодействия пользователя с сайтом, то есть отсутствует необходимость прокручивать сайт для дозагрузки.
С помощью веб-драйвера, позволяющего взаимодействовать с сайтом в автоматическом режиме, были сымитированы такие действия пользователя как ввод поискового запроса, нажатие на элементы сайта, извлечение с сайта ссылок на другие страницы и его текстового содержимого, а также взаимодействие с динамическими элементами сайта, в частности, закрытие всплывающих окон.
На семинаре Марьей был рассмотрен конкретный пример использования библиотеки Selenium для излечения названий и ссылок на статьи, которые выдаёт сайт mixmag.net при введении поискового запроса “London”.
Более подробно с содержанием семинара можно ознакомиться в прикрепленном документе.
Воробьева_М_Selenium (DOCX, 16 Кб)