• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Марья Воробьева рассказала о возможностях парсинга сайтов с помощью Selenium

В рамках практических семинаров НУГ, посвящённых изучению различных методов веб-скрапинга, Марья Воробьева подготовила доклад о парсинге сайтов с помощью Selenium. На семинаре она рассказывала о возможностях автоматической работы с браузером и разбирала примеры взаимодействия с сайтом и парсинга текстовой информации.

Автоматизация работы с браузером с помощью библиотеки Selenium, реализуемой на Python, имеет особую пользу, если информация на страницах сайта представлена в виде прокрутки и загрузки новых объектов, так как позволяет собрать все объекты без взаимодействия пользователя с сайтом, то есть отсутствует необходимость прокручивать сайт для дозагрузки.

С помощью веб-драйвера, позволяющего взаимодействовать с сайтом в автоматическом режиме, были сымитированы такие действия пользователя как ввод поискового запроса, нажатие на элементы сайта, извлечение с сайта ссылок на другие страницы и его текстового содержимого, а также взаимодействие с динамическими элементами сайта, в частности, закрытие всплывающих окон.

На семинаре Марьей был рассмотрен конкретный пример использования библиотеки Selenium для излечения названий и ссылок на статьи, которые выдаёт сайт mixmag.net при введении поискового запроса “London”.

Более подробно с содержанием семинара можно ознакомиться в прикрепленном документе.

Воробьева_М_Selenium (DOCX, 16 Кб)