Парсер данных на Python/Selenium с avto.pro
Задача заключалась в извлечении данных продавцов, их магазинов и автосервисов с сайта avto.pro.
Поскольку большая часть необходимого контента загружается на страницах динамически, я выполнил это с помощью #selenium. Основной сложностью в этом проекте было найти URL страниц продавцов, так как нет определенного списка или страницы, где их можно было бы найти.
Сайт сделан так (возможно, специально), что для того, чтобы попасть на страницу продавца, нужно пройти путь от выбора авто или запчасти до выбора конкретной детали. И только тогда, при клике на нее, мы видим только ее продавца.
Поэтому мой парсер прокликает все детали на всех страницах (а их больше миллиона) и извлекает необходимую информацию.
Результат парсинга сохраняется в БД #sqlite и экспортируется в #Exell #xlsx файл
Поскольку большая часть необходимого контента загружается на страницах динамически, я выполнил это с помощью #selenium. Основной сложностью в этом проекте было найти URL страниц продавцов, так как нет определенного списка или страницы, где их можно было бы найти.
Сайт сделан так (возможно, специально), что для того, чтобы попасть на страницу продавца, нужно пройти путь от выбора авто или запчасти до выбора конкретной детали. И только тогда, при клике на нее, мы видим только ее продавца.
Поэтому мой парсер прокликает все детали на всех страницах (а их больше миллиона) и извлекает необходимую информацию.
Результат парсинга сохраняется в БД #sqlite и экспортируется в #Exell #xlsx файл