Python/Selenium парсер даних з avto.pro
Завдання було витягнути з сайту avto.pro дані продавців, їхні магазини та автосервіси.
Оскільки більшість потрібного контенту завантажується на сторінках динамічно, я виконав це за допомогою #selenium. Основною складністю в цьому проєкті було знайти URL сторінок продавців, оскільки немає певного списку чи сторінки, де їх можна було б знайти.
Сайт зроблено так (можливо, спеціально), що для того, щоб потрапити на сторінку продавця, потрібно пройти шлях від вибору авто або запчастини до обрання конкретної деталі. І вже тоді, при кліку на неї, ми бачимо лише її продавця.
Тому мій парсер проклікує всі деталі на всіх сторінках (а їх більше мільйона) і витягує потрібну інформацію.
Результат парсингу зберігається в БД #sqlite і експортується в #Exell #xlsx файл
Оскільки більшість потрібного контенту завантажується на сторінках динамічно, я виконав це за допомогою #selenium. Основною складністю в цьому проєкті було знайти URL сторінок продавців, оскільки немає певного списку чи сторінки, де їх можна було б знайти.
Сайт зроблено так (можливо, спеціально), що для того, щоб потрапити на сторінку продавця, потрібно пройти шлях від вибору авто або запчастини до обрання конкретної деталі. І вже тоді, при кліку на неї, ми бачимо лише її продавця.
Тому мій парсер проклікує всі деталі на всіх сторінках (а їх більше мільйона) і витягує потрібну інформацію.
Результат парсингу зберігається в БД #sqlite і експортується в #Exell #xlsx файл