Парсинг категории «развлечения» сайта ZOON
Благодаря предварительному анализу и обратному инжинирингу запросов AJAX удалось подобрать оптимальный метод экстракции данных с сайта, не прибегая к использованию ресурсоёмкого решения на базе Selenium + WebDriver. Парсер устойчив к сбоям, и в случае блокировки по IP предлагает ручное решение CAPTCHA.
Итоговая выгрузка в формате CSV (15 тыс. объектов): https://github.com/nik-panekin/zoon_scraper/raw/master/scraping_results.zip
Ключевые технологии: #Python-3, #requests, #beautifulsoup4
GitHub: https://github.com/nik-panekin/zoon_scraper
Итоговая выгрузка в формате CSV (15 тыс. объектов): https://github.com/nik-panekin/zoon_scraper/raw/master/scraping_results.zip
Ключевые технологии: #Python-3, #requests, #beautifulsoup4
GitHub: https://github.com/nik-panekin/zoon_scraper