Парсер для сайта otomoto.pl
Скрипт собирает данные (название, цена, телефон) с объявлений на сайте Otomoto.
Ключевыми проблемами были защита сайта от ботов и декодирование телефонов без использования браузеров для максимальной скорости и снижения использования ресурсов. Решение заключается в специальной имитации поведения реального браузера. Также было проведено обратное проектирование (reverse engineering) алгоритма декодирования номеров телефонов.
Возможности:
* Многопоточная обработка списка ссылок из файла
* Поддержка SOCKS5 прокси и их ротация для каждого запроса
* Автоматические повторные попытки при неудачных запросах
* Гибкая настройка через параметры запуска
* Сохранение результатов в CSV-файл и подробный лог ошибок
* Возможность работать без прокси и в 1 поток
Использованные технологии
* Язык программирования: Node.js
* Библиотеки: got-scraping, p-queue, fast-csv, socks-proxy-agent
#scraping #парсинг #Node.js #otomoto #контакты
Ключевыми проблемами были защита сайта от ботов и декодирование телефонов без использования браузеров для максимальной скорости и снижения использования ресурсов. Решение заключается в специальной имитации поведения реального браузера. Также было проведено обратное проектирование (reverse engineering) алгоритма декодирования номеров телефонов.
Возможности:
* Многопоточная обработка списка ссылок из файла
* Поддержка SOCKS5 прокси и их ротация для каждого запроса
* Автоматические повторные попытки при неудачных запросах
* Гибкая настройка через параметры запуска
* Сохранение результатов в CSV-файл и подробный лог ошибок
* Возможность работать без прокси и в 1 поток
Использованные технологии
* Язык программирования: Node.js
* Библиотеки: got-scraping, p-queue, fast-csv, socks-proxy-agent
#scraping #парсинг #Node.js #otomoto #контакты