Парсер для сайту otomoto.pl
Cкрипт збирає дані (назва, ціна, телефон) з оголошень на сайті Otomoto.
Ключовими проблемами були захист сайту від ботів та декодування телефонів без використання браузерів для максмиальної швидкодії та зниження використання ресурсів. Рішення полягає у спеціальній імітації поведінки реального браузера. Також було проведено зворотну розробку (reverse engineering) алгоритму декодування номерів телефонів.
Можливості:
* Багатопоточна обробка списку посилань з файлу
* Підтримка SOCKS5 проксі та їх ротація для кожного запиту
* Автоматичні повторні спроби при невдалих запитах
* Гнучке налаштування через параметри запуску
* Збереження результатів у CSV-файл та детальний лог помилок
* Можливість працювати без проксі та в 1 потік
Використані технології
* Мова програмування: Node.js
* Бібліотеки: got-scraping, p-queue, fast-csv, socks-proxy-agent
#scraping #парсинг #Node.js #otomoto #контакти
Ключовими проблемами були захист сайту від ботів та декодування телефонів без використання браузерів для максмиальної швидкодії та зниження використання ресурсів. Рішення полягає у спеціальній імітації поведінки реального браузера. Також було проведено зворотну розробку (reverse engineering) алгоритму декодування номерів телефонів.
Можливості:
* Багатопоточна обробка списку посилань з файлу
* Підтримка SOCKS5 проксі та їх ротація для кожного запиту
* Автоматичні повторні спроби при невдалих запитах
* Гнучке налаштування через параметри запуску
* Збереження результатів у CSV-файл та детальний лог помилок
* Можливість працювати без проксі та в 1 потік
Використані технології
* Мова програмування: Node.js
* Бібліотеки: got-scraping, p-queue, fast-csv, socks-proxy-agent
#scraping #парсинг #Node.js #otomoto #контакти