Сайт для управления парсерами (Python + Selenium)
Эта простая в использовании, но очень эффективная в работе система для управления парсерами была реализована для наполнения контентом сайтов для листинга бизнесов в США и Великобритании. Состоит из 2 логических компонентов:
* модуля запуска и управления парсерами
* веб-сайта в качестве пользовательского интерфейса.
Главные возможности:
* более 450 реализованных парсеров различной сложности
* обеспечение высокой производительности парсеров за счет параллелизации их работы
* встроенная система защиты от детекции: ротация прокси, отсутствие headless флага благодаря виртуальному дисплею, анти-детект средства для браузеров под управлением Selenium
* контроль работы парсеров: запуск парсера с параметрами (исключение или включение интервалов штатов, провинций, страниц и т.д.), запуск всех парсеров в категории, преждевременная остановка парсинга
* мониторинг работы парсеров: количество успешно обработанных точек, количество заблокированных прокси, общий статус работы
* возможность скачивания лог-файлов для анализа проблем
* возможность обновить перечень парсеров без необходимости полной остановки всех
Технический стек:
* Фреймворки: FastAPI
* Библиотеки: Bootstrap, pymysql, Pillow (были задачи с парсингом изображений)
* Парсинг-инфраструктура: multiprocessing, requests, BeautifulSoup, Selenium, undetected-chromedriver, xvfb
* Другие инструменты: Docker и docker-compose, Sentry
* модуля запуска и управления парсерами
* веб-сайта в качестве пользовательского интерфейса.
Главные возможности:
* более 450 реализованных парсеров различной сложности
* обеспечение высокой производительности парсеров за счет параллелизации их работы
* встроенная система защиты от детекции: ротация прокси, отсутствие headless флага благодаря виртуальному дисплею, анти-детект средства для браузеров под управлением Selenium
* контроль работы парсеров: запуск парсера с параметрами (исключение или включение интервалов штатов, провинций, страниц и т.д.), запуск всех парсеров в категории, преждевременная остановка парсинга
* мониторинг работы парсеров: количество успешно обработанных точек, количество заблокированных прокси, общий статус работы
* возможность скачивания лог-файлов для анализа проблем
* возможность обновить перечень парсеров без необходимости полной остановки всех
Технический стек:
* Фреймворки: FastAPI
* Библиотеки: Bootstrap, pymysql, Pillow (были задачи с парсингом изображений)
* Парсинг-инфраструктура: multiprocessing, requests, BeautifulSoup, Selenium, undetected-chromedriver, xvfb
* Другие инструменты: Docker и docker-compose, Sentry