Техническое задание на разработку парсера (скрапера) Amazon
Задача: Необходимо разработать надежный и отказоустойчивый скрапер для получения информации с Amazon по большому количеству товаров (миллионы ASIN). Скрапер должен стабильно работать в режиме 24/7 и минимизировать возникновение ошибок HTTP 503 (блокировка или ограничение доступа).
Обязательные требования:
Парсинг данных:
- Получение информации по товарам: название, цена, рейтинг, количество отзывов, наличие на складе, описание товара, изображения и другую информацию со страницы товара по заданному списку ASIN.
- Поддержка большого объема запросов (от 100,000 до нескольких миллионов товаров).
Стабильность и масштабируемость:
- Система должна работать круглосуточно (24/7), без регулярных остановок и необходимости ручного перезапуска.
- Предусмотреть механизмы балансировки запросов, использование прокси-серверов, смены IP-адресов, а также механизмов задержки запросов для минимизации риска блокировок и ошибок HTTP 503.
Обход защиты и ограничений Amazon:
- Предусмотреть методы обхода антибот-защиты Amazon (CAPTCHA, блокировка по IP, ограничения по User-Agent и пр.).
- Использование механизмов автоматического распознавания и решения CAPTCHA (например, с помощью сервисов антикапчи).
Управление прокси:
- Система должна интегрировать использование прокси-серверов с возможностью автоматической ротации и мониторинга их работоспособности.
- Настроить мониторинг качества прокси, исключение заблокированных и медленных IP.
Управление ошибками и логирование:
- Реализовать логирование всех действий скрапера: успешные запросы, ошибки, блокировки и время ответа.
- Реализовать систему автоматического повтора запросов в случае ошибок, с настраиваемым количеством повторов и интервалом между ними.
Формат и хранение данных:
- Возможность выгрузки данных в удобные форматы (CSV, JSON, базы данных).
- Реализация быстрой и эффективной структуры хранения полученных данных.
Интерфейс управления (опционально):
- Возможность удобного управления задачами, просмотра статистики и состояния работы скрапера через веб-интерфейс или API.
Требования к исполнителю:
- Опыт работы с веб-скрапингом с Amazon.
- Знание технологий и инструментов обхода защиты (proxy, антикапча).
- Опыт работы с большими объемами данных и асинхронными запросами.
Ожидаемый результат: Рабочий, стабильный и масштабируемый инструмент, способный круглосуточно выполнять задачи по парсингу большого количества данных с Amazon, минимизируя вероятность блокировок и ошибок.
-
А вот самого главного и не написали. Вы пишите миллион товаров. Это за какой период времени? Разово? Видимо проект не ваш лично...
-
от 100,000 до нескольких миллионов товаров в ЧАС
-
Актуальные фриланс-проекты в категории C и C++
Реверс-инжиниринг консольных утилит для опроса контроллеров SSD (Flash ID)1. Цель работы Выделение программного интерфейса (API) взаимодействия с контроллерами SSD/NVMe из предоставленного набора консольных утилит (Phison, Silicon Motion, Realtek, Maxiotek, Marvell, JMicron и др.). Результатом должно стать рабочий код на языке C/C++ или точная… C и C++, Десктопные приложения ∙ 11 дней 12 часов назад ∙ 6 ставок |
Разработка карты семян Minecraft Java / просмотрщика семян для сайтаРазработка карты семян Minecraft Java / Seed Viewer для сайтаОписание проекта Необходимо разработать браузерный инструмент Minecraft Java Seed Map / Seed Viewer, который будет работать на нашем сайте и позволит пользователю ввести семя Minecraft Java Edition и просмотреть… C и C++, HTML и CSS верстка ∙ 11 дней 19 часов назад ∙ 17 ставок |