Технічне завдання на розробку парсера (скрапера) Amazon
Завдання: Необхідно розробити надійний і відмовостійкий скрапер для отримання інформації з Amazon по великій кількості товарів (мільйони ASIN). Скрапер повинен стабільно працювати в режимі 24/7 і мінімізувати виникнення помилок HTTP 503 (блокування або обмеження доступу).
Обов'язкові вимоги:
Парсинг даних:
- Отримання інформації по товарам: назва, ціна, рейтинг, кількість відгуків, наявність на складі, опис товару, зображення та іншу інформацію зі сторінки товару по заданому списку ASIN.
- Підтримка великого обсягу запитів (від 100,000 до кількох мільйонів товарів).
Стабільність і масштабованість:
- Система повинна працювати цілодобово (24/7), без регулярних зупинок і необхідності ручного перезапуску.
- Передбачити механізми балансування запитів, використання проксі-серверів, зміни IP-адрес, а також механізмів затримки запитів для мінімізації ризику блокувань і помилок HTTP 503.
Обхід захисту і обмежень Amazon:
- Передбачити методи обходу антибот-захисту Amazon (CAPTCHA, блокування по IP, обмеження по User-Agent тощо).
- Використання механізмів автоматичного розпізнавання і вирішення CAPTCHA (наприклад, за допомогою сервісів антикапчі).
Управління проксі:
- Система повинна інтегрувати використання проксі-серверів з можливістю автоматичної ротації і моніторингу їх працездатності.
- Налаштувати моніторинг якості проксі, виключення заблокованих і повільних IP.
Управління помилками і логування:
- Реалізувати логування всіх дій скрапера: успішні запити, помилки, блокування і час відповіді.
- Реалізувати систему автоматичного повтору запитів у разі помилок, з налаштовуваною кількістю повторів і інтервалом між ними.
Формат і зберігання даних:
- Можливість вивантаження даних у зручні формати (CSV, JSON, бази даних).
- Реалізація швидкої і ефективної структури зберігання отриманих даних.
Інтерфейс управління (опціонально):
- Можливість зручного управління завданнями, перегляду статистики і стану роботи скрапера через веб-інтерфейс або API.
Вимоги до виконавця:
- Досвід роботи з веб-скрапінгом з Amazon.
- Знання технологій і інструментів обходу захисту (proxy, антикапча).
- Досвід роботи з великими обсягами даних і асинхронними запитами.
Очікуваний результат: Робочий, стабільний і масштабований інструмент, здатний цілодобово виконувати завдання по парсингу великої кількості даних з Amazon, мінімізуючи ймовірність блокувань і помилок.
-
А вот самого главного и не написали. Вы пишите миллион товаров. Это за какой период времени? Разово? Видимо проект не ваш лично...
-
от 100,000 до нескольких миллионов товаров в ЧАС
-
Актуальні фриланс-проєкти в категорії C та C++
Реверс-інжиніринг консольних утиліт для опитування контролерів SSD (Flash ID)1. Мета роботиВиділення програмного інтерфейсу (API) взаємодії з контролерами SSD/NVMe з наданого набору консольних утиліт (Phison, Silicon Motion, Realtek, Maxiotek, Marvell, JMicron та ін.). Результатом має стати робочий код мовою C/C++ або точна документація структур для… C та C++, Десктопні додатки ∙ 11 днів 10 годин тому ∙ 6 ставок |
Розробка Minecraft Java Seed Map / Seed Viewer для сайтуРозробка Minecraft Java Seed Map / Seed Viewer для сайтуОпис проєкту Потрібно розробити browser-based інструментMinecraft Java Seed Map / Seed Viewer, який буде працювати на нашому сайті та дозволятиме користувачу ввести seed Minecraft Java Edition і переглянути інтерактивну… C та C++, HTML та CSS верстання ∙ 11 днів 17 годин тому ∙ 17 ставок |