Techniczne zadanie na opracowanie parsera (skrapera) Amazon
Zadanie: Należy opracować niezawodny i odporny na błędy skraper do pozyskiwania informacji z Amazon o dużej liczbie produktów (miliony ASIN). Skraper powinien stabilnie działać w trybie 24/7 i minimalizować występowanie błędów HTTP 503 (blokada lub ograniczenie dostępu).
Wymagania obowiązkowe:
Parsowanie danych:
- Pozyskiwanie informacji o produktach: nazwa, cena, ocena, liczba recenzji, dostępność w magazynie, opis produktu, zdjęcia i inne informacje ze strony produktu według podanej listy ASIN.
- Wsparcie dla dużej liczby zapytań (od 100 000 do kilku milionów produktów).
Stabilność i skalowalność:
- System powinien działać przez całą dobę (24/7), bez regularnych przerw i potrzeby ręcznego ponownego uruchamiania.
- Przewidzieć mechanizmy równoważenia zapytań, wykorzystanie serwerów proxy, zmiany adresów IP oraz mechanizmy opóźnienia zapytań w celu minimalizacji ryzyka blokad i błędów HTTP 503.
Obchodzenie zabezpieczeń i ograniczeń Amazon:
- Przewidzieć metody obchodzenia ochrony antybotowej Amazon (CAPTCHA, blokada po IP, ograniczenia po User-Agent itp.).
- Wykorzystanie mechanizmów automatycznego rozpoznawania i rozwiązywania CAPTCHA (na przykład za pomocą usług antycaptcha).
Zarządzanie proxy:
- System powinien integrować wykorzystanie serwerów proxy z możliwością automatycznej rotacji i monitorowania ich sprawności.
- Skonfigurować monitorowanie jakości proxy, wykluczenie zablokowanych i wolnych IP.
Zarządzanie błędami i logowanie:
- Wdrożyć logowanie wszystkich działań skrapera: udane zapytania, błędy, blokady i czas odpowiedzi.
- Wdrożyć system automatycznego powtarzania zapytań w przypadku błędów, z konfigurowalną liczbą powtórzeń i interwałem między nimi.
Format i przechowywanie danych:
- Możliwość eksportu danych w wygodnych formatach (CSV, JSON, bazy danych).
- Realizacja szybkiej i efektywnej struktury przechowywania pozyskanych danych.
Interfejs zarządzania (opcjonalnie):
- Możliwość wygodnego zarządzania zadaniami, przeglądania statystyk i stanu pracy skrapera przez interfejs webowy lub API.
Wymagania wobec wykonawcy:
- Doświadczenie w pracy z web scrapingiem z Amazon.
- Znajomość technologii i narzędzi do obchodzenia zabezpieczeń (proxy, antycaptcha).
- Doświadczenie w pracy z dużymi zbiorami danych i asynchronicznymi zapytaniami.
Oczekiwany rezultat: Działające, stabilne i skalowalne narzędzie, zdolne do całodobowego wykonywania zadań związanych z parsowaniem dużej ilości danych z Amazon, minimalizując prawdopodobieństwo blokad i błędów.
Техническое задание на разработку парсера (скрапера) Amazon
Задача: Необходимо разработать надежный и отказоустойчивый скрапер для получения информации с Amazon по большому количеству товаров (миллионы ASIN). Скрапер должен стабильно работать в режиме 24/7 и минимизировать возникновение ошибок HTTP 503 (блокировка или ограничение доступа).
Обязательные требования:
Парсинг данных:
- Получение информации по товарам: название, цена, рейтинг, количество отзывов, наличие на складе, описание товара, изображения и другую информацию со страницы товара по заданному списку ASIN.
- Поддержка большого объема запросов (от 100,000 до нескольких миллионов товаров).
Стабильность и масштабируемость:
- Система должна работать круглосуточно (24/7), без регулярных остановок и необходимости ручного перезапуска.
- Предусмотреть механизмы балансировки запросов, использование прокси-серверов, смены IP-адресов, а также механизмов задержки запросов для минимизации риска блокировок и ошибок HTTP 503.
Обход защиты и ограничений Amazon:
- Предусмотреть методы обхода антибот-защиты Amazon (CAPTCHA, блокировка по IP, ограничения по User-Agent и пр.).
- Использование механизмов автоматического распознавания и решения CAPTCHA (например, с помощью сервисов антикапчи).
Управление прокси:
- Система должна интегрировать использование прокси-серверов с возможностью автоматической ротации и мониторинга их работоспособности.
- Настроить мониторинг качества прокси, исключение заблокированных и медленных IP.
Управление ошибками и логирование:
- Реализовать логирование всех действий скрапера: успешные запросы, ошибки, блокировки и время ответа.
- Реализовать систему автоматического повтора запросов в случае ошибок, с настраиваемым количеством повторов и интервалом между ними.
Формат и хранение данных:
- Возможность выгрузки данных в удобные форматы (CSV, JSON, базы данных).
- Реализация быстрой и эффективной структуры хранения полученных данных.
Интерфейс управления (опционально):
- Возможность удобного управления задачами, просмотра статистики и состояния работы скрапера через веб-интерфейс или API.
Требования к исполнителю:
- Опыт работы с веб-скрапингом с Amazon.
- Знание технологий и инструментов обхода защиты (proxy, антикапча).
- Опыт работы с большими объемами данных и асинхронными запросами.
Ожидаемый результат: Рабочий, стабильный и масштабируемый инструмент, способный круглосуточно выполнять задачи по парсингу большого количества данных с Amazon, минимизируя вероятность блокировок и ошибок.
Aktualne projekty freelancerskie w kategorii C i C++
Rozwój niestandardowej przeglądarki opartej na Chrom (fork) do automatyzacji za pomocą Puppeteer/Playwright
2432 PLN
Rozwój niestandardowej przeglądarki opartej na Chrom(ium) (fork) do automatyzacji za pomocą Puppeteer/Playwright Doświadczenie w tworzeniu niestandardowych wersji Chromium lub podobnych projektów (np. Brave fork, Ungoogled Chromium) Zrozumienie uruchamiania wielu… C i C++ ∙ 6 godzin 9 minut temu ∙ 1 oferta |
Bot do projektu RMRP GTA 5
901 PLN
Potrzebny jest bot do łowienia ryb z dostępem na klucz, który jest powiązany z hardware'em. Dwa pliki w folderze - plik tekstowy, w którym osoba podaje token swojego bota tg i ID swojego konta tg, oraz sam bot (exe). Przy pierwszym uruchomieniu bota pojawia się konsola z prośbą… C i C++, Tworzenie chatbota ∙ 1 dzień 20 godzin temu ∙ 2 oferty |
Automatyzacja zakładów na giełdzie BetFair
450 PLN
|
Płynne sterowanie głową DMX przez Artnet
901 PLN
Jest głowa PRO LUX beam 260. Sterowana przez protokół DMX. Należy napisać oprogramowanie do sterowania tylko Pan tilt. Można przez Artnet, można bezpośrednio. Najważniejsze, aby przy przesyłaniu współrzędnych do głowy odbywało się to płynnie. Miał być efekt smooth. Platforma… C i C++, Python ∙ 3 dni 20 godzin temu ∙ 3 oferty |
Zbieranie danych NS i IPIstnieje zebrana i codziennie aktualizowana baza wszystkich zarejestrowanych domen (około 270 mln). Potrzebne są dla wszystkich NS i IP. Wymagana jest realizacja sprawdzania domen w trybie wielowątkowym (możliwe z wykorzystaniem kilku setek oddzielnych procesów jednowątkowych) z… C i C++, Bazy danych i SQL ∙ 5 dni 9 godzin temu ∙ 3 oferty |