Potrzebny specjalista ds. skrobania OLX.pl (Numery telefonów)
Witaj,
Poszukujemy doświadczonego specjalisty ds. web scrapingu, który zbierze numery telefonów z ogłoszeń na olx.pl.
Posiadamy już bazę ogłoszeń. Twoim zadaniem będzie:
pobranie ogłoszeń z naszego API,
zbieranie numerów telefonów z ofert OLX,
wysłanie zebranych numerów telefonów z powrotem do naszego systemu za pośrednictwem naszego punktu końcowego API.
Zakres pracy:
Zbieranie 4 000 numerów telefonów dziennie
Nieprzerwana praca przez 4 kolejne dni
Minimalny całkowity wynik: 4 000 numerów telefonów w dowolnym 24-godzinnym okresie
Projekt zostanie uznany za zakończony po 4 dniach udanego testowania
Wymagania techniczne:
Możliwość ominięcia wykrywania botów (403, mechanizmy anty-botowe itp.)
Stabilne, nieprzerwane działanie scrapera przez 4 dni
Scraper musi działać na naszym VPS:
Linux (headless) lub
Windows (headful przez RDP)
Mechanizm ponawiania prób dla ogłoszeń bez widocznych numerów telefonów:
Do 3 prób ponownych
Jeśli nadal niedostępne, oznacz jako NOPHONE
Odpowiednie logowanie i obsługa błędów
Zapewniamy:
Adres IP z rezydencji
Do 20 kont OLX (sesje mogą być tworzone w razie potrzeby)
Dostęp do API dla wejścia (oferty) i wyjścia (numery telefonów)
Kryteria sukcesu:
Osiągnięcie co najmniej 4 000 ważnych numerów telefonów w ciągu 24 godzin
Stabilna wydajność podczas 4-dniowego okresu testowego
Proszę aplikować tylko jeśli masz udokumentowane doświadczenie w dużych projektach scrapingu, omijaniu ochrony botów i długoterminowych scraperach.
-
Oferta, która wygrała8 dni1500 PLN
1017 2 1 Oferta, która wygrała8 dni1500 PLNCześć Krzysztof,
Aplikuję o oficjalne przejęcie projektu skryptu OLX.pl. Na podstawie naszej wcześniejszej dyskusji i wymagań technicznych, oto moja propozycja:
Plan wdrożenia:
Faza 1 (Prototyp): Zacznę od skonfigurowania 2-3 kont z rozwiązaniem CAPTCHA Amazon (Zadanie AWS WAF), aby obejść początkowe wyzwania. Przetworzę pierwsze 500 numerów, aby zweryfikować stabilność.
Faza 2 (Skalowanie): Po sukcesie prototypu, rozszerzę do wszystkich 10-20 kont i wdrożę pełne 96-godzinne ciągłe działanie, aby osiągnąć cel 4,000 numerów/dzień.
…
Architektura: Skrypt będzie używał Utrzymywania Sesji, aby zminimalizować koszty CAPTCHA i chronić reputację twojego proxy.
Warunki:
Budżet: 1,800 PLN. To pokrywa wysoką złożoność obejścia AWS WAF, zarządzanie sesjami wielu kont oraz wymagany 4-dniowy okres monitorowania.
Harmonogram: 8 dni (obejmuje rozwój, konfigurację kont i obowiązkowy 4-dniowy test stabilności).
-
Для успішної реалізації цього проекту, у вас мають бути вже відтестовані "ліміти" олх по акаунтах.. І саме головне, ці акаунти мають бути вже "прогріті". Ну а далі справа за проксі, найкраще мобільні.. і тільки після цього, вже код програміста. Тобто для успішного тесту 4000 номерів, тут треба спочатку від вас якісні дані . У вас є такі?
-
Який бюджет по виконанню задачі?
Це задача не стільки на парсинг, скільки на обхід захисту (Anti-Bot Bypass), тому цікавить який ваш бюджет на цю задачу. -