Потрібен спеціаліст з парсингу OLX.pl (номерів телефонів)
Привіт,
Ми шукаємо досвідченого спеціаліста з веб-скрапінгу для збору номерів телефонів з оголошень на olx.pl.
У нас вже є база даних оголошень. Ваше завдання буде:
отримати оголошення з нашого API,
збирати номери телефонів з пропозицій OLX,
повернути зібрані номери телефонів назад до нашої системи через наш API-інтерфейс.
Обсяг роботи:
Збирати 4,000 номерів телефонів на день
Безперервна робота протягом 4 послідовних днів
Мінімальний загальний результат: 4,000 номерів телефонів протягом будь-якого 24-годинного періоду
Проект буде вважатися завершеним після 4 днів успішного тестування
Технічні вимоги:
Здатність обходити виявлення ботів (403, механізми захисту від ботів тощо)
Стабільне, безперервне виконання скрапера протягом 4 днів
Скрапер повинен працювати на нашому VPS:
Linux (безголовий) або
Windows (з головою через RDP)
Механізм повторної спроби для оголошень без видимих номерів телефонів:
До 3 спроб повторення
Якщо все ще недоступні, позначити як NOPHONE
Належне ведення журналу та обробка помилок
Ми надаємо:
Резидентну IP-адресу
До 20 облікових записів OLX (сесії можуть бути створені за потреби)
Доступ до API для введення (пропозиції) та виведення (номери телефонів)
Критерії успіху:
Досягнення принаймні 4,000 дійсних номерів телефонів протягом 24 годин
Стабільна продуктивність під час 4-денного тестового періоду
Будь ласка, подавайте заявку лише якщо у вас є підтверджений досвід роботи з великими обсягами скрапінгу, обходом захисту від ботів та тривалими скраперами.
-
Переможець8 днів18 123 UAH
1017 2 1 Переможець8 днів18 123 UAHПривіт Кшиштоф,
Я подаю заявку на офіційне виконання проекту OLX.pl скрепера. Виходячи з нашої попередньої дискусії та технічних вимог, ось моя пропозиція:
План реалізації:
Фаза 1 (Прототип): Я почну з налаштування 2-3 акаунтів з розв'язувачем капчі Amazon (AWS WAF Task), щоб обійти початкові виклики. Я оброблю перші 500 номерів, щоб перевірити стабільність.
Фаза 2 (Масштабування): Після успіху прототипу я масштабую до всіх 10-20 акаунтів і реалізую повний 96-годинний безперервний запуск, щоб досягти цілі в 4,000 номерів/день.
…
Архітектура: Скрепер використовуватиме збереження сесій, щоб мінімізувати витрати на CAPTCHA та захистити вашу репутацію проксі.
Умови:
Бюджет: 1,800 PLN. Це покриває високу складність обходу AWS WAF, управління сесіями з кількома акаунтами та необхідний 4-денний період моніторингу.
Терміни: 8 днів (включає розробку, налаштування акаунтів та обов'язковий 4-денний тест на стабільність).
-
Для успішної реалізації цього проекту, у вас мають бути вже відтестовані "ліміти" олх по акаунтах.. І саме головне, ці акаунти мають бути вже "прогріті". Ну а далі справа за проксі, найкраще мобільні.. і тільки після цього, вже код програміста. Тобто для успішного тесту 4000 номерів, тут треба спочатку від вас якісні дані . У вас є такі?
-
Який бюджет по виконанню задачі?
Це задача не стільки на парсинг, скільки на обхід захисту (Anti-Bot Bypass), тому цікавить який ваш бюджет на цю задачу. -