Парсинг OLX
2000 UAHВсім привіт, маю Python код який проходиться по api olx.ua (внутрішнє) та по GraphQL ендпоінту.
Проблема заключається в тому, що результати тут показуються з затримкою в якісь n хвилин.
Робив порівняння 2 ендпоінтів, результати однакові як і в olx.ua/api/v1 так і в graphql.
Порівняння робив з 30+ проксі, проходився пачками запитами на потрібні мені URL і все рівно результати міняються з затримкою.
Я так розумію, там проблема в кеші CDN, або ще в чомусь.
Просто вже розбирав APK файл, і там він спочатку звертається до graphql і в fallback має olx.ua/api/v1 - інших методів та роутів немає, тому логічно, що оголошення йдуть спочатку в API, а потім сам олх відмальовує їх на сторінці пошуку.
Підтвердженням цьому є оголошення які в window.__PRERENDERED_STATE__.
Прикол в тому, що результати залежать від пристрою та ip - якщо перевіряти через ПК.
На 5 різних пристроях в різних локаціях - показує різні результати.
Якщо хтось має інформацію, як мені обійти цей кеш (або я хз що це) - можу оплатити.
Відгук замовника про співпрацю з Roman K.
Парсинг OLXТоповий виконавець, рекомендую)
Без зайвих слів просто дав те, що треба.
Не знаю, що б без Романа робив далі)
Відгук фрилансера про співпрацю з Михайлом К.
Парсинг OLXДякую за співпрацю, рекомендую
-
370 1 0 👋 Вітаю. Задача тут не в самому парсингу, а в тому, як дістати актуальні дані з OLX без залипання на кеші й обмеженнях по GraphQL/CDN.
Я б спершу глянув, з якої саме точки ви тягнете оголошення і де ламається ланцюжок — бо в таких задачах різницю робить не код, а правильний маршрут до даних.
Маю досвід із подібними скриптами на Python, де треба було обійти типові вузькі місця API та структури відповіді.
📋 Зроблю так: швидко перевірю запити, відтворю проблему, після цього зберу робочий варіант парсингу без зайвого шуму.
Можу почати сьогодні. Скидайте, що вже є — прикину рішення одразу.
-
4987 41 4 1 Доброго дня!
Розумію вашу проблему з парсингом OLX та затримкою даних через кешування CDN. Маю значний досвід роботи з Python, різними API (включаючи GraphQL) та проксі для обходу подібних обмежень. Готовий знайти ефективне рішення.
Напишіть мені в лс, обговоримо деталі.
-
4010 106 0 Доброго дня, уточніть який кінцевий url використовуєте для отримання списку оголошень, можу підсказати дещо інший підхід який видає результат швидше
-
368 1 0 доброго дня, можу виправити ваш софт, є досвід у парсингу та python скриптах, чекаю відповіді
-
702 1 0 Вітаю! Маю досвід виправлення програм. Пропоную якісну та швидку роботу.
Пишіть.
-
927 5 0 Добрий день! Ми маємо досвід у роботі з API OLX та розуміємо специфіку кешування даних на стороні їхніх серверів. Реалізуємо це через аналіз заголовків відповідей та оптимізацію запитів для отримання актуальних даних без затримок. Готові проаналізувати Ваш код та налаштувати коректну роботу парсера.
-
1382 8 0 Вітаю. Я розумію проблему із затримкою даних під час взаємодії з OLX API та GraphQL, і це типовий виклик для систем з розподіленим кешуванням або CDN. Мій підхід зосередиться на глибокому аналізі HTTP-заголовків, механізмів кешування та імітації різних клієнтських середовищ, що виходить за межі простого використання проксі. Маю готові напрацювання та інструменти для виявлення та обходу таких блоків, що значно пришвидшить пошук оптимального рішення. Всі деталі реалізації, кінцевий бюджет та терміни пропоную обговорити в особистих повідомленнях.