Парсинг OLX
Всем привет, у меня есть Python код, который проходит по api olx.ua (внутреннее) и по GraphQL эндпоинту.
Проблема заключается в том, что результаты здесь показываются с задержкой в какие-то n минут.
Я делал сравнение 2 эндпоинтов, результаты одинаковые как в olx.ua/api/v1, так и в graphql.
Сравнение делал с 30+ прокси, проходился пачками запросами на нужные мне URL, и все равно результаты меняются с задержкой.
Я так понимаю, там проблема в кэше CDN, или еще в чем-то.
Просто уже разбирал APK файл, и там он сначала обращается к graphql и в fallback имеет olx.ua/api/v1 - других методов и роутов нет, поэтому логично, что объявления идут сначала в API, а потом сам олх отрисовывает их на странице поиска.
Подтверждением этому являются объявления, которые в window.__PRERENDERED_STATE__.
Прикол в том, что результаты зависят от устройства и ip - если проверять через ПК.
На 5 разных устройствах в разных локациях - показывает разные результаты.
Если кто-то имеет информацию, как мне обойти этот кэш (или я хз что это) - могу оплатить.
-
327 👋 Привет. Задача здесь не в самом парсинге, а в том, как достать актуальные данные из OLX без залипания на кэше и ограничениях по GraphQL/CDN. Я бы сначала посмотрел, из какой именно точки вы тянете объявления и где ломается цепочка — потому что в таких задачах разницу делает не код, а правильный маршрут к данным. У меня есть опыт с подобными скриптами на Python, где нужно было обойти типичные узкие места API и структуру ответа. 📋 Сделаю так: быстро проверю запросы, воспроизведу проблему, после этого соберу рабочий вариант парсинга без лишнего шума. Могу начать сегодня. Скидывайте, что уже есть — прикину решение сразу.
-
4987 41 4 1 Добрый день!
Понимаю вашу проблему с парсингом OLX и задержкой данных из-за кэширования CDN. Имею значительный опыт работы с Python, различными API (включая GraphQL) и прокси для обхода подобных ограничений. Готов найти эффективное решение.
Напишите мне в личные сообщения, обсудим детали.
-
3947 105 0 Добрый день, уточните, какой конечный URL вы используете для получения списка объявлений, могу подсказать несколько другой подход, который выдает результат быстрее.
-
368 1 0 добрый день, могу пофиксить ваш софт, есть опыт в парсинге и python скриптах, жду отклика
-
702 1 0 Здравствуйте! У меня есть опыт исправления программ. Предлагаю качественную и быструю работу. Пишите.
-
927 5 0 Добрый день! Мы имеем опыт работы с API OLX и понимаем специфику кэширования данных на стороне их серверов. Реализуем это через анализ заголовков ответов и оптимизацию запросов для получения актуальных данных без задержек. Готовы проанализировать ваш код и настроить корректную работу парсера.
-
1309 7 0 Здравствуйте. Я понимаю проблему с задержкой данных при взаимодействии с OLX API и GraphQL, и это типичный вызов для систем с распределенным кэшированием или CDN. Мой подход будет сосредоточен на глубоком анализе HTTP-заголовков, механизмов кэширования и имитации различных клиентских сред, что выходит за рамки простого использования прокси. У меня есть готовые наработки и инструменты для выявления и обхода таких блоков, что значительно ускорит поиск оптимального решения. Все детали реализации, конечный бюджет и сроки предлагаю обсудить в личных сообщениях.