Parsowanie OLX
Witam wszystkich, mam kod Python, który przechodzi przez API olx.ua (wewnętrzne) oraz przez punkt końcowy GraphQL.
Problem polega na tym, że wyniki są tutaj pokazywane z opóźnieniem w jakieś n minut.
Porównywałem 2 punkty końcowe, wyniki są identyczne zarówno w olx.ua/api/v1, jak i w graphql.
Porównanie robiłem z 30+ proxy, przechodziłem paczkami zapytań na potrzebne mi URL i wyniki wciąż zmieniają się z opóźnieniem.
Rozumiem, że problem leży w cache CDN, lub w czymś innym.
Po prostu już rozbierałem plik APK i tam najpierw zwraca się do graphql, a w fallbacku ma olx.ua/api/v1 - nie ma innych metod ani tras, więc logiczne jest, że ogłoszenia idą najpierw do API, a potem sam olx wyświetla je na stronie wyszukiwania.
Potwierdzeniem tego są ogłoszenia, które znajdują się w window.__PRERENDERED_STATE__.
Ciekawostką jest to, że wyniki zależą od urządzenia i IP - jeśli sprawdzać przez PC.
Na 5 różnych urządzeniach w różnych lokalizacjach - pokazuje różne wyniki.
Jeśli ktoś ma informacje, jak mogę obejść ten cache (lub nie wiem co to jest) - mogę zapłacić.
-
327 👋 Witam. Zadanie nie polega na samym parsowaniu, ale na tym, jak uzyskać aktualne dane z OLX bez zatykania się na cache'u i ograniczeniach związanych z GraphQL/CDN. Najpierw chciałbym sprawdzić, z jakiego dokładnie punktu pobieracie ogłoszenia i gdzie łamie się łańcuch — ponieważ w takich zadaniach różnicę robi nie kod, a właściwa trasa do danych. Mam doświadczenie w podobnych skryptach w Pythonie, gdzie trzeba było obejść typowe wąskie gardła API i strukturę odpowiedzi. 📋 Zrobię to tak: szybko sprawdzę zapytania, odtworzę problem, a następnie zbiorę działającą wersję parsowania bez zbędnego hałasu. Mogę zacząć dzisiaj. Przesyłajcie, co już macie — od razu przemyślę rozwiązanie.
-
4987 41 4 1 Dzień dobry!
Rozumiem twój problem z parsowaniem OLX i opóźnieniem danych spowodowanym przez buforowanie CDN. Mam znaczące doświadczenie w pracy z Pythonem, różnymi API (w tym GraphQL) oraz proxy do omijania podobnych ograniczeń. Jestem gotów znaleźć efektywne rozwiązanie.
Napisz do mnie na priv, omówimy szczegóły.
-
3947 105 0 Dzień dobry, proszę sprecyzować, jaki końcowy url używacie do uzyskania listy ogłoszeń, mogę zasugerować nieco inne podejście, które daje wynik szybciej.
-
368 1 0 Dzień dobry, mogę naprawić twoje oprogramowanie, mam doświadczenie w parsowaniu i skryptach Pythona, czekam na odpowiedź.
-
702 1 0 Cześć! Mam doświadczenie w poprawianiu programów. Oferuję wysoką jakość i szybką pracę. Piszcie.
-
927 5 0 Dzień dobry! Mamy doświadczenie w pracy z API OLX i rozumiemy specyfikę cachowania danych po stronie ich serwerów. Realizujemy to poprzez analizę nagłówków odpowiedzi oraz optymalizację zapytań w celu uzyskania aktualnych danych bez opóźnień. Jesteśmy gotowi przeanalizować Twój kod i skonfigurować poprawne działanie parsera.
-
1309 7 0 Witam. Rozumiem problem z opóźnieniem danych podczas interakcji z OLX API i GraphQL, i jest to typowe wyzwanie dla systemów z rozproszonym buforowaniem lub CDN. Moje podejście skupi się na dogłębnej analizie nagłówków HTTP, mechanizmów buforowania oraz symulacji różnych środowisk klienckich, co wykracza poza proste użycie proxy. Mam gotowe rozwiązania i narzędzia do wykrywania i omijania takich blokad, co znacznie przyspieszy poszukiwanie optymalnego rozwiązania. Wszystkie szczegóły realizacji, końcowy budżet i terminy proponuję omówić w wiadomościach prywatnych.