Parser Autoria
Opis projektu:
Opracowałem skalowalny parser ogłoszeń z Auto.ria (rynek motoryzacyjny) do zbierania szczegółowych danych o samochodach: marka/model, rok, przebieg, cena, wyposażenie, link do zdjęcia, dane kontaktowe sprzedawcy oraz inne metadane. Parser został zaprojektowany z uwzględnieniem rzeczywistych ograniczeń platformy: stosuje rotację proxy, zmianę User-Agent, kontrolowanie równoległości i ochronę przed mechanizmami antybotowymi — wszystko to pozwala na stabilne zbieranie dużych ilości danych przy minimalnym ryzyku blokad.
Funkcjonalność:
Masowe zbieranie ogłoszeń (według kategorii, filtrów, przedziału cenowego, regionów).
Zbieranie pełnego zestawu pól: tytuł, opis, specyfikacje, cena, lokalizacja, zdjęcia/galeria, dane kontaktowe, data publikacji.
Wsparcie dla paginacji, dynamicznego ładowania i części stron AJAX.
Rotacja proxy (residential/datacenter), balansowanie po IP i geografii.
Dynamiczna zmiana User-Agent i innych nagłówków HTTP.
Semafory i throttling — kontrola równoległości, aby nie przeciążać platformy.
Obsługa CAPTCHA (integracja z usługami rozwiązywania w razie potrzeby) oraz odpowiednie strategie backoff przy błędach.
Deduplikacja rekordów (według unikalnego ID lub URL), inkrementalne aktualizacje i (opcjonalnie) śledzenie zmian w ogłoszeniach.
Zapis w wygodnych formatach: PostgreSQL/SQLite, CSV, Excel; eksport do analizy.
Logowanie, metryki i monitorowanie (liczba zebranych ogłoszeń, błędy, health-check).
Opracowałem skalowalny parser ogłoszeń z Auto.ria (rynek motoryzacyjny) do zbierania szczegółowych danych o samochodach: marka/model, rok, przebieg, cena, wyposażenie, link do zdjęcia, dane kontaktowe sprzedawcy oraz inne metadane. Parser został zaprojektowany z uwzględnieniem rzeczywistych ograniczeń platformy: stosuje rotację proxy, zmianę User-Agent, kontrolowanie równoległości i ochronę przed mechanizmami antybotowymi — wszystko to pozwala na stabilne zbieranie dużych ilości danych przy minimalnym ryzyku blokad.
Funkcjonalność:
Masowe zbieranie ogłoszeń (według kategorii, filtrów, przedziału cenowego, regionów).
Zbieranie pełnego zestawu pól: tytuł, opis, specyfikacje, cena, lokalizacja, zdjęcia/galeria, dane kontaktowe, data publikacji.
Wsparcie dla paginacji, dynamicznego ładowania i części stron AJAX.
Rotacja proxy (residential/datacenter), balansowanie po IP i geografii.
Dynamiczna zmiana User-Agent i innych nagłówków HTTP.
Semafory i throttling — kontrola równoległości, aby nie przeciążać platformy.
Obsługa CAPTCHA (integracja z usługami rozwiązywania w razie potrzeby) oraz odpowiednie strategie backoff przy błędach.
Deduplikacja rekordów (według unikalnego ID lub URL), inkrementalne aktualizacje i (opcjonalnie) śledzenie zmian w ogłoszeniach.
Zapis w wygodnych formatach: PostgreSQL/SQLite, CSV, Excel; eksport do analizy.
Logowanie, metryki i monitorowanie (liczba zebranych ogłoszeń, błędy, health-check).