Skrobanie Otodom
Opracowano niezawodne, gotowe do wdrożenia narzędzie automatyzacji w Pythonie, specjalnie zaprojektowane do ekstrakcji dużych ilości danych z witryny Otodom.pl. Projekt ten demonstruje wysoki poziom kompetencji w dziedzinie automatyzacji przeglądarek, zarządzania bazami danych oraz strukturyzowania danych.
Kluczowe cechy techniczne:
Stały stan ekstrakcji danych: zintegrowano backend bazy danych SQLite3 do śledzenia postępu ekstrakcji danych. Umożliwia to skryptowi zapamiętanie ostatnio przetworzonej strony, zapewniając natychmiastowe wznowienie pracy po przerwie — krytyczna funkcja dla niezawodnej ekstrakcji danych.
Zaawansowana automatyzacja przeglądarki: użyto Playwright do obsługi dynamicznej treści, omijania okienek z prośbą o zgodę na użycie plików cookie oraz symulacji ludzkiej interakcji poprzez płynne przewijanie i losowe opóźnienia.
Czysty pipeline danych: automatycznie wyciąga i oczyszcza złożone pola, w tym nazwę, cenę, cenę za m², powierzchnię, liczbę pokoi oraz lokalizację.
Eksport w czasie rzeczywistym: opracowano system ciągłego eksportu danych, który zapisuje wyniki w Excelu (.xlsx) po każdej stronie, aby zapobiec utracie danych.
Jakość kodu: Opracowano z wykorzystaniem podejścia programowania obiektowego (OOP) dla maksymalnej łatwości konserwacji i skalowalności.
Stos technologiczny:
Backend: Python
Automatyzacja: Playwright (Chromium)
Kluczowe cechy techniczne:
Stały stan ekstrakcji danych: zintegrowano backend bazy danych SQLite3 do śledzenia postępu ekstrakcji danych. Umożliwia to skryptowi zapamiętanie ostatnio przetworzonej strony, zapewniając natychmiastowe wznowienie pracy po przerwie — krytyczna funkcja dla niezawodnej ekstrakcji danych.
Zaawansowana automatyzacja przeglądarki: użyto Playwright do obsługi dynamicznej treści, omijania okienek z prośbą o zgodę na użycie plików cookie oraz symulacji ludzkiej interakcji poprzez płynne przewijanie i losowe opóźnienia.
Czysty pipeline danych: automatycznie wyciąga i oczyszcza złożone pola, w tym nazwę, cenę, cenę za m², powierzchnię, liczbę pokoi oraz lokalizację.
Eksport w czasie rzeczywistym: opracowano system ciągłego eksportu danych, który zapisuje wyniki w Excelu (.xlsx) po każdej stronie, aby zapobiec utracie danych.
Jakość kodu: Opracowano z wykorzystaniem podejścia programowania obiektowego (OOP) dla maksymalnej łatwości konserwacji i skalowalności.
Stos technologiczny:
Backend: Python
Automatyzacja: Playwright (Chromium)