Opracowanie wysokowydajnego parsera automarketplace'u
Zadanie: Stworzyć stabilne i szybkie narzędzie do monitorowania rynku samochodowego z automatycznym eksportem danych w formacie Excel (CSV) do dalszej analizy cen.
Zrealizowane rozwiązanie i cechy techniczne:
Asynchroniczna architektura: Dzięki przejściu na httpx.AsyncClient i asyncio skrypt wykonuje zapytania do sieci bez blokowania wątku, co zapewnia wysoką prędkość zbierania danych (ponad 50 stron ogłoszeń w mniej niż minutę).
Ochrona przed przesunięciem danych: Zrealizowano izolowane parsowanie „od obiektu” (po-kartkowo). Skrypt dynamicznie sprawdza obecność cech przed zapisaniem, dlatego brak ceny, przebiegu czy typu paliwa w poszczególnych ogłoszeniach nie powoduje błędów i nie przesuwa kolumn.
Optymalizacja pamięci: Zbieranie danych zoptymalizowano poprzez szybkie listy słowników, a Pandas DataFrame inicjalizowany jest tylko raz na końcu pracy. To wyklucza obciążenie systemu podczas parsowania dużych wolumenów.
Gotowy wynik biznesowy: Dane eksportowane są do CSV z poprawnym kodowaniem utf-8-sig, co gwarantuje poprawne wyświetlanie cyrylicy w Microsoft Excel bez dodatkowych ustawień.
Stos technologii: Python, HTTPX (AsyncClient), BeautifulSoup4, Pandas, Asyncio.
Zrealizowane rozwiązanie i cechy techniczne:
Asynchroniczna architektura: Dzięki przejściu na httpx.AsyncClient i asyncio skrypt wykonuje zapytania do sieci bez blokowania wątku, co zapewnia wysoką prędkość zbierania danych (ponad 50 stron ogłoszeń w mniej niż minutę).
Ochrona przed przesunięciem danych: Zrealizowano izolowane parsowanie „od obiektu” (po-kartkowo). Skrypt dynamicznie sprawdza obecność cech przed zapisaniem, dlatego brak ceny, przebiegu czy typu paliwa w poszczególnych ogłoszeniach nie powoduje błędów i nie przesuwa kolumn.
Optymalizacja pamięci: Zbieranie danych zoptymalizowano poprzez szybkie listy słowników, a Pandas DataFrame inicjalizowany jest tylko raz na końcu pracy. To wyklucza obciążenie systemu podczas parsowania dużych wolumenów.
Gotowy wynik biznesowy: Dane eksportowane są do CSV z poprawnym kodowaniem utf-8-sig, co gwarantuje poprawne wyświetlanie cyrylicy w Microsoft Excel bez dodatkowych ustawień.
Stos technologii: Python, HTTPX (AsyncClient), BeautifulSoup4, Pandas, Asyncio.