Platforma zautomatyzowanego zbierania danych Autoria

Parsowanie danych
Praca 1 z 10
Opracowano wysokowydajną platformę automatycznego zbierania danych z rynku motoryzacyjnego, która zapewnia regularne monitorowanie ogłoszeń, automatyczne aktualizowanie informacji oraz centralne przechowywanie danych.

System zbudowany jest na asynchronicznej architekturze z wykorzystaniem Playwright i AsyncIO, wspiera równoległe przetwarzanie dużej liczby stron, automatyczne planowanie uruchomień oraz tworzenie kopii zapasowych bazy danych.

Podstawowa funkcjonalność

• automatyczne zbieranie ogłoszeń według harmonogramu;
• asynchroniczne przetwarzanie danych w wielu wątkach;
• równoległe uruchamianie kilku przeglądarek;
• automatyczne wykrywanie i pomijanie duplikatów;
• przechowywanie informacji w PostgreSQL;
• panel administracyjny do uruchamiania i kontrolowania procesu zbierania danych;
• automatyczne tworzenie kopii zapasowych bazy danych;
• wdrażanie projektu za pomocą Dockera.

Cechy architektoniczne

• AsyncIO;
• Architektura Producent–Konsument;
• Pula przeglądarek;
• Przetwarzanie kolejek;
• Równoległe pracownicy;
• Zaplanowane zadania;
• Wdrażanie Dockera.

Wykorzystane technologie

Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS

Wynik

Opracowano skalowalną platformę zbierania danych, która działa w trybie automatycznym, zapewnia wysoką prędkość przetwarzania informacji i łatwo skaluje się do pracy z dużymi ilościami danych.

GitHub:
https://github.com/ShotPuter/autorio_parser