Platforma zautomatyzowanego zbierania danych Autoria
Parsowanie danychOpracowano wysokowydajną platformę automatycznego zbierania danych z rynku motoryzacyjnego, która zapewnia regularne monitorowanie ogłoszeń, automatyczne aktualizowanie informacji oraz centralne przechowywanie danych.
System zbudowany jest na asynchronicznej architekturze z wykorzystaniem Playwright i AsyncIO, wspiera równoległe przetwarzanie dużej liczby stron, automatyczne planowanie uruchomień oraz tworzenie kopii zapasowych bazy danych.
Podstawowa funkcjonalność
• automatyczne zbieranie ogłoszeń według harmonogramu;
• asynchroniczne przetwarzanie danych w wielu wątkach;
• równoległe uruchamianie kilku przeglądarek;
• automatyczne wykrywanie i pomijanie duplikatów;
• przechowywanie informacji w PostgreSQL;
• panel administracyjny do uruchamiania i kontrolowania procesu zbierania danych;
• automatyczne tworzenie kopii zapasowych bazy danych;
• wdrażanie projektu za pomocą Dockera.
Cechy architektoniczne
• AsyncIO;
• Architektura Producent–Konsument;
• Pula przeglądarek;
• Przetwarzanie kolejek;
• Równoległe pracownicy;
• Zaplanowane zadania;
• Wdrażanie Dockera.
Wykorzystane technologie
Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS
Wynik
Opracowano skalowalną platformę zbierania danych, która działa w trybie automatycznym, zapewnia wysoką prędkość przetwarzania informacji i łatwo skaluje się do pracy z dużymi ilościami danych.
GitHub:
https://github.com/ShotPuter/autorio_parser
System zbudowany jest na asynchronicznej architekturze z wykorzystaniem Playwright i AsyncIO, wspiera równoległe przetwarzanie dużej liczby stron, automatyczne planowanie uruchomień oraz tworzenie kopii zapasowych bazy danych.
Podstawowa funkcjonalność
• automatyczne zbieranie ogłoszeń według harmonogramu;
• asynchroniczne przetwarzanie danych w wielu wątkach;
• równoległe uruchamianie kilku przeglądarek;
• automatyczne wykrywanie i pomijanie duplikatów;
• przechowywanie informacji w PostgreSQL;
• panel administracyjny do uruchamiania i kontrolowania procesu zbierania danych;
• automatyczne tworzenie kopii zapasowych bazy danych;
• wdrażanie projektu za pomocą Dockera.
Cechy architektoniczne
• AsyncIO;
• Architektura Producent–Konsument;
• Pula przeglądarek;
• Przetwarzanie kolejek;
• Równoległe pracownicy;
• Zaplanowane zadania;
• Wdrażanie Dockera.
Wykorzystane technologie
Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS
Wynik
Opracowano skalowalną platformę zbierania danych, która działa w trybie automatycznym, zapewnia wysoką prędkość przetwarzania informacji i łatwo skaluje się do pracy z dużymi ilościami danych.
GitHub:
https://github.com/ShotPuter/autorio_parser