Платформа автоматизованого збору даних Autoria

Парсинг данных
Работа 1 из 10
Розроблено високопродуктивну платформу автоматизованого збору даних із автомобільного маркетплейсу, яка забезпечує регулярний моніторинг оголошень, автоматичне оновлення інформації та централізоване зберігання даних.

Система побудована на асинхронній архітектурі з використанням Playwright та AsyncIO, підтримує паралельну обробку великої кількості сторінок, автоматичне планування запусків і резервне копіювання бази даних.

Основний функціонал

• автоматичний збір оголошень за розкладом;
• асинхронна багатопотокова обробка даних;
• паралельний запуск декількох браузерів;
• автоматичне визначення та пропуск дублікатів;
• збереження інформації у PostgreSQL;
• адміністративна панель для запуску та контролю процесу збору даних;
• автоматичне резервне копіювання бази даних;
• розгортання проєкту за допомогою Docker.

Архітектурні особливості

• AsyncIO;
• Producer–Consumer Architecture;
• Browser Pool;
• Queue Processing;
• Parallel Workers;
• Scheduled Tasks;
• Docker Deployment.

Використані технології

Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS

Результат

Розроблено масштабовану платформу збору даних, яка працює в автоматичному режимі, забезпечує високу швидкість обробки інформації та легко масштабується для роботи з великими обсягами даних.

GitHub:
https://github.com/ShotPuter/autorio_parser