Платформа автоматизованого збору даних Autoria
Парсинг данныхРозроблено високопродуктивну платформу автоматизованого збору даних із автомобільного маркетплейсу, яка забезпечує регулярний моніторинг оголошень, автоматичне оновлення інформації та централізоване зберігання даних.
Система побудована на асинхронній архітектурі з використанням Playwright та AsyncIO, підтримує паралельну обробку великої кількості сторінок, автоматичне планування запусків і резервне копіювання бази даних.
Основний функціонал
• автоматичний збір оголошень за розкладом;
• асинхронна багатопотокова обробка даних;
• паралельний запуск декількох браузерів;
• автоматичне визначення та пропуск дублікатів;
• збереження інформації у PostgreSQL;
• адміністративна панель для запуску та контролю процесу збору даних;
• автоматичне резервне копіювання бази даних;
• розгортання проєкту за допомогою Docker.
Архітектурні особливості
• AsyncIO;
• Producer–Consumer Architecture;
• Browser Pool;
• Queue Processing;
• Parallel Workers;
• Scheduled Tasks;
• Docker Deployment.
Використані технології
Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS
Результат
Розроблено масштабовану платформу збору даних, яка працює в автоматичному режимі, забезпечує високу швидкість обробки інформації та легко масштабується для роботи з великими обсягами даних.
GitHub:
https://github.com/ShotPuter/autorio_parser
Система побудована на асинхронній архітектурі з використанням Playwright та AsyncIO, підтримує паралельну обробку великої кількості сторінок, автоматичне планування запусків і резервне копіювання бази даних.
Основний функціонал
• автоматичний збір оголошень за розкладом;
• асинхронна багатопотокова обробка даних;
• паралельний запуск декількох браузерів;
• автоматичне визначення та пропуск дублікатів;
• збереження інформації у PostgreSQL;
• адміністративна панель для запуску та контролю процесу збору даних;
• автоматичне резервне копіювання бази даних;
• розгортання проєкту за допомогою Docker.
Архітектурні особливості
• AsyncIO;
• Producer–Consumer Architecture;
• Browser Pool;
• Queue Processing;
• Parallel Workers;
• Scheduled Tasks;
• Docker Deployment.
Використані технології
Python • Playwright • AsyncIO • Django • PostgreSQL • Docker • HTML • CSS
Результат
Розроблено масштабовану платформу збору даних, яка працює в автоматичному режимі, забезпечує високу швидкість обробки інформації та легко масштабується для роботи з великими обсягами даних.
GitHub:
https://github.com/ShotPuter/autorio_parser