Otodom скрейпінг
Розроблено надійний, готовий до впровадження інструмент автоматизації на Python, спеціально призначений для вилучення великих обсягів даних із сайту Otodom.pl. Цей проєкт демонструє високий рівень компетентності в галузі автоматизації браузерів, управління базами даних та структурування даних.
Ключові технічні особливості:
Постійний стан вилучення даних: інтегровано бекенд бази даних SQLite3 для відстеження прогресу вилучення даних. Це дозволяє скрипту запам'ятовувати останню оброблену сторінку, забезпечуючи миттєве відновлення роботи після перерв — критично важлива функція для надійного вилучення даних.
Розширена автоматизація браузера: використано Playwright для обробки динамічного контенту, обходу спливаючих вікон з запитом на згоду на використання файлів cookie та імітації людської взаємодії за допомогою плавного прокручування та випадкових затримок.
Чистий конвеєр даних: автоматично витягує та очищає складні поля, включаючи назву, ціну, ціну за м², площу, кількість кімнат та місцезнаходження.
Експорт у реальному часі: розроблено систему безперервного експорту даних, яка зберігає результати в Excel (.xlsx) після кожної сторінки, щоб запобігти втраті даних.
Якість коду: Розроблено з використанням підходу об'єктно-орієнтованого програмування (ООП) для максимальної зручності обслуговування та масштабованості.
Технічний стек:
Бекенд: Python
Автоматизація: Playwright (Chromium)
Ключові технічні особливості:
Постійний стан вилучення даних: інтегровано бекенд бази даних SQLite3 для відстеження прогресу вилучення даних. Це дозволяє скрипту запам'ятовувати останню оброблену сторінку, забезпечуючи миттєве відновлення роботи після перерв — критично важлива функція для надійного вилучення даних.
Розширена автоматизація браузера: використано Playwright для обробки динамічного контенту, обходу спливаючих вікон з запитом на згоду на використання файлів cookie та імітації людської взаємодії за допомогою плавного прокручування та випадкових затримок.
Чистий конвеєр даних: автоматично витягує та очищає складні поля, включаючи назву, ціну, ціну за м², площу, кількість кімнат та місцезнаходження.
Експорт у реальному часі: розроблено систему безперервного експорту даних, яка зберігає результати в Excel (.xlsx) після кожної сторінки, щоб запобігти втраті даних.
Якість коду: Розроблено з використанням підходу об'єктно-орієнтованого програмування (ООП) для максимальної зручності обслуговування та масштабованості.
Технічний стек:
Бекенд: Python
Автоматизація: Playwright (Chromium)