Скрейпинг Otodom
Разработан надежный, готовый к внедрению инструмент автоматизации на Python, специально предназначенный для извлечения больших объемов данных с сайта Otodom.pl. Этот проект демонстрирует высокий уровень компетентности в области автоматизации браузеров, управления базами данных и структурирования данных.
Ключевые технические особенности:
Постоянное состояние извлечения данных: интегрирован бэкенд базы данных SQLite3 для отслеживания прогресса извлечения данных. Это позволяет скрипту запоминать последнюю обработанную страницу, обеспечивая мгновенное восстановление работы после перерыва — критически важная функция для надежного извлечения данных.
Расширенная автоматизация браузера: использован Playwright для обработки динамического контента, обхода всплывающих окон с запросом на согласие на использование файлов cookie и имитации человеческого взаимодействия с помощью плавной прокрутки и случайных задержек.
Чистый конвейер данных: автоматически извлекает и очищает сложные поля, включая название, цену, цену за м², площадь, количество комнат и местоположение.
Экспорт в реальном времени: разработана система непрерывного экспорта данных, которая сохраняет результаты в Excel (.xlsx) после каждой страницы, чтобы предотвратить потерю данных.
Качество кода: разработан с использованием подхода объектно-ориентированного программирования (ООП) для максимального удобства обслуживания и масштабируемости.
Технический стек:
Бэкенд: Python
Автоматизация: Playwright (Chromium)
Ключевые технические особенности:
Постоянное состояние извлечения данных: интегрирован бэкенд базы данных SQLite3 для отслеживания прогресса извлечения данных. Это позволяет скрипту запоминать последнюю обработанную страницу, обеспечивая мгновенное восстановление работы после перерыва — критически важная функция для надежного извлечения данных.
Расширенная автоматизация браузера: использован Playwright для обработки динамического контента, обхода всплывающих окон с запросом на согласие на использование файлов cookie и имитации человеческого взаимодействия с помощью плавной прокрутки и случайных задержек.
Чистый конвейер данных: автоматически извлекает и очищает сложные поля, включая название, цену, цену за м², площадь, количество комнат и местоположение.
Экспорт в реальном времени: разработана система непрерывного экспорта данных, которая сохраняет результаты в Excel (.xlsx) после каждой страницы, чтобы предотвратить потерю данных.
Качество кода: разработан с использованием подхода объектно-ориентированного программирования (ООП) для максимального удобства обслуживания и масштабируемости.
Технический стек:
Бэкенд: Python
Автоматизация: Playwright (Chromium)