Парсер товаров для импорта на Prom
Описание проекта:
Разработал масштабируемый парсер товарных страниц, который собирает данные о товарах с различных e-commerce сайтов и готовит их в виде, удобном для импорта на маркетплейс Prom (или другие платформы).
Парсер автоматически извлекает название товара, описание, характеристики, категорию, цены, остатки на складе, артикул (SKU), штрих-код (GTIN/EAN), варианты (размеры/цвета), а также ссылки на медиафайлы — и формирует валидные экспорты (CSV/Excel/XML + архив с изображениями) для быстрого загрузки на Prom.
Система спроектирована для массовых прогонов: поддержка множества источников, надежность при длительных сборах, механизмы обхода антибот-защиты и удобные инструменты для маппинга полей под требования маркетплейса.
Функциональность:
Автоматический сбор товаров по категориям, поисковым запросам и спискам URL.
Сбор полного набора полей: название, описание, бренд, категория, характеристики (атрибуты), цены (розница/опт), наличие/запасы, артикул (SKU), GTIN/EAN, ссылки на изображения и галереи.
Сбор вариантов товара (размеры, цвета) и формирование отдельных позиций или комбинаций для импорта.
Загрузка и кэширование изображений; формирование ZIP-архива с подготовленными картинками.
Маппинг полей под формат импорта Prom (CSV/XML) с возможностью настраиваемых шаблонов и правил трансформации.
Валидация экспортного фида: проверка обязательных полей, корректность цен и наличия, отчеты об ошибках.
Ротация прокси, изменение User-Agent, тайминги и семафоры для минимизации риска блокировок.
Обработка динамических страниц через Playwright/Selenium для сайтов с JS-рендерингом.
Дедупликация по артикулу/URL и инкрементальные обновления для избежания дублирования товаров.
Планировщик/очередь для регулярного обновления прайс-листов и остатков (cron / Celery).
Логи, метрики и детализированные отчеты по прогону (количество обработанных товаров, ошибки, пропуски).
Разработал масштабируемый парсер товарных страниц, который собирает данные о товарах с различных e-commerce сайтов и готовит их в виде, удобном для импорта на маркетплейс Prom (или другие платформы).
Парсер автоматически извлекает название товара, описание, характеристики, категорию, цены, остатки на складе, артикул (SKU), штрих-код (GTIN/EAN), варианты (размеры/цвета), а также ссылки на медиафайлы — и формирует валидные экспорты (CSV/Excel/XML + архив с изображениями) для быстрого загрузки на Prom.
Система спроектирована для массовых прогонов: поддержка множества источников, надежность при длительных сборах, механизмы обхода антибот-защиты и удобные инструменты для маппинга полей под требования маркетплейса.
Функциональность:
Автоматический сбор товаров по категориям, поисковым запросам и спискам URL.
Сбор полного набора полей: название, описание, бренд, категория, характеристики (атрибуты), цены (розница/опт), наличие/запасы, артикул (SKU), GTIN/EAN, ссылки на изображения и галереи.
Сбор вариантов товара (размеры, цвета) и формирование отдельных позиций или комбинаций для импорта.
Загрузка и кэширование изображений; формирование ZIP-архива с подготовленными картинками.
Маппинг полей под формат импорта Prom (CSV/XML) с возможностью настраиваемых шаблонов и правил трансформации.
Валидация экспортного фида: проверка обязательных полей, корректность цен и наличия, отчеты об ошибках.
Ротация прокси, изменение User-Agent, тайминги и семафоры для минимизации риска блокировок.
Обработка динамических страниц через Playwright/Selenium для сайтов с JS-рендерингом.
Дедупликация по артикулу/URL и инкрементальные обновления для избежания дублирования товаров.
Планировщик/очередь для регулярного обновления прайс-листов и остатков (cron / Celery).
Логи, метрики и детализированные отчеты по прогону (количество обработанных товаров, ошибки, пропуски).