Парсинг с Розетки
Веб-приложение на FastAPI, которое автоматически собирает данные о товарах с rozetka.com.ua. Есть система авторизации, база данных и три режима парсинга. Все результаты сохраняются в Excel с разбивкой по категориям.
Что делает:
1. парсит товары по поисковому запросу или категории — вставляешь ссылку, указываешь количество страниц, и бот собирает все позиции в Excel
2. собирает товары конкретного продавца с данными о группировках и минимальных ценах
3. позволяет сохранять и парсить избранные товары вручную или автоматически
Какие данные получает:
название, цену (старую и новую), рейтинг, количество отзывов, бренд, категорию, популярность, продавца, способы оплаты, гарантию, характеристики, доставку, количество видео и кредитов. Для продавцов добавлены метрики по отзывам, ценам и группировкам.
Техническая часть:
Selenium — для обработки динамических страниц (раскрытие карточек, скроллинг и т.д.), Cloudscraper — для обхода Cloudflare, до 10 потоков одновременно, батчи по 60 товаров, случайные задержки для имитации реальных действий.
Система авторизации:
три уровня доступа — pending, accepted и admin. Используются JWT-токены (24 часа), пароли хэшируются через bcrypt. Есть админ-панель, по умолчанию создаётся пользователь admin1/admin33.
Экспорт в Excel:
товары автоматически распределяются по категориям в отдельные листы, колонки выделяются цветом — зелёный (основное), оранжевый (доставка), серый (популярные характеристики), жёлтый (редкие). Если в категории нет популярных характеристик, лист отмечается тремя восклицательными знаками.
Стек технологий:
Python, FastAPI, Selenium, Cloudscraper, BeautifulSoup, OpenPyXL, SQLite, JWT, bcrypt, asyncio, ThreadPoolExecutor.
Что делает:
1. парсит товары по поисковому запросу или категории — вставляешь ссылку, указываешь количество страниц, и бот собирает все позиции в Excel
2. собирает товары конкретного продавца с данными о группировках и минимальных ценах
3. позволяет сохранять и парсить избранные товары вручную или автоматически
Какие данные получает:
название, цену (старую и новую), рейтинг, количество отзывов, бренд, категорию, популярность, продавца, способы оплаты, гарантию, характеристики, доставку, количество видео и кредитов. Для продавцов добавлены метрики по отзывам, ценам и группировкам.
Техническая часть:
Selenium — для обработки динамических страниц (раскрытие карточек, скроллинг и т.д.), Cloudscraper — для обхода Cloudflare, до 10 потоков одновременно, батчи по 60 товаров, случайные задержки для имитации реальных действий.
Система авторизации:
три уровня доступа — pending, accepted и admin. Используются JWT-токены (24 часа), пароли хэшируются через bcrypt. Есть админ-панель, по умолчанию создаётся пользователь admin1/admin33.
Экспорт в Excel:
товары автоматически распределяются по категориям в отдельные листы, колонки выделяются цветом — зелёный (основное), оранжевый (доставка), серый (популярные характеристики), жёлтый (редкие). Если в категории нет популярных характеристик, лист отмечается тремя восклицательными знаками.
Стек технологий:
Python, FastAPI, Selenium, Cloudscraper, BeautifulSoup, OpenPyXL, SQLite, JWT, bcrypt, asyncio, ThreadPoolExecutor.