Parsowanie z Rozetki
Aplikacja internetowa na FastAPI, która automatycznie zbiera dane o produktach z rozetka.com.ua. Istnieje system autoryzacji, baza danych i trzy tryby parsowania. Wszystkie wyniki są zapisywane w Excelu z podziałem na kategorie.
Co robi:
1. parsuje produkty według zapytania wyszukiwania lub kategorii — wstawiasz link, określasz liczbę stron, a bot zbiera wszystkie pozycje w Excelu
2. zbiera produkty konkretnego sprzedawcy z danymi o grupowaniach i minimalnych cenach
3. pozwala na ręczne lub automatyczne zapisywanie i parsowanie ulubionych produktów
Jakie dane uzyskuje:
nazwa, cena (stara i nowa), ocena, liczba recenzji, marka, kategoria, popularność, sprzedawca, metody płatności, gwarancja, specyfikacje, dostawa, liczba filmów i kredytów. Dla sprzedawców dodano metryki dotyczące recenzji, cen i grupowań.
Część techniczna:
Selenium — do obsługi dynamicznych stron (rozszerzanie kart, przewijanie itp.), Cloudscraper — do omijania Cloudflare, do 10 wątków jednocześnie, partie po 60 produktów, losowe opóźnienia w celu symulacji rzeczywistych działań.
System autoryzacji:
trzy poziomy dostępu — oczekujące, zaakceptowane i admin. Używane są tokeny JWT (24 godziny), hasła są haszowane za pomocą bcrypt. Istnieje panel administracyjny, domyślnie tworzony jest użytkownik admin1/admin33.
Eksport do Excela:
produkty automatycznie rozdzielane są według kategorii na osobne arkusze, kolumny są wyróżnione kolorami — zielony (główne), pomarańczowy (dostawa), szary (popularne cechy), żółty (rzadkie). Jeśli w kategorii nie ma popularnych cech, arkusz jest oznaczony trzema wykrzyknikami.
Stos technologii:
Python, FastAPI, Selenium, Cloudscraper, BeautifulSoup, OpenPyXL, SQLite, JWT, bcrypt, asyncio, ThreadPoolExecutor.
Co robi:
1. parsuje produkty według zapytania wyszukiwania lub kategorii — wstawiasz link, określasz liczbę stron, a bot zbiera wszystkie pozycje w Excelu
2. zbiera produkty konkretnego sprzedawcy z danymi o grupowaniach i minimalnych cenach
3. pozwala na ręczne lub automatyczne zapisywanie i parsowanie ulubionych produktów
Jakie dane uzyskuje:
nazwa, cena (stara i nowa), ocena, liczba recenzji, marka, kategoria, popularność, sprzedawca, metody płatności, gwarancja, specyfikacje, dostawa, liczba filmów i kredytów. Dla sprzedawców dodano metryki dotyczące recenzji, cen i grupowań.
Część techniczna:
Selenium — do obsługi dynamicznych stron (rozszerzanie kart, przewijanie itp.), Cloudscraper — do omijania Cloudflare, do 10 wątków jednocześnie, partie po 60 produktów, losowe opóźnienia w celu symulacji rzeczywistych działań.
System autoryzacji:
trzy poziomy dostępu — oczekujące, zaakceptowane i admin. Używane są tokeny JWT (24 godziny), hasła są haszowane za pomocą bcrypt. Istnieje panel administracyjny, domyślnie tworzony jest użytkownik admin1/admin33.
Eksport do Excela:
produkty automatycznie rozdzielane są według kategorii na osobne arkusze, kolumny są wyróżnione kolorami — zielony (główne), pomarańczowy (dostawa), szary (popularne cechy), żółty (rzadkie). Jeśli w kategorii nie ma popularnych cech, arkusz jest oznaczony trzema wykrzyknikami.
Stos technologii:
Python, FastAPI, Selenium, Cloudscraper, BeautifulSoup, OpenPyXL, SQLite, JWT, bcrypt, asyncio, ThreadPoolExecutor.