Parsowanie strony
Wymagana jest implementacja 4 parserów (strony katalogowe)
Jest specyfikacja, jest przykład kodu jako referencja. Do zadań należy:
Napisanie parsera
Podłączenie proxy
Logika deduplikacji (przeniesienie logiki z przykładu)
Logika haszowania według 3 pól
Parser powinien działać jako pipeline z logiką opisaną powyżej.
-
Ocena - 35 000 UAH, termin - 7 dni po uzyskaniu dostępu do specyfikacji i przykładu kodu.
W przypadku tego zadania nie robiłbym czterech rozdzielnych skryptów, a ogólny ciąg przetwarzania - ładowanie, proxy, analiza, normalizacja, deduplikacja, haszowanie po 3 polach, eksport i logowanie błędów. Zobaczcie, tu jest niuans - proxy i ochrona katalogów często zajmują więcej czasu niż sama analiza stron, dlatego sprawdzę to na pierwszych 1-2 stronach.
Pytania
> jakie dokładnie katalogi i jaki format wyjściowy jest potrzebny - CSV, baza, API czy plik dla waszego systemu
> deduplikacja musi być robiona tylko wewnątrz jednego serwisu czy między wszystkimi 4 źródłami
Podobne przykłady Ingello
… > https://business.ingello.com/prime-eva - podobne w pracy z danymi produktowymi i automatyzacją operacyjną
> https://business.ingello.com/vorfahr - bliskie pod względem integracji, ciągów przetwarzania i danych
> https://systems-fl.ingello.com - strona główna dotycząca rozwoju systemów
Na początek potrzebne są specyfikacje, przykład kodu, testowe proxy lub wymagania dotyczące nich, format wyniku i kryteria, według których uznajemy zapis za duplikat. Ogólnie w porządku, nie ma co komplikować - najpierw robimy stabilne jądro, a potem podłączamy 4 źródła =)
-
Cześć! Zainteresowała mnie zadanie „Parsowanie strony”. Mam doświadczenie w integracjach API, wymianie danych, parserach, webhookach i automatyzacji procesów. Będę w stanie starannie podłączyć potrzebne usługi, obsłużyć błędy/powtórzenia i stworzyć rozwiązanie, które będzie stabilnie działać po uruchomieniu.
-
Dzień dobry
Profesjonalnie zajmuję się parsowaniem stron internetowych
Wykonam wszystko jakościowo i maksymalnie szybko
Zgłaszajcie się
-
Dzień dobry. Aby ocenić, należy przejrzeć same strony. Podaję minimalny koszt podobnego zamówienia.
-
Cześć, pracowałem nad parsowaniem katalogu z ponad 50 000 produktami dla platformy eCommerce, używając rotacji proxy i deduplikacji po haszach - to na pewno pasuje do waszych 4 katalogów!
Ciekawi mnie, które dokładnie katalogi trzeba parsować i czy są jakieś ograniczenia dotyczące prędkości zbierania danych?
Proponuję się skontaktować, chętnie doradzę technicznie i wspólnie opracujemy plan rozwoju + opowiem o moim zespole! ✨
-
1422 13 0 Witam, mogę zrealizować wszystkie 4 parsery zgodnie z TŻ i dostarczonym referencją. Ustawię pracę przez proxy, przeniosę logikę deduplikacji, zrealizuję haszowanie po potrzebnych polach i zbuduję pełny pipeline przetwarzania danych. Posiadam doświadczenie w tworzeniu skomplikowanych parserów i systemów zbierania danych.
W rezultacie otrzymacie gotowe parsery z jednolitą logiką działania, stabilnym przetwarzaniem danych oraz możliwością dalszego skalowania.
Po zapoznaniu się z TŻ i przykładem kodu będę mógł od razu ocenić dokładne terminy i koszt.
Proszę, powiedzcie, na jakim stacku napisany jest referencyjny kod i jakie konkretne strony należy parsować?
-
1520 2 0 Cześć!
Świetne i technicznie poprawne wymagania. Posiadanie referencyjnego kodu to ogromny plus, ponieważ nie będziemy musieli zgadywać pożądanej logiki deduplikacji, po prostu zintegrować twój gotowy algorytm w nowej architekturze.
Specjalizuję się w zaawansowanej automatyzacji webowej (Python) oraz budowaniu odpornych na awarie potoków danych (Data Pipelines).
Wielu programistów stworzy dla ciebie 4 rozdzielne skrypty, które będą bardzo trudne i kosztowne w utrzymaniu w przyszłości. Proponuję zbudować to jako jeden modułowy potok, gdzie każda strona-katalog to po prostu oddzielny moduł podłączony do wspólnego rdzenia.
Jak będzie zorganizowana architektura (Pipeline):
…
Zbieranie i Proxy (Extractor): Ustawiamy rotację proxy z mechanizmem retry. Jeśli katalog wyda timeout lub zablokuje IP, skrypt nie zakończy się błędem, ale delikatnie zmieni proxy i kontynuuje pracę z tego samego miejsca. Aby chronić przed Cloudflare lub renderowaniem JS, używam Playwright, dla szybkich stron — asynchroniczny Aiohttp.
Transformacja (Transformer): Parsowanie potrzebnych pól i ich oczyszczanie z niepotrzebnych tagów.
Haszowanie: Generujemy unikalny klucz kompozytowy na podstawie 3 wskazanych pól (MD5 lub SHA-256).
Deduplikacja (Filter): Przenoszę logikę z twojego referencyjnego kodu. Realizuję sprawdzanie haszy "na bieżąco" (przez generatory), aby skrypt działał szybko i nie zjadał całej pamięci RAM serwera podczas przetwarzania dużych katalogów.
Dwa pytania wyjaśniające:
Czy deduplikacja ma działać globalnie (szukać duplikatów między wszystkimi 4 źródłami) czy izolowanie wewnątrz każdego oddzielnego serwisu?
W jakim formacie potok ma zwracać finalne oczyszczone dane (CSV, JSON, czy bezpośredni zapis do twojej bazy danych)?
Czekam na linki do stron i twój przykład kodu w wiadomościach prywatnych. Mogę przystąpić do analizy od razu po uzgodnieniu szczegółów!
-
650 2 0 Dzień dobry!
Rozwój parserów z logiką pipeline to nasza specjalizacja, więc zadanie jest całkowicie zrozumiałe. Posiadanie specyfikacji i przykładu kodu to duży plus: utrzymamy jednolity styl i przeniesiemy twoją logikę bez odchyleń.
Co zrealizujemy:
4 parsery zgodnie ze specyfikacją dla stron katalogowych.
Integracja proxy (rotacja + throttling dla stabilnej pracy bez blokad).
Logika deduplikacji — przeniesiemy z twojego referencji.
… Haszowanie po 3 polach dla kontroli duplikatów.
Wszystko zebrane w jeden pipeline według opisanego schematu.
Aby od razu podać dokładną cenę i termin, proszę o wyjaśnienie:
Czy 4 strony są jednorodne czy różne pod względem złożoności (renderowanie JS, antybot, autoryzacja)?
Czy proxy są twoje, czy podłączamy swoje?
Szczegóły omówimy osobiście.
-
172 1 1 Dzień dobry. Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.
-
3411 32 0 Witaj!\nAby ocenić zakres pracy, proszę o przesłanie linków do stron w wiadomości prywatnej, a także bardziej szczegółowego opisu zadań.
-
1964 25 1 Cześć, mogę stworzyć taki pipeline dla Ciebie, mam doświadczenie. Ale potrzebuję więcej danych wejściowych. Może porozmawiajmy na prywatnej wiadomości?
-
420 2 0 Witam!\nJestem gotowa zrealizować 4 parsery zgodnie z Twoim TŻ.\nPrześlij linki do stron w wiadomości prywatnej.
-
1476 14 1 Zrobię parsery z proxy i logiką deduplikacji jako pipeline w Pythonie. Mam doświadczenie w integracji haszowania dla unikalizacji danych i pracy z przykładem kodu. Czy możesz sprecyzować, które dokładnie pola należy haszować do deduplikacji?
-
727 6 0 szczegółowa ocena po zapoznaniu się z TZ
_______________________________________________
-
234 Witam. Mogę zrealizować 4 parsery zgodnie z Państwa specyfikacją: przepiszę logikę z referencji, skonfiguruję proxy, dodam deduplikację i haszowanie według 3 pól, a także zbiorę wszystko w jeden pipeline, aby dane były przetwarzane sekwencyjnie i stabilnie. Po zapoznaniu się z przykładem kodu doprecyzuję szczegóły i zaproponuję finalną architekturę rozwiązania.
-
333 Dzień dobry! Zajmuję się parsowaniem w Pythonie i Javie, mam doświadczenie w rotacji proxy, deduplikacji i architekturze pipeline. Zrealizuję 4 parsery z uwzględnieniem waszego przykładu kodu — przeniosę logikę deduplikacji, dodam haszowanie po 3 polach i podłączę proxy. Kod będzie czysty, z logowaniem i obsługą błędów. Przed rozpoczęciem wyjaśnię listę stron i możliwe zabezpieczenia (Cloudflare, renderowanie JS). Oddam w terminie.
-
2335 37 0 Dzień dobry, robiłem parsery różnych stron. Przykłady kodu nie są potrzebne. Potrzebne są adresy stron, wtedy można będzie dokładniej powiedzieć o czasie i kosztach.
-
95670 1272 1 10 Witaj. Mam duże doświadczenie w tworzeniu parserów. Czy mogę zobaczyć strony do parsowania?
-
2025 4 0 Cześć!
Mam duże doświadczenie w opracowywaniu rozwiązań do parsowania i przetwarzania danych (różne źródła, ochrona przed blokadami, automatyzacja). Jestem gotów zrealizować postawione zadanie w najkrótszym czasie.
Proponuję omówić szczegóły w wiadomościach prywatnych.
-
3880 15 0 Witam. Mogę opracować parser dla Ciebie w najkrótszym czasie. Płatność godzinowa. Liczba godzin musi być wcześniej zatwierdzona. Zależy to od tego, jakie platformy/strony zamierzamy parsować. Wyślij je w wiadomości prywatnej.
Ostatni projekt, nad którym pracowałem, to parser zagranicznych platform (olx, vinted, jofogas), z monitoringiem i tą logiką, o której piszesz, tylko w formacie bota Telegram. Opinie w profilu lub pod linkiem https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1592141.html
Pisz, będę zadowolony, aby to zrobić dla Ciebie.
-
1251 35 1 3 Witam, jestem gotów to zrobić. Proszę przesłać specyfikację w wiadomości prywatnej, zapoznam się, omówimy warunki współpracy.
-
6216 74 1 Dzień dobry. Mam duże doświadczenie w parsowaniu. Trzeba spojrzeć na źródła. Będę zadowolony ze współpracy.
-
315 Cześć, jestem zainteresowany projektem. Pracuję z Pythonem, parsowaniem stron, Requests/BeautifulSoup/Selenium, przetwarzaniem danych oraz zapisywaniem wyników w CSV/Excel. Jestem gotów rozważyć realizację 4 parserów dla Twoich stron z podłączeniem proxy, deduplikacją i haszowaniem według potrzebnych pól. Mogę również rozważyć przykład kodu i przenieść niezbędną logikę do nowego pipeline'u. Aby dokładnie ocenić, chciałbym zapoznać się z TS, listą stron, przykładem kodu oraz formatem danych końcowych.
-
1490 28 0 mogę wykonać, piszcie, aby omówić szczegóły.................................................
-
182 Cześć!
Jestem gotów zrealizować wszystkie 4 parsery zgodnie z TŻ. Mogę przenieść i dostosować logikę deduplikacji z projektu referencyjnego, skonfigurować pracę przez proxy, zrealizować haszowanie według wskazanych pól i zebrać wszystko w jeden pipeline.
Jeśli dostarczysz TŻ i przykład kodu, będę mógł szybko ocenić terminy i przystąpić do pracy.
-
3387 84 0 Gotowy się tym zająć. Trzeba zobaczyć strony. Trzeba doprecyzować szczegóły zamówienia, piszcie! Używam Pythona, uv, github, docker.
-
6811 164 1 Dobry wieczór, jeśli masz duże doświadczenie w parsowaniu, mogę przystąpić po uzgodnieniu TŻ. Pisz na priv.
-
471 1 0 Dobry wieczór. Proszę przesłać specyfikację, a ja przystąpię do realizacji parserów.
-
9944 117 0 Cześć.
Opracowuję boty i parsery w NodeJS. Jestem gotów się tym zająć. Napisz, omówimy.
-
243 Bohdanie, witam.
Zapoznałam się z twoim zadaniem. To świetnie, gdy jest gotowe TŻ i referencyjny kod, to od razu usuwa mnóstwo pytań. Napiszę wszystkie 4 parsery w Pythonie (Scrapy lub BeautifulSoup, w zależności od tego, jak dane są udostępniane przez strony).
Cały pipeline skonfiguruję jak należy: podłączę proxy dla stabilnego zbierania, a logikę deduplikacji i haszowania po trzech polach po prostu zaimplementuję z twojego przykładu.
Prześlij w wiadomościach prywatnych linki do samych katalogów oraz twój referencyjny kod. Szybko przejrzę strukturę i od razu mogę zabrać się do pracy.
-
3099 31 0 Witam! Świetne, zrozumiałe zadanie, całkowicie w moim profilu. Zrealizuję parsery jako niezawodny, odporny na błędy pipeline w Pythonie (Scrapy/BeautifulSoup).
Dokładnie przeniosę logikę deduplikacji i haszowania według 3 pól z waszego odniesienia, skonfiguruję rotację proxy dla nieprzerwanej pracy. Ponieważ mam gotowe TŻ i przykład kodu, zrobię wszystko szybko i bez zbędnych pytań.
Jestem gotów rozpocząć od razu po zapoznaniu się z odniesieniem. Porozmawiajmy o szczegółach!
-
702 1 0 Cześć! Mam duże doświadczenie w pisaniu parserów. Jestem gotów do współpracy. Oferuję wysoką jakość i szybką pracę. Pisz.