Specjalista ds. Web Scraping / Ekstrakcji Danych w Pythonie
Szukamy specjalisty ds. outsourcingu do zadań związanych z parsowaniem katalogów, stron producentów oraz źródeł OEM.
Musimy zbierać zróżnicowane informacje ze stron internetowych: katalogi produktów, modele sprzętu, kompatybilność części, numery części OEM, nazwy produktów, linki do źródeł oraz inne pola w zależności od konkretnej strony.
Główne zadania:
- analiza stron i poszukiwanie optymalnego sposobu pozyskiwania danych: API, HTML, JSON, CSV/XLSX, PDF lub inne dostępne źródła;
- pisanie skryptów do zbierania danych;
- czyszczenie, normalizacja i strukturyzacja danych;
- przekazywanie wyników w formacie CSV, Google Sheets lub uzgodnionej struktury do dalszego importu do naszej bazy;
- realizacja ponownego uruchamiania bez duplikowania rekordów;
- logika aktualizacji danych: nowe / zaktualizowane / niezmienione;
- logowanie uruchomień, błędów i liczby zebranych/zaktualizowanych rekordów;
- krótka dokumentacja: jak uruchomić skrypt, jakie zależności są potrzebne, jakie pola są zbierane, jaki klucz unikalny jest używany.
Wymagane umiejętności:
- Python lub inny odpowiedni język do scraping / ekstrakcji danych;
- requests, BeautifulSoup, lxml, pandas;
- Selenium lub Playwright dla stron z JavaScript;
- praca z API, JSON, CSV, XLSX;
- podstawowe zrozumienie SQL lub przygotowania danych do importu do bazy;
- Git / GitHub;
- umiejętność pracy z regularnym aktualizowaniem danych oraz logiką deduplikacji / upsert;
- uwaga na strukturę danych i stabilność skryptów.
Atutem będzie:
- doświadczenie w parsowaniu stron e-commerce, katalogów części zamiennych, katalogów OEM lub dokumentacji technicznej;
- doświadczenie w pracy z Google Sheets API;
- doświadczenie w przetwarzaniu katalogów PDF lub tabel;
- doświadczenie w konfigurowaniu regularnego uruchamiania skryptów;
- umiejętność opisywania ograniczeń źródła oraz ryzyk związanych z utrzymywaniem parsera.
Format współpracy:
Planujemy pracować na zasadzie godzinowej. Dla każdej nowej strony najpierw należy przeprowadzić krótkie badanie techniczne: przeanalizować źródło, zrozumieć sposób pozyskiwania danych, ocenić złożoność, ryzyka oraz orientacyjny czas realizacji.
Po tym uzgadniamy zakres prac i limit godzin na realizację.
W odpowiedzi prosimy o przesłanie:
- przykładów projektów scraping / ekstrakcji danych;
- GitHub lub przykłady kodu, jeśli są;
- swoją optymalną stawkę godzinową;
- jakie narzędzia zazwyczaj używasz.
-
Wejdę w technical discovery dla każdego źródła: sprawdzę API/HTML/JSON/CSV/XLSX/PDF, zaproponuję sposób zbierania, napiszę skrypt, przygotuję strukturę danych, deduplikację, logikę upsert, eksport i krótką dokumentację.
Czy macie już wzorcową próbkę dla jednego katalogu, aby sprawdzić, czy parser nie pomylił numerów części OEM, kompatybilności, kategorii i nie pominął części towarów do importu do bazy?
Stawka godzinowa, limit godzin i pierwszy serwis do testu — w prywatnej korespondencji po przeglądzie źródła danych.
Podobne wykonane zlecenie: В модулі OpenCart виправити 5 проблем повязаних з Facebook API
-
5170 37 2 Cześć!
Mam odpowiednie doświadczenie dokładnie pod Twoje zadania:
— Opracowywałem komercyjne skrypty do zbierania katalogów produktów z witryn e-commerce (Playwright, BeautifulSoup, requests) z omijaniem ochrony antybotowej i rotacją proxy
— Realizowałem logikę upsert (nowe / zaktualizowane / niezmienione) oraz deduplikację przy powtórnych uruchomieniach
— Zbierałem i normalizowałem duże ilości danych (ponad 27 000 rekordów) z dalszym przechowywaniem w PostgreSQL i eksportem do CSV
— Pracowałem z API, JSON, XLSX, a także dynamicznymi stronami JS za pomocą Playwright
— Ustawiałem logowanie uruchomień, błędów i statystyk zebranych rekordów
… — Pisałem krótką dokumentację do każdego skryptu
Narzędzia: Python, Playwright, BeautifulSoup, requests, pandas, lxml, PostgreSQL, Git
Portfolio i przykłady prac:Freelancehunt
Stawka godzinowa: od 12 USD/godz. — ostateczna stawka po technicznym odkryciu pierwszego źródła.
Jestem gotów rozpocząć od analizy pierwszej strony i dostarczyć ocenę złożoności oraz terminów. Proszę, prześlij link do pierwszego źródła!
-
312 1 0 Dzień dobry, widzę, że potrzebni są parserzy. Optymalna stawka godzinowa to 400 UAH. Proszę się zgłaszać, prześlę przykład parsera najniższych cen części do samochodów z administracją. Mam doświadczenie.
-
3420 32 0 Cześć! Regularnie zajmuję się parsowaniem różnej trudności, w portfolio są przykłady prac. W celu wyjaśnienia wszystkich szczegółów piszcie w wiadomościach prywatnych.
-
6507 74 1 Dzień dobry. Mam duże doświadczenie w różnorodnym parsowaniu.
https://freelancehunt.com/showcase/work/p2p-aggregator-agregator-kursiv-7h-kripto/1821723.html
https://freelancehunt.com/showcase/work/nextdoor-parser/1759679.html
Freelancehunt
10-15 USD - w zależności od złożoności.
framework Scrapy, aiohttp, requests. lxml
w dowolnej bazie lub tabelach.
-
2118 32 0 Dzień dobry, wiele rzeczy parsowałem, oto przykłady
https://freelancehunt.com/project/parsing-massove-stvorennya-storinok-na/1261589.html
https://freelancehunt.com/project/parser-dannyih-dlya-parser-yutub/1266572.html
https://freelancehunt.com/project/parser-saytyi-muzhskoy-kosmetiki-2/1239346.html
Pracowałem ze wszystkimi wymienionymi technologiami.
Płatność lepiej za projekt, a nie godzinowo.
… Mogę dać link do pierwszej strony, zrobię dla was technical discovery.
-
3239 31 0 Cześć! Zapoznałem się z zadaniem — to mój główny profil. Mam duże doświadczenie w tworzeniu systemów zbierania danych odpornych na błędy w Pythonie (BeautifulSoup, Playwright/Selenium, asynchroniczne zapytania) z budowaniem odpowiedniej architektury: deduplikacja (idempotencja), logowanie stanów rekordów (nowe/zaktualizowane/niezmienione), obsługa błędów oraz praca przez proxy w celu obejścia zabezpieczeń.
Format z wcześniejszym Technical Discovery wspieram w 100% — to jedyne profesjonalne podejście, które chroni przed ukrytymi pułapkami. Najpierw analizuję API/HTML źródła, oceniam złożoność (struktura, zabezpieczenia, objętość), uzgadniam z Tobą limit godzin i dopiero wtedy przechodzę do kodu. Wynik oddaję w ustrukturyzowanej formie (CSV/Google Sheets/JSON/SQL-ready) wraz z zwięzłym README do uruchomienia.
Moja optymalna stawka na długoterminową współpracę to 20-25 USD/godzinę (w zależności od objętości i regularności zadań). Narzędzia: Python (asyncio, aiohttp/requests, BS4), Playwright (do stron z dużą ilością JS), Pandas (normalizacja danych), Git. Przykłady architektury i podobnych przypadków mogę pokazać w wiadomościach prywatnych. Porozmawiajmy o pierwszym źródle!
-
4987 41 4 1 Dzień dobry!\n\nSpecjalizuję się w web scrapingu w Pythonie oraz wydobywaniu danych. Mam znaczące doświadczenie w pracy z API, Google Sheets, deduplikacją oraz strukturyzowaniem informacji, zapewniając stabilne i efektywne rozwiązania dla Twoich potrzeb.\n\nNapisz do mnie w wiadomości prywatnej, ustalimy szczegóły.
-
714 3 0 Dzień dobry, jestem ekspertem w dziedzinie parsowania. Piszę wszystko w językach Go i Node.js. Jeśli potrzebujesz wykonać skomplikowane i wysokiej jakości parsowanie, skontaktuj się ze mną.