Parser ofert pracy z witryny
Szukam programisty Python do stworzenia stabilnego parsera ofert pracy z serwisu Bundesagentur für Arbeit (https://www.arbeitsagentur.de/jobsuche/.
Ostateczne narzędzie ma zbierać oferty pracy z listy oraz stron szczegółowych ofert, stosować obowiązkowe filtry i zwracać ustrukturyzowaną tabelę według moich kolumn.
W projekcie przewidziano prosty dashboard (interfejs webowy), aby mogłem samodzielnie uruchamiać zbieranie (słowo kluczowe, miasto/zakres, okres publikacji), nacisnąć „Start” i otrzymać gotowy plik Excel/CSV/Google Sheet.
Ważne: na BA jest captcha (hCaptcha).
Materiały, które dołączę do projektu
Job Page.png — pokazuje, gdzie dokładnie brać: Stanowisko, Firma, Ulica i numer domu, Kod pocztowy/Miasto, Osoba kontaktowa (AP), Telefon, E-mail, Strona internetowa, Data publikacji, Numer referencyjny (nr.), Miejsce pracy, Link do ogłoszenia.
Filters BA.png — pokazuje, jakie filtry obowiązkowo włączyć przed parsowaniem:
Wyklucz pracę tymczasową (wyklucz)
Wyklucz zewnętrzne giełdy pracy (wyklucz)
Data publikacji (okres: 24h / 7 dni / 14 dni / 1 miesiąc)
Mailing Datenbank.xlsx — wzór kolumn, które należy wypełnić (można brać nazwy kolumn bezpośrednio z tego pliku).
Kolumny tabeli wyjściowej (dokładnie jak w pliku)
– Data zbierania
– Data publikacji
– nr. (Numer referencyjny)
– Stanowisko
– Firma
– Ulica i numer domu
– Kod pocztowy, Miasto
– Telefon
– Internet (Strona internetowa)
– Osoba kontaktowa (AP)
– E-mail – AP Firma
– Miejsce pracy
– Link do ogłoszenia
– wszystkie oferty
Jeśli pole jest nieobecne na stronie — wstawiać empty.
Filtry (obowiązkowe)
Praca tymczasowa = false (żadnej pracy tymczasowej w wynikach)
Zewnętrzne giełdy pracy = ukryj (odciąć zewnętrzne giełdy)
Data publikacji = ostatnie X dni (zgodnie z parametrem w dashboardzie, 24h / 7 dni / 14 dni / 1 miesiąc)
Deduplication
Klucz główny: Numer referencyjny (nr.)
Wymagania dotyczące jakości danych
Adres podzielony: Ulica / Kod pocztowy / Miasto
Telefon/E-mail — czyste wartości (bez „E+11”, bez zbędnych znaków)
URL oferty pracy — klikalny URL karty oferty pracy (nie wewnętrzny ID)
Data publikacji: jeśli „vor X Tagen” — przekształcić na dokładną datę
Wymagania techniczne
Ponowne uruchomienie nie tworzy duplikatów.
Dashboard (minimalny)
Pola: słowo kluczowe, miasto/zakres, okres publikacji (24h/7/14/30), checkboxy filtry pracy tymczasowej/zewnętrzne
Przycisk Start → po wykonaniu daje pobierz Excel oraz — push do Google Sheet).
Kryteria akceptacji
Wynik Excel/CSV dokładnie według struktury „Mailing Datenbank.xlsx” (nazwy kolumn z pliku).
Losowa kontrola 50 ofert pracy: adresy podzielone, kontakty czyste, data publikacji — dokładne daty, URL otwierają się.
Jeśli danych brak — w odpowiedniej kolumnie stoi
empty.README z instrukcją oraz krótkim raportem (ile zebrano, odfiltrowano pracę tymczasową/zewnętrzne, liczba duplikatów, liczba 429/5xx, jak przetwarzano captcha).
Etapowość i test
Zadanie testowe (obowiązkowe): zebrać 20 ofert pracy „Lagermitarbeiter/in” w ciągu 7 dni, stosując filtry; oddać Excel/CSV według struktury pliku; brakujące pola oznaczyć
empty.Etap 1 (kontrakt): pełny parser BA + deduplikacja + zasada
empty+ wynik w Excel/CSV.
Załączniki 3
-
5 dni643 PLN
133 5 dni643 PLNCześć, zainteresował mnie Twój projekt i jestem gotów go zrealizować!
Jestem programistą w Pythonie z ponad 3-letnim doświadczeniem.
Jestem gotów od razu przystąpić do wykonania pracy, zrobię wszystko, jak poprosisz. A także jestem gotów pomóc Ci we wszystkich ustawieniach!
Cena za ten projekt: 150-200€
Czas realizacji: do 3 dni
-
5 dni643 PLN
400 2 0 5 dni643 PLNDzień dobry!
Zespół składający się z 6 programistów jest gotowy stworzyć chat-bota dla twojego sklepu. Doświadczenie w tworzeniu botów - ponad 3 lata.
Możemy pokazać demo podobnych rozwiązań. Jaki komunikator preferujesz i ile mniej więcej produktów jest w katalogu?
Oto portfolio jednego z naszych programistów: https://hilrein.vercel.app
-
5 dni1286 PLN
642 4 1 5 dni1286 PLNDzień dobry! 👋
Jestem gotów podjąć się zadania: stabilny parser ofert pracy z strony Bundesagentur für Arbeit oraz prosty dashboard do uruchamiania zbiorów i eksportu do Excel/Google Sheets.
Krótko o moim podejściu
Parser w Pythonie (Playwright / requests+BeautifulSoup w zależności od strony). Playwright — aby poprawnie działać z JS, paginacją i dynamicznymi ładowaniami.
hCaptcha — obsługuję przez sprawdzone podejścia: sesje przeglądarkowe przypominające ludzkie + usługa antycaptcha (2captcha/Anti-Captcha) oraz rotacja proxy. Dzięki temu osiągamy stabilność i minimalizujemy blokady.
… Magazyn/eksport: wyniki zapisywane są w bazie danych (Postgres/SQLite dla MVP), następnie eksport do Excel/CSV ściśle według struktury Mailing Datenbank.xlsx. Istnieje automatyczne ładowanie do Google Sheets przez API.
Jakość danych: parser normalizuje adres (Ulica / PLZ / Miejscowość), oczyszcza telefony/e-maile, konwertuje “vor X Tagen” na dokładne daty; jeśli pole jest puste — ustawia empty.
Dedupikacja: klucz — Referenz-Nr.; ponowne uruchomienie nie tworzy duplikatów.
Stabilność: logowanie, ponowne próby, backoff, obsługa 429/5xx, statystyki błędów.
Dashboard (minimum dla MVP): prosta strona internetowa (Streamlit / FastAPI + lekki frontend) z polami: słowo kluczowe, miasto/promień, okres (24h/7/14/30), checkboxy Zeitarbeit/Externe, przycisk Start oraz pobieranie Excel / push do Google Sheets.
Technologie
Python 3.11, Playwright (lub Selenium/undetected), BeautifulSoup, pandas, openpyxl.
DB: PostgreSQL / SQLite.
Web: FastAPI (API) + Streamlit / prosta strona React do zarządzania.
Captcha: integracja Anti-Captcha / 2captcha + rotacja proxy.
Docker, systemd/cron do uruchamiania, Git.
Kryteria akceptacji (będę realizować dokładnie według specyfikacji)
Excel/CSV ściśle z kolumnami z Mailing Datenbank.xlsx.
Oczyszczenie kontaktów, podział adresu, dokładne daty publikacji, klikalne URL.
Test: 20 ofert pracy "Lagermitarbeiter/in" w ciągu 7 dni — wynik w Excel/CSV według struktury (to zadanie testowe, wykonam jako pierwszy etap).
README z raportem: ile zebrano, ile odrzucono (Zeitarbeit/Externe), duplikaty, błędy (429/5xx), jak była obsługiwana captcha.
Terminy (orientacyjne)
Zadanie testowe (20 ofert) — 1–2 dni robocze.
Pełny parser + dashboard MVP + dokumentacja — 7–12 dni roboczych (w zależności od stabilności omijania captcha i dostępności proxy).
Wynik / co otrzymasz
Działający parser w kontenerze Docker.
Interfejs webowy do uruchamiania i pobierania plików.
Excel/CSV według podanej struktury + opcja push do Google Sheets.
README z instrukcją uruchomienia i krótkim raportem.
-
2 dni429 PLN
1722 4 0 2 dni429 PLNDzień dobry.
Gwarantuję stabilność pracy, czyste dane i przejrzystą strukturę kodu.
-
1 dzień901 PLN
267 1 dzień901 PLNStworzę parser BA bez captcha w ciągu 24 godzin. Pracuję przez oficjalne REST Jobsuche (bez skrobania HTML). Wprowadzam filtry zeitarbeit=false, pav=false, veroeffentlichtseit, wo/umkreis, mapowanie pól dokładnie do twojego szablonu, deduplikację według Referenz-Nr, puste tam, gdzie brak danych, normalizację adresu/kontaktu oraz eksport do Excel/CSV + Google Sheets. Mini panel: słowo kluczowe, miasto/promień, okres, pola wyboru filtrów. Cena stała $250, czas realizacji 24 godziny.
-
4 dni515 PLN
645 8 1 4 dni515 PLNDzień dobry, jestem gotowa szybko, a przede wszystkim jakościowo zrealizować Twój projekt, specyfikacja jest dla mnie całkowicie zrozumiała i jasno opisana, mam doświadczenie w opracowywaniu podobnych parserów-zbieraczy ofert pracy, opracowywałam takie parsery dla stron sprzedaży samochodów, zbierania biletów i innych.
-
5 dni643 PLN
1017 2 1 5 dni643 PLNCześć!
Nazywam się Serhij. Zapoznałem się z twoim projektem i technologiami potrzebnymi do jego realizacji. Mam doświadczenie w web scrapingu w Pythonie, przetwarzaniu danych strukturalnych, pracy z Excel/CSV oraz integracji z Google Sheets. Gwarantuję szybkie i wysokiej jakości wykonanie zadania, z uwzględnieniem wszystkich twoich wymagań dotyczących filtrów, deduplikacji i jakości danych.
-
4 dni772 PLN
232 1 0 4 dni772 PLNCześć, Sergiusz!
Jestem programistą Pythona, mam duże doświadczenie w tworzeniu różnych rodzajów parserów/skrypterów, w tym stron zabezpieczonych za pomocą hCaptcha.
Pisz, omówimy Twój projekt!
Z poważaniem,
Andrzej
-
6 dni1286 PLN
1015 6 0 6 dni1286 PLNDzień dobry. Mam duże doświadczenie w parsowaniu. Mogę na django stworzyć minimalny interfejs, w którym będziecie mogli zarządzać zapisami i uruchamiać nowe parsowanie. Proszę o kontakt.
-
3 dni429 PLN
1100 8 1 3 dni429 PLNWitaj!
Mam doświadczenie w parsowaniu różnorodnych, dynamicznych stron przez 3+ lata.
Proponuję rozwiązanie na Fastapi, do zbierania danych wykorzystać Selenium, beautifulsoup.
Jestem gotów zająć się Twoim zamówieniem!
-
3 dni1286 PLN
9340 20 0 1 3 dni1286 PLNDzień dobry!
Zapoznałem się z twoim zadaniem i jestem gotów je wykonać. Mam doświadczenie w tworzeniu parserów i interfejsów webowych, a także w pracy z hCaptcha.
-
3 dni729 PLN
248 3 dni729 PLNCześć, czas realizacji 2-3 dni. Z przyjemnością podejmę się tej pracy. Duże doświadczenie w automatyzacji przeglądarek.
-
3 dni1286 PLN
225 3 dni1286 PLNDzień dobry, mogę napisać parser według waszych kryteriów i waszego tzw.