Парсер вакансий с сайта
Ищу разработчика Python для создания стабильного парсера вакансий с сайта Bundesagentur für Arbeit (https://www.arbeitsagentur.de/jobsuche/.
Финальный инструмент должен собирать вакансии из списка и jobdetail-страниц, применять обязательные фильтры и возвращать структурированную таблицу под мои колонки.
В проекте предусмотрен простой дашборд (веб-интерфейс), чтобы я мог сам запускать сбор (ключевое слово, город/радиус, период публикации), нажать «Старт» и получить готовый Excel/CSV/Google Sheet.
Важно: на BA есть капча (hCaptcha).
Материалы, которые я прикреплю к проекту
Job Page.png — показывает, где именно брать: Position, Unternehmen, Straße und Hausnummer, PLZ/Ort, Ansprechperson (AP), Telefon, E-Mail, Homepage, Veröffentlichungsdatum, Referenz-Nr. (nr.), Einsatzort, Link auf Anzeige.
Filters BA.png — показывает, какие фильтры обязательно включать перед парсингом:
Zeitarbeit ausschließen (исключить)
Externe Stellenbörsen ausschließen (исключить)
Veröffentlichungsdatum (период: 24h / 7 дней / 14 дней / 1 месяц)
Mailing Datenbank.xlsx — эталон колонок, которые нужно заполнять (можно брать названия столбцов прямо из этого файла).
Колонки выходной таблицы (точно как в файле)
– Datum Scraping
– Veröffentlichungsdatum
– nr. (Referenz-Nr.)
– Position
– Unternehmen
– Straße und Hausnummer
– PLZ, Ort
– Telefon
– Internet (Homepage)
– Ansprechperson (AP)
– E-Mail – AP Firma
– Einsatzort
– Link auf Anzeige
– alle stellen
Если поле отсутствует на странице — ставить empty.
Фильтры (обязательно)
Zeitarbeit = false (ни одной Zeitarbeit в результате)
Externe Stellenbörsen = ausblenden (отсечь внешние биржи)
Veröffentlichungsdatum = последние X дней (по параметру в дашборде, 24h / 7 дней / 14 дней / 1 месяц)
Дедупликация
Первичный ключ: Referenz-Nr. (nr.)
Требования к качеству данных
Адрес разбит: Street / PLZ / Ort
Телефон/Email — чистые значения (без «E+11», без лишних символов)
Job URL — кликабельный URL карточки вакансии (не внутренний ID)
Veröffentlichungsdatum: если «vor X Tagen» — конвертировать в точную дату
Технические требования
Повторный запуск не создает дубликатов.
Дашборд (минимальный)
Поля: ключевое слово, город/радиус, период публикации (24h/7/14/30), чекбоксы фильтры Zeitarbeit/Externe
Кнопка Start → после выполнения дает скачать Excel и — пуш в Google Sheet).
Критерии приемки
Вывод Excel/CSV ровно по структуре «Mailing Datenbank.xlsx» (названия колонок из файла).
Случайная проверка 50 вакансий: адреса разбиты, контакты чистые, Veröffentlichungsdatum — точными датами, URL открываются.
Если данных нет — в соответствующей колонке стоит
empty.README с инструкцией и коротким отчетом (сколько собрано, отсеяно Zeitarbeit/Externe, количество дубликатов, количество 429/5xx, как обрабатывалась капча).
Этапность и тест
Тестовое задание (обязательное): собрать 20 вакансий «Lagermitarbeiter/in» за 7 дней, применив фильтры; отдать Excel/CSV по структуре файла; отсутствующие поля обозначить
empty.Этап 1 (контракт): полный парсер BA + дедупликация + правило
empty+ вывод в Excel/CSV.
Приложения 3
-
5 дней7638 UAH
133 5 дней7638 UAHЗдравствуйте, заинтересовал ваш проект и готов его выполнить!
Я разработчик на python с более 3 лет опыта.
Готов сразу приступить к выполнению работы, сделаю всё как Вы попросите. А также готов помочь вам со всеми настройками!
Цена за данный проект: 150-200€
Время выполнения: до 3 дней
-
5 дней7638 UAH
400 2 0 5 дней7638 UAHДобрый день!
Команда из 6 разработчиков готова создать чат-бот для вашего магазина. Опыт разработки ботов - более 3 лет.
Можем показать демо похожих решений. Какой мессенджер предпочитаете и сколько примерно товаров в каталоге?
Вот портфолио одного из наших разработчиков: https://hilrein.vercel.app
-
5 дней15 276 UAH
642 4 1 5 дней15 276 UAHДобрый день! 👋
Готов взяться за задачу: стабильный парсер вакансий с сайта Bundesagentur für Arbeit и простой дашборд для запуска сборов и выгрузки в Excel/Google Sheets.
Коротко про мой подход
Парсер на Python (Playwright / requests+BeautifulSoup в зависимости от страницы). Playwright — чтобы корректно работать с JS, пагинацией и динамическими подгрузками.
hCaptcha — обрабатываю через проверенные подходы: human-like браузерные сессии + антикапча-сервис (2captcha/Anti-Captcha) и прокси-ротация. Так добиваемся стабильности и минимизируем блокировки.
… Хранилище/выгрузка: результаты пишутся в БД (Postgres/SQLite для MVP), затем экспорт в Excel/CSV строго по структуре Mailing Datenbank.xlsx. Есть автоматическая загрузка в Google Sheets через API.
Качество данных: парсер нормализует адрес (Street / PLZ / Ort), очищает телефоны/почты, конвертирует “vor X Tagen” в точные даты; если поле отсутствует — ставит empty.
Дедупликация: ключ — Referenz-Nr.; повторный запуск не создаёт дубликатов.
Стабильность: логирование, ретраи, backoff, обработка 429/5xx, статистика по ошибкам.
Дашборд (минимум для MVP): простая веб-страница (Streamlit / FastAPI + лёгкий фронт) с полями: ключевое слово, город/радиус, период (24h/7/14/30), чекбоксы Zeitarbeit/Externe, кнопка Start и скачивание Excel / пуш в Google Sheets.
Технологии
Python 3.11, Playwright (или Selenium/undetected), BeautifulSoup, pandas, openpyxl.
DB: PostgreSQL / SQLite.
Web: FastAPI (API) + Streamlit / простая React-страница для управления.
Captcha: интеграция Anti-Captcha / 2captcha + прокси-ротация.
Docker, systemd/cron для запуска, Git.
Критерии приёмки (буду выполнять точно по ТЗ)
Excel/CSV строго с колонками из Mailing Datenbank.xlsx.
Очистка контактов, разбивка адреса, точные даты публикаций, кликабельные URL.
Тест: 20 вакансий "Lagermitarbeiter/in" за 7 дней — результат в Excel/CSV по структуре (это тестовое задание, выполню как первый этап).
README с отчётом: сколько собрано, сколько отсеяно (Zeitarbeit/Externe), дубликаты, ошибки (429/5xx), как обрабатывалась капча.
Сроки (ориентир)
Тестовое задание (20 вакансий) — 1–2 рабочих дня.
Полный парсер + дашборд MVP + документация — 7–12 рабочих дней (в зависимости от стабильности обхода капчи и доступности прокси).
Результат / что вы получите
Рабочий парсер в Docker-контейнере.
Веб-интерфейс для запуска и скачивания файлов.
Excel/CSV по заданной структуре + опция пуша в Google Sheets.
README с инструкцией по запуску и коротким отчётом по
-
2 дня5092 UAH
1722 4 0 2 дня5092 UAHДобрый день.
Гарантирую стабильность работы, чистые данные и прозрачную структуру кода.
-
1 день10 693 UAH
267 1 день10 693 UAHЯ создам парсер BA без капчи за 24 часа.
Я работаю через официальный REST Jobsuche (без HTML-скрейпинга). Я реализую фильтры zeitarbeit=false, pav=false, veroeffentlichtseit, wo/umkreis, сопоставление полей точно по вашему шаблону, дедупликацию по Referenz-Nr, пустые поля, где нет данных, нормализацию адреса/контактов и экспорт в Excel/CSV + Google Sheets. Мини-панель: ключевое слово, город/радиус, период, флажки фильтров. Фиксированная цена $250, время выполнения 24 часа.
-
4 дня6110 UAH
645 8 1 4 дня6110 UAHДобрый день, готова выполнить ваш проект быстро, а главное качественно, ТЗ мне полностью понятно и четко расписано, имею опыт в разработке подобных парсеров-собирателей вакансий, разрабатывала такие парсеры для сайтов продажи авто, сбора билетов и других
-
5 дней7638 UAH
1017 2 1 5 дней7638 UAHПривет!
Меня зовут Сергей. Я ознакомился с вашим проектом и технологиями, необходимыми для его реализации. Имею опыт в веб-скрапинге на Python, обработке структурированных данных, работе с Excel/CSV и интеграции с Google Sheets. Гарантирую быстрое и качественное выполнение задания, с учетом всех ваших требований к фильтрам, дедупликации и качеству данных.
-
4 дня9166 UAH
232 1 0 4 дня9166 UAHПривет, Сергей!
Я - Python разработчик, имею большой опыт в разработке различных парсеров/скрейперов, в том числе сайтов, защищенных с помощью hCaptcha.
Пишите, обсудим ваш проект!
С уважением,
Андрей
-
6 дней15 276 UAH
1015 6 0 6 дней15 276 UAHДобрый день. У меня большой опыт в парсинге. Могу на django поднять минимальный интерфейс, где сможете управлять записями и запускать новый парсинг. Обращайтесь.
-
3 дня5092 UAH
1100 8 1 3 дня5092 UAHЗдравствуйте!
У меня есть опыт парсинга различных, динамических сайтов более 3 лет.
Предлагаю решение на Fastapi, для сбора данных использовать Selenium, beautifulsoup.
Готов взяться за ваш заказ!
-
3 дня15 276 UAH
9340 20 0 1 3 дня15 276 UAHДобрый день!
Я ознакомился с вашим заданием и готов его выполнить. У меня есть опыт в разработке парсеров и веб-интерфейсов, а также в работе с hCaptcha.
-
3 дня8656 UAH
248 3 дня8656 UAHЗдравствуйте, срок выполнения 2-3 дня. С радостью возьмусь за эту работу. Большой опыт в браузерной автоматизации.
-
3 дня15 276 UAH
225 3 дня15 276 UAHДобрый день, могу написать парсер вам по вашим критериям, и вашему тз