Фриланс-проекты

Фриланс-проекты

Специалист по веб-скрапингу / извлечению данных на Python

Python, Парсинг данных — неверно указаны категории?

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Ищем аутсорс-специалиста для задач по парсингу каталогов, сайтов производителей и OEM-источников.

Нам нужно собирать структурированную информацию с различных сайтов: каталоги товаров, модели техники, совместимость деталей, OEM номера деталей, названия товаров, ссылки на источник и другие поля в зависимости от конкретного сайта.

Основные задачи:

- анализ сайтов и поиск оптимального способа получения данных: API, HTML, JSON, CSV/XLSX, PDF или другие доступные источники;

- написание скриптов для сбора данных;

- очистка, нормализация и структурирование данных;

- передача результата в CSV, Google Sheets или согласованную структуру для дальнейшего импорта в нашу базу;

- реализация повторного запуска без дублирования записей;

- логика обновления данных: new / updated / unchanged;

- логирование запусков, ошибок и количества собранных/обновленных записей;

- краткая документация: как запустить скрипт, какие зависимости нужны, какие поля собираются, какой уникальный ключ используется.

Потребные навыки:

- Python или другой релевантный язык для scraping / data extraction;

- requests, BeautifulSoup, lxml, pandas;

- Selenium или Playwright для сайтов с JavaScript;

- работа с API, JSON, CSV, XLSX;

- базовое понимание SQL или подготовки данных для импорта в базу;

- Git / GitHub;

- умение работать с регулярным обновлением данных и deduplication / upsert-логикой;

- внимательность к структуре данных и стабильности скриптов.

Будет плюсом:

- опыт парсинга e-commerce сайтов, каталогов запчастей, OEM-каталогов или технической документации;

- опыт работы с Google Sheets API;

- опыт обработки PDF-кatalogов или таблиц;

- опыт настройки регулярного запуска скриптов;

- умение описывать ограничения источника и риски поддержки парсера.

Формат сотрудничества:

Планируем работать почасово. Для каждого нового сайта сначала нужно сделать короткое техническое исследование: проанализировать источник, понять способ получения данных, оценить сложность, риски и ориентировочное время реализации.

После этого согласуем объем работ и лимит часов на реализацию.

В ответе, пожалуйста, отправьте:

- примеры scraping / data extraction проектов;

- GitHub или примеры кода, если есть;

- вашу оптимальную почасовую ставку;

- какие инструменты обычно используете.

Ставки 17

Арсений Антоненко

14 0

Проекты 15
Оценка 5.0
Рейтинг 7 807

Бюджет: 20000 UAH Срок: 30 дней

Я зайду с техническим исследованием по каждому источнику: проверю API/HTML/JSON/CSV/XLSX/PDF, предложу способ сбора, напишу скрипт, подготовлю структуру данных, дедупликацию, upsert-логику, экспорт и краткую документацию.

У вас уже есть эталонная выборка по одному каталогу, чтобы проверить, что парсер не перепутал OEM номера деталей, совместимость, категории и не пропустил часть товаров для импорта в базу?

Почасовая ставка, лимит часов и первый сайт для теста — в личной переписке после просмотра источника данных.

Похожий проект: В модулі OpenCart виправити 5 проблем повязаних з Facebook API

Твой робот-исполнитель. Ручную работу — в конвейер

Віталій Мурований

37 2

Проекты 37
Оценка 4.7
Рейтинг 5 055

Бюджет: 1000 UAH Срок: 1 день

Здравствуйте!

У меня есть релевантный опыт именно под ваши задачи:

— Разрабатывал коммерческие скрейперы для сбора товарных каталогов с e-commerce сайтов (Playwright, BeautifulSoup, requests) с обходом антибот-защиты и ротацией прокси
— Реализовывал upsert-логику (новый / обновленный / неизмененный) и дедубликацию при повторных запусках
— Собирал и нормализовал большие объемы данных (27 000+ записей) с последующим сохранением в PostgreSQL и экспортом в CSV
— Работал с API, JSON, XLSX, а также динамическими JS-сайтами через Playwright
— Настраивал логирование запусков, ошибок и статистики собранных записей
— Писал краткую документацию к каждому скрипту

Инструменты: Python, Playwright, BeautifulSoup, requests, pandas, lxml, PostgreSQL, Git

Портфолио и примеры работ: Freelancehunt

Почасовая ставка: от $12/час — финальная ставка после технического discovery первого источника.

Готов начать с анализа первого сайта и предоставить оценку сложности и сроков. Пожалуйста, отправьте ссылку на первый источник!

Vadim A.

1 0

Проекты -
Оценка -
Рейтинг 288

Бюджет: 1000 UAH Срок: 10 дней

Добрый день, вижу, что нужны парсеры. Оптимальная почасовая ставка — 400 грн. Обращайтесь, скину пример парсера самых низких цен запчастей для машин с админкой. Имею опыт.

Геннадій Я.

32 0

Проекты 33
Оценка 5.0
Рейтинг 3 388

Бюджет: 1111 UAH Срок: 1 день

Здравствуйте! Регулярно занимаюсь парсингом различной сложности, в портфолио есть примеры работ. Для уточнения всех деталей пишите в личные сообщения.

Mykhailo P.

74 1

Проекты 74
Оценка 5.0
Рейтинг 5 987

Бюджет: 1000 UAH Срок: 1 день

Добрый день. У меня большой опыт в разнообразном парсинге.
https://freelancehunt.com/showcase/work/p2p-aggregator-agregator-kursiv-7h-kripto/1821723.html
https://freelancehunt.com/showcase/work/nextdoor-parser/1759679.html
Freelancehunt

10-15usd - в зависимости от сложности.

framework Scrapy, aiohttp, requests. lxml
в любую базу или таблицы.

Илья П.

38 0

Проекты 38
Оценка 5.0
Рейтинг 2 365

Бюджет: 3000 UAH Срок: 3 дня

Добрый день, много чего парсил, вот примеры
https://freelancehunt.com/project/parsing-massove-stvorennya-storinok-na/1261589.html
https://freelancehunt.com/project/parser-dannyih-dlya-parser-yutub/1266572.html
https://freelancehunt.com/project/parser-saytyi-muzhskoy-kosmetiki-2/1239346.html

Работал со всеми перечисленными технологиями.

Оплата лучше за проект, а не почасовая.

Могу дать ссылку на первый сайт, сделаю вам техническое исследование.

Alexander Krys

32 0

Проекты 31
Оценка 5.0
Рейтинг 3 179

Бюджет: 12000 UAH Срок: 2 дня

Здравствуйте! Ознакомился с заданием — это моя основная специализация. Имею большой опыт разработки отказоустойчивых систем сбора данных на Python (BeautifulSoup, Playwright/Selenium, асинхронные запросы) с построением правильной архитектуры: дедупликация (идемпотентность), логирование состояний записей (новый/обновленный/неизмененный), обработка ошибок и работа через прокси для обхода защиты.

Формат с предварительным Technical Discovery поддерживаю на 100% — это единственный профессиональный подход, который защищает от скрытых подводных камней. Сначала анализирую API/HTML источника, оцениваю сложность (структура, защита, объем), согласую с вами лимит часов и только тогда перехожу к коду. Результат отдаю в структурированном виде (CSV/Google Sheets/JSON/SQL-ready) вместе с лаконичным README для запуска.

Моя оптимальная ставка для долгосрочного сотрудничества — $20-25/час (в зависимости от объема и регулярности задач). Инструменты: Python (asyncio, aiohttp/requests, BS4), Playwright (для JS-heavy сайтов), Pandas (нормализация данных), Git. Примеры архитектуры и подобных кейсов готов показать в личных сообщениях. Давайте обсудим первый источник!

Nick Osipov

41 4

Проекты 43
Оценка 4.6
Рейтинг 4 975

Бюджет: 1000 UAH Срок: 3 дня

Добрый день!

Специализируюсь на Python web scraping и извлечении данных. Имею значительный опыт работы с API, Google Sheets, дедупликацией и структурированием информации, обеспечивая стабильные и эффективные решения для ваших потребностей.

Напишите мне в личные сообщения, уточним детали.

Іван К.

4 0

Проекты 4
Оценка 4.3
Рейтинг 738

Бюджет: 3000 UAH Срок: 1 день

Добрый день, являюсь экспертом в области парсинга. Пишу все на языках Go и Node.js. Если нужно сделать сложный и качественный парсинг, обращайтесь.

Проектов 1
Оценка -
Рейтинг 132