Специалист по веб-скрапингу / извлечению данных на Python
Ищем аутсорс-специалиста для задач по парсингу каталогов, сайтов производителей и OEM-источников.
Нам нужно собирать структурированную информацию с различных сайтов: каталоги товаров, модели техники, совместимость деталей, OEM номера деталей, названия товаров, ссылки на источник и другие поля в зависимости от конкретного сайта.
Основные задачи:
- анализ сайтов и поиск оптимального способа получения данных: API, HTML, JSON, CSV/XLSX, PDF или другие доступные источники;
- написание скриптов для сбора данных;
- очистка, нормализация и структурирование данных;
- передача результата в CSV, Google Sheets или согласованную структуру для дальнейшего импорта в нашу базу;
- реализация повторного запуска без дублирования записей;
- логика обновления данных: new / updated / unchanged;
- логирование запусков, ошибок и количества собранных/обновленных записей;
- краткая документация: как запустить скрипт, какие зависимости нужны, какие поля собираются, какой уникальный ключ используется.
Потребные навыки:
- Python или другой релевантный язык для scraping / data extraction;
- requests, BeautifulSoup, lxml, pandas;
- Selenium или Playwright для сайтов с JavaScript;
- работа с API, JSON, CSV, XLSX;
- базовое понимание SQL или подготовки данных для импорта в базу;
- Git / GitHub;
- умение работать с регулярным обновлением данных и deduplication / upsert-логикой;
- внимательность к структуре данных и стабильности скриптов.
Будет плюсом:
- опыт парсинга e-commerce сайтов, каталогов запчастей, OEM-каталогов или технической документации;
- опыт работы с Google Sheets API;
- опыт обработки PDF-кatalogов или таблиц;
- опыт настройки регулярного запуска скриптов;
- умение описывать ограничения источника и риски поддержки парсера.
Формат сотрудничества:
Планируем работать почасово. Для каждого нового сайта сначала нужно сделать короткое техническое исследование: проанализировать источник, понять способ получения данных, оценить сложность, риски и ориентировочное время реализации.
После этого согласуем объем работ и лимит часов на реализацию.
В ответе, пожалуйста, отправьте:
- примеры scraping / data extraction проектов;
- GitHub или примеры кода, если есть;
- вашу оптимальную почасовую ставку;
- какие инструменты обычно используете.
-
Я зайду с техническим исследованием по каждому источнику: проверю API/HTML/JSON/CSV/XLSX/PDF, предложу способ сбора, напишу скрипт, подготовлю структуру данных, дедупликацию, upsert-логику, экспорт и краткую документацию.
У вас уже есть эталонная выборка по одному каталогу, чтобы проверить, что парсер не перепутал OEM номера деталей, совместимость, категории и не пропустил часть товаров для импорта в базу?
Почасовая ставка, лимит часов и первый сайт для теста — в личной переписке после просмотра источника данных.
Похожий выполненный проект: В модулі OpenCart виправити 5 проблем повязаних з Facebook API
-
5097 37 2 Здравствуйте!
У меня есть релевантный опыт именно под ваши задачи:
— Разрабатывал коммерческие скрейперы для сбора товарных каталогов с e-commerce сайтов (Playwright, BeautifulSoup, requests) с обходом антибот-защиты и ротацией прокси
— Реализовывал upsert-логику (новый / обновленный / неизмененный) и дедубликацию при повторных запусках
— Собирал и нормализовал большие объемы данных (27 000+ записей) с последующим сохранением в PostgreSQL и экспортом в CSV
— Работал с API, JSON, XLSX, а также динамическими JS-сайтами через Playwright
— Настраивал логирование запусков, ошибок и статистики собранных записей
… — Писал краткую документацию к каждому скрипту
Инструменты: Python, Playwright, BeautifulSoup, requests, pandas, lxml, PostgreSQL, Git
Портфолио и примеры работ:Freelancehunt
Почасовая ставка: от $12/час — финальная ставка после технического discovery первого источника.
Готов начать с анализа первого сайта и предоставить оценку сложности и сроков. Пожалуйста, отправьте ссылку на первый источник!
-
312 1 0 Добрый день, вижу, что нужны парсеры. Оптимальная почасовая ставка — 400 грн. Обращайтесь, скину пример парсера самых низких цен запчастей для машин с админкой. Имею опыт.
-
3411 32 0 Здравствуйте! Регулярно занимаюсь парсингом различной сложности, в портфолио есть примеры работ. Для уточнения всех деталей пишите в личные сообщения.
-
6216 74 1 Добрый день. У меня большой опыт в разнообразном парсинге.
https://freelancehunt.com/showcase/work/p2p-aggregator-agregator-kursiv-7h-kripto/1821723.html
https://freelancehunt.com/showcase/work/nextdoor-parser/1759679.html
Freelancehunt
10-15usd - в зависимости от сложности.
framework Scrapy, aiohttp, requests. lxml
в любую базу или таблицы.
-
2335 37 0 Добрый день, много чего парсил, вот примеры
https://freelancehunt.com/project/parsing-massove-stvorennya-storinok-na/1261589.html
https://freelancehunt.com/project/parser-dannyih-dlya-parser-yutub/1266572.html
https://freelancehunt.com/project/parser-saytyi-muzhskoy-kosmetiki-2/1239346.html
Работал со всеми перечисленными технологиями.
Оплата лучше за проект, а не почасовая.
… Могу дать ссылку на первый сайт, сделаю вам техническое исследование.
-
3088 31 0 Здравствуйте! Ознакомился с заданием — это моя основная специализация. Имею большой опыт разработки отказоустойчивых систем сбора данных на Python (BeautifulSoup, Playwright/Selenium, асинхронные запросы) с построением правильной архитектуры: дедупликация (идемпотентность), логирование состояний записей (новый/обновленный/неизмененный), обработка ошибок и работа через прокси для обхода защиты.
Формат с предварительным Technical Discovery поддерживаю на 100% — это единственный профессиональный подход, который защищает от скрытых подводных камней. Сначала анализирую API/HTML источника, оцениваю сложность (структура, защита, объем), согласую с вами лимит часов и только тогда перехожу к коду. Результат отдаю в структурированном виде (CSV/Google Sheets/JSON/SQL-ready) вместе с лаконичным README для запуска.
Моя оптимальная ставка для долгосрочного сотрудничества — $20-25/час (в зависимости от объема и регулярности задач). Инструменты: Python (asyncio, aiohttp/requests, BS4), Playwright (для JS-heavy сайтов), Pandas (нормализация данных), Git. Примеры архитектуры и подобных кейсов готов показать в личных сообщениях. Давайте обсудим первый источник!
-
4975 41 4 1 Добрый день!
Специализируюсь на Python web scraping и извлечении данных. Имею значительный опыт работы с API, Google Sheets, дедупликацией и структурированием информации, обеспечивая стабильные и эффективные решения для ваших потребностей.
Напишите мне в личные сообщения, уточним детали.
-
738 4 0 Добрый день, являюсь экспертом в области парсинга. Пишу все на языках Go и Node.js. Если нужно сделать сложный и качественный парсинг, обращайтесь.