Парсинг сайта
8000 UAHТребуется реализация 4 парсеров (сайты каталоги)
Есть тз, есть пример кода как референс . В задачи входит:
Написать парсер
Прикрутить прокси
Логика дедубликации (перенести логику из примера)
Логика хешированя по 3 полям
Парсер должен работать как пайплайн с логикой что описан выше.
-
Оценка - 35 000 грн, срок - 7 дней после доступа к ТЗ и примеру кода.
ПО такой задаче я бы делал не четыре разрозненных скрипта, а общую цепочку обработки - загрузка, прокси, разбор, нормализация, дедупликация, хеш по 3 полям, выгрузка и логирование ошибок. Смотрите, тут нюанс - прокси и защита каталогов часто съедают больше времени, чем сам разбор страниц, поэтому проверю это на первых 1-2 сайтах.
Вопросы
> какие именно каталоги и какой выход нужен - CSV, база, API или файл для вашей системы
> дедупликаци нужно делать только внутри одного сайта или между всеми 4 источниками
Похожие примеры Ingello
… > https://business.ingello.com/prime-eva - похоже по работе с товарными данными и операционной автоматизацией
> https://business.ingello.com/vorfahr - близко по интеграциям, цепочкам обработки и данным
> https://systems-fl.ingello.com - основная страница по системной разработке
Для старта нужны ТЗ, пример кода, тестовые прокси или требования к ним, формат результата и критерии, по которым считаем запись дублем. В целом норм, можно не усложнять - сперва делаем устойчивое ядро, затем подключаем 4 источника =)
-
Здравствуйте! Меня заинтересовала задача «Парсинг сайта». У меня есть опыт с API-интеграциями, обменом данными, парсерами, вебхуками и автоматизацией процессов. Смогу аккуратно подключить необходимые сервисы, обработать ошибки/повторы и сделать решение, которое будет стабильно работать после запуска.
-
Добрый день
Профессионально занимаюсь парсингом сайтов
Выполню все качественно и максимально быстро
Обращайтесь
-
Добрый день. Для оценки нужно просмотреть сами сайты. Указываю минимальную стоимость подобного заказа.
-
Привет, я работал над парсингом каталога с 50,000+ товаров для eCommerce платформы, используя прокси-ротацию и дедупликацию по хешам - это точно подходит для ваших 4 каталогов!
Интересно, какие именно каталоги нужно парсить и есть ли ограничения по скорости сбора данных?
Предлагаю связаться, я бесплатно проконсультирую вас с технической стороны и составим план разработки + расскажу о моей команде! ✨
-
1422 13 0 Здравствуйте, могу реализовать все 4 парсера согласно ТЗ и предоставленному референсу. Настрою работу через прокси, перенесу логику дедупликации, реализую хеширование по нужным полям и построю полный пайплайн обработки данных. Есть опыт в разработке сложных парсеров и систем сбора данных.
В результате получите готовые парсеры с единой логикой работы, стабильной обработкой данных и возможностью дальнейшего масштабирования.
После ознакомления с ТЗ и примером кода смогу сразу оценить точные сроки и стоимость.
Подскажите, пожалуйста, на каком стеке написан референсный код и какие именно сайты нужно парсить?
-
1520 2 0 Здравствуйте!
Отличное и технически грамотное ТЗ. Наличие референсного кода — это огромный плюс, так как нам не придется угадывать желаемую логику дедупликации, я просто интегрирую ваш готовый алгоритм в новую архитектуру.
Я специализируюсь на сложной веб-автоматизации (Python) и построении отказоустойчивых конвейеров данных (Data Pipelines).
Многие разработчики сделают вам 4 разрозненных скрипта, которые будет очень сложно и дорого поддерживать в будущем. Я предлагаю собрать это как единый модульный пайплайн, где каждый сайт-каталог — это просто отдельный модуль, подключенный к общему ядру.
Как будет устроена архитектура (Pipeline):
…
Сбор и Прокси (Extractor): Настраиваем ротацию прокси с механизмом retry. Если каталог выдаст таймаут или забанит IP, скрипт не упадет с ошибкой, а аккуратно сменит прокси и продолжит работу с того же места. Для защиты от Cloudflare или JS-рендеринга использую Playwright, для быстрых сайтов — асинхронный Aiohttp.
Трансформация (Transformer): Парсинг нужных полей и их очистка от мусорных тегов.
Хеширование: Генерируем уникальный композитный ключ на основе 3-х указанных полей (MD5 или SHA-256).
Дедупликация (Filter): Переношу логику из вашего референсного кода. Реализую проверку хешей "на лету" (через генераторы), чтобы скрипт работал быстро и не съедал всю оперативную память (RAM) сервера при обработке больших каталогов.
Два уточняющих вопроса:
Дедупликация должна работать глобально (искать дубли между всеми 4 источниками) или изолированно внутри каждого отдельного сайта?
В каком формате пайплайн должен отдавать финальные очищенные данные (CSV, JSON, или прямая запись в вашу БД)?
Жду ссылки на сайты и ваш пример кода в личных сообщениях. Смогу приступить к анализу сразу после согласования деталей!
-
650 2 0 Добрый день!
Разработка парсеров с пайплайн-логикой — наша профильная область, так что задача полностью понятна. Наличие ТЗ и примера кода — большой плюс: выдержим единый стиль и перенесем вашу логику без отклонений.
Что реализуем:
4 парсера по ТЗ под сайты-каталоги.
Интеграция прокси (ротация + троттлинг для стабильной работы без блокировок).
Логика дедупликации — перенесем с вашего референса.
… Хеширование по 3 полям для контроля дублей.
Все собрано в единый пайплайн по описанной схеме.
Чтобы сразу дать точную цену и срок, уточните:
4 сайта однотипные или разные по сложности (JS-рендер, антибот, авторизация)?
Прокси ваши или подключаем свои?
Детали обсудим в личных.
-
172 1 1 Добрый день. Готов выполнить данный проект есть большой опыт разработки различных приложений
-
3411 32 0 Здравствуйте! Для оценки объема работы, предоставьте ссылки на сайты в личные сообщения, а также более детальное техническое задание.
-
1964 25 1 Здравствуйте, я могу создать такой пайплайн для вас, опыт есть. Но нужно иметь больше входных данных. Давайте пообщаемся в личных?
-
420 2 0 Приветствую!
Готова реализовать 4 парсера по вашему ТЗ.
Сбросьте ссылки на сайты в ЛС
-
1476 14 1 Сделаю парсеры с прокси и логикой дедубликации как пайплайн на Python. Есть опыт интеграции хеширования для уникализации данных и работы с примером кода. Можешь уточнить, какие именно поля нужно хешировать для дедубликации?
-
727 6 0 детальная оценка после ознакомления с ТЗ
_______________________________________________
-
234 Здравствуйте. Могу реализовать 4 парсера по вашему ТЗ: перепишу логику из референса, настрою прокси, добавлю дедубликацию и хеширование по 3 полям, а также соберу всё в единый pipeline, чтобы данные обрабатывались последовательно и стабильно. После ознакомления с примером кода уточню детали и предложу финальную архитектуру решения.
-
333 Добрый день! Занимаюсь парсингом на Python и Java, имею опыт с прокси-ротацией, дедупликацией и пайплайн-архитектурой. Реализую 4 парсера с учетом вашего примера кода — перенесу логику дедупликации, добавлю хеширование по 3 полям и подключу прокси. Код будет чистым, с логированием и обработкой ошибок. Перед стартом уточню список сайтов и возможные защиты (Cloudflare, JS-рендеринг). Сдам в срок.
-
2335 37 0 Добрый день, делал парсеры различных сайтов. Примеры кода не нужны. Нужны адреса сайтов, тогда можно будет сказать точнее по времени и стоимости.
-
95670 1272 1 10 Здравствуйте.Есть большой опыт в разработке парсеров.Можно увидеть сайты для парсингов?
-
2025 4 0 Здравствуйте!
Имею большой опыт разработки решений для парсинга и обработки данных (различные источники, защита от блокировок, автоматизация). Готов реализовать поставленную задачу в кратчайшие сроки.
Предлагаю обсудить детали в личных сообщениях.
-
3880 15 0 Здравствуйте.
Могу разработать парсер для Вас в кратчайшие сроки. Оплата почасовая.
Кол-во часов нужно предварительно утвердить.
И она зависит от того какие площадки/сайты мы собираемся парсить. Отправьте их в лс.
Последний проект с которым я работал парсер зарубежных площадок (olx vinted jofogas), с мониторингом и той логикой о которой вы пишите, только в формате телеграмм бота. Отзывы в профиле или по ссылке https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1592141.html
Пишите буду рад это сделать для Вас.
-
1251 35 1 3 Приветствую, готов сделать. Присылайте ТЗ в личку ознакомлюсь, обговорим условия сотрудничества
-
6216 74 1 Добрый день. У меня большой опыт в парсинге. Нужно посмотреть источники. Буду рад сотрудничеству.
-
315 Здравствуйте, заинтересовал проект. Работаю с Python, парсингом сайтов, Requests/BeautifulSoup/Selenium, обработкой данных и сохранением результатов в CSV/Excel. Готов рассмотреть реализацию 4 парсеров под ваши сайты с подключением прокси, дедупликацией и хешированием по нужным полям. Могу также рассмотреть пример кода и перенести необходимую логику в новый пайплайн. Для точной оценки я хотел бы ознакомиться с ТЗ, списком сайтов, примером кода и форматом итоговых данных.
-
1490 28 0 могу выполнить, пишите для обсуждения подробностей.................................................
-
182 Здравствуйте!
Готов реализовать все 4 парсера согласно ТЗ. Могу перенести и адаптировать логику дедубликации из референсного проекта, настроить работу через прокси, реализовать хеширование по указанным полям и собрать всё в единый пайплайн.
Если предоставите ТЗ и пример кода, смогу быстро оценить сроки и приступить к работе.
-
3387 84 0 Готов взять на себя. Нужно видеть сайты. Нужно уточнить детали заказа, пишите! Использую python, uv, github, docker.
-
6811 164 1 Добрый вечер, если большой опыт парсинга, могу приступить после согласования ТЗ
Пишите в личку
-
471 1 0 Добрый вечер. Скиньте тз и я приступлю к реализации парсеров.
-
9944 117 0 Здравствуйте.
Разрабатываю ботов и парсеры на NodeJS. Готов взяться. Пишите, обсудим.
-
243 Богдан, привет.
Я ознакомилась с вашей задачей. Замечательно, когда есть готовое ТЗ и референс кода, это сразу снимает кучу вопросов. Напишу все 4 парсера на Python (Scrapy или BeautifulSoup, в зависимости от того, как отдают данные сайты).
Весь пайплайн настрою как надо: подключу прокси для стабильного сбора, а логику дедупликации и хеширования по трём полям просто имплементирую с вашего примера.
Скиньте в личные сообщения ссылки на сами каталоги и ваш референсный код. Я быстро просмотрю структуру и смогу сразу взяться за работу.
-
3099 31 0 Приветствую! Отличная, понятная задача, полностью мой профиль. Реализую парсеры как надежный, отказоустойчивый pipeline на Python (Scrapy/BeautifulSoup).
Четко перенесу логику дедубликации и хеширования по 3 полям из вашего референса, настрою ротацию прокси для бесперебойной работы. Поскольку есть готовое ТЗ и пример кода, сделаю все быстро и без лишних вопросов.
Готов стартовать сразу после ознакомления с референсом. Давайте обсудим детали!
-
702 1 0 Здравствуйте! У меня большой опыт написания парсеров. Готов к сотрудничеству. Предлагаю качественную и быструю работу. Пишите.