Фриланс-проекты

Фриланс-проекты

Парсинг и классификация данных

Веб-программирование, Парсинг данных — неверно указаны категории?

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Ищем разработчика для реализации системы сбора и структурирования данных из открытых источников.

У нас есть база владельцев малого бизнеса в США, которая содержит имя человека, название компании, адрес и штат. Необходимо построить процесс обогащения этих записей дополнительной информацией из публично доступных источников, прежде всего LinkedIn, возможно Facebook.

Основная задача заключается в поиске и верификации профилей владельцев бизнеса и соответствующих бизнес-страниц. Для каждой записи нужно найти и собрать доступные данные, включая фотографию профиля в соцсети LinkedIn, email-адрес, ссылки на социальные сети, вебсайт компании, номер телефона. Все эти данные находятся на странице бизнеса в LinkedIn.

Для поиска могут использоваться поисковые системы и операторы типа:

linkedin.com/in "Имя Фамилия" "Название компании"

site:linkedin.com/in "Имя Фамилия" "Название компании"

Система должна выполнять сопоставление найденных данных с имеющимися записями по имени владельца, названию бизнеса, адресу, штату и другим доступным атрибутам для минимизации ложных совпадений.

Ожидается решение, которое сможет обрабатывать большие массивы записей по всем штатам США и формировать структурированный результат в формате JSON или CSV для дальнейшего использования.

Будет преимуществом наличие опыта построения систем обогащения данных, OSINT-решений, автоматизации сбора данных, работы с Python, Playwright, Selenium, Scrapy, а также реализации механизмов верификации и дедупликации найденных данных.

В ответе просим кратко описать релевантный опыт реализации схожих проектов, используемый технологический стек и подход к поиску, верификации и структурированию данных из открытых источников.

Обновление #1 от 16 июня

На заявки, которые написаны ИИ, отвечать не будем

Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Ставки 43 Отклоненные 5

Олег Григорьев

33 0

Проекты 31
Оценка 5.0
Рейтинг 6 447

Бюджет: 25000 USD Срок: 14 дней

Мы можем взяться за такую систему. Ориентир для первого рабочего этапа - от 45 000 грн и 10-14 дней. Это не просто парсер, здесь ключевое - качество совпадений, дедупликация, контроль ложных профилей и нормальная структура результата в JSON или CSV =)

По опыту - делали системы обогащения данных, поиска по открытым источникам, автоматизации сбора, внутренние CRM и аналитические пайплайны. Для такого задания я бы использовал Python, Playwright или Scrapy, отдельный модуль поиска через поисковые системы, очередь обработки, кэш, правила верификации и скоринг совпадений по имени, компании, адресу, штату, сайту и телефону.

Подход вижу так
> берем небольшую выборку ваших записей и делаем прототип поиска
> отдельно ищем личный профиль, бизнес-страницу, сайт компании и доступные контакты
> каждое найденное совпадение получает оценку доверия, чтобы не смешивать людей с одинаковыми именами
> результат отдаем в структуре с источниками, уровнем доверия, датой проверки и причиной совпадения

Смотрите, тут нюанс - LinkedIn и Facebook имеют ограничения на автоматизированный сбор, поэтому я бы не строил решение на хрупком входе в аккаунт. Лучше совместить поисковую выдачу, открытые страницы, сайт компании, бизнес-справочники и верификацию атрибутов. Так система будет стабильнее, а не как карточный домик на ветру.

Уточните, пожалуйста
> какой объем базы на первом этапе - 1 000, 50 000 или больше записей
> какая допустимая погрешность и что важнее - больше найденных контактов или меньше ложных совпадений

Релевантные примеры Ingello
> https://business.ingello.com/vorfahr - автоматизация и сложная обработка данных для бизнес-процессов
> https://business.ingello.com/fractal - агентный подход и автоматизация сложных рабочих процессов
> https://business.ingello.com/forma-crm - корпоративная система с данными, ролями и структурированной логикой

Главная страница для FLH - https://systems-fl.ingello.com/ua

После выборки на 100-300 записей можно будет точнее оценить полный бюджет на весь массив. Обычно именно пилот показывает реальное качество источников и не дает потратить бюджет на красивую, но слепую автоматизацию.

Polly Pol

100 0

Проекты 102
Оценка 5.0
Рейтинг 2 231

Бюджет: 100 USD Срок: 2 дня

Добрый день
можно собрать
в таком виде
https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
Напишите, кто именно интересует

Yevgeniy Rybin

0 0

Проекты -
Оценка -
Рейтинг 561

Бюджет: 1000 USD Срок: 20 дней

Здравствуйте!

Меня зовут Евгений, уже 7 лет я профессионально занимаюсь разработкой мобильных приложений, сайтов, веб-сервисов и веб-приложений.

*Стоимость указал за 1 час работы. Чтобы детальнее дать цену, хотел бы связаться/созвониться и обсудить детали.

- Портфолио, отзывы и награды можно изучить в моем профиле.

Почему нужно выбрать меня?
- Занимал 1 и 2 места на международных чемпионатах и соревнованиях в IT-сфере
- У меня есть подтвержденные видеоотзывы, благодарственные письма
- Я всегда на связи, честный и адекватный
- Работаю по Договору
- Руковожу собственной командой разработки

Буду рад поговорить с Вами подробнее о проекте.

Корпоративный сайт для организации «Ритуал 77»

Roman Matveev

15 0

Проекты 15
Оценка 5.0
Рейтинг 4 675

Бюджет: 160 USD Срок: 1 день

Добрый день, Роман!

Задача мне вполне понятна: обогатить базу владельцев малого бизнеса США данными из открытых источников (LinkedIn/соцсети) — найти профиль, сопоставить с имеющейся записью (имя/компания/адрес/штат), верифицировать, убрать дубликаты и отдать структурированный JSON/CSV по всем штатам. Это как раз моя ниша.

Релевантный опыт: строил bulk-скрапер/энричер для email маркетинга (Node.js, 250 параллельных процессов), который вытягивал email и телефоны со страниц сайтов базы данных доменных имен СНГ и дедупликовал против имеющейся БД — это фактически ваша задача обогащения записей;
+мульти-маркетплейс скрапер досок vinted, bazos, jofogas, olx с анти-детект прокси-ротацией и валидацией аккаунтов; Python-скрапера недвижимости OLX/Dom.ria (aiohttp/asyncio + дедуп на уровне БД); боты на Selenium/Playwright для покупки билетов.

Стек: Python (Playwright/Selenium для динамики, async HTTP + BeautifulSoup для статики, Scrapy по необходимости), прокси-ротация + троттлинг, fuzzy-matching для сопоставления, экспорт в JSON/CSV.

Подход: поиск через операторы (site:linkedin.com/in "Имя" "Компания") → вытягивание публичных данных → fuzzy-match по имени/компании/адресу/штату с confidence-скором (минимизирует ложные совпадения) → дедуп → структурированный экспорт.

Честно о границах: LinkedIn агрессивно блокирует ботов, а email/телефон часто не публичные — реальное покрытие будет не 100%, и это закладываю в архитектуру (прокси, троттлинг, match-score, fallback-источники).

Реальные отзывы от заказчиков — в моем профиле: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].

Вопрос: какой объем записей и какие поля критичны? От этого вилка. Детали — в переписке.

Работаю с почасовой оплатой по договоренности: +-20$.

Petro Demchuk

2 1

Проекты -
Оценка -
Рейтинг 620

Бюджет: 325 USD Срок: 10 дней

Добрый день.
Готов реализовать систему обогащения базы данных из открытых источников: LinkedIn, Facebook, сайты компаний и поисковые системы.
Работаю с Python, Playwright/Selenium, CSV/JSON, парсингом, дедупликацией и верификацией данных. Могу настроить поиск профилей, сопоставление по имени, компании, адресу/штату и формирование готового результата в CSV или JSON.

Александр Стинковый

117 0

Проекты 118
Оценка 5.0
Рейтинг 10 361

Бюджет: 50 USD Срок: 1 день

Здравствуйте.

Я разрабатываю парсеры на NodeJS. Готов взяться. Пишите, обсудим.

Олександр Мітцих

11 2

Проекты 12
Оценка -
Рейтинг 510

Бюджет: 25 USD Срок: 1 день

Здравствуйте, готов выполнить ваш проект. В случае заинтересованности можем перейти в личные сообщения и там обсудить детали.

Yevhen Volovyk

0 0

Проекты -
Оценка -
Рейтинг 451

Бюджет: 4500 USD Срок: 7 дней

Здравствуйте.

Подобное уже делал — обогащение баз данных из LinkedIn и других публичных источников.

Подход: для каждой записи из вашего CSV формирую Google-поиск типа site:linkedin.com/in "Имя" "Компания" USA, Playwright открывает результаты, проверяет совпадение по имени + штату, далее заходит на профиль и собирает: фото, email (если открыт), сайт, соцсети, телефон. На выходе JSON или CSV готовый к использованию.

Для больших объемов буду ротировать user-agent и делать паузы между запросами — чтобы не словить блок. Если нужна скорость — подключаю прокси.

Стек: Python + Playwright + rapidfuzz для верификации совпадений и устранения дублей.

Сколько записей в базе? От этого зависит точный срок и цена.

Petro Bezsmertnyi

0 0

Проекты -
Оценка -
Рейтинг 335

Бюджет: 160 USD Срок: 5 дней

Привет! Видел ваш проект, кажется, я смогу это сделать.

Я писал боты для CS2-трейдинга и там тоже собирал данные с разных сайтов, сопоставлял их, убирал дубликаты. Здесь идея та же: ищем человека в LinkedIn через Google (site:linkedin.com + имя + компания), открываем страницу через Playwright, собираем что есть, сравниваем с вашей базой и кладем в CSV.

Единственное, что хочу сказать честно: LinkedIn очень не любит боты, поэтому нужны прокси и задержки, быстро не получится. Это реальность, о которой стоит договориться сначала.

Влад Руденко

0 0

Проекты -
Оценка -
Рейтинг 112

Бюджет: 100 USD Срок: 4 дня

Здравствуйте! Прочитал ваше ТЗ, ИИ (нейронные сети) для такой задачи использовать не планирую, так как они часто выдумывают данные там, где нужна 100% точность. Собирать контакты буду исключительно техническим кодом — напишу скрипт на Python + Playwright/Selenium. Он будет автоматически находить профили через Google dorks (site:linkedin.com/in), заходить на страницы и скачивать реальные email, телефоны и ссылки. Обязательно сделаю проверку по названию компании и штату, чтобы данные не перепутались, если найдутся полные тезки (однофамильцы). Результат сдам в чистом CSV или JSON файле. Готов сделать бесплатный тест для 3-5 компаний из вашей базы, чтобы вы убедились в качестве сбора. Пишите, обсудим детали!

Shavkatbek Ro'zibekov

1 1

Проекты -
Оценка -
Рейтинг 228

Бюджет: 15000 USD Срок: 6 дней

Здравствуйте. Я делал похожие системы сбора и обогащения данных на Python с Playwright и Scrapy: поиск профилей через поисковые операторы, парсинг LinkedIn, верификация совпадений по имени, компании, адресу и штату, дедупликация и вывод в JSON или CSV. Сначала соберу рабочий пилот на выборке ваших записей, чтобы вы увидели качество сопоставления, затем масштабирую на все штаты. Ориентировочно 15000 рублей и 6 рабочих дней за пилот, точную оценку объема дам после просмотра структуры вашей базы. Готов начать сразу.

Єгор Хохлов

0 0

Проекты -
Оценка -
Рейтинг 272

Бюджет: 220 USD Срок: 3 дня

Добрый день! У меня есть опыт автоматизации сбора и обработки данных на Python: парсинг публичных источников, API-интеграции, asyncio, валидация и структурирование результатов в JSON/CSV. Работал с проектами, где нужно сопоставлять записи по нескольким полям и минимизировать ложные совпадения.

Подход к вашему заданию

Поиск — Google/Bing с операторами site:linkedin.com/in, имя + компания + штат; дополнительно публичные реестры бизнеса США, сайт компании из вашей базы.
Сопоставление — scoring по имени, названию, адресу, штату; порог уверенности (high / medium / low match).
Верификация — перекрестная проверка LinkedIn ↔ сайт компании ↔ адрес; дедупликация по URL профиля и email.
Стек — Python, asyncio, Playwright (где разрешено), pandas, экспорт JSON/CSV, логирование и восстановление после сбоев.
Важно: массовый автоматический парсинг LinkedIn/Facebook ограничен их правилами и риском блокировок. Рекомендую гибрид: поиск через поисковые системы + enrichment API (Apollo, Hunter и т.д.) + ручная проверка записей с низким score — это стабильнее для больших объемов по штатам.

Релевантный опыт: Telegram-боты с парсингом каналов (Telethon), интеграциями внешних API, работа с JSON-базами и фильтрацией данных. Портфолио: https://yegor10.github.io/PortFolioWeb3/

Готов описать архитектуру подробнее после уточнения объема базы (количество записей) и допустимых источников. Напишите в отзыве — обсудим ТЗ.

Viacheslav K.

6 0

Проекты 7
Оценка 4.8
Рейтинг 3 978

Бюджет: 1500 USD Срок: 7 дней

Добрый день, Роман!

Вижу, что другие специалисты уже ответили на Ваш проект. Позвольте помочь и мне.

Я пока что воздержусь от предложения, так как для разработки нужно четкое видение конечных целей системы сбора данных. Чтобы лучше понять Ваше видение и предложить оптимальные решения, уточните, пожалуйста:
- Сроки реализации проекта и планы по быстрому запуску MVP.
- Есть ли у Вас детальное ТЗ или сформированное видение системы?
- Рассматриваете ли конкретные технологии или я могу рекомендовать оптимальные решения?
- Объем записей для обработки.
- Примеры похожих проектов для референса.

На сроки и стоимость разработки влияют такие факторы:
1. Объем данных и частота обновления.
2. Наличие готовых инструментов для сбора данных.
3. Интеграция с другими системами.
4. Уровень детализации верификации и дедупликации данных.
5. Масштабируемость решения для больших объемов данных.

На начальном этапе важно сформировать и согласовать видение конечного результата системы сбора и классификации данных. Я отдаю предпочтение формированию такого видения на основе анализа существующих решений конкурентов и Ваших пожеланий.

Предлагаю обсудить детали проекта, чтобы понять, насколько мы подходим друг другу. Мы можем зафиксировать все нюансы в переписке или во время встречи.

У меня есть опыт в разработке систем обогащения данных и автоматизации сбора информации из открытых источников. Знаю, как важно минимизировать ложные совпадения и обеспечить точность данных, особенно при работе с большими объемами информации с платформ, таких как LinkedIn.

Anastasia Safronova

24 0

Проекты 24
Оценка 4.8
Рейтинг 834

Бюджет: 30 USD Срок: 3 дня

Добрый день.

У меня есть опыт работы со сбором и обогащением бизнес-данных, поиском контактов компаний, владельцев бизнеса и проверкой информации из открытых источников. Работала с большими массивами данных для B2B-баз, где было важно не просто найти информацию, а правильно сопоставить её с имеющимися записями и минимизировать ложные совпадения.

Для подобной задачи вижу процесс следующим образом: поиск потенциальных профилей через LinkedIn и поисковые системы, сопоставление по ФИО, названию компании, адресу и штату, дальнейшая верификация найденных данных и формирование структурированного результата в CSV или JSON. При необходимости могу также помочь с подготовкой логики дедупликации и проверки качества результатов.

Работаю с Python, автоматизацией сбора данных, обработкой таблиц и структурированных наборов данных. Для более точной оценки хотела бы увидеть пример исходной базы и ориентировочный объем записей.

Буду рада обсудить детали проекта.

Владислав Р.

3 0

Проекты 3
Оценка 5.0
Рейтинг 2 866

Бюджет: 1000 USD Срок: 7 дней

У меня есть опыт парсинга как обычных новостных агрегаторов, так и более защищенных американских аукционов. Уже сейчас могу сказать, что будут трудности с LinkedIn в плане его защиты и ограничений. Если просто перейти по ссылке, то мы получим ограниченную информацию, к тому же вероятно там будут ограничения по количеству просмотренных страниц с текущего IP-адреса. Если же авторизоваться, будет больший доступ, но по количеству просмотренных страниц, скорее всего, тоже есть лимит. Почитаю о них позже, если получу победу в конкурсе. Могу сказать сразу, что в самом сложном случае это обойдется в дополнительные аккаунты LinkedIn и прокси, возможно, премиум.

Стек: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, возможно Selenium/Playwright, но старался бы не использовать, чтобы сэкономить ресурсы сервера и увеличить скорость обработки данных.

Как я вижу результат:
- Работник загружает в бот документ с соответствующей структурой
- Бот разбирает и заполняет поля в базе данных
- По установленному времени начинает поиск
- В первую очередь ищет информацию для пустых полей, параллельно обновляя существующую с пометкой даты и времени обновления
- В случае необходимости работник нажимает кнопку, бот экспортирует все найденное в одном из форматов на выбор: json, csv, xlsx.

Похожий проект: Telegram bot для поиска новых обьявлений

Telegram Auction Monitor — мониторинг Copart и IAAI в реальном в

Матвій Марченко

20 0

Проекты 20
Оценка -
Рейтинг 2 077

Бюджет: 365 USD Срок: 14 дней

ТЗ понял: на входе база владельцев малого бизнеса в США (имя, компания, адрес, штат), нужен пайплайн обогащения с LinkedIn и Facebook через поисковые операторы (site:linkedin.com/in "Name" "Company"), верификация найденных профилей по имени плюс компании плюс штату, на выходе для каждой записи фото, email, соцсети, сайт компании, телефон в JSON или CSV. Масштаб — все штаты США, то есть десятки тысяч записей.

По стеку для production-grade pipeline обычно использую Python плюс Playwright (более стабильный, чем Selenium на LinkedIn), Scrapy для массивных параллельных обходов, прокси-пул с residential для снижения ban rate, дедуп и верификация через fuzzy matching (rapidfuzz) и LLM-проверка для крайних случаев (один Smith может быть в нескольких штатах). Данные ллю в PostgreSQL с поэтапным экспортом в CSV или JSON, с флажками источника и уверенности для каждого поля.

Реалистичное покрытие на больших массивах: LinkedIn профиль владельца находится 50-70 процентов (в зависимости от уникальности имени плюс компании), email и телефон с самого LinkedIn обычно 5-15 процентов (закрыты большинством пользователей), если добавить через email-finder (Hunter, Apollo, Snov.io) можно поднять email до 25-40 процентов. Сайт компании и соцсети лучше — 40-60 процентов.

Чтобы дать точную стоимость и срок важно знать: какой объем базы (5 тысяч, 50 тысяч, 500 тысяч записей), какой бюджет на прокси и email-finder API, какой ожидаемый срок (за неделю не выйдет, за месяц вполне). По опыту в портфолио: LinkedIn-обогащение проводил на проектах в несколько тысяч записей, стабильно с низким ban rate.

Готов пройтись по объемам звонком или в переписке, после этого выйдет точная раскладка по дням и бюджету.

Андрій Тюпа

53 0

Проекты 53
Оценка 5.0
Рейтинг 6 979

Бюджет: 100 USD Срок: 2 дня

Занимался похожими задачами: обогащение баз данных через публичные источники, Google Maps API, парсинг сайтов и агрегация в структурированный вид. Вижу это так: берём каждую запись, прогоняем через несколько источников (LinkedIn, Yelp, Google Business, возможно официальные реестры штатов), нормализуем и складываем в базу с историей обновлений, чтобы можно было переобогащать. Вопрос: какие именно поля нужно добрать, телефон и email или что-то глубже вроде выручки, количества сотрудников, соцсетей? Готов обсудить объём и подход.

Ярослав С.

2 1

Проекты -
Оценка -
Рейтинг 522

Бюджет: 1000 USD Срок: 22 дня

Здравствуйте! У меня есть опыт написания бота, который использует Chrome Driver. Он эмулировал браузер и собирал необходимые данные. Реализация была сделана на Rust. Могу разработать программу на Go, которая будет работать и парсить нужную информацию. Почему я предлагаю выбрать Go? Потому что он лучше всего подходит под ваши потребности, может обрабатывать больше запросов, требует меньше ресурсов для своей работы и быстрее, чем Python. Также есть все решения, которые нужны для этой задачи. Если стек обязательно должен быть только на Python, тогда FASTAPI + httpx. У меня есть опыт работы с Selenium, писал автотесты.

Александр А.

0 0

Проекты -
Оценка -
Рейтинг 201

Бюджет: 350 USD Срок: 10 дней

Здравствуйте. У меня есть опыт работы с задачами OSINT и автоматизацией сбора данных.

Вот пошаговый план реализации:

1. Обход ограничений: Для работы с LinkedIn/Facebook буду использовать архитектуру на базе Playwright (или Selenium с ротацией прокси) для имитации поведения реального пользователя, чтобы минимизировать риск блокировок.

2. Валидация и матчинг: Для сопоставления найденных профилей с базой применю не только текстовое совпадение имени, но и дополнительные атрибуты: геолокация (штат), название компании (через fuzzy matching/расстояние Левенштейна), чтобы отсеять нерелевантные результаты.

3. Дедупликация: Реализую проверку на этапе записи в БД, чтобы избежать дублей.

В результате вы получите структурированный JSON/CSV файл.

Ранее реализовывал подобные системы сбора данных (работал с парсингом контактов для CRM). Готов обсудить детали технического задания.

Алиса С.

1 0

Проекты -
Оценка -
Рейтинг 387

Бюджет: 600 USD Срок: 7 дней

! Я специализируюсь на автоматизации сбора и обогащения данных на Python, поэтому с радостью разработаю для вас надежную систему для поиска контактов американского малого бизнеса. На основе вашей базы алгоритм через Scrapy или Playwright будет находить профили владельцев в LinkedIn и Facebook. Чтобы полностью исключить ложные совпадения из-за схожих названий компаний, я настрою умное сопоставление данных по имени, штату и адресу. Для стабильной работы без блокировок подключу ротационные прокси, а готовый результат в JSON или CSV очищу от дубликатов и провалидирую найденные емейлы.

Андрій Д.

50 2

Проекты 49
Оценка 5.0
Рейтинг 3 627

Бюджет: 450 USD Срок: 7 дней

Здравствуйте! Разработал десятки парсеров, здесь тоже справлюсь, но хочу предложить более стабильный и потенциально дешевый подход: прямой скрапинг профилей LinkedIn быстро блокируется даже с прокси - нужны именно резидентские (datacenter блокируется мгновенно). Ориентировочно резидентские прокси от $3.6-7.35/GB, тогда как платные search API типа SerpAPI стоят $0.001-0.01 за запрос - на масштабе это существенно дешевле и стабильнее, чем прямой скрапинг+прокси. Также после последних обновлений Cloudflare (это отрезок где-то в полгода) немного тяжело с настройками уникальных отпечатков устройства для антидетектинга.

Поэтому предлагаю подход через search API вместо прямого скрапинга - меньший риск блокировок и более предсказуемая стоимость.

Тарас О.

5 0

Проекты 5
Оценка 5.0
Рейтинг 2 046

Бюджет: 400 USD Срок: 10 дней

Здравствуйте!

У меня большой опыт разработки решений для парсинга и обработки данных (различные источники, защита от блокировок, автоматизация). Готов выполнить поставленную задачу.

Предлагаю обсудить детали в личных сообщениях.

Ярослав Колесник

6 1

Проекты 6
Оценка -
Рейтинг 956

Бюджет: 100 USD Срок: 4 дня

Здравствуйте, есть опыт с стеком, который вы перечислили, также работал с подобными проектами по парсингу. Самым интересным и сложным был проект по парсингу и автоматизации записей на туры, где были проблемы с лимитами и блокировкой.

Nick Osipov

41 4

Проекты 43
Оценка 4.6
Рейтинг 4 921

Бюджет: 1000 USD Срок: 3 дня

Доброго дня!

Маю великий досвід у розробці OSINT-рішень та систем data enrichment на Python з використанням Playwright/Selenium/Scrapy. Ефективно реалізую пошук, верифікацію та структурування даних з відкритих джерел, забезпечуючи точність та масштабованість.

Напишіть мені в лс, уточнимо деталі.

Денис Гаврищук

32 1

Проекты 32
Оценка 5.0
Рейтинг 1 815

Бюджет: 200 USD Срок: 1 день

Добрый день, веб-программировании уже более 9 лет
Работаю с rest api, фреймворками и cms такие как django, laravel, yii2, wp, opencart, codegnither и т.д.
Это не ии

Artur Boiko

5 0

Проекты 5
Оценка 4.9
Рейтинг 1 753

Бюджет: 50 USD Срок: 1 день

Добрый день!

Делал похожие вещи — обогащение баз контактов через поиск и сопоставление профилей, так что задание понятно с полуслова.

По подходу: записи из вашей базы (имя + компания + штат) гоняю через Google с операторами типа site:linkedin.com/in "Имя" "Компания" — так находится сам профиль, не упираясь сразу в блокировку LinkedIn. Далее — сопоставление: сверяю найденный профиль с исходной записью по имени, названию бизнеса, штату и адресу, чтобы не цеплялись левые совпадения (на одинаковых именах это главная проблема, поэтому матчинг делаю по нескольким атрибутам + порог уверенности). Дубликаты чищу на выходе.

Стек: Python + Playwright (для страниц, которые рендерятся) и Scrapy/requests там, где можно проще. Прокси обязательно — иначе LinkedIn режет на объемах. Результат отдаю в JSON или CSV, как вам удобнее.

Честно о одном моменте, чтобы не было сюрпризов: фото, ссылки на соцсети и сайт компании из LinkedIn достаются нормально, а вот email и телефон там чаще скрыты — публично их видно не у всех. То, что открыто, соберу; где контактов нет в доступе, поле будет пустым (могу дополнительно дотягивать из других источников, если нужно, — обсудим).

На каком объеме планируете старт и есть ли пример вашей текущей таблицы? Гляну структуру — и скажу реальные сроки.

Бесплатно проконсультирую по проекту в личных 🙂

Илья П.

43 0

Проекты 43
Оценка 5.0
Рейтинг 3 182

Бюджет: 250 USD Срок: 10 дней

Добрый день, могу сделать такой продукт с использованием Python. Скрапинг, дедупликация и т.д.

Maksim Sheptookha

0 0

Проекты -
Оценка -
Рейтинг 427

Бюджет: 600 USD Срок: 7 дней

Добрый день.

Реализация поиска через операторы "site:linkedin.com/in" - это правильный выбор, который позволит обогащать базу без риска мгновенного бана аккаунтов в самом LinkedIn. Однако при работе с большими массивами данных по США есть два критических инженерных момента, которые нужно закладывать в архитектуру с самого начала:

1. Обход лимитов Google и LinkedIn
Прямой запуск эмулятора браузера на поисковые запросы в Google быстро упрется в капчу (уже после нескольких десятков итераций). Для стабильной работы системы в многопоточном режиме я использую PHP в связке с ротационными резидентными прокси и инструментами автоматизации (напр., Symfony Panther или в рамках Laravel через Spatie Browsershot / headless Chrome). Альтернативный и более стабильный вариант для больших объемов поиска - интеграция через Search API, что полностью снимает проблему капчи Гугла. Самие же фото профилей и бизнес-данные докачиваются через эмуляцию браузера для обхода JS-защиты LinkedIn.

2. Верификация и минимизация ложных совпадений (Матчинг)
Чтобы избежать склеивания однофамильцев из разных штатов, система выполняет многоуровневую валидацию средствами PHP:
- Нормализация названий компаний (очистка от Ltd, Corp, LLC).
- Сравнение строк с помощью алгоритмов схожести текстов (встроенные "levenshtein()", "similar_text()" или реализация Jaro-Winkler) для имен и названий бизнеса.
- Жесткий гео-фильтр на соответствие штата/адреса, указанной в вашей базе, с данными найденного профиля.
На основе этих факторов каждому запису присваивается confidence score. В итоговый CSV/JSON выгружаются только результаты, прошедшие установленный порог точности.

Технологический стек: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (автоматизация браузера), Laravel Queues (Redis) для надежной очереди и многопоточности, алгоритмы string-matching для очистки данных.

Ориентировочная стоимость разработки и настройки такого решения: $400 – $600 (в зависимости от финального объема данных и необходимости в интеграции сторонних API).
Срок реализации: 5–7 рабочих дней до выдачи первого стабильного результата.

Готов протестировать логику на небольшом тестовом кусочке вашей базы (например, 20–50 строк), чтобы продемонстрировать точность сбора и матчинга на моем стеке. Жду фидбек в чате.

Vladyslav B.

1 0

Проекты -
Оценка -
Рейтинг 454

Бюджет: 50 USD Срок: 1 день

Доброго дня!

Готов взять на себя реализацию системы обогащения данных из открытых источников.

Имею опыт в парсинге, обогащении данных, автоматизации поиска, обработке больших CSV/JSON-массивов, дедупликации и верификации данных по нескольким атрибутам.

Предлагаю стек:
• Python;
• Playwright / Selenium для динамических страниц;
• Scrapy / Requests / BeautifulSoup для статических источников;
• pandas для обработки данных;
• fuzzy matching для сопоставления имен, компаний, адресов и штатов;
• экспорт результатов в CSV / JSON.

Подход вижу следующим:

1. Загрузка исходной базы.
2. Генерация поисковых запросов по имени, компании, штату и адресу.
3. Поиск профилей и бизнес-страниц через открытые источники.
4. Сопоставление результатов с записями по нескольким параметрам.
5. Верификация совпадений и присвоение confidence score.
6. Сбор доступных полей: LinkedIn/Facebook, сайт, телефон, email, фото профиля, соцсети.
7. Дедупликация и формирование финального CSV/JSON.

Также могу предусмотреть логирование, повторную обработку неудачных записей и ручную проверку сомнительных совпадений, чтобы минимизировать ошибки.

Готов обсудить объем базы, пример входного файла и желаемую структуру результата.

Тетяна Ш.

75 4

Проекты 79
Оценка 4.8
Рейтинг 3 074

Бюджет: 130 USD Срок: 2 дня

Добрый день! Задание понятное, поэтому смогу реализовать такую систему за пару дней!!! Готова к продуктивному и качественному сотрудничеству!!!

Oleksii Manziuk

6 0

Проекты 4
Оценка 5.0
Рейтинг 512

Бюджет: 100 USD Срок: 1 день

Добрый день.

У меня большой опыт разработки веб-проектов на PHP и Python, автоматизации обработки данных, интеграции с внешними сервисами и работы с большими массивами информации. Также работал с парсингом данных из открытых источников, обработкой результатов и их дальнейшей структуризацией для использования в бизнес-процессах. В свое время мы держали сети сайтов mfa из спарсенных данных компаний.

Для реализации подобного проекта вижу решение в виде многоуровневого пайплайна:

поиск потенциальных профилей через поисковые системы и открытые источники;
автоматизированный сбор данных с помощью Python (Selenium/Scrapy, будем смотреть, что подходит);
верификация совпадений по ФИО, названию компании, адресу, штату и дополнительным атрибутам;
дедупликация и оценка достоверности найденных результатов;
формирование структурированного результата в форматах JSON или CSV.

Из технологий имею опыт работы с Python, Selenium, SQL, REST API, обработкой данных и автоматизацией бизнес-процессов. Также имею значительный опыт работы с legacy-системами и проектами, где нужно быстро разобраться в логике обработки больших объемов данных.

Готов обсудить детали, ожидаемые объемы записей и требования к точности сопоставления данных.

Ростислав Чувурін

0 0

Проекты -
Оценка -
Рейтинг 158

Бюджет: 25 USD Срок: 2 дня

Добрый день.

У меня есть опыт разработки парсеров и систем сбора/обогащения данных на Python (Playwright, Selenium). Работал с поиском и верификацией контактов, профилей компаний и владельцев бизнеса из открытых источников.

Могу предложить решение по сопоставлению данных по ФИО, компании и локации с выгрузкой результатов в CSV или JSON. Если есть пример базы — отправьте, быстро оценю сложность и объем работ.

Денис Д.

6 1

Проекты 6
Оценка 5.0
Рейтинг 898

Бюджет: 25 USD Срок: 1 день

Здравствуйте. У меня есть релевантный опыт в автоматизации на Python, парсинге открытых источников, подходах OSINT, дедупликации и структурировании данных.

Работал с задачами сбора данных с сайтов, соцсетей, Telegram/веб-источников, обработки профилей, поиска совпадений, фильтрации нерелевантных результатов и экспорта в CSV/Excel/JSON.

Стек: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. При необходимости можно добавить очереди, прокси, ограничения по скорости, логирование и механизм возобновления для больших объемов.

Подход вижу так:

1. Берем входные записи: имя, компания, адрес, штат.
2. Генерируем поисковые запросы через Google/Bing с операторами `site:linkedin.com/in`, `site:linkedin.com/company`, а также поиск по сайту компании.
3. Собираем кандидатов: профиль LinkedIn, страница компании, сайт, телефон, email, социальные ссылки.
4. Делаем проверку на совпадение: совпадение имени, компании, штата, адреса/города, должности, домена компании.
5. Отсекаем слабые совпадения, дубликаты и подозрительные результаты.
6. Формируем структурированный результат в CSV или JSON с оценкой уверенности и источниками.

Могу реализовать MVP, который обрабатывает часть базы, показывает качество совпадений, после чего масштабировать под большие объемы по всем штатам США.

Daria Kratofil

0 0

Проекты -
Оценка -
Рейтинг 196

Бюджет: 25000 USD Срок: 16 дней

У нас почти готовое решение для обогащения баз и классификации найденных профилей, можем быстро адаптировать под ваши записи и обсудить детали здесь, я на связи ))
Предварительно вижу первый рабочий этап на 16 дней, в ставке закладываю 65000 грн за пилот с поиском, верификацией совпадений, дедупликацией и экспортом в JSON или CSV.
Технически я бы делал это на Python, Playwright или Scrapy, очереди задач, кэш результатов, скоринг совпадений по имени, компании, адресу, штату, домену и телефону.
Отдельно заложил бы ограничения частоты, повторные проверки, лог причин совпадения и ручной список сомнительных записей, потому что в таких задачах лучше семь раз отмерить, чем потом чистить всю базу вручную.
Релевантный опыт есть в автоматизации сбора, структурирования и проверки данных для бизнес-процессов.
https://business.ingello.com/vorfahr - близко по логике автоматизации поиска и работы с данными.
https://business.ingello.com/fractal - пример агентной автоматизации и сложных процессов обработки информации.
Наш профиль и подход для FLH - https://systems-fl.ingello.com/ua
Уточню лишь 2 вещи.
Какой объем первой партии - 1000, 10000, 100000 записей или больше?
Фото профиля нужно сохранять как ссылку или загружать файлом?

Dmytro Parkhomenko

20 0

Проекты 20
Оценка 5.0
Рейтинг 2 430

Бюджет: 50 USD Срок: 1 день

Добрый день, готов выполнить ваше задание быстро и качественно. У меня большой опыт в создании различных парсеров. Напишите в личные сообщения, обсудим детали. С удовольствием помогу)

В списке не показаны ставки, скрытые заказчиком или фрилансером c профилем Plus, а также ставки, нарушающие правила

Анджей Р.

8 0

Проекты 8
Оценка 5.0
Рейтинг 4 046

Бюджет: 25 USD Срок: 1 день

Добрый день.
Наша команда имеет многолетний опыт в разработке ERP, CRM, CMS и специализированного программного обеспечения для бизнеса. Мы создаем эффективные цифровые решения, которые помогают автоматизировать процессы, повышать продуктивность и масштабировать компании.

У нас уже есть готовое решение по парсеру.

Работаем с современными технологиями — от ботов и скриптов до AI-агентов и аналитических систем. Разрабатываем сайты различной сложности. В нашем портфолио — реализованные ERP-решения для гостиничного бизнеса, а также для компаний, занимающихся импортом и продажей товаров, а также собственный продукт XFitness — ERP-система, созданная специально для фитнес-клубов.

Готовы реализовать ваш проект и предложить лучшее решение именно для ваших потребностей.
Наше портфолио: Freelancehunt

Мы специализируемся в таких сферах:
-Разработка ERP Систем
-Разработка CRM Систем
-Разработка Веб-Сайтов любой сложности
-Разработка CMS Систем
-Поддержка Веб-Сайтов
-Разработка OpenCart
-Поддержка OpenCart
-Модификация OpenCart
-Доработка OpenCart
-Разработка WordPress
-Поддержка WordPress
-Модификация WordPress
-Доработка WordPress
-Разработка ECommerce
-Поддержка ECommerce
-Модификация ECommerce
-Доработка ECommerce
-Разработка Веб-Приложений
-Поддержка 1С Серверов
-Поддержка Веб-Серверов
-Разработка мобильных приложений
- Парсинг данных
-Разработка ботов
-Разработка AI-агентов

и на таких технологиях:
- Python
-PHP
-Laravel
-Symfony
-Yii2
-JS
-NodeJS
-jQuery
-TypeScript
-MySQL
-HTML
-CSS
-Vue
-Nuxt.js
-React
-React Native
-C++

Maksym Potashov

6 2

Проекты 6
Оценка 5.0
Рейтинг 820

Бюджет: 25 USD Срок: 1 день

Добрый день.
У меня есть опыт разработки систем сбора и обогащения данных, парсеров и автоматизации работы с большими массивами информации. Для подобных задач обычно использую Python, Playwright, Selenium, Scrapy, PostgreSQL и инструменты для дедупликации и верификации данных.
Смогу реализовать процесс поиска и сопоставления профилей владельцев бизнеса на основе имени, названия компании, адреса, штата и других атрибутов для минимизации ложных совпадений. Результат может формироваться в JSON или CSV с необходимой структурой данных для дальнейшей обработки.

Также имею опыт построения пайплайнов data enrichment, где важно не просто найти информацию, а проверить ее релевантность и качество перед сохранением в базу.
Подскажите, пожалуйста:
* Какой ориентировочный объем базы на старте (тысячи или десятки тысяч записей)?
* Нужна одноразовая обработка или регулярное обновление данных?
* Есть ли пример желаемого формата JSON/CSV для финального результата?

Актуальные фриланс-проекты в категории Веб-программирование

Доработка и улучшение интернет-магазина

41 ставка 17:39

20 000 UAH
Вход в систему

19 ставок 16:51

700 UAH
Вёрстка сайта на WordPress по готовому макету (магазин, 2 этапа)

CMS 57 ставок 12:05

Не указан
Модификация меню в opencart 3

59 ставок 1 августа

3000 UAH
Доработка 1С

12 ставок 31 июля

Не указан

Роман Сован
США

Проектов 315
Оценка 5.0
Рейтинг 22 671

Олег Григорьев

Polly Pol

Yevgeniy Rybin

Roman Matveev

Petro Demchuk

Александр Стинковый

Олександр Мітцих

Yevhen Volovyk

Petro Bezsmertnyi

Влад Руденко

Shavkatbek Ro'zibekov

Єгор Хохлов

Viacheslav K.

Anastasia Safronova

Владислав Р.

Матвій Марченко

Андрій Тюпа

Ярослав С.

Александр А.

Алиса С.

Андрій Д.

Тарас О.

Ярослав Колесник

Nick Osipov

Денис Гаврищук

Artur Boiko

Илья П.

Maksim Sheptookha

Vladyslav B.

Тетяна Ш.

Oleksii Manziuk

Ростислав Чувурін

Денис Д.

Daria Kratofil

Dmytro Parkhomenko

Ставки пока отсутствуют

Анджей Р.

Maksym Potashov

Актуальные фриланс-проекты в категории Веб-программирование

Доработка и улучшение интернет-магазина

Вход в систему

Вёрстка сайта на WordPress по готовому макету (магазин, 2 этапа)

Модификация меню в opencart 3

Доработка 1С