Парсинг и классификация данных
Ищем разработчика для реализации системы сбора и структурирования данных из открытых источников.
У нас есть база владельцев малого бизнеса в США, которая содержит имя человека, название компании, адрес и штат. Необходимо построить процесс обогащения этих записей дополнительной информацией из публично доступных источников, прежде всего LinkedIn, возможно Facebook.
Основная задача заключается в поиске и верификации профилей владельцев бизнеса и соответствующих бизнес-страниц. Для каждой записи нужно найти и собрать доступные данные, включая фотографию профиля в соцсети LinkedIn, email-адрес, ссылки на социальные сети, вебсайт компании, номер телефона. Все эти данные находятся на странице бизнеса в LinkedIn.
Для поиска могут использоваться поисковые системы и операторы типа:
linkedin.com/in "Имя Фамилия" "Название компании"
site:linkedin.com/in "Имя Фамилия" "Название компании"
Система должна выполнять сопоставление найденных данных с имеющимися записями по имени владельца, названию бизнеса, адресу, штату и другим доступным атрибутам для минимизации ложных совпадений.
Ожидается решение, которое сможет обрабатывать большие массивы записей по всем штатам США и формировать структурированный результат в формате JSON или CSV для дальнейшего использования.
Будет преимуществом наличие опыта построения систем обогащения данных, OSINT-решений, автоматизации сбора данных, работы с Python, Playwright, Selenium, Scrapy, а также реализации механизмов верификации и дедупликации найденных данных.
В ответе просим кратко описать релевантный опыт реализации схожих проектов, используемый технологический стек и подход к поиску, верификации и структурированию данных из открытых источников.
На заявки, которые написаны ИИ, отвечать не будем
на заявки які написані ШІ відповідати не будемо
-
7 дней67 369 UAH7 дней67 369 UAH
Добрый день, Роман!
Вижу, что другие специалисты уже ответили на Ваш проект. Позвольте помочь и мне.
Я пока что воздержусь от предложения, так как для разработки нужно четкое видение конечных целей системы сбора данных. Чтобы лучше понять Ваше видение и предложить оптимальные решения, уточните, пожалуйста:
- Сроки реализации проекта и планы по быстрому запуску MVP.
- Есть ли у Вас детальное ТЗ или сформированное видение системы?
- Рассматриваете ли конкретные технологии или я могу рекомендовать оптимальные решения?
- Объем записей для обработки.
… - Примеры похожих проектов для референса.
На сроки и стоимость разработки влияют такие факторы:
1. Объем данных и частота обновления.
2. Наличие готовых инструментов для сбора данных.
3. Интеграция с другими системами.
4. Уровень детализации верификации и дедупликации данных.
5. Масштабируемость решения для больших объемов данных.
На начальном этапе важно сформировать и согласовать видение конечного результата системы сбора и классификации данных. Я отдаю предпочтение формированию такого видения на основе анализа существующих решений конкурентов и Ваших пожеланий.
Предлагаю обсудить детали проекта, чтобы понять, насколько мы подходим друг другу. Мы можем зафиксировать все нюансы в переписке или во время встречи.
У меня есть опыт в разработке систем обогащения данных и автоматизации сбора информации из открытых источников. Знаю, как важно минимизировать ложные совпадения и обеспечить точность данных, особенно при работе с большими объемами информации с платформ, таких как LinkedIn.
-
2 дня4491 UAH2 дня4491 UAH
Добрый день
можно собрать
в таком виде
https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
Напишите, кто именно интересует
-
7 дней44 913 UAH7 дней44 913 UAH
У меня есть опыт парсинга как обычных новостных агрегаторов, так и более защищенных американских аукционов. Уже сейчас могу сказать, что будут трудности с LinkedIn в плане его защиты и ограничений. Если просто перейти по ссылке, то мы получим ограниченную информацию, к тому же вероятно там будут ограничения по количеству просмотренных страниц с текущего IP-адреса. Если же авторизоваться, будет больший доступ, но по количеству просмотренных страниц, скорее всего, тоже есть лимит. Почитаю о них позже, если получу победу в конкурсе. Могу сказать сразу, что в самом сложном случае это обойдется в дополнительные аккаунты LinkedIn и прокси, возможно, премиум.
Стек: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, возможно Selenium/Playwright, но старался бы не использовать, чтобы сэкономить ресурсы сервера и увеличить скорость обработки данных.
Как я вижу результат:
- Работник загружает в бот документ с соответствующей структурой
- Бот разбирает и заполняет поля в базе данных
- По установленному времени начинает поиск
- В первую очередь ищет информацию для пустых полей, параллельно обновляя существующую с пометкой даты и времени обновления
… - В случае необходимости работник нажимает кнопку, бот экспортирует все найденное в одном из форматов на выбор: json, csv, xlsx.
Похожий выполненный проект: Telegram bot для поиска новых обьявлений
-
20 дней44 913 UAH20 дней44 913 UAH
Здравствуйте!
Меня зовут Евгений, уже 7 лет я профессионально занимаюсь разработкой мобильных приложений, сайтов, веб-сервисов и веб-приложений.
*Стоимость указал за 1 час работы. Чтобы детальнее дать цену, хотел бы связаться/созвониться и обсудить детали.
- Портфолио, отзывы и награды можно изучить в моем профиле.
Почему нужно выбрать меня?
… - Занимал 1 и 2 места на международных чемпионатах и соревнованиях в IT-сфере
- У меня есть подтвержденные видеоотзывы, благодарственные письма
- Я всегда на связи, честный и адекватный
- Работаю по Договору
- Руковожу собственной командой разработки
Буду рад поговорить с Вами подробнее о проекте.
-
3 дня14 956 UAH3 дня14 956 UAH
Обращайтесь, готов выполнить. Ожидаю ТЗ. Срок и стоимость приблизительные до полного ознакомления с ТЗ.
-
3 дня9881 UAH
268 3 дня9881 UAHДобрый день! У меня есть опыт автоматизации сбора и обработки данных на Python: парсинг публичных источников, API-интеграции, asyncio, валидация и структурирование результатов в JSON/CSV. Работал с проектами, где нужно сопоставлять записи по нескольким полям и минимизировать ложные совпадения.
Подход к вашему заданию
Поиск — Google/Bing с операторами site:linkedin.com/in, имя + компания + штат; дополнительно публичные реестры бизнеса США, сайт компании из вашей базы.
Сопоставление — scoring по имени, названию, адресу, штату; порог уверенности (high / medium / low match).
Верификация — перекрестная проверка LinkedIn ↔ сайт компании ↔ адрес; дедупликация по URL профиля и email.
Стек — Python, asyncio, Playwright (где разрешено), pandas, экспорт JSON/CSV, логирование и восстановление после сбоев.
Важно: массовый автоматический парсинг LinkedIn/Facebook ограничен их правилами и риском блокировок. Рекомендую гибрид: поиск через поисковые системы + enrichment API (Apollo, Hunter и т.д.) + ручная проверка записей с низким score — это стабильнее для больших объемов по штатам.
…
Релевантный опыт: Telegram-боты с парсингом каналов (Telethon), интеграциями внешних API, работа с JSON-базами и фильтрацией данных. Портфолио: https://yegor10.github.io/PortFolioWeb3/
Готов описать архитектуру подробнее после уточнения объема базы (количество записей) и допустимых источников. Напишите в отзыве — обсудим ТЗ.
-
3 дня1347 UAH
807 22 0 3 дня1347 UAHДобрый день.
У меня есть опыт работы со сбором и обогащением бизнес-данных, поиском контактов компаний, владельцев бизнеса и проверкой информации из открытых источников. Работала с большими массивами данных для B2B-баз, где было важно не просто найти информацию, а правильно сопоставить её с имеющимися записями и минимизировать ложные совпадения.
Для подобной задачи вижу процесс следующим образом: поиск потенциальных профилей через LinkedIn и поисковые системы, сопоставление по ФИО, названию компании, адресу и штату, дальнейшая верификация найденных данных и формирование структурированного результата в CSV или JSON. При необходимости могу также помочь с подготовкой логики дедупликации и проверки качества результатов.
Работаю с Python, автоматизацией сбора данных, обработкой таблиц и структурированных наборов данных. Для более точной оценки хотела бы увидеть пример исходной базы и ориентировочный объем записей.
Буду рада обсудить детали проекта.
-
14 дней16 393 UAH
2116 20 0 14 дней16 393 UAHТЗ понял: на входе база владельцев малого бизнеса в США (имя, компания, адрес, штат), нужен пайплайн обогащения с LinkedIn и Facebook через поисковые операторы (site:linkedin.com/in "Name" "Company"), верификация найденных профилей по имени плюс компании плюс штату, на выходе для каждой записи фото, email, соцсети, сайт компании, телефон в JSON или CSV. Масштаб — все штаты США, то есть десятки тысяч записей.
По стеку для production-grade pipeline обычно использую Python плюс Playwright (более стабильный, чем Selenium на LinkedIn), Scrapy для массивных параллельных обходов, прокси-пул с residential для снижения ban rate, дедуп и верификация через fuzzy matching (rapidfuzz) и LLM-проверка для крайних случаев (один Smith может быть в нескольких штатах). Данные ллю в PostgreSQL с поэтапным экспортом в CSV или JSON, с флажками источника и уверенности для каждого поля.
Реалистичное покрытие на больших массивах: LinkedIn профиль владельца находится 50-70 процентов (в зависимости от уникальности имени плюс компании), email и телефон с самого LinkedIn обычно 5-15 процентов (закрыты большинством пользователей), если добавить через email-finder (Hunter, Apollo, Snov.io) можно поднять email до 25-40 процентов. Сайт компании и соцсети лучше — 40-60 процентов.
Чтобы дать точную стоимость и срок важно знать: какой объем базы (5 тысяч, 50 тысяч, 500 тысяч записей), какой бюджет на прокси и email-finder API, какой ожидаемый срок (за неделю не выйдет, за месяц вполне). По опыту в портфолио: LinkedIn-обогащение проводил на проектах в несколько тысяч записей, стабильно с низким ban rate.
Готов пройтись по объемам звонком или в переписке, после этого выйдет точная раскладка по дням и бюджету.
-
2 дня4491 UAH
7123 53 0 2 дня4491 UAHЗанимался похожими задачами: обогащение баз данных через публичные источники, Google Maps API, парсинг сайтов и агрегация в структурированный вид. Вижу это так: берём каждую запись, прогоняем через несколько источников (LinkedIn, Yelp, Google Business, возможно официальные реестры штатов), нормализуем и складываем в базу с историей обновлений, чтобы можно было переобогащать. Вопрос: какие именно поля нужно добрать, телефон и email или что-то глубже вроде выручки, количества сотрудников, соцсетей? Готов обсудить объём и подход.
-
22 дня44 913 UAH
522 2 1 22 дня44 913 UAHЗдравствуйте! У меня есть опыт написания бота, который использует Chrome Driver. Он эмулировал браузер и собирал необходимые данные. Реализация была сделана на Rust. Могу разработать программу на Go, которая будет работать и парсить нужную информацию. Почему я предлагаю выбрать Go? Потому что он лучше всего подходит под ваши потребности, может обрабатывать больше запросов, требует меньше ресурсов для своей работы и быстрее, чем Python. Также есть все решения, которые нужны для этой задачи. Если стек обязательно должен быть только на Python, тогда FASTAPI + httpx. У меня есть опыт работы с Selenium, писал автотесты.
-
10 дней15 719 UAH
221 10 дней15 719 UAHЗдравствуйте. У меня есть опыт работы с задачами OSINT и автоматизацией сбора данных.
Вот пошаговый план реализации:
1. Обход ограничений: Для работы с LinkedIn/Facebook буду использовать архитектуру на базе Playwright (или Selenium с ротацией прокси) для имитации поведения реального пользователя, чтобы минимизировать риск блокировок.
2. Валидация и матчинг: Для сопоставления найденных профилей с базой применю не только текстовое совпадение имени, но и дополнительные атрибуты: геолокация (штат), название компании (через fuzzy matching/расстояние Левенштейна), чтобы отсеять нерелевантные результаты.
3. Дедупликация: Реализую проверку на этапе записи в БД, чтобы избежать дублей.
…
В результате вы получите структурированный JSON/CSV файл.
Ранее реализовывал подобные системы сбора данных (работал с парсингом контактов для CRM). Готов обсудить детали технического задания.
-
1 день7186 UAH
3880 15 0 1 день7186 UAHДобрый день, Роман!
Задача мне вполне понятна: обогатить базу владельцев малого бизнеса США данными из открытых источников (LinkedIn/соцсети) — найти профиль, сопоставить с имеющейся записью (имя/компания/адрес/штат), верифицировать, убрать дубликаты и отдать структурированный JSON/CSV по всем штатам. Это как раз моя ниша.
Релевантный опыт: строил bulk-скрапер/энричер для email маркетинга (Node.js, 250 параллельных процессов), который вытягивал email и телефоны со страниц сайтов базы данных доменных имен СНГ и дедупликовал против имеющейся БД — это фактически ваша задача обогащения записей;
+мульти-маркетплейс скрапер досок vinted, bazos, jofogas, olx с анти-детект прокси-ротацией и валидацией аккаунтов; Python-скрапера недвижимости OLX/Dom.ria (aiohttp/asyncio + дедуп на уровне БД); боты на Selenium/Playwright для покупки билетов.
Стек: Python (Playwright/Selenium для динамики, async HTTP + BeautifulSoup для статики, Scrapy по необходимости), прокси-ротация + троттлинг, fuzzy-matching для сопоставления, экспорт в JSON/CSV.
… Подход: поиск через операторы (site:linkedin.com/in "Имя" "Компания") → вытягивание публичных данных → fuzzy-match по имени/компании/адресу/штату с confidence-скором (минимизирует ложные совпадения) → дедуп → структурированный экспорт.
Честно о границах: LinkedIn агрессивно блокирует ботов, а email/телефон часто не публичные — реальное покрытие будет не 100%, и это закладываю в архитектуру (прокси, троттлинг, match-score, fallback-источники).
Реальные отзывы от заказчиков — в моем профиле: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].
Вопрос: какой объем записей и какие поля критичны? От этого вилка. Детали — в переписке.
Работаю с почасовой оплатой по договоренности: +-20$.
-
7 дней26 948 UAH
387 1 0 7 дней26 948 UAH! Я специализируюсь на автоматизации сбора и обогащения данных на Python, поэтому с радостью разработаю для вас надежную систему для поиска контактов американского малого бизнеса. На основе вашей базы алгоритм через Scrapy или Playwright будет находить профили владельцев в LinkedIn и Facebook. Чтобы полностью исключить ложные совпадения из-за схожих названий компаний, я настрою умное сопоставление данных по имени, штату и адресу. Для стабильной работы без блокировок подключу ротационные прокси, а готовый результат в JSON или CSV очищу от дубликатов и провалидирую найденные емейлы.
-
7 дней20 211 UAH
3481 49 2 7 дней20 211 UAHЗдравствуйте! Разработал десятки парсеров, здесь тоже справлюсь, но хочу предложить более стабильный и потенциально дешевый подход: прямой скрапинг профилей LinkedIn быстро блокируется даже с прокси - нужны именно резидентские (datacenter блокируется мгновенно). Ориентировочно резидентские прокси от $3.6-7.35/GB, тогда как платные search API типа SerpAPI стоят $0.001-0.01 за запрос - на масштабе это существенно дешевле и стабильнее, чем прямой скрапинг+прокси. Также после последних обновлений Cloudflare (это отрезок где-то в полгода) немного тяжело с настройками уникальных отпечатков устройства для антидетектинга.
Поэтому предлагаю подход через search API вместо прямого скрапинга - меньший риск блокировок и более предсказуемая стоимость.
-
10 дней17 965 UAH
2025 4 0 10 дней17 965 UAHЗдравствуйте!
У меня большой опыт разработки решений для парсинга и обработки данных (различные источники, защита от блокировок, автоматизация). Готов выполнить поставленную задачу.
Предлагаю обсудить детали в личных сообщениях.
-
4 дня4491 UAH
956 6 1 4 дня4491 UAHЗдравствуйте, есть опыт с стеком, который вы перечислили, также работал с подобными проектами по парсингу. Самым интересным и сложным был проект по парсингу и автоматизации записей на туры, где были проблемы с лимитами и блокировкой.
-
3 дня44 913 UAH
4975 41 4 1 3 дня44 913 UAHДоброго дня!
Маю великий досвід у розробці OSINT-рішень та систем data enrichment на Python з використанням Playwright/Selenium/Scrapy. Ефективно реалізую пошук, верифікацію та структурування даних з відкритих джерел, забезпечуючи точність та масштабованість.
Напишіть мені в лс, уточнимо деталі.
-
1 день8983 UAH
1602 31 1 1 день8983 UAHДобрый день, веб-программировании уже более 9 лет
Работаю с rest api, фреймворками и cms такие как django, laravel, yii2, wp, opencart, codegnither и т.д.
Это не ии
-
1 день2246 UAH
650 2 0 1 день2246 UAHДобрый день!
Делал похожие вещи — обогащение баз контактов через поиск и сопоставление профилей, так что задание понятно с полуслова.
По подходу: записи из вашей базы (имя + компания + штат) гоняю через Google с операторами типа site:linkedin.com/in "Имя" "Компания" — так находится сам профиль, не упираясь сразу в блокировку LinkedIn. Далее — сопоставление: сверяю найденный профиль с исходной записью по имени, названию бизнеса, штату и адресу, чтобы не цеплялись левые совпадения (на одинаковых именах это главная проблема, поэтому матчинг делаю по нескольким атрибутам + порог уверенности). Дубликаты чищу на выходе.
Стек: Python + Playwright (для страниц, которые рендерятся) и Scrapy/requests там, где можно проще. Прокси обязательно — иначе LinkedIn режет на объемах. Результат отдаю в JSON или CSV, как вам удобнее.
Честно о одном моменте, чтобы не было сюрпризов: фото, ссылки на соцсети и сайт компании из LinkedIn достаются нормально, а вот email и телефон там чаще скрыты — публично их видно не у всех. То, что открыто, соберу; где контактов нет в доступе, поле будет пустым (могу дополнительно дотягивать из других источников, если нужно, — обсудим).
…
На каком объеме планируете старт и есть ли пример вашей текущей таблицы? Гляну структуру — и скажу реальные сроки.
Бесплатно проконсультирую по проекту в личных 🙂
-
10 дней11 228 UAH
2277 36 0 10 дней11 228 UAHДобрый день, могу сделать такой продукт с использованием Python. Скрапинг, дедупликация и т.д.
-
7 дней26 948 UAH
427 7 дней26 948 UAHДобрый день.
Реализация поиска через операторы "site:linkedin.com/in" - это правильный выбор, который позволит обогащать базу без риска мгновенного бана аккаунтов в самом LinkedIn. Однако при работе с большими массивами данных по США есть два критических инженерных момента, которые нужно закладывать в архитектуру с самого начала:
1. Обход лимитов Google и LinkedIn
Прямой запуск эмулятора браузера на поисковые запросы в Google быстро упрется в капчу (уже после нескольких десятков итераций). Для стабильной работы системы в многопоточном режиме я использую PHP в связке с ротационными резидентными прокси и инструментами автоматизации (напр., Symfony Panther или в рамках Laravel через Spatie Browsershot / headless Chrome). Альтернативный и более стабильный вариант для больших объемов поиска - интеграция через Search API, что полностью снимает проблему капчи Гугла. Самие же фото профилей и бизнес-данные докачиваются через эмуляцию браузера для обхода JS-защиты LinkedIn.
2. Верификация и минимизация ложных совпадений (Матчинг)
Чтобы избежать склеивания однофамильцев из разных штатов, система выполняет многоуровневую валидацию средствами PHP:
… - Нормализация названий компаний (очистка от Ltd, Corp, LLC).
- Сравнение строк с помощью алгоритмов схожести текстов (встроенные "levenshtein()", "similar_text()" или реализация Jaro-Winkler) для имен и названий бизнеса.
- Жесткий гео-фильтр на соответствие штата/адреса, указанной в вашей базе, с данными найденного профиля.
На основе этих факторов каждому запису присваивается confidence score. В итоговый CSV/JSON выгружаются только результаты, прошедшие установленный порог точности.
Технологический стек: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (автоматизация браузера), Laravel Queues (Redis) для надежной очереди и многопоточности, алгоритмы string-matching для очистки данных.
Ориентировочная стоимость разработки и настройки такого решения: $400 – $600 (в зависимости от финального объема данных и необходимости в интеграции сторонних API).
Срок реализации: 5–7 рабочих дней до выдачи первого стабильного результата.
Готов протестировать логику на небольшом тестовом кусочке вашей базы (например, 20–50 строк), чтобы продемонстрировать точность сбора и матчинга на моем стеке. Жду фидбек в чате.
-
1 день2246 UAH
477 1 день2246 UAHДоброго дня!
Готов взять на себя реализацию системы обогащения данных из открытых источников.
Имею опыт в парсинге, обогащении данных, автоматизации поиска, обработке больших CSV/JSON-массивов, дедупликации и верификации данных по нескольким атрибутам.
Предлагаю стек:
• Python;
• Playwright / Selenium для динамических страниц;
… • Scrapy / Requests / BeautifulSoup для статических источников;
• pandas для обработки данных;
• fuzzy matching для сопоставления имен, компаний, адресов и штатов;
• экспорт результатов в CSV / JSON.
Подход вижу следующим:
1. Загрузка исходной базы.
2. Генерация поисковых запросов по имени, компании, штату и адресу.
3. Поиск профилей и бизнес-страниц через открытые источники.
4. Сопоставление результатов с записями по нескольким параметрам.
5. Верификация совпадений и присвоение confidence score.
6. Сбор доступных полей: LinkedIn/Facebook, сайт, телефон, email, фото профиля, соцсети.
7. Дедупликация и формирование финального CSV/JSON.
Также могу предусмотреть логирование, повторную обработку неудачных записей и ручную проверку сомнительных совпадений, чтобы минимизировать ошибки.
Готов обсудить объем базы, пример входного файла и желаемую структуру результата.
-
2 дня5839 UAH
2991 73 4 2 2 дня5839 UAHДобрый день! Задание понятное, поэтому смогу реализовать такую систему за пару дней!!! Готова к продуктивному и качественному сотрудничеству!!!
-
1 день4491 UAH
512 6 0 1 день4491 UAHДобрый день.
У меня большой опыт разработки веб-проектов на PHP и Python, автоматизации обработки данных, интеграции с внешними сервисами и работы с большими массивами информации. Также работал с парсингом данных из открытых источников, обработкой результатов и их дальнейшей структуризацией для использования в бизнес-процессах. В свое время мы держали сети сайтов mfa из спарсенных данных компаний.
Для реализации подобного проекта вижу решение в виде многоуровневого пайплайна:
поиск потенциальных профилей через поисковые системы и открытые источники;
автоматизированный сбор данных с помощью Python (Selenium/Scrapy, будем смотреть, что подходит);
верификация совпадений по ФИО, названию компании, адресу, штату и дополнительным атрибутам;
… дедупликация и оценка достоверности найденных результатов;
формирование структурированного результата в форматах JSON или CSV.
Из технологий имею опыт работы с Python, Selenium, SQL, REST API, обработкой данных и автоматизацией бизнес-процессов. Также имею значительный опыт работы с legacy-системами и проектами, где нужно быстро разобраться в логике обработки больших объемов данных.
Готов обсудить детали, ожидаемые объемы записей и требования к точности сопоставления данных.
-
10 дней14 597 UAH
478 1 1 10 дней14 597 UAHДобрый день.
Готов реализовать систему обогащения базы данных из открытых источников: LinkedIn, Facebook, сайты компаний и поисковые системы.
Работаю с Python, Playwright/Selenium, CSV/JSON, парсингом, дедупликацией и верификацией данных. Могу настроить поиск профилей, сопоставление по имени, компании, адресу/штату и формирование готового результата в CSV или JSON.
-
2 дня1123 UAH
182 2 дня1123 UAHДобрый день.
У меня есть опыт разработки парсеров и систем сбора/обогащения данных на Python (Playwright, Selenium). Работал с поиском и верификацией контактов, профилей компаний и владельцев бизнеса из открытых источников.
Могу предложить решение по сопоставлению данных по ФИО, компании и локации с выгрузкой результатов в CSV или JSON. Если есть пример базы — отправьте, быстро оценю сложность и объем работ.
-
1 день2246 UAH
9944 117 0 1 день2246 UAHЗдравствуйте.
Я разрабатываю парсеры на NodeJS. Готов взяться. Пишите, обсудим.
-
1 день1123 UAH
1014 6 1 1 день1123 UAHЗдравствуйте. У меня есть релевантный опыт в автоматизации на Python, парсинге открытых источников, подходах OSINT, дедупликации и структурировании данных.
Работал с задачами сбора данных с сайтов, соцсетей, Telegram/веб-источников, обработки профилей, поиска совпадений, фильтрации нерелевантных результатов и экспорта в CSV/Excel/JSON.
Стек: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. При необходимости можно добавить очереди, прокси, ограничения по скорости, логирование и механизм возобновления для больших объемов.
Подход вижу так:
1. Берем входные записи: имя, компания, адрес, штат.
… 2. Генерируем поисковые запросы через Google/Bing с операторами `site:linkedin.com/in`, `site:linkedin.com/company`, а также поиск по сайту компании.
3. Собираем кандидатов: профиль LinkedIn, страница компании, сайт, телефон, email, социальные ссылки.
4. Делаем проверку на совпадение: совпадение имени, компании, штата, адреса/города, должности, домена компании.
5. Отсекаем слабые совпадения, дубликаты и подозрительные результаты.
6. Формируем структурированный результат в CSV или JSON с оценкой уверенности и источниками.
Могу реализовать MVP, который обрабатывает часть базы, показывает качество совпадений, после чего масштабировать под большие объемы по всем штатам США.
-
16 дней1 122 813 UAH
196 16 дней1 122 813 UAHУ нас почти готовое решение для обогащения баз и классификации найденных профилей, можем быстро адаптировать под ваши записи и обсудить детали здесь, я на связи ))
Предварительно вижу первый рабочий этап на 16 дней, в ставке закладываю 65000 грн за пилот с поиском, верификацией совпадений, дедупликацией и экспортом в JSON или CSV.
Технически я бы делал это на Python, Playwright или Scrapy, очереди задач, кэш результатов, скоринг совпадений по имени, компании, адресу, штату, домену и телефону.
Отдельно заложил бы ограничения частоты, повторные проверки, лог причин совпадения и ручной список сомнительных записей, потому что в таких задачах лучше семь раз отмерить, чем потом чистить всю базу вручную.
Релевантный опыт есть в автоматизации сбора, структурирования и проверки данных для бизнес-процессов.
https://business.ingello.com/vorfahr - близко по логике автоматизации поиска и работы с данными.
https://business.ingello.com/fractal - пример агентной автоматизации и сложных процессов обработки информации.
Наш профиль и подход для FLH - https://systems-fl.ingello.com/ua
Уточню лишь 2 вещи.
… Какой объем первой партии - 1000, 10000, 100000 записей или больше?
Фото профиля нужно сохранять как ссылку или загружать файлом?
-
1 день2246 UAH
2426 20 0 1 день2246 UAHДобрый день, готов выполнить ваше задание быстро и качественно. У меня большой опыт в создании различных парсеров. Напишите в личные сообщения, обсудим детали. С удовольствием помогу)
-
1 день1123 UAH
4120 8 0 1 1 день1123 UAHДобрый день.
Наша команда имеет многолетний опыт в разработке ERP, CRM, CMS и специализированного программного обеспечения для бизнеса. Мы создаем эффективные цифровые решения, которые помогают автоматизировать процессы, повышать продуктивность и масштабировать компании.
У нас уже есть готовое решение по парсеру.
Работаем с современными технологиями — от ботов и скриптов до AI-агентов и аналитических систем. Разрабатываем сайты различной сложности. В нашем портфолио — реализованные ERP-решения для гостиничного бизнеса, а также для компаний, занимающихся импортом и продажей товаров, а также собственный продукт XFitness — ERP-система, созданная специально для фитнес-клубов.
Готовы реализовать ваш проект и предложить лучшее решение именно для ваших потребностей.
Наше портфолио:Freelancehunt
…
Мы специализируемся в таких сферах:
-Разработка ERP Систем
-Разработка CRM Систем
-Разработка Веб-Сайтов любой сложности
-Разработка CMS Систем
-Поддержка Веб-Сайтов
-Разработка OpenCart
-Поддержка OpenCart
-Модификация OpenCart
-Доработка OpenCart
-Разработка WordPress
-Поддержка WordPress
-Модификация WordPress
-Доработка WordPress
-Разработка ECommerce
-Поддержка ECommerce
-Модификация ECommerce
-Доработка ECommerce
-Разработка Веб-Приложений
-Поддержка 1С Серверов
-Поддержка Веб-Серверов
-Разработка мобильных приложений
- Парсинг данных
-Разработка ботов
-Разработка AI-агентов
и на таких технологиях:
- Python
-PHP
-Laravel
-Symfony
-Yii2
-JS
-NodeJS
-jQuery
-TypeScript
-MySQL
-HTML
-CSS
-Vue
-Nuxt.js
-React
-React Native
-C++
-
1 день1123 UAH
520 4 2 1 день1123 UAHДобрый день.
У меня есть опыт разработки систем сбора и обогащения данных, парсеров и автоматизации работы с большими массивами информации. Для подобных задач обычно использую Python, Playwright, Selenium, Scrapy, PostgreSQL и инструменты для дедупликации и верификации данных.
Смогу реализовать процесс поиска и сопоставления профилей владельцев бизнеса на основе имени, названия компании, адреса, штата и других атрибутов для минимизации ложных совпадений. Результат может формироваться в JSON или CSV с необходимой структурой данных для дальнейшей обработки.
Также имею опыт построения пайплайнов data enrichment, где важно не просто найти информацию, а проверить ее релевантность и качество перед сохранением в базу.
Подскажите, пожалуйста:
* Какой ориентировочный объем базы на старте (тысячи или десятки тысяч записей)?
* Нужна одноразовая обработка или регулярное обновление данных?
* Есть ли пример желаемого формата JSON/CSV для финального результата?
-
Задайте ваш вопрос заказчику
Актуальные фриланс-проекты в категории Веб-программирование
Сделать так, чтобы письма о заказах из магазина не попадали в спамСейчас есть магазин на опенкарт, письма о заказах попадают в спам, нужно сделать так, чтобы они попадали во Входящие (ukr.net gmail), проверьте. Хостинг написал: Плохая доставка электронной почты может быть связана с низкой репутацией отправителя - IP или домена. В таком… PHP, Веб-программирование ∙ 40 минут назад ∙ 24 ставки |
Ищу опытного Full Stack разработчика для создания SaaS-сервиса для интернет-магазинов.Идея сервиса: Клиент загружает ссылку на свой товарный фид (XML или CSV). Сервис автоматически получает товары, берет их фотографии и создает новые рекламные изображения по готовым шаблонам: цена, скидка, логотип, акционные плашки и т.д. Также в сервисе должен быть простой… Javascript и Typescript, Веб-программирование ∙ 52 минуты назад ∙ 26 ставок |
Разработка WebGL/Three.js сцены с генерацией и экспортом 3D (snapshot) из анимированного шейдераОписание объекта:Проект представляет собой дизайнерский стол, выполненный в форме реалистичного, глубокого водоворота (центральная воронка, которая плавно переходит из широкой горизонтальной столешницы в тонкую изящную ножку). Суть задачи:Требуется WebGL / Creative Coding… Javascript и Typescript, Веб-программирование ∙ 21 час 26 минут назад ∙ 24 ставки |
Shopify-разработчик для сайта доставки суши (Польша)Ищем опытного разработчика Shopify для реализации сайта доставки еды (суши) для клиента из г. Катовице, Польша. Что нужно сделать: Настроить сайт на готовом шаблоне Shopify (шаблон согласован) Меню с фотографиями блюд и описаниями Онлайн-оформление заказов Подключение способов… Веб-программирование ∙ 22 часа 57 минут назад ∙ 41 ставка |
Вебфлоу разработчик для заполнения страниц портфолио на сайтеСайт разработан кастомно на Webflow для строительной компании, нужно быстро заполнить страницы проектов по одному шаблону (заменить картинки и тексты) Для 2 языков Количество - 6 штук Готовы начинать как можно скорее, спасибо! HTML и CSS верстка, Веб-программирование ∙ 1 день 14 часов назад ∙ 42 ставки |