Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Парсинг и классификация данных

Translated

  1. 3497
     5  0

    7 дней67 369 UAH

    Добрый день, Роман!

    Вижу, что другие специалисты уже ответили на Ваш проект. Позвольте помочь и мне.

    Я пока что воздержусь от предложения, так как для разработки нужно четкое видение конечных целей системы сбора данных. Чтобы лучше понять Ваше видение и предложить оптимальные решения, уточните, пожалуйста:
    - Сроки реализации проекта и планы по быстрому запуску MVP.
    - Есть ли у Вас детальное ТЗ или сформированное видение системы?
    - Рассматриваете ли конкретные технологии или я могу рекомендовать оптимальные решения?
    - Объем записей для обработки.
    - Примеры похожих проектов для референса.

    На сроки и стоимость разработки влияют такие факторы:
    1. Объем данных и частота обновления.
    2. Наличие готовых инструментов для сбора данных.
    3. Интеграция с другими системами.
    4. Уровень детализации верификации и дедупликации данных.
    5. Масштабируемость решения для больших объемов данных.

    На начальном этапе важно сформировать и согласовать видение конечного результата системы сбора и классификации данных. Я отдаю предпочтение формированию такого видения на основе анализа существующих решений конкурентов и Ваших пожеланий.

    Предлагаю обсудить детали проекта, чтобы понять, насколько мы подходим друг другу. Мы можем зафиксировать все нюансы в переписке или во время встречи.

    У меня есть опыт в разработке систем обогащения данных и автоматизации сбора информации из открытых источников. Знаю, как важно минимизировать ложные совпадения и обеспечить точность данных, особенно при работе с большими объемами информации с платформ, таких как LinkedIn.

  2. 2197
     97  0

    2 дня4491 UAH

    Добрый день
    можно собрать
    в таком виде
    https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
    Напишите, кто именно интересует

  3. 3012
     3  0
    Пример работы:
    Telegram Auction Monitor — мониторинг Copart и IAAI в реальном в
    7 дней44 913 UAH

    У меня есть опыт парсинга как обычных новостных агрегаторов, так и более защищенных американских аукционов. Уже сейчас могу сказать, что будут трудности с LinkedIn в плане его защиты и ограничений. Если просто перейти по ссылке, то мы получим ограниченную информацию, к тому же вероятно там будут ограничения по количеству просмотренных страниц с текущего IP-адреса. Если же авторизоваться, будет больший доступ, но по количеству просмотренных страниц, скорее всего, тоже есть лимит. Почитаю о них позже, если получу победу в конкурсе. Могу сказать сразу, что в самом сложном случае это обойдется в дополнительные аккаунты LinkedIn и прокси, возможно, премиум.

    Стек: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, возможно Selenium/Playwright, но старался бы не использовать, чтобы сэкономить ресурсы сервера и увеличить скорость обработки данных.

    Как я вижу результат:
    - Работник загружает в бот документ с соответствующей структурой
    - Бот разбирает и заполняет поля в базе данных
    - По установленному времени начинает поиск
    - В первую очередь ищет информацию для пустых полей, параллельно обновляя существующую с пометкой даты и времени обновления
    - В случае необходимости работник нажимает кнопку, бот экспортирует все найденное в одном из форматов на выбор: json, csv, xlsx.

    Похожий выполненный проект: Telegram bot для поиска новых обьявлений

  4. 561
    Пример работы:
    Корпоративный сайт для организации «Ритуал 77»
    20 дней44 913 UAH

    Здравствуйте!

    Меня зовут Евгений, уже 7 лет я профессионально занимаюсь разработкой мобильных приложений, сайтов, веб-сервисов и веб-приложений.

    *Стоимость указал за 1 час работы. Чтобы детальнее дать цену, хотел бы связаться/созвониться и обсудить детали.

    - Портфолио, отзывы и награды можно изучить в моем профиле.

    Почему нужно выбрать меня?
    - Занимал 1 и 2 места на международных чемпионатах и соревнованиях в IT-сфере
    - У меня есть подтвержденные видеоотзывы, благодарственные письма
    - Я всегда на связи, честный и адекватный
    - Работаю по Договору
    - Руковожу собственной командой разработки

    Буду рад поговорить с Вами подробнее о проекте.

  5. 2038
     7  0

    3 дня14 956 UAH

    Обращайтесь, готов выполнить. Ожидаю ТЗ. Срок и стоимость приблизительные до полного ознакомления с ТЗ.

  6. 268  
    3 дня9881 UAH

    Добрый день! У меня есть опыт автоматизации сбора и обработки данных на Python: парсинг публичных источников, API-интеграции, asyncio, валидация и структурирование результатов в JSON/CSV. Работал с проектами, где нужно сопоставлять записи по нескольким полям и минимизировать ложные совпадения.

    Подход к вашему заданию

    Поиск — Google/Bing с операторами site:linkedin.com/in, имя + компания + штат; дополнительно публичные реестры бизнеса США, сайт компании из вашей базы.
    Сопоставление — scoring по имени, названию, адресу, штату; порог уверенности (high / medium / low match).
    Верификация — перекрестная проверка LinkedIn ↔ сайт компании ↔ адрес; дедупликация по URL профиля и email.
    Стек — Python, asyncio, Playwright (где разрешено), pandas, экспорт JSON/CSV, логирование и восстановление после сбоев.
    Важно: массовый автоматический парсинг LinkedIn/Facebook ограничен их правилами и риском блокировок. Рекомендую гибрид: поиск через поисковые системы + enrichment API (Apollo, Hunter и т.д.) + ручная проверка записей с низким score — это стабильнее для больших объемов по штатам.

    Релевантный опыт: Telegram-боты с парсингом каналов (Telethon), интеграциями внешних API, работа с JSON-базами и фильтрацией данных. Портфолио: https://yegor10.github.io/PortFolioWeb3/

    Готов описать архитектуру подробнее после уточнения объема базы (количество записей) и допустимых источников. Напишите в отзыве — обсудим ТЗ.

  7. 807    22  0
    3 дня1347 UAH

    Добрый день.

    У меня есть опыт работы со сбором и обогащением бизнес-данных, поиском контактов компаний, владельцев бизнеса и проверкой информации из открытых источников. Работала с большими массивами данных для B2B-баз, где было важно не просто найти информацию, а правильно сопоставить её с имеющимися записями и минимизировать ложные совпадения.

    Для подобной задачи вижу процесс следующим образом: поиск потенциальных профилей через LinkedIn и поисковые системы, сопоставление по ФИО, названию компании, адресу и штату, дальнейшая верификация найденных данных и формирование структурированного результата в CSV или JSON. При необходимости могу также помочь с подготовкой логики дедупликации и проверки качества результатов.

    Работаю с Python, автоматизацией сбора данных, обработкой таблиц и структурированных наборов данных. Для более точной оценки хотела бы увидеть пример исходной базы и ориентировочный объем записей.

    Буду рада обсудить детали проекта.

  8. 2116    20  0
    14 дней16 393 UAH

    ТЗ понял: на входе база владельцев малого бизнеса в США (имя, компания, адрес, штат), нужен пайплайн обогащения с LinkedIn и Facebook через поисковые операторы (site:linkedin.com/in "Name" "Company"), верификация найденных профилей по имени плюс компании плюс штату, на выходе для каждой записи фото, email, соцсети, сайт компании, телефон в JSON или CSV. Масштаб — все штаты США, то есть десятки тысяч записей.

    По стеку для production-grade pipeline обычно использую Python плюс Playwright (более стабильный, чем Selenium на LinkedIn), Scrapy для массивных параллельных обходов, прокси-пул с residential для снижения ban rate, дедуп и верификация через fuzzy matching (rapidfuzz) и LLM-проверка для крайних случаев (один Smith может быть в нескольких штатах). Данные ллю в PostgreSQL с поэтапным экспортом в CSV или JSON, с флажками источника и уверенности для каждого поля.

    Реалистичное покрытие на больших массивах: LinkedIn профиль владельца находится 50-70 процентов (в зависимости от уникальности имени плюс компании), email и телефон с самого LinkedIn обычно 5-15 процентов (закрыты большинством пользователей), если добавить через email-finder (Hunter, Apollo, Snov.io) можно поднять email до 25-40 процентов. Сайт компании и соцсети лучше — 40-60 процентов.

    Чтобы дать точную стоимость и срок важно знать: какой объем базы (5 тысяч, 50 тысяч, 500 тысяч записей), какой бюджет на прокси и email-finder API, какой ожидаемый срок (за неделю не выйдет, за месяц вполне). По опыту в портфолио: LinkedIn-обогащение проводил на проектах в несколько тысяч записей, стабильно с низким ban rate.

    Готов пройтись по объемам звонком или в переписке, после этого выйдет точная раскладка по дням и бюджету.

  9. 7123    53  0
    2 дня4491 UAH

    Занимался похожими задачами: обогащение баз данных через публичные источники, Google Maps API, парсинг сайтов и агрегация в структурированный вид. Вижу это так: берём каждую запись, прогоняем через несколько источников (LinkedIn, Yelp, Google Business, возможно официальные реестры штатов), нормализуем и складываем в базу с историей обновлений, чтобы можно было переобогащать. Вопрос: какие именно поля нужно добрать, телефон и email или что-то глубже вроде выручки, количества сотрудников, соцсетей? Готов обсудить объём и подход.

  10. 522    2  1
    22 дня44 913 UAH

    Здравствуйте! У меня есть опыт написания бота, который использует Chrome Driver. Он эмулировал браузер и собирал необходимые данные. Реализация была сделана на Rust. Могу разработать программу на Go, которая будет работать и парсить нужную информацию. Почему я предлагаю выбрать Go? Потому что он лучше всего подходит под ваши потребности, может обрабатывать больше запросов, требует меньше ресурсов для своей работы и быстрее, чем Python. Также есть все решения, которые нужны для этой задачи. Если стек обязательно должен быть только на Python, тогда FASTAPI + httpx. У меня есть опыт работы с Selenium, писал автотесты.

  11. 221  
    10 дней15 719 UAH

    Здравствуйте. У меня есть опыт работы с задачами OSINT и автоматизацией сбора данных.

    Вот пошаговый план реализации:

    1. Обход ограничений: Для работы с LinkedIn/Facebook буду использовать архитектуру на базе Playwright (или Selenium с ротацией прокси) для имитации поведения реального пользователя, чтобы минимизировать риск блокировок.

    2. Валидация и матчинг: Для сопоставления найденных профилей с базой применю не только текстовое совпадение имени, но и дополнительные атрибуты: геолокация (штат), название компании (через fuzzy matching/расстояние Левенштейна), чтобы отсеять нерелевантные результаты.

    3. Дедупликация: Реализую проверку на этапе записи в БД, чтобы избежать дублей.

    В результате вы получите структурированный JSON/CSV файл.

    Ранее реализовывал подобные системы сбора данных (работал с парсингом контактов для CRM). Готов обсудить детали технического задания.

  12. 3880    15  0
    1 день7186 UAH

    Добрый день, Роман!

    Задача мне вполне понятна: обогатить базу владельцев малого бизнеса США данными из открытых источников (LinkedIn/соцсети) — найти профиль, сопоставить с имеющейся записью (имя/компания/адрес/штат), верифицировать, убрать дубликаты и отдать структурированный JSON/CSV по всем штатам. Это как раз моя ниша.

    Релевантный опыт: строил bulk-скрапер/энричер для email маркетинга (Node.js, 250 параллельных процессов), который вытягивал email и телефоны со страниц сайтов базы данных доменных имен СНГ и дедупликовал против имеющейся БД — это фактически ваша задача обогащения записей;
    +мульти-маркетплейс скрапер досок vinted, bazos, jofogas, olx с анти-детект прокси-ротацией и валидацией аккаунтов; Python-скрапера недвижимости OLX/Dom.ria (aiohttp/asyncio + дедуп на уровне БД); боты на Selenium/Playwright для покупки билетов.

    Стек: Python (Playwright/Selenium для динамики, async HTTP + BeautifulSoup для статики, Scrapy по необходимости), прокси-ротация + троттлинг, fuzzy-matching для сопоставления, экспорт в JSON/CSV.

    Подход: поиск через операторы (site:linkedin.com/in "Имя" "Компания") → вытягивание публичных данных → fuzzy-match по имени/компании/адресу/штату с confidence-скором (минимизирует ложные совпадения) → дедуп → структурированный экспорт.

    Честно о границах: LinkedIn агрессивно блокирует ботов, а email/телефон часто не публичные — реальное покрытие будет не 100%, и это закладываю в архитектуру (прокси, троттлинг, match-score, fallback-источники).

    Реальные отзывы от заказчиков — в моем профиле: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].

    Вопрос: какой объем записей и какие поля критичны? От этого вилка. Детали — в переписке.

    Работаю с почасовой оплатой по договоренности: +-20$.

  13. 387    1  0
    7 дней26 948 UAH

    ! Я специализируюсь на автоматизации сбора и обогащения данных на Python, поэтому с радостью разработаю для вас надежную систему для поиска контактов американского малого бизнеса. На основе вашей базы алгоритм через Scrapy или Playwright будет находить профили владельцев в LinkedIn и Facebook. Чтобы полностью исключить ложные совпадения из-за схожих названий компаний, я настрою умное сопоставление данных по имени, штату и адресу. Для стабильной работы без блокировок подключу ротационные прокси, а готовый результат в JSON или CSV очищу от дубликатов и провалидирую найденные емейлы.

  14. 3481    49  2
    7 дней20 211 UAH

    Здравствуйте! Разработал десятки парсеров, здесь тоже справлюсь, но хочу предложить более стабильный и потенциально дешевый подход: прямой скрапинг профилей LinkedIn быстро блокируется даже с прокси - нужны именно резидентские (datacenter блокируется мгновенно). Ориентировочно резидентские прокси от $3.6-7.35/GB, тогда как платные search API типа SerpAPI стоят $0.001-0.01 за запрос - на масштабе это существенно дешевле и стабильнее, чем прямой скрапинг+прокси. Также после последних обновлений Cloudflare (это отрезок где-то в полгода) немного тяжело с настройками уникальных отпечатков устройства для антидетектинга.

    Поэтому предлагаю подход через search API вместо прямого скрапинга - меньший риск блокировок и более предсказуемая стоимость.

  15. 2025    4  0
    10 дней17 965 UAH

    Здравствуйте!

    У меня большой опыт разработки решений для парсинга и обработки данных (различные источники, защита от блокировок, автоматизация). Готов выполнить поставленную задачу.

    Предлагаю обсудить детали в личных сообщениях.

  16. 956    6  1
    4 дня4491 UAH

    Здравствуйте, есть опыт с стеком, который вы перечислили, также работал с подобными проектами по парсингу. Самым интересным и сложным был проект по парсингу и автоматизации записей на туры, где были проблемы с лимитами и блокировкой.

  17. Nick Osipov Web4Business
    4975    41  4   1
    3 дня44 913 UAH

    Доброго дня!

    Маю великий досвід у розробці OSINT-рішень та систем data enrichment на Python з використанням Playwright/Selenium/Scrapy. Ефективно реалізую пошук, верифікацію та структурування даних з відкритих джерел, забезпечуючи точність та масштабованість.

    Напишіть мені в лс, уточнимо деталі.

  18. 1602    31  1
    1 день8983 UAH

    Добрый день, веб-программировании уже более 9 лет
    Работаю с rest api, фреймворками и cms такие как django, laravel, yii2, wp, opencart, codegnither и т.д.
    Это не ии

  19. 650    2  0
    1 день2246 UAH

    Добрый день!

    Делал похожие вещи — обогащение баз контактов через поиск и сопоставление профилей, так что задание понятно с полуслова.

    По подходу: записи из вашей базы (имя + компания + штат) гоняю через Google с операторами типа site:linkedin.com/in "Имя" "Компания" — так находится сам профиль, не упираясь сразу в блокировку LinkedIn. Далее — сопоставление: сверяю найденный профиль с исходной записью по имени, названию бизнеса, штату и адресу, чтобы не цеплялись левые совпадения (на одинаковых именах это главная проблема, поэтому матчинг делаю по нескольким атрибутам + порог уверенности). Дубликаты чищу на выходе.

    Стек: Python + Playwright (для страниц, которые рендерятся) и Scrapy/requests там, где можно проще. Прокси обязательно — иначе LinkedIn режет на объемах. Результат отдаю в JSON или CSV, как вам удобнее.

    Честно о одном моменте, чтобы не было сюрпризов: фото, ссылки на соцсети и сайт компании из LinkedIn достаются нормально, а вот email и телефон там чаще скрыты — публично их видно не у всех. То, что открыто, соберу; где контактов нет в доступе, поле будет пустым (могу дополнительно дотягивать из других источников, если нужно, — обсудим).

    На каком объеме планируете старт и есть ли пример вашей текущей таблицы? Гляну структуру — и скажу реальные сроки.

    Бесплатно проконсультирую по проекту в личных 🙂

  20. 2277    36  0
    10 дней11 228 UAH

    Добрый день, могу сделать такой продукт с использованием Python. Скрапинг, дедупликация и т.д.

  21. 427  
    7 дней26 948 UAH

    Добрый день.

    Реализация поиска через операторы "site:linkedin.com/in" - это правильный выбор, который позволит обогащать базу без риска мгновенного бана аккаунтов в самом LinkedIn. Однако при работе с большими массивами данных по США есть два критических инженерных момента, которые нужно закладывать в архитектуру с самого начала:

    1. Обход лимитов Google и LinkedIn
    Прямой запуск эмулятора браузера на поисковые запросы в Google быстро упрется в капчу (уже после нескольких десятков итераций). Для стабильной работы системы в многопоточном режиме я использую PHP в связке с ротационными резидентными прокси и инструментами автоматизации (напр., Symfony Panther или в рамках Laravel через Spatie Browsershot / headless Chrome). Альтернативный и более стабильный вариант для больших объемов поиска - интеграция через Search API, что полностью снимает проблему капчи Гугла. Самие же фото профилей и бизнес-данные докачиваются через эмуляцию браузера для обхода JS-защиты LinkedIn.

    2. Верификация и минимизация ложных совпадений (Матчинг)
    Чтобы избежать склеивания однофамильцев из разных штатов, система выполняет многоуровневую валидацию средствами PHP:
    - Нормализация названий компаний (очистка от Ltd, Corp, LLC).
    - Сравнение строк с помощью алгоритмов схожести текстов (встроенные "levenshtein()", "similar_text()" или реализация Jaro-Winkler) для имен и названий бизнеса.
    - Жесткий гео-фильтр на соответствие штата/адреса, указанной в вашей базе, с данными найденного профиля.
    На основе этих факторов каждому запису присваивается confidence score. В итоговый CSV/JSON выгружаются только результаты, прошедшие установленный порог точности.

    Технологический стек: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (автоматизация браузера), Laravel Queues (Redis) для надежной очереди и многопоточности, алгоритмы string-matching для очистки данных.

    Ориентировочная стоимость разработки и настройки такого решения: $400 – $600 (в зависимости от финального объема данных и необходимости в интеграции сторонних API).
    Срок реализации: 5–7 рабочих дней до выдачи первого стабильного результата.

    Готов протестировать логику на небольшом тестовом кусочке вашей базы (например, 20–50 строк), чтобы продемонстрировать точность сбора и матчинга на моем стеке. Жду фидбек в чате.

  22. 477  
    1 день2246 UAH

    Доброго дня!

    Готов взять на себя реализацию системы обогащения данных из открытых источников.

    Имею опыт в парсинге, обогащении данных, автоматизации поиска, обработке больших CSV/JSON-массивов, дедупликации и верификации данных по нескольким атрибутам.

    Предлагаю стек:
    • Python;
    • Playwright / Selenium для динамических страниц;
    • Scrapy / Requests / BeautifulSoup для статических источников;
    • pandas для обработки данных;
    • fuzzy matching для сопоставления имен, компаний, адресов и штатов;
    • экспорт результатов в CSV / JSON.

    Подход вижу следующим:

    1. Загрузка исходной базы.
    2. Генерация поисковых запросов по имени, компании, штату и адресу.
    3. Поиск профилей и бизнес-страниц через открытые источники.
    4. Сопоставление результатов с записями по нескольким параметрам.
    5. Верификация совпадений и присвоение confidence score.
    6. Сбор доступных полей: LinkedIn/Facebook, сайт, телефон, email, фото профиля, соцсети.
    7. Дедупликация и формирование финального CSV/JSON.

    Также могу предусмотреть логирование, повторную обработку неудачных записей и ручную проверку сомнительных совпадений, чтобы минимизировать ошибки.

    Готов обсудить объем базы, пример входного файла и желаемую структуру результата.

  23. 2991    73  4   2
    2 дня5839 UAH

    Добрый день! Задание понятное, поэтому смогу реализовать такую систему за пару дней!!! Готова к продуктивному и качественному сотрудничеству!!!

  24. 512    6  0
    1 день4491 UAH

    Добрый день.

    У меня большой опыт разработки веб-проектов на PHP и Python, автоматизации обработки данных, интеграции с внешними сервисами и работы с большими массивами информации. Также работал с парсингом данных из открытых источников, обработкой результатов и их дальнейшей структуризацией для использования в бизнес-процессах. В свое время мы держали сети сайтов mfa из спарсенных данных компаний.

    Для реализации подобного проекта вижу решение в виде многоуровневого пайплайна:

    поиск потенциальных профилей через поисковые системы и открытые источники;
    автоматизированный сбор данных с помощью Python (Selenium/Scrapy, будем смотреть, что подходит);
    верификация совпадений по ФИО, названию компании, адресу, штату и дополнительным атрибутам;
    дедупликация и оценка достоверности найденных результатов;
    формирование структурированного результата в форматах JSON или CSV.

    Из технологий имею опыт работы с Python, Selenium, SQL, REST API, обработкой данных и автоматизацией бизнес-процессов. Также имею значительный опыт работы с legacy-системами и проектами, где нужно быстро разобраться в логике обработки больших объемов данных.

    Готов обсудить детали, ожидаемые объемы записей и требования к точности сопоставления данных.

  25. 478    1  1
    10 дней14 597 UAH

    Добрый день.
    Готов реализовать систему обогащения базы данных из открытых источников: LinkedIn, Facebook, сайты компаний и поисковые системы.
    Работаю с Python, Playwright/Selenium, CSV/JSON, парсингом, дедупликацией и верификацией данных. Могу настроить поиск профилей, сопоставление по имени, компании, адресу/штату и формирование готового результата в CSV или JSON.

  26. 182  
    2 дня1123 UAH

    Добрый день.

    У меня есть опыт разработки парсеров и систем сбора/обогащения данных на Python (Playwright, Selenium). Работал с поиском и верификацией контактов, профилей компаний и владельцев бизнеса из открытых источников.

    Могу предложить решение по сопоставлению данных по ФИО, компании и локации с выгрузкой результатов в CSV или JSON. Если есть пример базы — отправьте, быстро оценю сложность и объем работ.

  27. 9944    117  0
    1 день2246 UAH

    Здравствуйте.

    Я разрабатываю парсеры на NodeJS. Готов взяться. Пишите, обсудим.

  28. 1014    6  1
    1 день1123 UAH

    Здравствуйте. У меня есть релевантный опыт в автоматизации на Python, парсинге открытых источников, подходах OSINT, дедупликации и структурировании данных.

    Работал с задачами сбора данных с сайтов, соцсетей, Telegram/веб-источников, обработки профилей, поиска совпадений, фильтрации нерелевантных результатов и экспорта в CSV/Excel/JSON.

    Стек: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. При необходимости можно добавить очереди, прокси, ограничения по скорости, логирование и механизм возобновления для больших объемов.

    Подход вижу так:

    1. Берем входные записи: имя, компания, адрес, штат.
    2. Генерируем поисковые запросы через Google/Bing с операторами `site:linkedin.com/in`, `site:linkedin.com/company`, а также поиск по сайту компании.
    3. Собираем кандидатов: профиль LinkedIn, страница компании, сайт, телефон, email, социальные ссылки.
    4. Делаем проверку на совпадение: совпадение имени, компании, штата, адреса/города, должности, домена компании.
    5. Отсекаем слабые совпадения, дубликаты и подозрительные результаты.
    6. Формируем структурированный результат в CSV или JSON с оценкой уверенности и источниками.

    Могу реализовать MVP, который обрабатывает часть базы, показывает качество совпадений, после чего масштабировать под большие объемы по всем штатам США.

  29. 196  
    16 дней1 122 813 UAH

    У нас почти готовое решение для обогащения баз и классификации найденных профилей, можем быстро адаптировать под ваши записи и обсудить детали здесь, я на связи ))
    Предварительно вижу первый рабочий этап на 16 дней, в ставке закладываю 65000 грн за пилот с поиском, верификацией совпадений, дедупликацией и экспортом в JSON или CSV.
    Технически я бы делал это на Python, Playwright или Scrapy, очереди задач, кэш результатов, скоринг совпадений по имени, компании, адресу, штату, домену и телефону.
    Отдельно заложил бы ограничения частоты, повторные проверки, лог причин совпадения и ручной список сомнительных записей, потому что в таких задачах лучше семь раз отмерить, чем потом чистить всю базу вручную.
    Релевантный опыт есть в автоматизации сбора, структурирования и проверки данных для бизнес-процессов.
    https://business.ingello.com/vorfahr - близко по логике автоматизации поиска и работы с данными.
    https://business.ingello.com/fractal - пример агентной автоматизации и сложных процессов обработки информации.
    Наш профиль и подход для FLH - https://systems-fl.ingello.com/ua
    Уточню лишь 2 вещи.
    Какой объем первой партии - 1000, 10000, 100000 записей или больше?
    Фото профиля нужно сохранять как ссылку или загружать файлом?

  30. 2426    20  0
    1 день2246 UAH

    Добрый день, готов выполнить ваше задание быстро и качественно. У меня большой опыт в создании различных парсеров. Напишите в личные сообщения, обсудим детали. С удовольствием помогу)

  31. Еще 7 ставок скрыто
  1. 4120    8  0   1
    1 день1123 UAH

    Добрый день.
    Наша команда имеет многолетний опыт в разработке ERP, CRM, CMS и специализированного программного обеспечения для бизнеса. Мы создаем эффективные цифровые решения, которые помогают автоматизировать процессы, повышать продуктивность и масштабировать компании.

    У нас уже есть готовое решение по парсеру.

    Работаем с современными технологиями — от ботов и скриптов до AI-агентов и аналитических систем. Разрабатываем сайты различной сложности. В нашем портфолио — реализованные ERP-решения для гостиничного бизнеса, а также для компаний, занимающихся импортом и продажей товаров, а также собственный продукт XFitness — ERP-система, созданная специально для фитнес-клубов.

    Готовы реализовать ваш проект и предложить лучшее решение именно для ваших потребностей.
    Наше портфолио: Freelancehunt

    Мы специализируемся в таких сферах:
    -Разработка ERP Систем
    -Разработка CRM Систем
    -Разработка Веб-Сайтов любой сложности
    -Разработка CMS Систем
    -Поддержка Веб-Сайтов
    -Разработка OpenCart
    -Поддержка OpenCart
    -Модификация OpenCart
    -Доработка OpenCart
    -Разработка WordPress
    -Поддержка WordPress
    -Модификация WordPress
    -Доработка WordPress
    -Разработка ECommerce
    -Поддержка ECommerce
    -Модификация ECommerce
    -Доработка ECommerce
    -Разработка Веб-Приложений
    -Поддержка 1С Серверов
    -Поддержка Веб-Серверов
    -Разработка мобильных приложений
    - Парсинг данных
    -Разработка ботов
    -Разработка AI-агентов

    и на таких технологиях:
    - Python
    -PHP
    -Laravel
    -Symfony
    -Yii2
    -JS
    -NodeJS
    -jQuery
    -TypeScript
    -MySQL
    -HTML
    -CSS
    -Vue
    -Nuxt.js
    -React
    -React Native
    -C++

  2. 520    4  2
    1 день1123 UAH

    Добрый день.
    У меня есть опыт разработки систем сбора и обогащения данных, парсеров и автоматизации работы с большими массивами информации. Для подобных задач обычно использую Python, Playwright, Selenium, Scrapy, PostgreSQL и инструменты для дедупликации и верификации данных.
    Смогу реализовать процесс поиска и сопоставления профилей владельцев бизнеса на основе имени, названия компании, адреса, штата и других атрибутов для минимизации ложных совпадений. Результат может формироваться в JSON или CSV с необходимой структурой данных для дальнейшей обработки.

    Также имею опыт построения пайплайнов data enrichment, где важно не просто найти информацию, а проверить ее релевантность и качество перед сохранением в базу.
    Подскажите, пожалуйста:
    * Какой ориентировочный объем базы на старте (тысячи или десятки тысяч записей)?
    * Нужна одноразовая обработка или регулярное обновление данных?
    * Есть ли пример желаемого формата JSON/CSV для финального результата?

  3. Еще 3 ставки скрыты

Актуальные фриланс-проекты в категории Веб-программирование

Сделать так, чтобы письма о заказах из магазина не попадали в спам

Сейчас есть магазин на опенкарт, письма о заказах попадают в спам, нужно сделать так, чтобы они попадали во Входящие (ukr.net gmail), проверьте. Хостинг написал: Плохая доставка электронной почты может быть связана с низкой репутацией отправителя - IP или домена. В таком…

PHPВеб-программирование ∙ 40 минут назад ∙ 24 ставки

Ищу опытного Full Stack разработчика для создания SaaS-сервиса для интернет-магазинов.

Идея сервиса: Клиент загружает ссылку на свой товарный фид (XML или CSV). Сервис автоматически получает товары, берет их фотографии и создает новые рекламные изображения по готовым шаблонам: цена, скидка, логотип, акционные плашки и т.д. Также в сервисе должен быть простой…

Javascript и TypescriptВеб-программирование ∙ 52 минуты назад ∙ 26 ставок

Разработка WebGL/Three.js сцены с генерацией и экспортом 3D (snapshot) из анимированного шейдера

Описание объекта:Проект представляет собой дизайнерский стол, выполненный в форме реалистичного, глубокого водоворота (центральная воронка, которая плавно переходит из широкой горизонтальной столешницы в тонкую изящную ножку). Суть задачи:Требуется WebGL / Creative Coding…

Javascript и TypescriptВеб-программирование ∙ 21 час 26 минут назад ∙ 24 ставки

Shopify-разработчик для сайта доставки суши (Польша)

Ищем опытного разработчика Shopify для реализации сайта доставки еды (суши) для клиента из г. Катовице, Польша. Что нужно сделать: Настроить сайт на готовом шаблоне Shopify (шаблон согласован) Меню с фотографиями блюд и описаниями Онлайн-оформление заказов Подключение способов…

Веб-программирование ∙ 22 часа 57 минут назад ∙ 41 ставка

Вебфлоу разработчик для заполнения страниц портфолио на сайте

Сайт разработан кастомно на Webflow для строительной компании, нужно быстро заполнить страницы проектов по одному шаблону (заменить картинки и тексты) Для 2 языков Количество - 6 штук Готовы начинать как можно скорее, спасибо!

HTML и CSS версткаВеб-программирование ∙ 1 день 14 часов назад ∙ 42 ставки

Заказчик
Проект опубликован
5 дней 21 час назад
431 просмотр
До закрытия
8 дней 2 часа
Метки