Фриланс-проєкти

Фриланс-проєкти

Парсинг та класифікація даних

Веб-програмування, Парсинг даних — неправильно зазначені категорії?

Шукаємо розробника для реалізації системи збору та структурування даних з відкритих джерел.

Маємо базу власників малого бізнесу в США, яка містить ім’я людини, назву компанії, адресу та штат. Необхідно побудувати процес збагачення цих записів додатковою інформацією з публічно доступних джерел, насамперед LinkedIn можливо Facebook.

Основне завдання полягає у пошуку та верифікації профілів власників бізнесу та відповідних бізнес-сторінок. Для кожного запису потрібно знайти та зібрати доступні дані, включаючи фотографію профілю на соц мережі Lihnkedin, email-адресу, посилання на соціальні мережі, вебсайт компанії, номер телефону. Ці всі дані є на Lihnkedin біз сторінці

Для пошуку можуть використовуватися пошукові системи та оператори типу:

linkedin.com/in "Ім’я Прізвище" "Назва компанії"

site:inkedin.com/in "Ім’я Прізвище" "Назва компанії"

Система повинна виконувати зіставлення знайдених даних із наявними записами за іменем власника, назвою бізнесу, адресою, штатом та іншими доступними атрибутами для мінімізації помилкових збігів.

Очікується рішення, яке зможе обробляти великі масиви записів по всіх штатах США та формувати структурований результат у форматі JSON або CSV для подальшого використання.

Буде перевагою наявність досвіду побудови систем data enrichment, OSINT-рішень, автоматизації збору даних, роботи з Python, Playwright, Selenium, Scrapy, а також реалізації механізмів верифікації та дедуплікації знайдених даних.

У відповіді просимо коротко описати релевантний досвід реалізації схожих проєктів, використовуваний технологічний стек та підхід до пошуку, верифікації та структурування даних з відкритих джерел.

Оновлення #1 від 16 червня

на заявки які написані ШІ відповідати не будемо

Ставки 43 Відхилені 5

Олег Григорьев

32 0

Проєкти 30
Оцінка 5.0
Рейтинг 5 747

Бюджет: 25000 USD Термін: 14 днів

МОжемо взятися за таку систему. Орієнтир для першого робочого етапу - від 45 000 грн і 10-14 днів. Це не просто парсер, тут ключове - якість збігів, дедуплікація, контроль помилкових профілів і нормальна структура результату у JSON або CSV =)

По досвіду - робили системи збагачення даних, пошуку по відкритих джерелах, автоматизації збору, внутрішні ЦРМ і аналітичні пайплайни. Для такого завдання я б використав Python, Playwright або Scrapy, окремий модуль пошуку через пошукові системи, чергу обробки, кеш, правила верифікації та скоринг збігів за ім’ям, компанією, адресою, штатом, сайтом і телефоном.

Підхід бачу так
> беремо невелику вибірку ваших записів і робимо прототип пошуку
> окремо шукаємо особистий профіль, бізнес-сторінку, сайт компанії та доступні контакти
> кожен знайдений збіг отримує оцінку довіри, щоб не змішати людей з однаковими іменами
> результат віддаємо у структурі з джерелами, рівнем довіри, датою перевірки та причиною збігу

Смотрите, тут нюанс - LinkedIn і Facebook мають обмеження на автоматизований збір, тому я б не будував рішення на крихкому вході в акаунт. Краще поєднати пошукову видачу, відкриті сторінки, сайт компанії, бізнес-довідники і верифікацію атрибутів. Так система буде стабільнішою, а не як картковий будиночок на вітрі.

Уточніть, будь ласка
> який обсяг бази на першому етапі - 1 000, 50 000 чи більше записів
> яка допустима похибка і що важливіше - більше знайдених контактів чи менше хибних збігів

Релевантні приклади Ingello
> https://business.ingello.com/vorfahr - автоматизація і складна обробка даних для бізнес-процесів
> https://business.ingello.com/fractal - агентний підхід і автоматизація складних робочих процесів
> https://business.ingello.com/forma-crm - корпоративна система з даними, ролями та структурованою логікою

Головна сторінка для FLH - https://systems-fl.ingello.com/ua

Після вибірки на 100-300 записів можна буде точніше оцінити повний бюджет на весь масив. Зазвичай саме пілот показує реальну якість джерел і не дає витратити бюджет на красиву, але сліпу автоматизацію.

Shavkatbek Ro'zibekov

1 1

Проєкти -
Оцінка -
Рейтинг 328

Бюджет: 15000 USD Термін: 6 днів

Вітаю. Робив схожі системи збору та збагачення даних на Python з Playwright і Scrapy: пошук профілів через пошукові оператори, парсинг LinkedIn, верифікація збігів за іменем, компанією, адресою і штатом, дедуплікація та вивід у JSON або CSV. Спочатку зберу робочий пілот на вибірці ваших записів, щоб ви побачили якість зіставлення, потім масштабую на всі штати. Орієнтовно 15000 рублів і 6 робочих днів за пілот, точну оцінку обсягу дам після перегляду структури вашої бази. Готовий почати одразу.

Polly Pol

100 0

Проєкти 102
Оцінка 5.0
Рейтинг 2 237

Бюджет: 100 USD Термін: 2 дні

Доброго дня
можна зібрати
в такому вигляді
https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
Напишіть хто саме цікавить

Yevgeniy Rybin

0 0

Проєкти -
Оцінка -
Рейтинг 561

Бюджет: 1000 USD Термін: 20 днів

Привіт!

Мене звуть Євгеній, вже 7 років я професійно займаюся розробкою мобільних додатків, сайтів, веб-сервісів і веб-додатків.

*Вартість вказав за 1 годину роботи. Щоб детальніше дати ціну, хотів би зв'язатися/зателефонувати і обговорити деталі.

- Портфоліо, відгуки та нагороди можна вивчити в моєму профілі.

Чому потрібно вибрати мене?
- Займав 1 і 2 місця на міжнародних чемпіонатах і змаганнях в IT-сфері
- У мене є підтверджені відео-відгуки, подяки
- Я завжди на зв'язку, чесний і адекватний
- Працюю за Договором
- Керую власною командою розробки

Буду радий поговорити з Вами детальніше про проект.

Корпоративний сайт для організації «Ритуал 77»

Petro Demchuk

2 1

Проєкти -
Оцінка -
Рейтинг 620

Бюджет: 325 USD Термін: 10 днів

Доброго дня.
Готовий реалізувати систему збагачення бази даних з відкритих джерел: LinkedIn, Facebook, сайти компаній та пошукові системи.
Працюю з Python, Playwright/Selenium, CSV/JSON, парсингом, дедуплікацією та верифікацією даних. Можу налаштувати пошук профілів, зіставлення за іменем, компанією, адресою/штатом і формування готового результату у CSV або JSON.

Александр Стинковый

117 0

Проєкти 118
Оцінка 5.0
Рейтинг 10 376

Бюджет: 50 USD Термін: 1 день

Вітаю.

Я розробляю парсери на NodeJS. Готовий взятися. Пишіть, обговоримо.

Олександр Мітцих

11 2

Проєкти 12
Оцінка -
Рейтинг 510

Бюджет: 25 USD Термін: 1 день

Вітаю, готовий виконати ваш проект. В разі зацікавленості можемо перейти в лс і там обговорити деталі

Yevhen Volovyk

0 0

Проєкти -
Оцінка -
Рейтинг 475

Бюджет: 4500 USD Термін: 7 днів

Вітаю.

Подібне вже робив — збагачення баз з LinkedIn та інших публічних джерел.

Підхід: для кожного запису з вашого CSV формую Google-пошук типу site:linkedin.com/in "Ім'я" "Компанія" USA, Playwright відкриває результати, перевіряє збіг по імені + штату, далі заходить на профіль і збирає: фото, email (якщо відкритий), сайт, соцмережі, телефон. На виході JSON або CSV готовий до використання.

Для великих обсягів буду ротувати user-agent і робити паузи між запитами — щоб не словити блок. Якщо потрібна швидкість — підключаю проксі.

Стек: Python + Playwright + rapidfuzz для верифікації збігів і усунення дублів.

Скільки записів у базі? Від цього залежить точний строк і ціна.

Petro Bezsmertnyi

0 0

Проєкти -
Оцінка -
Рейтинг 335

Бюджет: 160 USD Термін: 5 днів

Привіт! Бачив ваш проект, здається я зможу це зробити.

Я писав боти для CS2-трейдингу і там теж збирав дані з різних сайтів, зіставляв їх, прибирав дублікати. Тут ідея та сама: шукаємо людину в LinkedIn через Google (site:linkedin.com + імя + компанія), відкриваємо сторінку через Playwright, збираємо що є, порівнюємо з вашою базою і кладемо в CSV.

Єдине що хочу сказати чесно: LinkedIn дуже не любить боти, тому потрібні proxy і затримки, швидко не вийде. Це реальність, про яку варто домовитись спочатку.

Влад Руденко

0 0

Проєкти -
Оцінка -
Рейтинг 112

Бюджет: 100 USD Термін: 4 дні

Вітаю! Прочитав ваше ТЗ, ШІ (нейромережі) для такої задачі використовувати не планую, оскільки вони часто вигадують дані там, де потрібна 100% точність.
Збирати контакти буду виключно технічним кодом — напишу скрипт на Python + Playwright/Selenium. Він буде автоматично знаходити профілі через Google dorks (site:linkedin.com/in), заходити на сторінки та викачувати реальні email, телефони та посилання.
Обов'язково зроблю перевірку за назвою компанії та штату, щоб дані не переплуталися, якщо знайдуться повні тезки (однофамільці).
Результат здам у чистому CSV або JSON файлі. Готовий зробити безкоштовний тест для 3-5 компаній з вашої бази, щоб ви переконалися в якості збору. Пишіть, обговоримо деталі!

Єгор Хохлов

0 0

Проєкти -
Оцінка -
Рейтинг 272

Бюджет: 220 USD Термін: 3 дні

Доброго дня! Маю досвід автоматизації збору та обробки даних на Python: парсинг публічних джерел, API-інтеграції, asyncio, валідація та структурування результатів у JSON/CSV. Працював з проєктами, де потрібно зіставляти записи за кількома полями та мінімізувати помилкові збіги.

Підхід до вашого завдання

Пошук — Google/Bing з операторами site:linkedin.com/in, ім’я + компанія + штат; додатково публічні реєстри бізнесу США, сайт компанії з вашої бази.
Зіставлення — scoring за іменем, назвою, адресою, штатом; поріг впевненості (high / medium / low match).
Верифікація — перехресна перевірка LinkedIn ↔ сайт компанії ↔ адреса; дедуплікація за URL профілю та email.
Стек — Python, asyncio, Playwright (де дозволено), pandas, експорт JSON/CSV, логування та відновлення після збоїв.
Важливо: масовий автоматичний парсинг LinkedIn/Facebook обмежений їхніми правилами і ризиком блокувань. Рекомендую гібрид: пошук через пошукові системи + enrichment API (Apollo, Hunter тощо) + ручна перевірка записів із низьким score — це стабільніше для великих обсягів по штатах.

Релевантний досвід: Telegram-боти з парсингом каналів (Telethon), інтеграціями зовнішніх API, робота з JSON-базами та фільтрацією даних. Портфоліо: https://yegor10.github.io/PortFolioWeb3/

Готовий описати архітектуру детальніше після уточнення обсягу бази (кількість записів) та допустимих джерел. Напишіть у відгуку — обговоримо ТЗ.

Viacheslav K.

6 0

Проєкти 7
Оцінка 4.8
Рейтинг 3 978

Бюджет: 1500 USD Термін: 7 днів

Доброго дня, Роман!

Бачу, що інші спеціалісти вже відповіли на Ваш проєкт. Дозвольте допомогти і мені.

Я поки що утримаюся від пропозиції, оскільки для розробки потрібно чітке бачення кінцевих цілей системи збору даних. Щоб краще зрозуміти Ваше бачення і запропонувати оптимальні рішення, уточніть, будь ласка:
- Строки реалізації проєкту і плани щодо швидкого запуску MVP.
- Чи є у Вас детальне ТЗ або сформоване бачення системи?
- Чи розглядаєте конкретні технології або я можу рекомендувати оптимальні рішення?
- Обсяг записів для обробки.
- Приклади схожих проєктів для референсу.

На строки і вартість розробки впливають такі фактори:
1. Обсяг даних і частота оновлення.
2. Наявність готових інструментів для збору даних.
3. Інтеграція з іншими системами.
4. Рівень деталізації верифікації та дедуплікації даних.
5. Масштабованість рішення для великих обсягів даних.

На початковому етапі важливо сформувати та узгодити бачення кінцевого результату системи збору і класифікації даних. Я віддаю перевагу формуванню такого бачення на основі аналізу існуючих рішень конкурентів і Ваших побажань.

Пропоную обговорити деталі проєкту, щоб зрозуміти, наскільки ми підходимо одне одному. Ми можемо зафіксувати всі нюанси в листуванні або під час зустрічі.

Маю досвід у розробці систем збагачення даних та автоматизації збору інформації з відкритих джерел. Знаю, як важливо мінімізувати помилкові збіги і забезпечити точність даних, особливо при роботі з великими обсягами інформації з платформ, таких як LinkedIn.

Anastasia Safronova

24 0

Проєкти 24
Оцінка 4.8
Рейтинг 836

Бюджет: 30 USD Термін: 3 дні

Доброго дня.

Маю досвід роботи зі збором та збагаченням бізнес-даних, пошуком контактів компаній, власників бізнесу та перевіркою інформації з відкритих джерел. Працювала з великими масивами даних для B2B-баз, де було важливо не просто знайти інформацію, а правильно зіставити її з наявними записами та мінімізувати помилкові збіги.

Для подібного завдання бачу процес таким: пошук потенційних профілів через LinkedIn та пошукові системи, зіставлення за ПІБ, назвою компанії, адресою та штатом, подальша верифікація знайдених даних і формування структурованого результату у CSV або JSON. За потреби можу також допомогти з підготовкою логіки дедуплікації та перевірки якості результатів.

Працюю з Python, автоматизацією збору даних, обробкою таблиць та структурованих наборів даних. Для більш точної оцінки хотіла б побачити приклад вихідної бази та орієнтовний обсяг записів.

Буду рада обговорити деталі проєкту.

Владислав Р.

3 0

Проєкти 3
Оцінка 5.0
Рейтинг 2 866

Бюджет: 1000 USD Термін: 7 днів

Маю досвід парсингу як звичайних новинних агрегаторів, так і більш захищених американських аукціонів. Вже зараз можу сказати, що будуть труднощі з лінкедіном в плані його захисту та обмежень. Якщо просто перейти по посиланню, то ми отримаємо обмежену інформацію, до того ж вірогідно там будуть обмеження по кількості переглянутих сторінок з поточного айпі адреси. Якщо ж авторизуватись, буде більший доступ, але по кількості переглянутих сторінок скоріш за все теж є ліміт. Почитаю за них пізніше, якщо отримаю перемогу в конкурсі. Можу сказати одразу, що в найскладнішому випадку це обійдеться в додаткові акаунти лінкедіну та проксі, можливо преміум.

Стек: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, можливо Selenium/Playwright, але старався б не використовувати щоб заощадити ресурси серверу та збільшити швидкість обробки даних

Як бачу результат:
- Працівник завантажує в бот документ з відповідною структурою
- Бот розбирає і заповнює поля в базі даних
- За встановленим часом починає пошук
- В першу чергу шукає інформацію для пустих полів, паралельно оновлюючи існуючу з поміткою дати і часу оновлення
- В разі потреби працівник натискає кнопку, бот експортує все знайдене в одному з форматів на вибір: json, csv, xlsx

Схожий проєкт: Telegram bot для поиска новых обьявлений

Telegram Auction Monitor — моніторинг Copart та IAAI в реальному

Матвій Марченко

20 0

Проєкти 20
Оцінка -
Рейтинг 2 116

Бюджет: 365 USD Термін: 14 днів

ТЗ зрозумів: на вході база власників малого бізнесу в США (ім'я, компанія, адреса, штат), потрібен пайплайн збагачення з LinkedIn і Facebook через пошукові оператори (site:linkedin.com/in "Name" "Company"), верифікація знайдених профілів за іменем плюс компанією плюс штатом, на виході для кожного запису фото, email, соцмережі, сайт компанії, телефон у JSON або CSV. Масштаб — всі штати США, тобто десятки тисяч записів.

По стеку для production-grade pipeline зазвичай використовую Python плюс Playwright (стабільніший за Selenium на LinkedIn), Scrapy для масивних паралельних обходів, проксі-пул з residential для зниження ban rate, дедуп і верифікація через fuzzy matching (rapidfuzz) і LLM-перевірка для крайових випадків (один Smith може бути в кількох штатах). Дані ллю в PostgreSQL з поетапним експортом в CSV або JSON, з прапорцями джерела і впевненості для кожного поля.

Реалістичне покриття на великих масивах: LinkedIn профіль власника знаходиться 50-70 відсотків (залежно від унікальності імені плюс компанії), email і телефон з самого LinkedIn зазвичай 5-15 відсотків (закриті більшістю користувачів), якщо домалювати через email-finder (Hunter, Apollo, Snov.io) можна підняти email до 25-40 відсотків. Сайт компанії і соцмережі краще — 40-60 відсотків.

Щоб дати точну вартість і термін важливо знати: який обсяг бази (5 тисяч, 50 тисяч, 500 тисяч записів), який бюджет на проксі і email-finder API, який очікуваний термін (за тиждень не вийде, за місяць цілком). По досвіду в портфоліо: LinkedIn-збагачення проводив на проектах в кілька тисяч записів, стабільно з низьким bаn rate.

Готовий пройтись по обсягах дзвінком чи в листуванні, після цього вийде точна розкладка по днях і бюджету.

Андрій Тюпа

53 0

Проєкти 53
Оцінка 5.0
Рейтинг 7 062

Бюджет: 100 USD Термін: 2 дні

Займався подібними завданнями: збагачення баз даних через публічні джерела, Google Maps API, парсинг сайтів та агрегація в структурований вигляд. Бачу це так: беремо кожен запис, проганяємо через кілька джерел (LinkedIn, Yelp, Google Business, можливо, офіційні реєстри штатів), нормалізуємо і складаємо в базу з історією оновлень, щоб можна було переобогащати. Питання: які саме поля потрібно добрати, телефон і email чи щось глибше, як-от виручка, кількість співробітників, соцмережі? Готовий обговорити обсяг і підхід.

Ярослав С.

2 1

Проєкти -
Оцінка -
Рейтинг 522

Бюджет: 1000 USD Термін: 22 дні

Вітаю!
Маю досвід написання бота яки використовува Chome Driver. Який емулював браузер і збирва потібні данні. Реалізаця була зроблена на Rust.
Можу розробити програму на Go яка буде працювати і парсити потрібну інформацію. Чому пропоную обрати Go бо він саме краще підходить під ващі потреби може тримити більше запитів потрібно менше рисурсів для його роботи і є швидшим за Python. Також є всі рішення що треба для цього завдання. Якщо стек має обовязково має бути тільки на Python тоді FASTAPI + httpx. Маю досвід роботи з Selenium писав авто тести

Александр А.

0 0

Проєкти -
Оцінка -
Рейтинг 221

Бюджет: 350 USD Термін: 10 днів

Вітаю. Маю досвід роботи з OSINT-задачами та автоматизацією збору даних.

Ось покроковий план реалізації:

1. Обхід обмежень: Для роботи з LinkedIn/Facebook використовуватиму архітектуру на базі Playwright (або Selenium з проксі-ротацією) для імітації поведінки реального користувача, щоб мінімізувати ризик блокувань.

2. Валідація та матчинг: Для зіставлення знайдених профілів з базою застосую не лише текстовий збіг імені, а й додаткові атрибути: геолокація (штат), назва компанії (через fuzzy matching/Levenshtein distance), щоб відсіяти нерелевантні результати.

3. Дедуплікація: Реалізую перевірку на етапі запису в БД, щоб уникнути дублів.

В результаті ви отримаєте структурований JSON/CSV файл.

Раніше реалізовував подібні системи збору даних (працював з парсингом контактів для CRM). Готовий обговорити деталі технічного завдання

Rumzik Matvey

15 0

Проєкти 15
Оцінка 5.0
Рейтинг 3 857

Бюджет: 160 USD Термін: 1 день

Доброго дня, Романе!

Завдання мені цілком зрозуміле: збагатити базу власників малого бізнесу США даними з відкритих джерел (LinkedIn/соцмережі) — знайти профіль, зіставити з наявним записом (ім'я/компанія/адреса/штат), верифікувати, прибрати дублі й віддати структурований JSON/CSV по всіх штатах. Це якраз моя ніша.

Релевантний досвід: будував bulk-скрапер/енричер для емейл маркетингу (Node.js, 250 паралельних процесів), що витягував email і телефони зі сторінок сайтів бази даних домених імен СНГ і дедуплікував проти наявної БД — це фактично ваша задача збагачення записів;
+мульти-маркетплейс скрапер дошок vinted, bazos, jofogas, olx з анти-детект проксі-ротацією та валідацією акаунтів; Python-скрапери нерухомості OLX/Dom.ria (aiohttp/asyncio + дедуп на рівні БД); боти на Selenium/Playwright для покупки білетів.

Стек: Python (Playwright/Selenium для динаміки, async HTTP + BeautifulSoup для статики, Scrapy за потреби), проксі-ротація + троттлінг, fuzzy-matching для зіставлення, експорт у JSON/CSV.

Підхід: пошук через оператори (site:linkedin.com/in "Ім'я" "Компанія") → витяг публічних даних → fuzzy-match за ім'ям/компанією/адресою/штатом з confidence-скором (мінімізує хибні збіги) → дедуп → структурований експорт.

Чесно про межі: LinkedIn агресивно ріже ботів, а email/телефон часто не публічні — реальне покриття буде не 100%, і це закладаю в архітектуру (проксі, троттлінг, match-score, fallback-джерела).

Реальні відгуки від замовників — у моєму профілі: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].

Питання: який обсяг записів і які поля критичні? Від цього вилка. Деталі — у листуванні.

Працюю с погодинною оплатою по домовленості: +-20$.

Алиса С.

1 0

Проєкти -
Оцінка -
Рейтинг 387

Бюджет: 600 USD Термін: 7 днів

! Спеціалізуюся на автоматизації збору та збагачення даних на Python, тому з радістю розроблю для вас надійну систему для пошуку контактів американського малого бізнесу. На основі вашої бази алгоритм через Scrapy або Playwright знаходитиме профілі власників у LinkedIn та Facebook. Щоб повністю виключити помилкові збіги через схожі назви компаній, я налаштую розумне зіставлення даних за ім'ям, штатом та адресою. Для стабільної роботи без блокувань підключу ротаційні проксі, а готовий результат у JSON або CSV очищу від дублікатів та провалідую знайдені емейли

Андрій Д.

50 2

Проєкти 49
Оцінка 5.0
Рейтинг 3 651

Бюджет: 450 USD Термін: 7 днів

Вітаю!
Розробив десятки парсерів, тут також впораюс, але хочу запропонувати стабільніший та потенційно дешевший підхід: прямий скрапінг LinkedIn профілів швидко банить навіть з проксі - потрібні саме резидентські (datacenter блокується миттєво). Орієнтовно резидентські проксі від $3.6-7.35/GB, тоді як платні search API типу SerpAPI коштують $0.001-0.01 за запит - на масштабі це суттєво дешевше і стабільніше, ніж пряме скрапінг+проксі. Також після останніх оновлень Cloudflare(це відрізок десь в пів року) трохи тяжко з налаштуваннями унікальних відбитків пристрою для антидетектингу.

Тому пропоную підхід через search API замість прямого скрапінгу - менший ризик банів і прогнозованіша вартість.

Тарас О.

4 0

Проєкти 4
Оцінка 5.0
Рейтинг 2 025

Бюджет: 400 USD Термін: 10 днів

Привіт!

У мене великий досвід розробки рішень для парсингу та обробки даних (різні джерела, захист від блокувань, автоматизація). Готовий виконати поставлене завдання.

Пропоную обговорити деталі в особистих повідомленнях.

Ярослав Колесник

6 1

Проєкти 6
Оцінка -
Рейтинг 956

Бюджет: 100 USD Термін: 4 дні

Вітаю, є досвід зі стеком, який ви перерахували, також працював із подібними проектами з парсингу. Найцікавішим та найскладнішим був проєкт із парсингу та автоматизації записів на тури, де були проблеми з лімітами та блокуванням.

Nick Osipov

41 4

Проєкти 43
Оцінка 4.6
Рейтинг 4 929

Бюджет: 1000 USD Термін: 3 дні

Доброго дня!

Маю великий досвід у розробці OSINT-рішень та систем data enrichment на Python з використанням Playwright/Selenium/Scrapy. Ефективно реалізую пошук, верифікацію та структурування даних з відкритих джерел, забезпечуючи точність та масштабованість.

Напишіть мені в лс, уточнимо деталі.

Денис Гаврищук

32 1

Проєкти 32
Оцінка 5.0
Рейтинг 1 815

Бюджет: 200 USD Термін: 1 день

Добрий день, веб-програмуванню вже більше 9 років
Працюю з rest api, фреймворками та cms такими як django, laravel, yii2, wp, opencart, codeigniter тощо.
Це не іі

Богдан Янішевський

7 0

Проєкти 7
Оцінка 5.0
Рейтинг 1 933

Бюджет: 333 USD Термін: 3 дні

Звертайтесь готовий виконати. Очікую тз. Термін і вартість приблизні до повного ознайомлення з тз.

Artur Boiko

5 0

Проєкти 5
Оцінка 4.9
Рейтинг 1 753

Бюджет: 50 USD Термін: 1 день

Доброго дня!

Робив схожі речі — збагачення баз контактів через пошук і зіставлення профілів, тож завдання зрозуміле з пів слова.

По підходу: записи з вашої бази (ім'я + компанія + штат)ганяю через Google з операторами типу site:linkedin.com/in "Ім'я" "Компанія" — так знаходиться сам профіль, не впираючись одразу в блокування LinkedIn. Далі — зіставлення: звіряю знайдений профіль із вихідним записом за ім'ям, назвою бізнесу, штатом і адресою, щоб не чіплялися ліві збіги (на однакових іменах це головна проблема, тому матчинг роблю по кількох атрибутах + поріг впевненості). Дублі чищу на виході.

Стек: Python + Playwright (для сторінок, що рендеряться) і Scrapy/requests там, де можна простіше. Проксі обовʼязково — інакше LinkedIn ріже на обʼємах. Результат віддаю в JSON або CSV, як вам зручніше.

Чесно про один момент, щоб не було сюрпризів: фото, посилання на соцмережі й сайт компанії з LinkedIn дістаються нормально, а от email і телефон там частіше приховані — публічно їх видно не у всіх. Те, що відкрите, зберу; де контактів немає в доступі, поле буде порожнім (можу додатково дотягувати з інших джерел, якщо треба, — обговоримо).

На якому обсязі плануєте старт і чи є приклад вашої поточної таблиці? Гляну структуру — і скажу реальні строки.

Безкоштовно проконсультую по проекту в особистих 🙂

Илья П.

41 0

Проєкти 41
Оцінка 5.0
Рейтинг 3 086

Бюджет: 250 USD Термін: 10 днів

Доброго для, можу зробити такий продукт з використанням Python. Скрапінг, дедуплікація і тд.

Maksim Sheptookha

0 0

Проєкти -
Оцінка -
Рейтинг 427

Бюджет: 600 USD Термін: 7 днів

Добрий день.

Реалізація пошуку через оператори "site:linkedin.com/in" - це правильний вибір, який дозволить збагачувати базу без ризику миттєвого бану акаунтів у самому LinkedIn. Проте при роботі з великими масивами даних по США є два критичні інженерні моменти, які потрібно закладати в архітектуру з самого початку:

1. Обхід лімітів Google та LinkedIn
Прямий запуск емулятора браузера на пошукові запити в Google швидко впреться в капчу (уже після кількох десятків ітерацій). Для стабільної роботи системи в багатопоточному режимі я використовую PHP у зв'язці з ротаційними резидентними проксі та інструментами автоматизації (на кшталт Symfony Panther або в межах Laravel через Spatie Browsershot / headless Chrome). Альтернативний і більш стабільний варіант для великих об'ємів пошуку - інтеграція через Search API, що повністю знімає проблему капчі Гугла. Самі ж фото профілів та бізнес-дані докачуються через емуляцію браузера для обходу JS-захисту LinkedIn.

2. Верифікація та мінімізація помилкових збігів (Матчінг)
Щоб уникнути склеювання однофамільців з різних штатів, система виконує багаторівневу валідацію засобами PHP:
- Нормалізація назв компаній (очищення від Ltd, Corp, LLC).
- Порівняння рядків за допомогою алгоритмів подібності текстів (вбудовані "levenshtein()", "similar_text()" або реалізація Jaro-Winkler) для імен та назв бізнесу.
- Жорсткий гео-фільтр на відповідність штату/адреси, вказаної у вашій базі, з даними знайденого профілю.
На основі цих факторів кожному запису присвоюється confidence score. У підсумковий CSV/JSON вивантажуються лише результати, що пройшли встановлений поріг точності.

Технологічний стек: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (автоматизація браузера), Laravel Queues (Redis) для надійної черги та багатопоточності, алгоритми string-matching для очищення даних.

Орієнтовна вартість розробки та налаштування такого рішення: $400 – $600 (залежно від фінального об'єму даних та потреби в інтеграції сторонніх API).
Термін реалізації: 5–7 робочих днів до видачі першого стабільного результату.

Готовий протестувати логіку на невеликому тестовому шматку вашої бази (наприклад, 20–50 рядків), щоб продемонструвати точність збору та матчінгу на моєму стеку. Чекаю на фідбек у чаті.

Vladyslav B.

1 0

Проєкти -
Оцінка -
Рейтинг 514

Бюджет: 50 USD Термін: 1 день

Доброго дня!

Готовий взятися за реалізацію системи збагачення даних з відкритих джерел.

Маю досвід у парсингу, data enrichment, автоматизації пошуку, обробці великих CSV/JSON-масивів, дедуплікації та верифікації даних за кількома атрибутами.

Пропоную стек:
• Python;
• Playwright / Selenium для динамічних сторінок;
• Scrapy / Requests / BeautifulSoup для статичних джерел;
• pandas для обробки даних;
• fuzzy matching для зіставлення імен, компаній, адрес і штатів;
• експорт результатів у CSV / JSON.

Підхід бачу таким:

1. Завантаження початкової бази.
2. Генерація пошукових запитів по імені, компанії, штату та адресі.
3. Пошук профілів та бізнес-сторінок через відкриті джерела.
4. Зіставлення результатів із записами за кількома параметрами.
5. Верифікація збігів і присвоєння confidence score.
6. Збір доступних полів: LinkedIn/Facebook, сайт, телефон, email, фото профілю, соцмережі.
7. Дедуплікація та формування фінального CSV/JSON.

Також можу передбачити логування, повторну обробку невдалих записів і ручну перевірку сумнівних збігів, щоб мінімізувати помилки.

Готовий обговорити обсяг бази, приклад вхідного файлу та бажану структуру результату.

Тетяна Ш.

74 4

Проєкти 78
Оцінка 4.8
Рейтинг 3 000

Бюджет: 130 USD Термін: 2 дні

Доброго дня! Завдання зрозуміле, тому з зможу реалізувати таку систему за пару днів!!! Готова до продуктивної та якісної співпраці!!!

Oleksii Manziuk

6 0

Проєкти 4
Оцінка 5.0
Рейтинг 512

Бюджет: 100 USD Термін: 1 день

Доброго дня.

Маю великий досвід розробки веб-проєктів на PHP та Python, автоматизації обробки даних, інтеграцій із зовнішніми сервісами та роботи з великими масивами інформації. Також працював із парсингом даних із відкритих джерел, обробкою результатів та їх подальшим структуруванням для використання в бізнес-процесах. В свій час тримали сітки сайтів mfa зі спаршених даних компаній.

Для реалізації подібного проєкту бачу рішення у вигляді багатоступеневого пайплайну:

пошук потенційних профілів через пошукові системи та відкриті джерела;
автоматизований збір даних за допомогою Python (Selenium/Scray, будемо дивитись що підходить);
верифікація збігів за ПІБ, назвою компанії, адресою, штатом та додатковими атрибутами;
дедуплікація та оцінка достовірності знайдених результатів;
формування структурованого результату у форматах JSON або CSV.

З технологій маю досвід роботи з Python, Selenium, SQL, REST API, обробкою даних та автоматизацією бізнес-процесів. Також маю значний досвід роботи з legacy-системами та проєктами, де потрібно швидко розібратися в логіці обробки великих обсягів даних.

Готовий обговорити деталі, очікувані обсяги записів та вимоги до точності зіставлення даних.

Ростислав Чувурін

0 0

Проєкти -
Оцінка -
Рейтинг 182

Бюджет: 25 USD Термін: 2 дні

Доброго дня.

Маю досвід розробки парсерів та систем збору/збагачення даних на Python (Playwright, Selenium). Працював із пошуком та верифікацією контактів, профілів компаній і власників бізнесу з відкритих джерел.

Можу запропонувати рішення зі зіставленням даних за ПІБ, компанією та локацією з вивантаженням результатів у CSV або JSON. Якщо є приклад бази — надішліть, швидко оціню складність та обсяг робіт.

Денис Д.

6 1

Проєкти 6
Оцінка 5.0
Рейтинг 958

Бюджет: 25 USD Термін: 1 день

Вітаю. Маю релевантний досвід у Python-автоматизації, парсингу відкритих джерел, OSINT-підходах, дедуплікації та структуруванні даних.

Працював із задачами збору даних з сайтів, соцмереж, Telegram/веб-джерел, обробки профілів, пошуку збігів, фільтрації нерелевантних результатів та експорту в CSV/Excel/JSON.

Стек: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. За потреби можна додати черги, проксі, rate limits, логування та resume-механізм для великих обсягів.

Підхід бачу так:

1. Беремо вхідні записи: ім’я, компанія, адреса, штат.
2. Генеруємо пошукові запити через Google/Bing з операторами `site:linkedin.com/in`, `site:linkedin.com/company`, а також пошук по сайту компанії.
3. Збираємо кандидатів: LinkedIn profile, company page, website, phone, email, social links.
4. Робимо verification scoring: збіг імені, компанії, штату, адреси/міста, посади, домену компанії.
5. Відсікаємо слабкі збіги, дублікати та підозрілі результати.
6. Формуємо структурований результат у CSV або JSON з confidence score та джерелами.

Можу реалізувати MVP, який обробляє частину бази, показує якість матчингу, після чого масштабувати під великі обсяги по всіх штатах США.

Daria Kratofil

0 0

Проєкти -
Оцінка -
Рейтинг 196

Бюджет: 25000 USD Термін: 16 днів

маємо майже готове рішення для збагачення баз і класифікації знайдених профілів, можемо швидко адаптувати під ваші записи і обговорити деталі тут, я на зв'язку ))
попередньо бачу перший робочий етап на 16 днів, у ставці закладаю 65000 грн за пілот із пошуком, верифкації збігів, дедублікацією та експортом у JSON або CSV.
ТЕхнічно я б робив це на Python, Playwright або Scrapy, черзі задач, кеші результатів, скорингу збігів за ім'ям, компанією, адресою, штатом, доменом і телефоном.
окремо заклав би обмеження частоти, повторні перевірки, лог причин збігу і ручний список сумнівних записів, бо в таких задачах краще сім разів відміряти, ніж потім чистити всю базу вручну.
релеватний досвід є в автоматизації збору, структурування і перевірки даних для бізнес процесів.
https://business.ingello.com/vorfahr - близько за логікою автоматизації пошуку і роботи з даними.
https://business.ingello.com/fractal - приклад агентної автоматизації і складних процесів обробки інформації.
наш профіль і підхід для FLH - https://systems-fl.ingello.com/ua
уточню лише 2 речі.
який обсяг першої партії - 1000, 10000, 100000 записів чи більше?
фото профілю потрібно зберігати як посилання чи завантажувати файлом?

Dmytro Parkhomenko

20 0

Проєкти 20
Оцінка 5.0
Рейтинг 2 430

Бюджет: 50 USD Термін: 1 день

Доброго дня, готовий виконати ваше завдання швидко та якісно. маю великий досвід у створенні різноманітних парсерів. Напишіть у особисті повідомлення обговоримо деталі. Залюбки допоможу)

У списку не показані ставки, приховані замовником чи фрилансером з Plus, а також ставки, що порушують правила

Анджей Р.

8 0

Проєкти 8
Оцінка 5.0
Рейтинг 4 046

Бюджет: 25 USD Термін: 1 день

Доброго дня.
Наша команда має багаторічний досвід у розробці ERP, CRM, CMS та спеціалізованого програмного забезпечення для бізнесу. Ми створюємо ефективні цифрові рішення, що допомагають автоматизувати процеси, підвищувати продуктивність та масштабувати компанії.

Маємо вже готове рішення по парсеру

Працюємо з сучасними технологіями — від ботів і скриптів до AI-агентів та аналітичних систем. Розробляємо сайти різної складності. У нашому портфоліо — реалізовані ERP-рішення для готельного бізнесу, а також для компаній, які займаються імпортом та продажем товарів, а також власний продукт XFitness — ERP-система, створена спеціально для фітнес-клубів.

Готові реалізувати ваш проєкт і запропонувати найкраще рішення саме для ваших потреб.
Наше портфоліо: Freelancehunt

Ми спеціалізуємось в таких сферах:
-Розробка ERP Систем
-Розробка CRM Систем
-Розробка Веб-Сайтів будь-якої складності
-Розробка CMS Систем
-Підтримка Веб-Сайтів
-Розробка OpenCart
-Підтримка OpenCart
-Модифікація OpenCart
-Доробка OpenCart
-Розробка WordPress
-Підтримка WordPress
-Модифікація WordPress
-Доробка WordPress
-Розробка ECommerce
-Підтримка ECommerce
-Модифікація ECommerce
-Доробка ECommerce
-Розробка Веб-Додатків
-Підтримка 1С Серверів
-Підтримка Веб-Серверів
-Розробка мобільних додатків
- Парсинг даних
-Розробка ботів
-Розробка AI-агентів

та на таких технологіях:
- Python
-PHP
-Laravel
-Symfony
-Yii2
-JS
-NodeJS
-jQuery
-TypeScript
-MySQL
-HTML
-CSS
-Vue
-Nuxt.js
-React
-React Native
-C++

Maksym Potashov

6 2

Проєкти 6
Оцінка 3.9
Рейтинг 788

Бюджет: 25 USD Термін: 1 день

Доброго дня.
Маю досвід розробки систем збору та збагачення даних, парсерів і автоматизації роботи з великими масивами інформації. Для подібних задач зазвичай використовую Python, Playwright, Selenium, Scrapy, PostgreSQL та інструменти для дедуплікації й верифікації даних.
Зможу реалізувати процес пошуку та зіставлення профілів власників бізнесу на основі імені, назви компанії, адреси, штату та інших атрибутів для мінімізації хибних збігів. Результат може формуватися у JSON або CSV з необхідною структурою даних для подальшої обробки.

Також маю досвід побудови пайплайнів data enrichment, де важливо не просто знайти інформацію, а перевірити її релевантність і якість перед збереженням у базу.
Підкажіть, будь ласка:
* Який орієнтовний обсяг бази на старті (тисячі чи десятки тисяч записів)?
* Потрібна одноразова обробка чи регулярне оновлення даних?
* Чи є приклад бажаного формату JSON/CSV для фінального результату?

Роман Сован
США

Проєктів 313
Оцінка 5.0
Рейтинг 22 187

Олег Григорьев

Shavkatbek Ro'zibekov

Polly Pol

Yevgeniy Rybin

Petro Demchuk

Александр Стинковый

Олександр Мітцих

Yevhen Volovyk

Petro Bezsmertnyi

Влад Руденко

Єгор Хохлов

Viacheslav K.

Anastasia Safronova

Владислав Р.

Матвій Марченко

Андрій Тюпа

Ярослав С.

Александр А.

Rumzik Matvey

Алиса С.

Андрій Д.

Тарас О.

Ярослав Колесник

Nick Osipov

Денис Гаврищук

Богдан Янішевський

Artur Boiko

Илья П.

Maksim Sheptookha

Vladyslav B.

Тетяна Ш.

Oleksii Manziuk

Ростислав Чувурін

Денис Д.

Daria Kratofil

Dmytro Parkhomenko

Ставки поки відсутні

Анджей Р.

Maksym Potashov

Ставки приховані

Актуальні фриланс-проєкти в категорії Веб-програмування