Парсинг та класифікація даних
Шукаємо розробника для реалізації системи збору та структурування даних з відкритих джерел.
Маємо базу власників малого бізнесу в США, яка містить ім’я людини, назву компанії, адресу та штат. Необхідно побудувати процес збагачення цих записів додатковою інформацією з публічно доступних джерел, насамперед LinkedIn можливо Facebook.
Основне завдання полягає у пошуку та верифікації профілів власників бізнесу та відповідних бізнес-сторінок. Для кожного запису потрібно знайти та зібрати доступні дані, включаючи фотографію профілю на соц мережі Lihnkedin, email-адресу, посилання на соціальні мережі, вебсайт компанії, номер телефону. Ці всі дані є на Lihnkedin біз сторінці
Для пошуку можуть використовуватися пошукові системи та оператори типу:
linkedin.com/in "Ім’я Прізвище" "Назва компанії"
site:inkedin.com/in "Ім’я Прізвище" "Назва компанії"
Система повинна виконувати зіставлення знайдених даних із наявними записами за іменем власника, назвою бізнесу, адресою, штатом та іншими доступними атрибутами для мінімізації помилкових збігів.
Очікується рішення, яке зможе обробляти великі масиви записів по всіх штатах США та формувати структурований результат у форматі JSON або CSV для подальшого використання.
Буде перевагою наявність досвіду побудови систем data enrichment, OSINT-рішень, автоматизації збору даних, роботи з Python, Playwright, Selenium, Scrapy, а також реалізації механізмів верифікації та дедуплікації знайдених даних.
У відповіді просимо коротко описати релевантний досвід реалізації схожих проєктів, використовуваний технологічний стек та підхід до пошуку, верифікації та структурування даних з відкритих джерел.
на заявки які написані ШІ відповідати не будемо
-
14 днів1 123 073 UAH14 днів1 123 073 UAH
МОжемо взятися за таку систему. Орієнтир для першого робочого етапу - від 45 000 грн і 10-14 днів. Це не просто парсер, тут ключове - якість збігів, дедуплікація, контроль помилкових профілів і нормальна структура результату у JSON або CSV =)
По досвіду - робили системи збагачення даних, пошуку по відкритих джерелах, автоматизації збору, внутрішні ЦРМ і аналітичні пайплайни. Для такого завдання я б використав Python, Playwright або Scrapy, окремий модуль пошуку через пошукові системи, чергу обробки, кеш, правила верифікації та скоринг збігів за ім’ям, компанією, адресою, штатом, сайтом і телефоном.
Підхід бачу так
> беремо невелику вибірку ваших записів і робимо прототип пошуку
> окремо шукаємо особистий профіль, бізнес-сторінку, сайт компанії та доступні контакти
> кожен знайдений збіг отримує оцінку довіри, щоб не змішати людей з однаковими іменами
> результат віддаємо у структурі з джерелами, рівнем довіри, датою перевірки та причиною збігу
…
Смотрите, тут нюанс - LinkedIn і Facebook мають обмеження на автоматизований збір, тому я б не будував рішення на крихкому вході в акаунт. Краще поєднати пошукову видачу, відкриті сторінки, сайт компанії, бізнес-довідники і верифікацію атрибутів. Так система буде стабільнішою, а не як картковий будиночок на вітрі.
Уточніть, будь ласка
> який обсяг бази на першому етапі - 1 000, 50 000 чи більше записів
> яка допустима похибка і що важливіше - більше знайдених контактів чи менше хибних збігів
Релевантні приклади Ingello
> https://business.ingello.com/vorfahr - автоматизація і складна обробка даних для бізнес-процесів
> https://business.ingello.com/fractal - агентний підхід і автоматизація складних робочих процесів
> https://business.ingello.com/forma-crm - корпоративна система з даними, ролями та структурованою логікою
Головна сторінка для FLH - https://systems-fl.ingello.com/ua
Після вибірки на 100-300 записів можна буде точніше оцінити повний бюджет на весь масив. Зазвичай саме пілот показує реальну якість джерел і не дає витратити бюджет на красиву, але сліпу автоматизацію.
-
6 днів673 844 UAH6 днів673 844 UAH
Вітаю. Робив схожі системи збору та збагачення даних на Python з Playwright і Scrapy: пошук профілів через пошукові оператори, парсинг LinkedIn, верифікація збігів за іменем, компанією, адресою і штатом, дедуплікація та вивід у JSON або CSV. Спочатку зберу робочий пілот на вибірці ваших записів, щоб ви побачили якість зіставлення, потім масштабую на всі штати. Орієнтовно 15000 рублів і 6 робочих днів за пілот, точну оцінку обсягу дам після перегляду структури вашої бази. Готовий почати одразу.
-
7 днів67 384 UAH7 днів67 384 UAH
Доброго дня, Роман!
Бачу, що інші спеціалісти вже відповіли на Ваш проєкт. Дозвольте допомогти і мені.
Я поки що утримаюся від пропозиції, оскільки для розробки потрібно чітке бачення кінцевих цілей системи збору даних. Щоб краще зрозуміти Ваше бачення і запропонувати оптимальні рішення, уточніть, будь ласка:
- Строки реалізації проєкту і плани щодо швидкого запуску MVP.
- Чи є у Вас детальне ТЗ або сформоване бачення системи?
- Чи розглядаєте конкретні технології або я можу рекомендувати оптимальні рішення?
- Обсяг записів для обробки.
… - Приклади схожих проєктів для референсу.
На строки і вартість розробки впливають такі фактори:
1. Обсяг даних і частота оновлення.
2. Наявність готових інструментів для збору даних.
3. Інтеграція з іншими системами.
4. Рівень деталізації верифікації та дедуплікації даних.
5. Масштабованість рішення для великих обсягів даних.
На початковому етапі важливо сформувати та узгодити бачення кінцевого результату системи збору і класифікації даних. Я віддаю перевагу формуванню такого бачення на основі аналізу існуючих рішень конкурентів і Ваших побажань.
Пропоную обговорити деталі проєкту, щоб зрозуміти, наскільки ми підходимо одне одному. Ми можемо зафіксувати всі нюанси в листуванні або під час зустрічі.
Маю досвід у розробці систем збагачення даних та автоматизації збору інформації з відкритих джерел. Знаю, як важливо мінімізувати помилкові збіги і забезпечити точність даних, особливо при роботі з великими обсягами інформації з платформ, таких як LinkedIn.
-
2 дні4492 UAH2 дні4492 UAH
Доброго дня
можна зібрати
в такому вигляді
https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
Напишіть хто саме цікавить
-
7 днів44 923 UAH7 днів44 923 UAH
Маю досвід парсингу як звичайних новинних агрегаторів, так і більш захищених американських аукціонів. Вже зараз можу сказати, що будуть труднощі з лінкедіном в плані його захисту та обмежень. Якщо просто перейти по посиланню, то ми отримаємо обмежену інформацію, до того ж вірогідно там будуть обмеження по кількості переглянутих сторінок з поточного айпі адреси. Якщо ж авторизуватись, буде більший доступ, але по кількості переглянутих сторінок скоріш за все теж є ліміт. Почитаю за них пізніше, якщо отримаю перемогу в конкурсі. Можу сказати одразу, що в найскладнішому випадку це обійдеться в додаткові акаунти лінкедіну та проксі, можливо преміум.
Стек: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, можливо Selenium/Playwright, але старався б не використовувати щоб заощадити ресурси серверу та збільшити швидкість обробки даних
Як бачу результат:
- Працівник завантажує в бот документ з відповідною структурою
- Бот розбирає і заповнює поля в базі даних
- За встановленим часом починає пошук
- В першу чергу шукає інформацію для пустих полів, паралельно оновлюючи існуючу з поміткою дати і часу оновлення
… - В разі потреби працівник натискає кнопку, бот експортує все знайдене в одному з форматів на вибір: json, csv, xlsx
Схожий виконаний проєкт: Telegram bot для поиска новых обьявлений
-
20 днів44 923 UAH20 днів44 923 UAH
Привіт!
Мене звуть Євгеній, вже 7 років я професійно займаюся розробкою мобільних додатків, сайтів, веб-сервісів і веб-додатків.
*Вартість вказав за 1 годину роботи. Щоб детальніше дати ціну, хотів би зв'язатися/зателефонувати і обговорити деталі.
- Портфоліо, відгуки та нагороди можна вивчити в моєму профілі.
Чому потрібно вибрати мене?
… - Займав 1 і 2 місця на міжнародних чемпіонатах і змаганнях в IT-сфері
- У мене є підтверджені відео-відгуки, подяки
- Я завжди на зв'язку, чесний і адекватний
- Працюю за Договором
- Керую власною командою розробки
Буду радий поговорити з Вами детальніше про проект.
-
3 дні14 959 UAH3 дні14 959 UAH
Звертайтесь готовий виконати. Очікую тз. Термін і вартість приблизні до повного ознайомлення з тз.
-
7 днів202 153 UAH
352 7 днів202 153 UAHВітаю.
Подібне вже робив — збагачення баз з LinkedIn та інших публічних джерел.
Підхід: для кожного запису з вашого CSV формую Google-пошук типу site:linkedin.com/in "Ім'я" "Компанія" USA, Playwright відкриває результати, перевіряє збіг по імені + штату, далі заходить на профіль і збирає: фото, email (якщо відкритий), сайт, соцмережі, телефон. На виході JSON або CSV готовий до використання.
Для великих обсягів буду ротувати user-agent і робити паузи між запитами — щоб не словити блок. Якщо потрібна швидкість — підключаю проксі.
Стек: Python + Playwright + rapidfuzz для верифікації збігів і усунення дублів.
…
Скільки записів у базі? Від цього залежить точний строк і ціна.
-
5 днів7188 UAH
360 5 днів7188 UAHПривіт! Бачив ваш проект, здається я зможу це зробити.
Я писав боти для CS2-трейдингу і там теж збирав дані з різних сайтів, зіставляв їх, прибирав дублікати. Тут ідея та сама: шукаємо людину в LinkedIn через Google (site:linkedin.com + імя + компанія), відкриваємо сторінку через Playwright, збираємо що є, порівнюємо з вашою базою і кладемо в CSV.
Єдине що хочу сказати чесно: LinkedIn дуже не любить боти, тому потрібні proxy і затримки, швидко не вийде. Це реальність, про яку варто домовитись спочатку.
-
4 дні4492 UAH
136 4 дні4492 UAHВітаю! Прочитав ваше ТЗ, ШІ (нейромережі) для такої задачі використовувати не планую, оскільки вони часто вигадують дані там, де потрібна 100% точність.
Збирати контакти буду виключно технічним кодом — напишу скрипт на Python + Playwright/Selenium. Він буде автоматично знаходити профілі через Google dorks (site:linkedin.com/in), заходити на сторінки та викачувати реальні email, телефони та посилання.
Обов'язково зроблю перевірку за назвою компанії та штату, щоб дані не переплуталися, якщо знайдуться повні тезки (однофамільці).
Результат здам у чистому CSV або JSON файлі. Готовий зробити безкоштовний тест для 3-5 компаній з вашої бази, щоб ви переконалися в якості збору. Пишіть, обговоримо деталі!
-
3 дні9883 UAH
272 3 дні9883 UAHДоброго дня! Маю досвід автоматизації збору та обробки даних на Python: парсинг публічних джерел, API-інтеграції, asyncio, валідація та структурування результатів у JSON/CSV. Працював з проєктами, де потрібно зіставляти записи за кількома полями та мінімізувати помилкові збіги.
Підхід до вашого завдання
Пошук — Google/Bing з операторами site:linkedin.com/in, ім’я + компанія + штат; додатково публічні реєстри бізнесу США, сайт компанії з вашої бази.
Зіставлення — scoring за іменем, назвою, адресою, штатом; поріг впевненості (high / medium / low match).
Верифікація — перехресна перевірка LinkedIn ↔ сайт компанії ↔ адреса; дедуплікація за URL профілю та email.
Стек — Python, asyncio, Playwright (де дозволено), pandas, експорт JSON/CSV, логування та відновлення після збоїв.
Важливо: масовий автоматичний парсинг LinkedIn/Facebook обмежений їхніми правилами і ризиком блокувань. Рекомендую гібрид: пошук через пошукові системи + enrichment API (Apollo, Hunter тощо) + ручна перевірка записів із низьким score — це стабільніше для великих обсягів по штатах.
…
Релевантний досвід: Telegram-боти з парсингом каналів (Telethon), інтеграціями зовнішніх API, робота з JSON-базами та фільтрацією даних. Портфоліо: https://yegor10.github.io/PortFolioWeb3/
Готовий описати архітектуру детальніше після уточнення обсягу бази (кількість записів) та допустимих джерел. Напишіть у відгуку — обговоримо ТЗ.
-
3 дні1348 UAH
807 22 0 3 дні1348 UAHДоброго дня.
Маю досвід роботи зі збором та збагаченням бізнес-даних, пошуком контактів компаній, власників бізнесу та перевіркою інформації з відкритих джерел. Працювала з великими масивами даних для B2B-баз, де було важливо не просто знайти інформацію, а правильно зіставити її з наявними записами та мінімізувати помилкові збіги.
Для подібного завдання бачу процес таким: пошук потенційних профілів через LinkedIn та пошукові системи, зіставлення за ПІБ, назвою компанії, адресою та штатом, подальша верифікація знайдених даних і формування структурованого результату у CSV або JSON. За потреби можу також допомогти з підготовкою логіки дедуплікації та перевірки якості результатів.
Працюю з Python, автоматизацією збору даних, обробкою таблиць та структурованих наборів даних. Для більш точної оцінки хотіла б побачити приклад вихідної бази та орієнтовний обсяг записів.
Буду рада обговорити деталі проєкту.
-
14 днів16 397 UAH
2116 20 0 14 днів16 397 UAHТЗ зрозумів: на вході база власників малого бізнесу в США (ім'я, компанія, адреса, штат), потрібен пайплайн збагачення з LinkedIn і Facebook через пошукові оператори (site:linkedin.com/in "Name" "Company"), верифікація знайдених профілів за іменем плюс компанією плюс штатом, на виході для кожного запису фото, email, соцмережі, сайт компанії, телефон у JSON або CSV. Масштаб — всі штати США, тобто десятки тисяч записів.
По стеку для production-grade pipeline зазвичай використовую Python плюс Playwright (стабільніший за Selenium на LinkedIn), Scrapy для масивних паралельних обходів, проксі-пул з residential для зниження ban rate, дедуп і верифікація через fuzzy matching (rapidfuzz) і LLM-перевірка для крайових випадків (один Smith може бути в кількох штатах). Дані ллю в PostgreSQL з поетапним експортом в CSV або JSON, з прапорцями джерела і впевненості для кожного поля.
Реалістичне покриття на великих масивах: LinkedIn профіль власника знаходиться 50-70 відсотків (залежно від унікальності імені плюс компанії), email і телефон з самого LinkedIn зазвичай 5-15 відсотків (закриті більшістю користувачів), якщо домалювати через email-finder (Hunter, Apollo, Snov.io) можна підняти email до 25-40 відсотків. Сайт компанії і соцмережі краще — 40-60 відсотків.
Щоб дати точну вартість і термін важливо знати: який обсяг бази (5 тисяч, 50 тисяч, 500 тисяч записів), який бюджет на проксі і email-finder API, який очікуваний термін (за тиждень не вийде, за місяць цілком). По досвіду в портфоліо: LinkedIn-збагачення проводив на проектах в кілька тисяч записів, стабільно з низьким bаn rate.
Готовий пройтись по обсягах дзвінком чи в листуванні, після цього вийде точна розкладка по днях і бюджету.
-
2 дні4492 UAH
7123 53 0 2 дні4492 UAHЗаймався подібними завданнями: збагачення баз даних через публічні джерела, Google Maps API, парсинг сайтів та агрегація в структурований вигляд. Бачу це так: беремо кожен запис, проганяємо через кілька джерел (LinkedIn, Yelp, Google Business, можливо, офіційні реєстри штатів), нормалізуємо і складаємо в базу з історією оновлень, щоб можна було переобогащати. Питання: які саме поля потрібно добрати, телефон і email чи щось глибше, як-от виручка, кількість співробітників, соцмережі? Готовий обговорити обсяг і підхід.
-
22 дні44 923 UAH
522 2 1 22 дні44 923 UAHВітаю!
Маю досвід написання бота яки використовува Chome Driver. Який емулював браузер і збирва потібні данні. Реалізаця була зроблена на Rust.
Можу розробити програму на Go яка буде працювати і парсити потрібну інформацію. Чому пропоную обрати Go бо він саме краще підходить під ващі потреби може тримити більше запитів потрібно менше рисурсів для його роботи і є швидшим за Python. Також є всі рішення що треба для цього завдання. Якщо стек має обовязково має бути тільки на Python тоді FASTAPI + httpx. Маю досвід роботи з Selenium писав авто тести
-
10 днів15 723 UAH
221 10 днів15 723 UAHВітаю. Маю досвід роботи з OSINT-задачами та автоматизацією збору даних.
Ось покроковий план реалізації:
1. Обхід обмежень: Для роботи з LinkedIn/Facebook використовуватиму архітектуру на базі Playwright (або Selenium з проксі-ротацією) для імітації поведінки реального користувача, щоб мінімізувати ризик блокувань.
2. Валідація та матчинг: Для зіставлення знайдених профілів з базою застосую не лише текстовий збіг імені, а й додаткові атрибути: геолокація (штат), назва компанії (через fuzzy matching/Levenshtein distance), щоб відсіяти нерелевантні результати.
3. Дедуплікація: Реалізую перевірку на етапі запису в БД, щоб уникнути дублів.
…
В результаті ви отримаєте структурований JSON/CSV файл.
Раніше реалізовував подібні системи збору даних (працював з парсингом контактів для CRM). Готовий обговорити деталі технічного завдання
-
1 день7188 UAH
3861 15 0 1 день7188 UAHДоброго дня, Романе!
Завдання мені цілком зрозуміле: збагатити базу власників малого бізнесу США даними з відкритих джерел (LinkedIn/соцмережі) — знайти профіль, зіставити з наявним записом (ім'я/компанія/адреса/штат), верифікувати, прибрати дублі й віддати структурований JSON/CSV по всіх штатах. Це якраз моя ніша.
Релевантний досвід: будував bulk-скрапер/енричер для емейл маркетингу (Node.js, 250 паралельних процесів), що витягував email і телефони зі сторінок сайтів бази даних домених імен СНГ і дедуплікував проти наявної БД — це фактично ваша задача збагачення записів;
+мульти-маркетплейс скрапер дошок vinted, bazos, jofogas, olx з анти-детект проксі-ротацією та валідацією акаунтів; Python-скрапери нерухомості OLX/Dom.ria (aiohttp/asyncio + дедуп на рівні БД); боти на Selenium/Playwright для покупки білетів.
Стек: Python (Playwright/Selenium для динаміки, async HTTP + BeautifulSoup для статики, Scrapy за потреби), проксі-ротація + троттлінг, fuzzy-matching для зіставлення, експорт у JSON/CSV.
… Підхід: пошук через оператори (site:linkedin.com/in "Ім'я" "Компанія") → витяг публічних даних → fuzzy-match за ім'ям/компанією/адресою/штатом з confidence-скором (мінімізує хибні збіги) → дедуп → структурований експорт.
Чесно про межі: LinkedIn агресивно ріже ботів, а email/телефон часто не публічні — реальне покриття буде не 100%, і це закладаю в архітектуру (проксі, троттлінг, match-score, fallback-джерела).
Реальні відгуки від замовників — у моєму профілі: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].
Питання: який обсяг записів і які поля критичні? Від цього вилка. Деталі — у листуванні.
Працюю с погодинною оплатою по домовленості: +-20$.
-
7 днів26 954 UAH
387 1 0 7 днів26 954 UAH! Спеціалізуюся на автоматизації збору та збагачення даних на Python, тому з радістю розроблю для вас надійну систему для пошуку контактів американського малого бізнесу. На основі вашої бази алгоритм через Scrapy або Playwright знаходитиме профілі власників у LinkedIn та Facebook. Щоб повністю виключити помилкові збіги через схожі назви компаній, я налаштую розумне зіставлення даних за ім'ям, штатом та адресою. Для стабільної роботи без блокувань підключу ротаційні проксі, а готовий результат у JSON або CSV очищу від дублікатів та провалідую знайдені емейли
-
7 днів20 215 UAH
3481 49 2 7 днів20 215 UAHВітаю!
Розробив десятки парсерів, тут також впораюс, але хочу запропонувати стабільніший та потенційно дешевший підхід: прямий скрапінг LinkedIn профілів швидко банить навіть з проксі - потрібні саме резидентські (datacenter блокується миттєво). Орієнтовно резидентські проксі від $3.6-7.35/GB, тоді як платні search API типу SerpAPI коштують $0.001-0.01 за запит - на масштабі це суттєво дешевше і стабільніше, ніж пряме скрапінг+проксі. Також після останніх оновлень Cloudflare(це відрізок десь в пів року) трохи тяжко з налаштуваннями унікальних відбитків пристрою для антидетектингу.
Тому пропоную підхід через search API замість прямого скрапінгу - менший ризик банів і прогнозованіша вартість.
-
10 днів17 969 UAH
2025 4 0 10 днів17 969 UAHПривіт!
У мене великий досвід розробки рішень для парсингу та обробки даних (різні джерела, захист від блокувань, автоматизація). Готовий виконати поставлене завдання.
Пропоную обговорити деталі в особистих повідомленнях.
-
4 дні4492 UAH
956 6 1 4 дні4492 UAHВітаю, є досвід зі стеком, який ви перерахували, також працював із подібними проектами з парсингу. Найцікавішим та найскладнішим був проєкт із парсингу та автоматизації записів на тури, де були проблеми з лімітами та блокуванням.
-
3 дні44 923 UAH
4975 41 4 1 3 дні44 923 UAHДоброго дня!
Маю великий досвід у розробці OSINT-рішень та систем data enrichment на Python з використанням Playwright/Selenium/Scrapy. Ефективно реалізую пошук, верифікацію та структурування даних з відкритих джерел, забезпечуючи точність та масштабованість.
Напишіть мені в лс, уточнимо деталі.
-
1 день8985 UAH
1815 32 1 1 день8985 UAHДобрий день, веб-програмуванню вже більше 9 років
Працюю з rest api, фреймворками та cms такими як django, laravel, yii2, wp, opencart, codeigniter тощо.
Це не іі
-
1 день2246 UAH
650 2 0 1 день2246 UAHДоброго дня!
Робив схожі речі — збагачення баз контактів через пошук і зіставлення профілів, тож завдання зрозуміле з пів слова.
По підходу: записи з вашої бази (ім'я + компанія + штат)ганяю через Google з операторами типу site:linkedin.com/in "Ім'я" "Компанія" — так знаходиться сам профіль, не впираючись одразу в блокування LinkedIn. Далі — зіставлення: звіряю знайдений профіль із вихідним записом за ім'ям, назвою бізнесу, штатом і адресою, щоб не чіплялися ліві збіги (на однакових іменах це головна проблема, тому матчинг роблю по кількох атрибутах + поріг впевненості). Дублі чищу на виході.
Стек: Python + Playwright (для сторінок, що рендеряться) і Scrapy/requests там, де можна простіше. Проксі обовʼязково — інакше LinkedIn ріже на обʼємах. Результат віддаю в JSON або CSV, як вам зручніше.
Чесно про один момент, щоб не було сюрпризів: фото, посилання на соцмережі й сайт компанії з LinkedIn дістаються нормально, а от email і телефон там частіше приховані — публічно їх видно не у всіх. Те, що відкрите, зберу; де контактів немає в доступі, поле буде порожнім (можу додатково дотягувати з інших джерел, якщо треба, — обговоримо).
…
На якому обсязі плануєте старт і чи є приклад вашої поточної таблиці? Гляну структуру — і скажу реальні строки.
Безкоштовно проконсультую по проекту в особистих 🙂
-
10 днів11 231 UAH
2335 37 0 10 днів11 231 UAHДоброго для, можу зробити такий продукт з використанням Python. Скрапінг, дедуплікація і тд.
-
7 днів26 954 UAH
427 7 днів26 954 UAHДобрий день.
Реалізація пошуку через оператори "site:linkedin.com/in" - це правильний вибір, який дозволить збагачувати базу без ризику миттєвого бану акаунтів у самому LinkedIn. Проте при роботі з великими масивами даних по США є два критичні інженерні моменти, які потрібно закладати в архітектуру з самого початку:
1. Обхід лімітів Google та LinkedIn
Прямий запуск емулятора браузера на пошукові запити в Google швидко впреться в капчу (уже після кількох десятків ітерацій). Для стабільної роботи системи в багатопоточному режимі я використовую PHP у зв'язці з ротаційними резидентними проксі та інструментами автоматизації (на кшталт Symfony Panther або в межах Laravel через Spatie Browsershot / headless Chrome). Альтернативний і більш стабільний варіант для великих об'ємів пошуку - інтеграція через Search API, що повністю знімає проблему капчі Гугла. Самі ж фото профілів та бізнес-дані докачуються через емуляцію браузера для обходу JS-захисту LinkedIn.
2. Верифікація та мінімізація помилкових збігів (Матчінг)
Щоб уникнути склеювання однофамільців з різних штатів, система виконує багаторівневу валідацію засобами PHP:
… - Нормалізація назв компаній (очищення від Ltd, Corp, LLC).
- Порівняння рядків за допомогою алгоритмів подібності текстів (вбудовані "levenshtein()", "similar_text()" або реалізація Jaro-Winkler) для імен та назв бізнесу.
- Жорсткий гео-фільтр на відповідність штату/адреси, вказаної у вашій базі, з даними знайденого профілю.
На основі цих факторів кожному запису присвоюється confidence score. У підсумковий CSV/JSON вивантажуються лише результати, що пройшли встановлений поріг точності.
Технологічний стек: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (автоматизація браузера), Laravel Queues (Redis) для надійної черги та багатопоточності, алгоритми string-matching для очищення даних.
Орієнтовна вартість розробки та налаштування такого рішення: $400 – $600 (залежно від фінального об'єму даних та потреби в інтеграції сторонніх API).
Термін реалізації: 5–7 робочих днів до видачі першого стабільного результату.
Готовий протестувати логіку на невеликому тестовому шматку вашої бази (наприклад, 20–50 рядків), щоб продемонструвати точність збору та матчінгу на моєму стеку. Чекаю на фідбек у чаті.
-
1 день2246 UAH
477 1 день2246 UAHДоброго дня!
Готовий взятися за реалізацію системи збагачення даних з відкритих джерел.
Маю досвід у парсингу, data enrichment, автоматизації пошуку, обробці великих CSV/JSON-масивів, дедуплікації та верифікації даних за кількома атрибутами.
Пропоную стек:
• Python;
• Playwright / Selenium для динамічних сторінок;
… • Scrapy / Requests / BeautifulSoup для статичних джерел;
• pandas для обробки даних;
• fuzzy matching для зіставлення імен, компаній, адрес і штатів;
• експорт результатів у CSV / JSON.
Підхід бачу таким:
1. Завантаження початкової бази.
2. Генерація пошукових запитів по імені, компанії, штату та адресі.
3. Пошук профілів та бізнес-сторінок через відкриті джерела.
4. Зіставлення результатів із записами за кількома параметрами.
5. Верифікація збігів і присвоєння confidence score.
6. Збір доступних полів: LinkedIn/Facebook, сайт, телефон, email, фото профілю, соцмережі.
7. Дедуплікація та формування фінального CSV/JSON.
Також можу передбачити логування, повторну обробку невдалих записів і ручну перевірку сумнівних збігів, щоб мінімізувати помилки.
Готовий обговорити обсяг бази, приклад вхідного файлу та бажану структуру результату.
-
2 дні5840 UAH
2937 73 4 2 2 дні5840 UAHДоброго дня! Завдання зрозуміле, тому з зможу реалізувати таку систему за пару днів!!! Готова до продуктивної та якісної співпраці!!!
-
1 день4492 UAH
512 6 0 1 день4492 UAHДоброго дня.
Маю великий досвід розробки веб-проєктів на PHP та Python, автоматизації обробки даних, інтеграцій із зовнішніми сервісами та роботи з великими масивами інформації. Також працював із парсингом даних із відкритих джерел, обробкою результатів та їх подальшим структуруванням для використання в бізнес-процесах. В свій час тримали сітки сайтів mfa зі спаршених даних компаній.
Для реалізації подібного проєкту бачу рішення у вигляді багатоступеневого пайплайну:
пошук потенційних профілів через пошукові системи та відкриті джерела;
автоматизований збір даних за допомогою Python (Selenium/Scray, будемо дивитись що підходить);
верифікація збігів за ПІБ, назвою компанії, адресою, штатом та додатковими атрибутами;
… дедуплікація та оцінка достовірності знайдених результатів;
формування структурованого результату у форматах JSON або CSV.
З технологій маю досвід роботи з Python, Selenium, SQL, REST API, обробкою даних та автоматизацією бізнес-процесів. Також маю значний досвід роботи з legacy-системами та проєктами, де потрібно швидко розібратися в логіці обробки великих обсягів даних.
Готовий обговорити деталі, очікувані обсяги записів та вимоги до точності зіставлення даних.
-
10 днів14 600 UAH
462 1 1 10 днів14 600 UAHДоброго дня.
Готовий реалізувати систему збагачення бази даних з відкритих джерел: LinkedIn, Facebook, сайти компаній та пошукові системи.
Працюю з Python, Playwright/Selenium, CSV/JSON, парсингом, дедуплікацією та верифікацією даних. Можу налаштувати пошук профілів, зіставлення за іменем, компанією, адресою/штатом і формування готового результату у CSV або JSON.
-
2 дні1123 UAH
182 2 дні1123 UAHДоброго дня.
Маю досвід розробки парсерів та систем збору/збагачення даних на Python (Playwright, Selenium). Працював із пошуком та верифікацією контактів, профілів компаній і власників бізнесу з відкритих джерел.
Можу запропонувати рішення зі зіставленням даних за ПІБ, компанією та локацією з вивантаженням результатів у CSV або JSON. Якщо є приклад бази — надішліть, швидко оціню складність та обсяг робіт.
-
1 день2246 UAH
9927 117 0 1 день2246 UAHВітаю.
Я розробляю парсери на NodeJS. Готовий взятися. Пишіть, обговоримо.
-
1 день1123 UAH
993 6 1 1 день1123 UAHВітаю. Маю релевантний досвід у Python-автоматизації, парсингу відкритих джерел, OSINT-підходах, дедуплікації та структуруванні даних.
Працював із задачами збору даних з сайтів, соцмереж, Telegram/веб-джерел, обробки профілів, пошуку збігів, фільтрації нерелевантних результатів та експорту в CSV/Excel/JSON.
Стек: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. За потреби можна додати черги, проксі, rate limits, логування та resume-механізм для великих обсягів.
Підхід бачу так:
1. Беремо вхідні записи: ім’я, компанія, адреса, штат.
… 2. Генеруємо пошукові запити через Google/Bing з операторами `site:linkedin.com/in`, `site:linkedin.com/company`, а також пошук по сайту компанії.
3. Збираємо кандидатів: LinkedIn profile, company page, website, phone, email, social links.
4. Робимо verification scoring: збіг імені, компанії, штату, адреси/міста, посади, домену компанії.
5. Відсікаємо слабкі збіги, дублікати та підозрілі результати.
6. Формуємо структурований результат у CSV або JSON з confidence score та джерелами.
Можу реалізувати MVP, який обробляє частину бази, показує якість матчингу, після чого масштабувати під великі обсяги по всіх штатах США.
-
16 днів1 123 073 UAH
196 16 днів1 123 073 UAHмаємо майже готове рішення для збагачення баз і класифікації знайдених профілів, можемо швидко адаптувати під ваші записи і обговорити деталі тут, я на зв'язку ))
попередньо бачу перший робочий етап на 16 днів, у ставці закладаю 65000 грн за пілот із пошуком, верифкації збігів, дедублікацією та експортом у JSON або CSV.
ТЕхнічно я б робив це на Python, Playwright або Scrapy, черзі задач, кеші результатів, скорингу збігів за ім'ям, компанією, адресою, штатом, доменом і телефоном.
окремо заклав би обмеження частоти, повторні перевірки, лог причин збігу і ручний список сумнівних записів, бо в таких задачах краще сім разів відміряти, ніж потім чистити всю базу вручну.
релеватний досвід є в автоматизації збору, структурування і перевірки даних для бізнес процесів.
https://business.ingello.com/vorfahr - близько за логікою автоматизації пошуку і роботи з даними.
https://business.ingello.com/fractal - приклад агентної автоматизації і складних процесів обробки інформації.
наш профіль і підхід для FLH - https://systems-fl.ingello.com/ua
уточню лише 2 речі.
… який обсяг першої партії - 1000, 10000, 100000 записів чи більше?
фото профілю потрібно зберігати як посилання чи завантажувати файлом?
-
1 день2246 UAH
2506 20 0 1 день2246 UAHДоброго дня, готовий виконати ваше завдання швидко та якісно. маю великий досвід у створенні різноманітних парсерів. Напишіть у особисті повідомлення обговоримо деталі. Залюбки допоможу)
-
1 день1123 UAH
4089 8 0 1 1 день1123 UAHДоброго дня.
Наша команда має багаторічний досвід у розробці ERP, CRM, CMS та спеціалізованого програмного забезпечення для бізнесу. Ми створюємо ефективні цифрові рішення, що допомагають автоматизувати процеси, підвищувати продуктивність та масштабувати компанії.
Маємо вже готове рішення по парсеру
Працюємо з сучасними технологіями — від ботів і скриптів до AI-агентів та аналітичних систем. Розробляємо сайти різної складності. У нашому портфоліо — реалізовані ERP-рішення для готельного бізнесу, а також для компаній, які займаються імпортом та продажем товарів, а також власний продукт XFitness — ERP-система, створена спеціально для фітнес-клубів.
Готові реалізувати ваш проєкт і запропонувати найкраще рішення саме для ваших потреб.
Наше портфоліо:Freelancehunt
…
Ми спеціалізуємось в таких сферах:
-Розробка ERP Систем
-Розробка CRM Систем
-Розробка Веб-Сайтів будь-якої складності
-Розробка CMS Систем
-Підтримка Веб-Сайтів
-Розробка OpenCart
-Підтримка OpenCart
-Модифікація OpenCart
-Доробка OpenCart
-Розробка WordPress
-Підтримка WordPress
-Модифікація WordPress
-Доробка WordPress
-Розробка ECommerce
-Підтримка ECommerce
-Модифікація ECommerce
-Доробка ECommerce
-Розробка Веб-Додатків
-Підтримка 1С Серверів
-Підтримка Веб-Серверів
-Розробка мобільних додатків
- Парсинг даних
-Розробка ботів
-Розробка AI-агентів
та на таких технологіях:
- Python
-PHP
-Laravel
-Symfony
-Yii2
-JS
-NodeJS
-jQuery
-TypeScript
-MySQL
-HTML
-CSS
-Vue
-Nuxt.js
-React
-React Native
-C++
-
1 день1123 UAH
508 4 2 1 день1123 UAHДоброго дня.
Маю досвід розробки систем збору та збагачення даних, парсерів і автоматизації роботи з великими масивами інформації. Для подібних задач зазвичай використовую Python, Playwright, Selenium, Scrapy, PostgreSQL та інструменти для дедуплікації й верифікації даних.
Зможу реалізувати процес пошуку та зіставлення профілів власників бізнесу на основі імені, назви компанії, адреси, штату та інших атрибутів для мінімізації хибних збігів. Результат може формуватися у JSON або CSV з необхідною структурою даних для подальшої обробки.
Також маю досвід побудови пайплайнів data enrichment, де важливо не просто знайти інформацію, а перевірити її релевантність і якість перед збереженням у базу.
Підкажіть, будь ласка:
* Який орієнтовний обсяг бази на старті (тисячі чи десятки тисяч записів)?
* Потрібна одноразова обробка чи регулярне оновлення даних?
* Чи є приклад бажаного формату JSON/CSV для фінального результату?
-
Поставте ваше запитання замовнику
Актуальні фриланс-проєкти в категорії Веб-програмування
Внести правки на сайті WP.
4000 UAH
Необхідно внести правки на сайті, який на Вордпрессе. Сайт по тематиці казино, тому досвід з даною тематикою вітається. Перелік правок, які необхідно виконати: - Перенести 15 блоків з ACF в Gutenberg Block + перевірити його відображення - Налаштувати правильне відображення фото… Веб-програмування ∙ 1 хвилина тому |
Доопрацювання WordPress-сайту (Elementor + WooCommerce) під рекламний запуск Google AdsЩО ПОТРІБНО ЗРОБИТИ Роботи розбиті на блоки, можна братися за все або за окремі блоки: Блок 1 — Оптимізація швидкості (Mobile-First) Поточна оцінка мобільної версії PageSpeed — 51/100. Потрібно довести до 80+. Цільові метрики: LCP < 2.5 с (зараз 7.4 с), FCP < 1.8 с (зараз… CMS, Веб-програмування ∙ 12 хвилин тому ∙ 12 ставок |
Розробка сучасного SEO-сайту для кавового фудтраку
44 923 UAH
Шукаю досвідченого розробника, який створить сучасний сайт для мобільної кав'ярні в США з урахуванням вимог SEO. Поточний сайт вже існує, але потрібно розробити новий сайт з нуля, орієнтований на довгострокове просування в Google. Що необхідно: • Розробка сучасного адаптивного… Веб-програмування ∙ 9 годин 53 хвилини тому ∙ 97 ставок |
Створити плагін для Chrome, для підключення до проксіСтворити плагін для Chrome, для підключення до проксі шукаю розробника, можливо + ІІ який вже публікував подібні плагіни в сторі успішно просто ІІ написання без досвіду в розробці не потрібно пишіть пропозиції по ціні, термінам AI та машинне навчання, Веб-програмування ∙ 1 день 2 години тому ∙ 29 ставок |
Tik Tok Live node.je
700 UAH
Необхідно написати міні програмку, на базі бібліотеки TT-live-connector, щоб при запуску вона зчитувала Подарунки які надсилаються і через звичайну вебсторінку показувала плавну і красиву анімацію Веб-програмування ∙ 1 день 16 годин тому ∙ 29 ставок |