Zlecenia dla freelancerów

Zlecenia dla freelancerów

Parsowanie i klasyfikacja danych

Parsowanie danych, Programowanie stron internetowych — podano nieprawidłowe kategorie?

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Szukamy dewelopera do realizacji systemu zbierania i strukturyzacji danych z otwartych źródeł.

Posiadamy bazę właścicieli małych firm w USA, która zawiera imię i nazwisko, nazwę firmy, adres oraz stan. Należy zbudować proces wzbogacania tych rekordów dodatkowymi informacjami z publicznie dostępnych źródeł, przede wszystkim LinkedIn, a być może Facebook.

Główne zadanie polega na wyszukiwaniu i weryfikacji profili właścicieli firm oraz odpowiednich stron biznesowych. Dla każdego rekordu należy znaleźć i zebrać dostępne dane, w tym zdjęcie profilowe z sieci społecznościowej LinkedIn, adres e-mail, linki do mediów społecznościowych, stronę internetową firmy oraz numer telefonu. Wszystkie te dane są dostępne na stronie biznesowej LinkedIn.

Do wyszukiwania mogą być używane wyszukiwarki oraz operatory typu:

linkedin.com/in "Imię Nazwisko" "Nazwa firmy"

site:linkedin.com/in "Imię Nazwisko" "Nazwa firmy"

System powinien wykonywać dopasowanie znalezionych danych z istniejącymi rekordami według imienia właściciela, nazwy firmy, adresu, stanu oraz innych dostępnych atrybutów w celu minimalizacji błędnych dopasowań.

Oczekiwane jest rozwiązanie, które będzie mogło przetwarzać duże zbiory rekordów we wszystkich stanach USA i formować zorganizowany wynik w formacie JSON lub CSV do dalszego wykorzystania.

Preferowane będzie posiadanie doświadczenia w budowie systemów wzbogacania danych, rozwiązań OSINT, automatyzacji zbierania danych, pracy z Pythonem, Playwright, Selenium, Scrapy, a także realizacji mechanizmów weryfikacji i deduplikacji znalezionych danych.

W odpowiedzi prosimy o krótkie opisanie odpowiedniego doświadczenia w realizacji podobnych projektów, używanego stosu technologicznego oraz podejścia do wyszukiwania, weryfikacji i strukturyzacji danych z otwartych źródeł.

Aktualizacja #1 od 16 czerwca

Na zgłoszenia, które są napisane przez AI, odpowiadać nie będziemy

Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Oferty 43 Odrzucone 5

Oleg Grigoryev

32 0

Budżet: 25000 USD Termin: 14 dni

Możemy zająć się takim systemem. Orientacyjny koszt pierwszego etapu roboczego to od 45 000 UAH i 10-14 dni. To nie jest tylko parser, kluczowe są tutaj jakość dopasowań, deduplikacja, kontrola błędnych profili oraz normalna struktura wyników w JSON lub CSV =)

Z doświadczenia - robiliśmy systemy wzbogacania danych, wyszukiwania w otwartych źródłach, automatyzacji zbierania, wewnętrzne CRM i analityczne pipeline'y. Do tego zadania użyłbym Pythona, Playwright lub Scrapy, osobny moduł wyszukiwania przez wyszukiwarki, kolejkę przetwarzania, cache, zasady weryfikacji oraz scoring dopasowań według imienia, firmy, adresu, stanu, strony internetowej i telefonu.

Widzę podejście w ten sposób:
> bierzemy małą próbkę twoich rekordów i robimy prototyp wyszukiwania
> osobno szukamy profilu osobistego, strony biznesowej, strony firmy oraz dostępnych kontaktów
> każde znalezione dopasowanie otrzymuje ocenę zaufania, aby nie mieszać ludzi o tych samych imionach
> wynik oddajemy w strukturze z źródłami, poziomem zaufania, datą weryfikacji oraz powodem dopasowania

Zobacz, tutaj jest niuans - LinkedIn i Facebook mają ograniczenia na automatyzowane zbieranie, dlatego nie budowałbym rozwiązania na kruchym dostępie do konta. Lepiej połączyć wyniki wyszukiwania, otwarte strony, stronę firmy, katalogi biznesowe oraz weryfikację atrybutów. W ten sposób system będzie stabilniejszy, a nie jak domek z kart na wietrze.

Proszę o wyjaśnienie:
> jaki jest zakres bazy na pierwszym etapie - 1 000, 50 000 czy więcej rekordów
> jaki jest dopuszczalny błąd i co jest ważniejsze - więcej znalezionych kontaktów czy mniej błędnych dopasowań

Relewantne przykłady Ingello:
> https://business.ingello.com/vorfahr - automatyzacja i złożona obróbka danych dla procesów biznesowych
> https://business.ingello.com/fractal - podejście agencji i automatyzacja złożonych procesów roboczych
> https://business.ingello.com/forma-crm - korporacyjny system z danymi, rolami i zorganizowaną logiką

Strona główna dla FLH - https://systems-fl.ingello.com/ua

Po próbie 100-300 rekordów będzie można dokładniej ocenić pełny budżet na cały zbiór. Zazwyczaj to właśnie pilotaż pokazuje rzeczywistą jakość źródeł i nie pozwala wydać budżetu na ładną, ale ślepą automatyzację.

Shavkatbek Ro'zibekov

1 1

Zlecenia -
Ocena -
Ranking 328

Budżet: 15000 USD Termin: 6 dni

Witam. Robiłem podobne systemy zbierania i wzbogacania danych w Pythonie z Playwright i Scrapy: wyszukiwanie profili za pomocą operatorów wyszukiwania, parsowanie LinkedIn, weryfikacja zgodności według imienia, firmy, adresu i stanu, deduplikacja oraz wyjście w formacie JSON lub CSV. Najpierw stworzę działający pilot na próbie waszych rekordów, abyście mogli zobaczyć jakość dopasowania, a następnie skaluję na wszystkie stany. Orientacyjnie 15000 rubli i 6 dni roboczych za pilot, dokładną ocenę zakresu podam po przeglądzie struktury waszej bazy. Gotowy do rozpoczęcia od razu.

Viacheslav K.

6 0

Budżet: 1500 USD Termin: 7 dni

Dzień dobry, Roman!

Widzę, że inni specjaliści już odpowiedzieli na Twój projekt. Pozwól, że również pomogę.

Na razie powstrzymam się od składania oferty, ponieważ do opracowania potrzebna jest jasna wizja końcowych celów systemu zbierania danych. Aby lepiej zrozumieć Twoją wizję i zaproponować optymalne rozwiązania, proszę o wyjaśnienie:
- Terminy realizacji projektu i plany dotyczące szybkiego uruchomienia MVP.
- Czy masz szczegółowe wymagania lub uformowaną wizję systemu?
- Czy rozważasz konkretne technologie, czy mogę rekomendować optymalne rozwiązania?
- Zakres rekordów do przetworzenia.
- Przykłady podobnych projektów do odniesienia.

Na terminy i koszty opracowania wpływają takie czynniki:
1. Zakres danych i częstotliwość aktualizacji.
2. Dostępność gotowych narzędzi do zbierania danych.
3. Integracja z innymi systemami.
4. Poziom szczegółowości weryfikacji i deduplikacji danych.
5. Skalowalność rozwiązania dla dużych ilości danych.

Na początkowym etapie ważne jest uformowanie i uzgodnienie wizji końcowego rezultatu systemu zbierania i klasyfikacji danych. Preferuję formowanie takiej wizji na podstawie analizy istniejących rozwiązań konkurencji i Twoich życzeń.

Proponuję omówić szczegóły projektu, aby zrozumieć, jak bardzo do siebie pasujemy. Możemy ustalić wszystkie niuanse w korespondencji lub podczas spotkania.

Mam doświadczenie w opracowywaniu systemów wzbogacania danych oraz automatyzacji zbierania informacji z otwartych źródeł. Wiem, jak ważne jest minimalizowanie błędnych dopasowań i zapewnienie dokładności danych, szczególnie przy pracy z dużymi ilościami informacji z platform takich jak LinkedIn.

Polly Pol

100 0

Budżet: 100 USD Termin: 2 dni

Dzień dobry
można zebrać
w takiej formie
https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
Napiszcie, kto dokładnie was interesuje

Yevgeniy Rybin

0 0

Zlecenia -
Ocena -
Ranking 561

Budżet: 1000 USD Termin: 20 dni

Cześć!

Nazywam się Jewgienij, od 7 lat profesjonalnie zajmuję się tworzeniem aplikacji mobilnych, stron internetowych, usług internetowych i aplikacji webowych.

*Cena, którą podałem, dotyczy 1 godziny pracy. Aby dokładniej określić cenę, chciałbym się skontaktować/rozmawiać i omówić szczegóły.

- Portfolio, opinie i nagrody można znaleźć w moim profilu.

Dlaczego warto mnie wybrać?
- Zająłem 1 i 2 miejsce na międzynarodowych mistrzostwach i zawodach w dziedzinie IT
- Mam potwierdzone wideoopinie, listy z podziękowaniami
- Zawsze jestem dostępny, uczciwy i rozsądny
- Pracuję na podstawie umowy
- Prowadzę własny zespół deweloperski

Będę zadowolony, mogąc porozmawiać z Państwem szczegółowo o projekcie.

Strona korporacyjna dla organizacji „Rytuał 77”

Bohdan Yanishevskyi

7 0

Budżet: 333 USD Termin: 3 dni

Zgłaszajcie się, jestem gotów wykonać. Czekam na specyfikację. Termin i koszt są przybliżone do pełnego zapoznania się ze specyfikacją.

Petro Demchuk

2 1

Zlecenia -
Ocena -
Ranking 613

Budżet: 325 USD Termin: 10 dni

Dzień dobry.\nJestem gotów zrealizować system wzbogacania bazy danych z otwartych źródeł: LinkedIn, Facebook, strony firmowe oraz wyszukiwarki.\nPracuję z Pythonem, Playwright/Selenium, CSV/JSON, parsowaniem, deduplikacją oraz weryfikacją danych. Mogę skonfigurować wyszukiwanie profili, dopasowywanie według imienia, firmy, adresu/stanu oraz formowanie gotowego wyniku w CSV lub JSON.

Oleksandr Stinkovyi

117 0

Budżet: 50 USD Termin: 1 dzień

Cześć.

Opracowuję parsery w NodeJS. Jestem gotów się tym zająć. Piszcie, omówimy.

Oleksandr Mittsykh

11 2

Zlecenia 12
Ocena -
Ranking 459

Budżet: 25 USD Termin: 1 dzień

Witam, jestem gotów wykonać twój projekt. W razie zainteresowania możemy przejść do wiadomości prywatnych i tam omówić szczegóły.

Yevhen Volovyk

0 0

Zlecenia -
Ocena -
Ranking 475

Budżet: 4500 USD Termin: 7 dni

Witam.

Coś podobnego już robiłem — wzbogacanie baz z LinkedIn i innych publicznych źródeł.

Podejście: dla każdego wpisu z twojego CSV formułuję wyszukiwanie w Google typu site:linkedin.com/in "Imię" "Firma" USA, Playwright otwiera wyniki, sprawdza zgodność po imieniu + stanie, następnie wchodzi na profil i zbiera: zdjęcie, email (jeśli otwarty), stronę, media społecznościowe, telefon. Na wyjściu JSON lub CSV gotowy do użycia.

Dla dużych objętości będę rotować user-agent i robić przerwy między zapytaniami — aby nie złapać blokady. Jeśli potrzebna jest szybkość — podłączam proxy.

Stos: Python + Playwright + rapidfuzz do weryfikacji zgodności i usuwania duplikatów.

Ile wpisów w bazie? Od tego zależy dokładny termin i cena.

Petro Bezsmertnyi

0 0

Zlecenia -
Ocena -
Ranking 360

Budżet: 160 USD Termin: 5 dni

Cześć! Widziałem twój projekt, wydaje mi się, że mogę to zrobić.

Pisałem boty do handlu CS2 i tam również zbierałem dane z różnych stron, porównywałem je, usuwałem duplikaty. Tutaj idea jest ta sama: szukamy osoby na LinkedIn przez Google (site:linkedin.com + imię + firma), otwieramy stronę przez Playwright, zbieramy co jest, porównujemy z twoją bazą i wkładamy do CSV.

Jedyna rzecz, którą chcę szczerze powiedzieć: LinkedIn bardzo nie lubi botów, więc potrzebne są proxy i opóźnienia, szybko się nie uda. To rzeczywistość, o której warto się umówić na początku.

Vlad Rudenko

0 0

Zlecenia -
Ocena -
Ranking 112

Budżet: 100 USD Termin: 4 dni

Cześć! Przeczytałem Twoje wymagania, nie planuję używać SI (sieci neuronowe) do tego zadania, ponieważ często wymyślają dane tam, gdzie potrzebna jest 100% dokładność. Kontakty będę zbierał wyłącznie technicznym kodem — napiszę skrypt w Pythonie + Playwright/Selenium. Będzie on automatycznie znajdował profile przez Google dorks (site:linkedin.com/in), wchodził na strony i pobierał prawdziwe e-maile, telefony i linki. Koniecznie zrobię weryfikację według nazwy firmy i stanu, aby dane się nie pomyliły, jeśli znajdą się pełne odpowiedniki (osoby o tym samym nazwisku). Wynik przekażę w czystym pliku CSV lub JSON. Jestem gotów zrobić darmowy test dla 3-5 firm z Twojej bazy, abyś mógł się przekonać o jakości zbierania. Pisz, omówimy szczegóły!

Yehor Hohlov

0 0

Zlecenia -
Ocena -
Ranking 272

Budżet: 220 USD Termin: 3 dni

Dzień dobry! Mam doświadczenie w automatyzacji zbierania i przetwarzania danych w Pythonie: parsowanie publicznych źródeł, integracje API, asyncio, walidacja i strukturyzacja wyników w JSON/CSV. Pracowałem nad projektami, w których trzeba było porównywać rekordy według kilku pól i minimalizować błędne dopasowania.

Podejście do Twojego zadania

Wyszukiwanie — Google/Bing z operatorami site:linkedin.com/in, imię + firma + stan; dodatkowo publiczne rejestry biznesu USA, strona firmy z Twojej bazy.
Porównanie — scoring według imienia, nazwy, adresu, stanu; próg pewności (wysokie / średnie / niskie dopasowanie).
Weryfikacja — krzyżowa weryfikacja LinkedIn ↔ strona firmy ↔ adres; deduplikacja według URL profilu i email.
Stos — Python, asyncio, Playwright (gdzie to dozwolone), pandas, eksport JSON/CSV, logowanie i odzyskiwanie po awariach.
Ważne: masowe automatyczne parsowanie LinkedIn/Facebook jest ograniczone ich zasadami i ryzykiem blokad. Polecam hybrydę: wyszukiwanie przez wyszukiwarki + enrichment API (Apollo, Hunter itp.) + ręczna weryfikacja rekordów z niskim score — to bardziej stabilne dla dużych wolumenów w stanach.

Relewantne doświadczenie: boty Telegram z parsowaniem kanałów (Telethon), integracje zewnętrznych API, praca z bazami JSON i filtrowanie danych. Portfolio: https://yegor10.github.io/PortFolioWeb3/

Jestem gotów opisać architekturę dokładniej po ustaleniu zakresu bazy (liczba rekordów) i dopuszczalnych źródeł. Napisz w odpowiedzi — omówimy TŻ.

Anastasia Safronova

23 0

Budżet: 30 USD Termin: 3 dni

Dzień dobry.

Mam doświadczenie w zbieraniu i wzbogacaniu danych biznesowych, poszukiwaniu kontaktów firm, właścicieli biznesu oraz weryfikacji informacji z otwartych źródeł. Pracowałam z dużymi zbiorami danych dla baz B2B, gdzie ważne było nie tylko znalezienie informacji, ale także prawidłowe dopasowanie jej do istniejących zapisów i minimalizacja błędnych dopasowań.

W przypadku podobnego zadania widzę proces w następujący sposób: wyszukiwanie potencjalnych profili przez LinkedIn i wyszukiwarki, dopasowywanie według imienia i nazwiska, nazwy firmy, adresu oraz stanu, dalsza weryfikacja znalezionych danych i formowanie ustrukturyzowanego wyniku w formacie CSV lub JSON. W razie potrzeby mogę również pomóc w przygotowaniu logiki deduplikacji i weryfikacji jakości wyników.

Pracuję z Pythonem, automatyzacją zbierania danych, przetwarzaniem tabel oraz ustrukturyzowanych zbiorów danych. Aby dokładniej ocenić, chciałabym zobaczyć przykład wyjściowej bazy oraz orientacyjną liczbę zapisów.

Będę zadowolona, mogąc omówić szczegóły projektu.

Vladislav R.

3 0

Budżet: 1000 USD Termin: 7 dni

Mam doświadczenie w parsowaniu zarówno zwykłych agregatorów wiadomości, jak i bardziej zabezpieczonych amerykańskich aukcji. Już teraz mogę powiedzieć, że będą trudności z LinkedInem w kwestii jego ochrony i ograniczeń. Jeśli po prostu przejdziemy do linku, otrzymamy ograniczone informacje, ponadto prawdopodobnie będą tam ograniczenia co do liczby przeglądanych stron z bieżącego adresu IP. Jeśli jednak się zalogujemy, będzie większy dostęp, ale prawdopodobnie również istnieje limit co do liczby przeglądanych stron. Przeczytam o nich później, jeśli zdobędę zwycięstwo w konkursie. Mogę od razu powiedzieć, że w najtrudniejszym przypadku będzie to kosztować dodatkowe konta LinkedIn oraz proxy, być może premium.

Stos: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, być może Selenium/Playwright, ale starałbym się ich nie używać, aby zaoszczędzić zasoby serwera i zwiększyć szybkość przetwarzania danych.

Jak widzę wynik:
- Pracownik ładuje do bota dokument o odpowiedniej strukturze
- Bot analizuje i wypełnia pola w bazie danych
- Po ustalonym czasie zaczyna wyszukiwanie
- W pierwszej kolejności szuka informacji dla pustych pól, równocześnie aktualizując istniejące z oznaczeniem daty i czasu aktualizacji
- W razie potrzeby pracownik naciska przycisk, bot eksportuje wszystko, co znaleziono, w jednym z formatów do wyboru: json, csv, xlsx.

Podobny projekt: Telegram bot для поиска новых обьявлений

Telegram Auction Monitor — monitorowanie Copart i IAAI w czasie

Matvii Marchenko

20 0

Zlecenia 20
Ocena -
Ranking 2 116

Budżet: 365 USD Termin: 14 dni

Zrozumiałem TŻ: na wejściu baza właścicieli małych firm w USA (imię, firma, adres, stan), potrzebny pipeline wzbogacenia z LinkedIn i Facebooka przez operatory wyszukiwania (site:linkedin.com/in "Imię" "Firma"), weryfikacja znalezionych profili według imienia plus firmy plus stanu, na wyjściu dla każdego wpisu zdjęcie, email, media społecznościowe, strona firmy, telefon w JSON lub CSV. Skala — wszystkie stany USA, czyli dziesiątki tysięcy wpisów.

W przypadku stacku dla pipeline'u produkcyjnego zazwyczaj używam Pythona plus Playwright (stabilniejszy niż Selenium na LinkedIn), Scrapy do masowych równoległych przeszukiwań, proxy pool z residential dla zmniejszenia wskaźnika banów, deduplikacja i weryfikacja przez fuzzy matching (rapidfuzz) oraz weryfikacja LLM dla przypadków skrajnych (jeden Smith może być w kilku stanach). Dane lądują w PostgreSQL z etapowym eksportem do CSV lub JSON, z flagami źródła i pewności dla każdego pola.

Realistyczne pokrycie na dużych zbiorach: profil LinkedIn właściciela znajduje się w 50-70 procentach (w zależności od unikalności imienia plus firmy), email i telefon z samego LinkedIn zazwyczaj 5-15 procent (zamknięte przez większość użytkowników), jeśli dodamy przez email-finder (Hunter, Apollo, Snov.io) można podnieść email do 25-40 procent. Strona firmy i media społecznościowe lepiej — 40-60 procent.

Aby podać dokładny koszt i termin, ważne jest, aby wiedzieć: jaki jest zakres bazy (5 tysięcy, 50 tysięcy, 500 tysięcy wpisów), jaki budżet na proxy i email-finder API, jaki oczekiwany termin (w tydzień się nie uda, w miesiąc jak najbardziej). Z doświadczenia w portfolio: wzbogacenie LinkedIn przeprowadzałem w projektach liczących kilka tysięcy wpisów, stabilnie z niskim wskaźnikiem banów.

Jestem gotów omówić zakresy telefonicznie lub w korespondencji, po tym będzie dokładny rozkład po dniach i budżecie.

Andrii Tyupa

53 0

Budżet: 100 USD Termin: 2 dni

Zajmowałem się podobnymi zadaniami: wzbogacanie baz danych poprzez publiczne źródła, Google Maps API, parsowanie stron internetowych i agregacja w ustrukturyzowanej formie. Widzę to tak: bierzemy każdy wpis, przepuszczamy przez kilka źródeł (LinkedIn, Yelp, Google Business, być może oficjalne rejestry stanowe), normalizujemy i składamy w bazie z historią aktualizacji, aby można było ponownie wzbogacać. Pytanie: jakie dokładnie pola należy dodać, telefon i email czy coś głębszego, jak przychody, liczba pracowników, media społecznościowe? Jestem gotów omówić zakres i podejście.

Yaroslav S.

2 1

Zlecenia -
Ocena -
Ranking 522

Budżet: 1000 USD Termin: 22 dni

Cześć! Mam doświadczenie w pisaniu bota, który wykorzystuje Chrome Driver. Emulował on przeglądarkę i zbierał potrzebne dane. Realizacja została wykonana w Rust. Mogę opracować program w Go, który będzie działał i parsował potrzebne informacje. Proponuję wybrać Go, ponieważ najlepiej odpowiada waszym potrzebom, może obsługiwać więcej zapytań, wymaga mniej zasobów do działania i jest szybszy niż Python. Posiadam również wszystkie rozwiązania potrzebne do tego zadania. Jeśli stos musi być koniecznie tylko w Pythonie, to FASTAPI + httpx. Mam doświadczenie w pracy z Selenium, pisałem testy automatyczne.

Aleksandr A.

0 0

Zlecenia -
Ocena -
Ranking 221

Budżet: 350 USD Termin: 10 dni

Witam. Mam doświadczenie w pracy z zadaniami OSINT oraz automatyzacją zbierania danych.

Oto krok po kroku plan realizacji:

1. Ominięcie ograniczeń: Do pracy z LinkedIn/Facebook wykorzystam architekturę opartą na Playwright (lub Selenium z rotacją proxy) w celu symulacji zachowania prawdziwego użytkownika, aby zminimalizować ryzyko blokad.

2. Walidacja i dopasowanie: Do porównania znalezionych profili z bazą zastosuję nie tylko tekstowe dopasowanie imienia, ale także dodatkowe atrybuty: geolokalizacja (stan), nazwa firmy (poprzez fuzzy matching/odległość Levenshteina), aby odfiltrować nieistotne wyniki.

3. Dedupikacja: Zrealizuję sprawdzenie na etapie zapisu do bazy danych, aby uniknąć duplikatów.

W rezultacie otrzymasz uporządkowany plik JSON/CSV.

Wcześniej realizowałem podobne systemy zbierania danych (pracowałem z parsowaniem kontaktów dla CRM). Jestem gotów omówić szczegóły zadania technicznego.

Rumzik Matvey

15 0

Budżet: 160 USD Termin: 1 dzień

Dzień dobry, Romanie!

Zadanie jest dla mnie całkowicie zrozumiałe: wzbogacić bazę właścicieli małych firm w USA danymi z otwartych źródeł (LinkedIn/media społecznościowe) — znaleźć profil, porównać z istniejącym zapisem (imię/firma/adres/stan), zweryfikować, usunąć duplikaty i oddać uporządkowany JSON/CSV dla wszystkich stanów. To jest dokładnie moja nisza.

Relewantne doświadczenie: budowałem bulk-scraper/enricher do email marketingu (Node.js, 250 równoległych procesów), który wyciągał emaile i telefony ze stron baz danych domen w krajach WNP i deduplikował w stosunku do istniejącej bazy danych — to właściwie wasze zadanie wzbogacania zapisów;
+multipla marketplace scraper tablic vinted, bazos, jofogas, olx z anty-detekcją rotacji proxy i walidacją kont; Python-scrapery nieruchomości OLX/Dom.ria (aiohttp/asyncio + dedup na poziomie bazy danych); boty na Selenium/Playwright do zakupu biletów.

Stos: Python (Playwright/Selenium dla dynamiki, async HTTP + BeautifulSoup dla statyki, Scrapy w razie potrzeby), rotacja proxy + throttling, fuzzy-matching do porównania, eksport do JSON/CSV.

Podejście: wyszukiwanie przez operatory (site:linkedin.com/in "Imię" "Firma") → wyciąganie publicznych danych → fuzzy-match według imienia/firmy/adresu/stanu z confidence-score (minimalizuje fałszywe dopasowania) → dedup → uporządkowany eksport.

Szczerze o ograniczeniach: LinkedIn agresywnie blokuje boty, a email/telefon często nie są publiczne — rzeczywiste pokrycie nie będzie 100%, i to uwzględniam w architekturze (proxy, throttling, match-score, fallback-źródła).

Rzeczywiste opinie od klientów — w moim profilu: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].

Pytanie: jaki jest zakres zapisów i które pola są krytyczne? Od tego zależy wycena. Szczegóły — w korespondencji.

Pracuję za stawkę godzinową do uzgodnienia: +-20$.

Alisa S.

1 0

Zlecenia -
Ocena -
Ranking 387

Budżet: 600 USD Termin: 7 dni

! Specjalizuję się w automatyzacji zbierania i wzbogacania danych w Pythonie, dlatego z przyjemnością opracuję dla Ciebie niezawodny system do wyszukiwania kontaktów amerykańskich małych firm. Na podstawie Twojej bazy algorytm za pomocą Scrapy lub Playwright znajdzie profile właścicieli na LinkedIn i Facebooku. Aby całkowicie wykluczyć błędne dopasowania z powodu podobnych nazw firm, skonfiguruję inteligentne dopasowanie danych według imienia, stanu i adresu. Dla stabilnej pracy bez blokad podłączę rotacyjne proxy, a gotowy wynik w JSON lub CSV oczyścię z duplikatów i zweryfikuję znalezione emaile.

Andrii D.

50 2

Budżet: 450 USD Termin: 7 dni

Cześć!
Opracowałem dziesiątki parserów, tutaj również sobie poradzę, ale chcę zaproponować bardziej stabilne i potencjalnie tańsze podejście: bezpośrednie skrobanie profili LinkedIn szybko prowadzi do zablokowania, nawet z proxy - potrzebne są dokładnie rezydenckie (proxy z datacenter są natychmiast blokowane). Orientacyjnie rezydenckie proxy kosztują od 3,6 do 7,35 USD/GB, podczas gdy płatne API wyszukiwania typu SerpAPI kosztują od 0,001 do 0,01 USD za zapytanie - na dużą skalę jest to znacznie tańsze i stabilniejsze niż bezpośrednie skrobanie + proxy. Po ostatnich aktualizacjach Cloudflare (to trwało gdzieś pół roku) trochę ciężko jest z ustawieniami unikalnych odcisków urządzeń do antydetekcji.
Dlatego proponuję podejście przez API wyszukiwania zamiast bezpośredniego skrobania - mniejsze ryzyko blokad i bardziej przewidywalny koszt.

Taras O.

4 0

Budżet: 400 USD Termin: 10 dni

Cześć!

Mam duże doświadczenie w opracowywaniu rozwiązań do parsowania i przetwarzania danych (różne źródła, ochrona przed blokadami, automatyzacja). Jestem gotów wykonać postawione zadanie.

Proponuję omówić szczegóły w wiadomościach prywatnych.

Yaroslav Kolesnik

6 1

Zlecenia 6
Ocena -
Ranking 956

Budżet: 100 USD Termin: 4 dni

Witam, mam doświadczenie z technologiami, które wymieniłeś, a także pracowałem nad podobnymi projektami związanymi z parsowaniem. Najciekawszym i najtrudniejszym projektem był projekt związany z parsowaniem i automatyzacją rejestracji na wycieczki, gdzie występowały problemy z limitami i blokadami.

Nick Osipov

41 4

Budżet: 1000 USD Termin: 3 dni

Dzień dobry!

Mam duże doświadczenie w opracowywaniu rozwiązań OSINT oraz systemów wzbogacania danych w Pythonie z wykorzystaniem Playwright/Selenium/Scrapy. Efektywnie realizuję wyszukiwanie, weryfikację i strukturyzację danych z otwartych źródeł, zapewniając dokładność i skalowalność.

Napisz do mnie na priv, doprecyzujemy szczegóły.

Denis Gavrischuk

32 1

Budżet: 200 USD Termin: 1 dzień

Dzień dobry, programowaniem w sieci zajmuję się od ponad 9 lat. Pracuję z rest api, frameworkami i cms takimi jak django, laravel, yii2, wp, opencart, codeigniter itd. To nie jest sztuczna inteligencja.

Artur Boiko

5 0

Budżet: 50 USD Termin: 1 dzień

Dzień dobry!

Robiłem podobne rzeczy — wzbogacanie baz kontaktów poprzez wyszukiwanie i porównywanie profili, więc zadanie jest zrozumiałe z pół słowa.

Co do podejścia: wpisy z waszej bazy (imię + firma + stan) przeszukuję przez Google z operatorami typu site:linkedin.com/in "Imię" "Firma" — tak znajduje się sam profil, nie wpadając od razu w blokadę LinkedIn. Następnie — porównanie: sprawdzam znaleziony profil z wyjściowym wpisem według imienia, nazwy firmy, stanu i adresu, aby nie łapać fałszywych zgodności (przy tych samych imionach to główny problem, dlatego dopasowanie robię według kilku atrybutów + próg pewności). Duplikaty czyszczę na wyjściu.

Stos technologiczny: Python + Playwright (do stron renderowanych) oraz Scrapy/requests tam, gdzie można prościej. Proxy koniecznie — w przeciwnym razie LinkedIn ogranicza ilościowo. Wynik oddaję w JSON lub CSV, jak wam wygodniej.

Szczerze o jednym punkcie, aby nie było niespodzianek: zdjęcia, linki do mediów społecznościowych i strony firmy z LinkedIn są dostępne normalnie, ale e-mail i telefon są tam częściej ukryte — publicznie nie są widoczne u wszystkich. To, co jest otwarte, zbiorę; gdzie kontaktów nie ma w dostępie, pole będzie puste (mogę dodatkowo pozyskiwać z innych źródeł, jeśli trzeba, — omówimy).

Na jakim wolumenie planujecie start i czy macie przykład waszej aktualnej tabeli? Zobaczę strukturę — i powiem realne terminy.

Bezpłatnie doradzę w projekcie w wiadomości prywatnej 🙂

Ilya P.

38 0

Budżet: 250 USD Termin: 10 dni

Dzień dobry, mogę stworzyć taki produkt z użyciem Pythona. Skrobanie, deduplikacja itd.

Maksim Sheptookha

0 0

Zlecenia -
Ocena -
Ranking 427

Budżet: 600 USD Termin: 7 dni

Dzień dobry.

Realizacja wyszukiwania przez operatory "site:linkedin.com/in" to właściwy wybór, który pozwoli wzbogacić bazę bez ryzyka natychmiastowego zablokowania kont w samym LinkedIn. Jednak przy pracy z dużymi zbiorami danych w USA istnieją dwa krytyczne aspekty inżynieryjne, które należy uwzględnić w architekturze od samego początku:

1. Ominięcie limitów Google i LinkedIn
Bezpośrednie uruchomienie emulatora przeglądarki do zapytań wyszukiwania w Google szybko napotka na CAPTCHA (już po kilku dziesiątkach iteracji). Dla stabilnej pracy systemu w trybie wielowątkowym używam PHP w połączeniu z rotacyjnymi proxy residentami oraz narzędziami automatyzacji (takimi jak Symfony Panther lub w ramach Laravel przez Spatie Browsershot / headless Chrome). Alternatywną i bardziej stabilną opcją dla dużych wolumenów wyszukiwania jest integracja przez Search API, co całkowicie eliminuje problem CAPTCHA Google. Same zdjęcia profili oraz dane biznesowe są pobierane przez emulację przeglądarki w celu ominięcia ochrony JS LinkedIn.

2. Weryfikacja i minimalizacja błędnych dopasowań (Matching)
Aby uniknąć łączenia osób o tym samym nazwisku z różnych stanów, system wykonuje wielopoziomową walidację za pomocą PHP:
- Normalizacja nazw firm (oczyszczenie z Ltd, Corp, LLC).
- Porównywanie ciągów za pomocą algorytmów podobieństwa tekstów (wbudowane "levenshtein()", "similar_text()" lub implementacja Jaro-Winkler) dla imion i nazw firm.
- Ścisły filtr geograficzny na zgodność stanu/adresu podanego w twojej bazie z danymi znalezionego profilu.
Na podstawie tych czynników każdemu wpisowi przypisywana jest ocena pewności. Do końcowego pliku CSV/JSON eksportowane są tylko wyniki, które przeszły ustalony próg dokładności.

Stos technologiczny: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (automatyzacja przeglądarki), Laravel Queues (Redis) dla niezawodnej kolejki i wielowątkowości, algorytmy dopasowywania ciągów do oczyszczania danych.

Szacunkowy koszt opracowania i konfiguracji takiego rozwiązania: 400 – 600 USD (w zależności od ostatecznej objętości danych i potrzeby integracji z zewnętrznymi API).
Termin realizacji: 5–7 dni roboczych do wydania pierwszego stabilnego wyniku.

Jestem gotów przetestować logikę na małym teście twojej bazy (na przykład 20–50 wierszy), aby pokazać dokładność zbierania i dopasowywania na moim stosie. Czekam na feedback na czacie.

Vladyslav B.

1 0

Zlecenia -
Ocena -
Ranking 514

Budżet: 50 USD Termin: 1 dzień

Dzień dobry!

Jestem gotów zająć się realizacją systemu wzbogacania danych z otwartych źródeł.

Mam doświadczenie w parsowaniu, wzbogacaniu danych, automatyzacji wyszukiwania, przetwarzaniu dużych zbiorów CSV/JSON, deduplikacji oraz weryfikacji danych według kilku atrybutów.

Proponuję stos technologiczny:
• Python;
• Playwright / Selenium do stron dynamicznych;
• Scrapy / Requests / BeautifulSoup do źródeł statycznych;
• pandas do przetwarzania danych;
• fuzzy matching do dopasowywania imion, firm, adresów i stanów;
• eksport wyników do CSV / JSON.

Widzę podejście w następujący sposób:

1. Załadowanie początkowej bazy.
2. Generacja zapytań wyszukujących według imienia, firmy, stanu i adresu.
3. Wyszukiwanie profili i stron biznesowych przez otwarte źródła.
4. Dopasowanie wyników do rekordów według kilku parametrów.
5. Weryfikacja dopasowań i przypisanie confidence score.
6. Zbieranie dostępnych pól: LinkedIn/Facebook, strona, telefon, email, zdjęcie profilu, media społecznościowe.
7. Deduplikacja i formowanie finalnego CSV/JSON.

Mogę również przewidzieć logowanie, ponowne przetwarzanie nieudanych rekordów oraz ręczną weryfikację wątpliwych dopasowań, aby zminimalizować błędy.

Jestem gotów omówić zakres bazy, przykład pliku wejściowego oraz pożądaną strukturę wyniku.

Tetyana Shumeyko

73 4

Budżet: 130 USD Termin: 2 dni

Dzień dobry! Zadanie jest zrozumiałe, więc mogę zrealizować taki system w ciągu kilku dni!!! Gotowa na produktywną i jakościową współpracę!!!

Oleksii Manziuk

6 0

Budżet: 100 USD Termin: 1 dzień

Dzień dobry.

Mam duże doświadczenie w tworzeniu projektów internetowych w PHP i Pythonie, automatyzacji przetwarzania danych, integracjach z zewnętrznymi usługami oraz pracy z dużymi zbiorami informacji. Pracowałem również z parsowaniem danych z otwartych źródeł, przetwarzaniem wyników oraz ich dalszym strukturyzowaniem do wykorzystania w procesach biznesowych. W swoim czasie zarządzaliśmy sieciami stron internetowych mfa z zebranych danych firm.

Aby zrealizować podobny projekt, widzę rozwiązanie w postaci wielostopniowego pipeline'u:

wyszukiwanie potencjalnych profili przez wyszukiwarki i otwarte źródła;
automatyczny zbiór danych za pomocą Pythona (Selenium/Scrapy, zobaczymy, co będzie odpowiednie);
werifikacja zgodności według imienia i nazwiska, nazwy firmy, adresu, stanu oraz dodatkowych atrybutów;
deduplication i ocena wiarygodności znalezionych wyników;
formowanie ustrukturyzowanego wyniku w formatach JSON lub CSV.

Z technologii mam doświadczenie w pracy z Pythonem, Selenium, SQL, REST API, przetwarzaniem danych oraz automatyzacją procesów biznesowych. Mam również znaczące doświadczenie w pracy z systemami legacy oraz projektami, w których trzeba szybko zrozumieć logikę przetwarzania dużych ilości danych.

Jestem gotów omówić szczegóły, oczekiwane ilości zapisów oraz wymagania dotyczące dokładności dopasowania danych.

Rostislav Chuvurin

0 0

Zlecenia -
Ocena -
Ranking 182

Budżet: 25 USD Termin: 2 dni

Dzień dobry.

Mam doświadczenie w tworzeniu parserów oraz systemów zbierania/wzbogacania danych w Pythonie (Playwright, Selenium). Pracowałem z wyszukiwaniem i weryfikacją kontaktów, profili firm i właścicieli biznesów z otwartych źródeł.

Mogę zaproponować rozwiązanie do dopasowywania danych według imienia i nazwiska, firmy oraz lokalizacji z eksportem wyników do CSV lub JSON. Jeśli masz przykład bazy — prześlij, szybko ocenię złożoność i zakres prac.

Denis D.

6 1

Budżet: 25 USD Termin: 1 dzień

Witam. Mam odpowiednie doświadczenie w automatyzacji w Pythonie, parsowaniu otwartych źródeł, podejściu OSINT, deduplikacji i strukturyzacji danych.

Pracowałem nad zadaniami zbierania danych z witryn, mediów społecznościowych, Telegramu/źródeł internetowych, przetwarzania profili, wyszukiwania dopasowań, filtrowania nieistotnych wyników oraz eksportu do CSV/Excel/JSON.

Stos technologiczny: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. W razie potrzeby można dodać kolejki, proxy, limity prędkości, logowanie oraz mechanizm wznowienia dla dużych zbiorów danych.

Widzę podejście w ten sposób:

1. Bierzemy dane wejściowe: imię, firma, adres, stan.
2. Generujemy zapytania wyszukujące przez Google/Bing z operatorami `site:linkedin.com/in`, `site:linkedin.com/company`, a także wyszukiwanie na stronie firmy.
3. Zbieramy kandydatów: profil LinkedIn, strona firmy, witryna, telefon, e-mail, linki do mediów społecznościowych.
4. Robimy ocenę weryfikacyjną: dopasowanie imienia, firmy, stanu, adresu/miasta, stanowiska, domeny firmy.
5. Odrzucamy słabe dopasowania, duplikaty i podejrzane wyniki.
6. Formujemy ustrukturyzowany wynik w CSV lub JSON z wynikiem pewności i źródłami.

Mogę zrealizować MVP, które przetwarza część bazy, pokazuje jakość dopasowania, a następnie skalować pod duże zbiory we wszystkich stanach USA.

Daria Kratofil

0 0

Zlecenia -
Ocena -
Ranking 196

Budżet: 25000 USD Termin: 16 dni

mamy prawie gotowe rozwiązanie do wzbogacania baz i klasyfikacji znalezionych profili, możemy szybko dostosować do twoich zapisów i omówić szczegóły tutaj, jestem w kontakcie ))
wstępnie widzę pierwszy etap roboczy na 16 dni, w stawce zakładam 65000 UAH za pilota z wyszukiwaniem, weryfikacją dopasowań, deduplikacją i eksportem do JSON lub CSV.
Technicznie robiłbym to w Pythonie, Playwright lub Scrapy, kolejki zadań, cache wyników, scoring dopasowań według imienia, firmy, adresu, stanu, domeny i telefonu.
Osobno zakładałbym ograniczenia częstotliwości, ponowne weryfikacje, log przyczyn dopasowania i ręczną listę wątpliwych zapisów, bo w takich zadaniach lepiej siedem razy zmierzyć, niż potem czyścić całą bazę ręcznie.
Relewantne doświadczenie mam w automatyzacji zbierania, strukturyzowania i weryfikacji danych dla procesów biznesowych.
https://business.ingello.com/vorfahr - blisko pod względem logiki automatyzacji wyszukiwania i pracy z danymi.
https://business.ingello.com/fractal - przykład automatyzacji agencji i skomplikowanych procesów przetwarzania informacji.
nasz profil i podejście dla FLH - https://systems-fl.ingello.com/ua
wyjaśnię tylko 2 rzeczy.
jaki jest zakres pierwszej partii - 1000, 10000, 100000 zapisów czy więcej?
fotografia profilu ma być przechowywana jako link czy ładowana plikiem?

Dmytro Parkhomenko

20 0

Budżet: 50 USD Termin: 1 dzień

Dzień dobry, jestem gotów wykonać twoje zadanie szybko i jakościowo. Mam duże doświadczenie w tworzeniu różnych parserów. Napisz w wiadomościach prywatnych, omówimy szczegóły. Chętnie pomogę)

Andzhey R.

8 0

Budżet: 25 USD Termin: 1 dzień

Dzień dobry.
Nasz zespół ma wieloletnie doświadczenie w tworzeniu ERP, CRM, CMS oraz specjalistycznego oprogramowania dla biznesu. Tworzymy efektywne rozwiązania cyfrowe, które pomagają automatyzować procesy, zwiększać wydajność i skalować firmy.

Mamy już gotowe rozwiązanie dotyczące parsera.

Pracujemy z nowoczesnymi technologiami — od botów i skryptów po agentów AI i systemy analityczne. Opracowujemy strony internetowe o różnym stopniu skomplikowania. W naszym portfolio znajdują się zrealizowane rozwiązania ERP dla branży hotelarskiej, a także dla firm zajmujących się importem i sprzedażą towarów, a także nasz własny produkt XFitness — system ERP stworzony specjalnie dla klubów fitness.

Jesteśmy gotowi zrealizować Twój projekt i zaproponować najlepsze rozwiązanie dostosowane do Twoich potrzeb.
Nasze portfolio: Freelancehunt

Specjalizujemy się w takich dziedzinach:
-Rozwój systemów ERP
-Rozwój systemów CRM
-Rozwój stron internetowych o dowolnym stopniu skomplikowania
-Rozwój systemów CMS
-Wsparcie stron internetowych
-Rozwój OpenCart
-Wsparcie OpenCart
-Modyfikacja OpenCart
-Doróbka OpenCart
-Rozwój WordPress
-Wsparcie WordPress
-Modyfikacja WordPress
-Doróbka WordPress
-Rozwój ECommerce
-Wsparcie ECommerce
-Modyfikacja ECommerce
-Doróbka ECommerce
-Rozwój aplikacji webowych
-Wsparcie serwerów 1C
-Wsparcie serwerów webowych
-Rozwój aplikacji mobilnych
-Parsowanie danych
-Rozwój botów
-Rozwój agentów AI

oraz w takich technologiach:
-Python
-PHP
-Laravel
-Symfony
-Yii2
-JS
-NodeJS
-jQuery
-TypeScript
-MySQL
-HTML
-CSS
-Vue
-Nuxt.js
-React
-React Native
-C++

Maksym Potashov

6 2

Budżet: 25 USD Termin: 1 dzień

Dzień dobry.
Mam doświadczenie w opracowywaniu systemów zbierania i wzbogacania danych, parserów oraz automatyzacji pracy z dużymi zbiorami informacji. Do podobnych zadań zazwyczaj używam Pythona, Playwright, Selenium, Scrapy, PostgreSQL oraz narzędzi do deduplikacji i weryfikacji danych.
Będę w stanie zrealizować proces wyszukiwania i porównywania profili właścicieli firm na podstawie imienia, nazwy firmy, adresu, stanu i innych atrybutów w celu minimalizacji błędnych dopasowań. Wynik może być formowany w JSON lub CSV z wymaganą strukturą danych do dalszego przetwarzania.

Mam również doświadczenie w budowaniu pipeline'ów wzbogacania danych, gdzie ważne jest nie tylko znalezienie informacji, ale także sprawdzenie jej trafności i jakości przed zapisaniem w bazie.
Proszę o informację:
* Jaki jest orientacyjny rozmiar bazy na początku (tysiące czy dziesiątki tysięcy rekordów)?
* Czy potrzebne jest jednorazowe przetwarzanie, czy regularne aktualizacje danych?
* Czy istnieje przykład pożądanego formatu JSON/CSV dla ostatecznego wyniku?

Roman Sovan
Stany Zjednoczone

Zleceń 311
Ocena 5.0
Ranking 21 740

Oleg Grigoryev

Shavkatbek Ro'zibekov

Viacheslav K.

Polly Pol

Yevgeniy Rybin

Bohdan Yanishevskyi

Petro Demchuk

Oleksandr Stinkovyi

Oleksandr Mittsykh

Yevhen Volovyk

Petro Bezsmertnyi

Vlad Rudenko

Yehor Hohlov

Anastasia Safronova

Vladislav R.

Matvii Marchenko

Andrii Tyupa

Yaroslav S.

Aleksandr A.

Rumzik Matvey

Alisa S.

Andrii D.

Taras O.

Yaroslav Kolesnik

Nick Osipov

Denis Gavrischuk

Artur Boiko

Ilya P.

Maksim Sheptookha

Vladyslav B.

Tetyana Shumeyko

Oleksii Manziuk

Rostislav Chuvurin

Denis D.

Daria Kratofil

Dmytro Parkhomenko

Oferty ukryte

Aktualnie brak ofert

Andzhey R.

Maksym Potashov

Oferty ukryte

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych