Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

Parsowanie i klasyfikacja danych

Translated

  1. 3497
     5  0

    7 dni5575 PLN

    Dzień dobry, Roman!

    Widzę, że inni specjaliści już odpowiedzieli na Twój projekt. Pozwól, że również pomogę.

    Na razie powstrzymam się od składania oferty, ponieważ do opracowania potrzebna jest jasna wizja końcowych celów systemu zbierania danych. Aby lepiej zrozumieć Twoją wizję i zaproponować optymalne rozwiązania, proszę o wyjaśnienie:
    - Terminy realizacji projektu i plany dotyczące szybkiego uruchomienia MVP.
    - Czy masz szczegółowe wymagania lub uformowaną wizję systemu?
    - Czy rozważasz konkretne technologie, czy mogę rekomendować optymalne rozwiązania?
    - Zakres rekordów do przetworzenia.
    - Przykłady podobnych projektów do odniesienia.

    Na terminy i koszty opracowania wpływają takie czynniki:
    1. Zakres danych i częstotliwość aktualizacji.
    2. Dostępność gotowych narzędzi do zbierania danych.
    3. Integracja z innymi systemami.
    4. Poziom szczegółowości weryfikacji i deduplikacji danych.
    5. Skalowalność rozwiązania dla dużych ilości danych.

    Na początkowym etapie ważne jest uformowanie i uzgodnienie wizji końcowego rezultatu systemu zbierania i klasyfikacji danych. Preferuję formowanie takiej wizji na podstawie analizy istniejących rozwiązań konkurencji i Twoich życzeń.

    Proponuję omówić szczegóły projektu, aby zrozumieć, jak bardzo do siebie pasujemy. Możemy ustalić wszystkie niuanse w korespondencji lub podczas spotkania.

    Mam doświadczenie w opracowywaniu systemów wzbogacania danych oraz automatyzacji zbierania informacji z otwartych źródeł. Wiem, jak ważne jest minimalizowanie błędnych dopasowań i zapewnienie dokładności danych, szczególnie przy pracy z dużymi ilościami informacji z platform takich jak LinkedIn.

  2. 2223
     98  0

    2 dni372 PLN

    Dzień dobry
    można zebrać
    w takiej formie
    https://docs.google.com/spreadsheets/d/1UEFtX5ozBW2PQDThucQljxZYdMdY4k8l4gQnF4T34Sg/edit?gid=1776920200#gid=1776920200
    Napiszcie, kto dokładnie was interesuje

  3. 3012
     3  0
    Przykład pracy:
    Telegram Auction Monitor — monitorowanie Copart i IAAI w czasie
    7 dni3717 PLN

    Mam doświadczenie w parsowaniu zarówno zwykłych agregatorów wiadomości, jak i bardziej zabezpieczonych amerykańskich aukcji. Już teraz mogę powiedzieć, że będą trudności z LinkedInem w kwestii jego ochrony i ograniczeń. Jeśli po prostu przejdziemy do linku, otrzymamy ograniczone informacje, ponadto prawdopodobnie będą tam ograniczenia co do liczby przeglądanych stron z bieżącego adresu IP. Jeśli jednak się zalogujemy, będzie większy dostęp, ale prawdopodobnie również istnieje limit co do liczby przeglądanych stron. Przeczytam o nich później, jeśli zdobędę zwycięstwo w konkursie. Mogę od razu powiedzieć, że w najtrudniejszym przypadku będzie to kosztować dodatkowe konta LinkedIn oraz proxy, być może premium.

    Stos: Python, pyTelegramBotAPI, MySQL, Redis, requests, curl_cffi, BeautifulSoup4, lxml, PySocks, być może Selenium/Playwright, ale starałbym się ich nie używać, aby zaoszczędzić zasoby serwera i zwiększyć szybkość przetwarzania danych.

    Jak widzę wynik:
    - Pracownik ładuje do bota dokument o odpowiedniej strukturze
    - Bot analizuje i wypełnia pola w bazie danych
    - Po ustalonym czasie zaczyna wyszukiwanie
    - W pierwszej kolejności szuka informacji dla pustych pól, równocześnie aktualizując istniejące z oznaczeniem daty i czasu aktualizacji
    - W razie potrzeby pracownik naciska przycisk, bot eksportuje wszystko, co znaleziono, w jednym z formatów do wyboru: json, csv, xlsx.

    Podobne wykonane zlecenie: Telegram bot для поиска новых обьявлений

  4. 561
    Przykład pracy:
    Strona korporacyjna dla organizacji „Rytuał 77”
    20 dni3717 PLN

    Cześć!

    Nazywam się Jewgienij, od 7 lat profesjonalnie zajmuję się tworzeniem aplikacji mobilnych, stron internetowych, usług internetowych i aplikacji webowych.

    *Cena, którą podałem, dotyczy 1 godziny pracy. Aby dokładniej określić cenę, chciałbym się skontaktować/rozmawiać i omówić szczegóły.

    - Portfolio, opinie i nagrody można znaleźć w moim profilu.

    Dlaczego warto mnie wybrać?
    - Zająłem 1 i 2 miejsce na międzynarodowych mistrzostwach i zawodach w dziedzinie IT
    - Mam potwierdzone wideoopinie, listy z podziękowaniami
    - Zawsze jestem dostępny, uczciwy i rozsądny
    - Pracuję na podstawie umowy
    - Prowadzę własny zespół deweloperski

    Będę zadowolony, mogąc porozmawiać z Państwem szczegółowo o projekcie.

  5. 2038
     7  0

    3 dni1238 PLN

    Zgłaszajcie się, jestem gotów wykonać. Czekam na specyfikację. Termin i koszt są przybliżone do pełnego zapoznania się ze specyfikacją.

  6. 511    1  0
    6 dni55 750 PLN

    Witam. Robiłem podobne systemy zbierania i wzbogacania danych w Pythonie z Playwright i Scrapy: wyszukiwanie profili za pomocą operatorów wyszukiwania, parsowanie LinkedIn, weryfikacja zgodności według imienia, firmy, adresu i stanu, deduplikacja oraz wyjście w formacie JSON lub CSV. Najpierw stworzę działający pilot na próbie waszych rekordów, abyście mogli zobaczyć jakość dopasowania, a następnie skaluję na wszystkie stany. Orientacyjnie 15000 rubli i 6 dni roboczych za pilot, dokładną ocenę zakresu podam po przeglądzie struktury waszej bazy. Gotowy do rozpoczęcia od razu.

  7. 272  
    3 dni818 PLN

    Dzień dobry! Mam doświadczenie w automatyzacji zbierania i przetwarzania danych w Pythonie: parsowanie publicznych źródeł, integracje API, asyncio, walidacja i strukturyzacja wyników w JSON/CSV. Pracowałem nad projektami, w których trzeba było porównywać rekordy według kilku pól i minimalizować błędne dopasowania.

    Podejście do Twojego zadania

    Wyszukiwanie — Google/Bing z operatorami site:linkedin.com/in, imię + firma + stan; dodatkowo publiczne rejestry biznesu USA, strona firmy z Twojej bazy.
    Porównanie — scoring według imienia, nazwy, adresu, stanu; próg pewności (wysokie / średnie / niskie dopasowanie).
    Weryfikacja — krzyżowa weryfikacja LinkedIn ↔ strona firmy ↔ adres; deduplikacja według URL profilu i email.
    Stos — Python, asyncio, Playwright (gdzie to dozwolone), pandas, eksport JSON/CSV, logowanie i odzyskiwanie po awariach.
    Ważne: masowe automatyczne parsowanie LinkedIn/Facebook jest ograniczone ich zasadami i ryzykiem blokad. Polecam hybrydę: wyszukiwanie przez wyszukiwarki + enrichment API (Apollo, Hunter itp.) + ręczna weryfikacja rekordów z niskim score — to bardziej stabilne dla dużych wolumenów w stanach.

    Relewantne doświadczenie: boty Telegram z parsowaniem kanałów (Telethon), integracje zewnętrznych API, praca z bazami JSON i filtrowanie danych. Portfolio: https://yegor10.github.io/PortFolioWeb3/

    Jestem gotów opisać architekturę dokładniej po ustaleniu zakresu bazy (liczba rekordów) i dopuszczalnych źródeł. Napisz w odpowiedzi — omówimy TŻ.

  8. 807    22  0
    3 dni111 PLN

    Dzień dobry.

    Mam doświadczenie w zbieraniu i wzbogacaniu danych biznesowych, poszukiwaniu kontaktów firm, właścicieli biznesu oraz weryfikacji informacji z otwartych źródeł. Pracowałam z dużymi zbiorami danych dla baz B2B, gdzie ważne było nie tylko znalezienie informacji, ale także prawidłowe dopasowanie jej do istniejących zapisów i minimalizacja błędnych dopasowań.

    W przypadku podobnego zadania widzę proces w następujący sposób: wyszukiwanie potencjalnych profili przez LinkedIn i wyszukiwarki, dopasowywanie według imienia i nazwiska, nazwy firmy, adresu oraz stanu, dalsza weryfikacja znalezionych danych i formowanie ustrukturyzowanego wyniku w formacie CSV lub JSON. W razie potrzeby mogę również pomóc w przygotowaniu logiki deduplikacji i weryfikacji jakości wyników.

    Pracuję z Pythonem, automatyzacją zbierania danych, przetwarzaniem tabel oraz ustrukturyzowanych zbiorów danych. Aby dokładniej ocenić, chciałabym zobaczyć przykład wyjściowej bazy oraz orientacyjną liczbę zapisów.

    Będę zadowolona, mogąc omówić szczegóły projektu.

  9. 2116    20  0
    14 dni1357 PLN

    Zrozumiałem TŻ: na wejściu baza właścicieli małych firm w USA (imię, firma, adres, stan), potrzebny pipeline wzbogacenia z LinkedIn i Facebooka przez operatory wyszukiwania (site:linkedin.com/in "Imię" "Firma"), weryfikacja znalezionych profili według imienia plus firmy plus stanu, na wyjściu dla każdego wpisu zdjęcie, email, media społecznościowe, strona firmy, telefon w JSON lub CSV. Skala — wszystkie stany USA, czyli dziesiątki tysięcy wpisów.

    W przypadku stacku dla pipeline'u produkcyjnego zazwyczaj używam Pythona plus Playwright (stabilniejszy niż Selenium na LinkedIn), Scrapy do masowych równoległych przeszukiwań, proxy pool z residential dla zmniejszenia wskaźnika banów, deduplikacja i weryfikacja przez fuzzy matching (rapidfuzz) oraz weryfikacja LLM dla przypadków skrajnych (jeden Smith może być w kilku stanach). Dane lądują w PostgreSQL z etapowym eksportem do CSV lub JSON, z flagami źródła i pewności dla każdego pola.

    Realistyczne pokrycie na dużych zbiorach: profil LinkedIn właściciela znajduje się w 50-70 procentach (w zależności od unikalności imienia plus firmy), email i telefon z samego LinkedIn zazwyczaj 5-15 procent (zamknięte przez większość użytkowników), jeśli dodamy przez email-finder (Hunter, Apollo, Snov.io) można podnieść email do 25-40 procent. Strona firmy i media społecznościowe lepiej — 40-60 procent.

    Aby podać dokładny koszt i termin, ważne jest, aby wiedzieć: jaki jest zakres bazy (5 tysięcy, 50 tysięcy, 500 tysięcy wpisów), jaki budżet na proxy i email-finder API, jaki oczekiwany termin (w tydzień się nie uda, w miesiąc jak najbardziej). Z doświadczenia w portfolio: wzbogacenie LinkedIn przeprowadzałem w projektach liczących kilka tysięcy wpisów, stabilnie z niskim wskaźnikiem banów.

    Jestem gotów omówić zakresy telefonicznie lub w korespondencji, po tym będzie dokładny rozkład po dniach i budżecie.

  10. 7123    53  0
    2 dni372 PLN

    Zajmowałem się podobnymi zadaniami: wzbogacanie baz danych poprzez publiczne źródła, Google Maps API, parsowanie stron internetowych i agregacja w ustrukturyzowanej formie. Widzę to tak: bierzemy każdy wpis, przepuszczamy przez kilka źródeł (LinkedIn, Yelp, Google Business, być może oficjalne rejestry stanowe), normalizujemy i składamy w bazie z historią aktualizacji, aby można było ponownie wzbogacać. Pytanie: jakie dokładnie pola należy dodać, telefon i email czy coś głębszego, jak przychody, liczba pracowników, media społecznościowe? Jestem gotów omówić zakres i podejście.

  11. 522    2  1
    22 dni3717 PLN

    Cześć! Mam doświadczenie w pisaniu bota, który wykorzystuje Chrome Driver. Emulował on przeglądarkę i zbierał potrzebne dane. Realizacja została wykonana w Rust. Mogę opracować program w Go, który będzie działał i parsował potrzebne informacje. Proponuję wybrać Go, ponieważ najlepiej odpowiada waszym potrzebom, może obsługiwać więcej zapytań, wymaga mniej zasobów do działania i jest szybszy niż Python. Posiadam również wszystkie rozwiązania potrzebne do tego zadania. Jeśli stos musi być koniecznie tylko w Pythonie, to FASTAPI + httpx. Mam doświadczenie w pracy z Selenium, pisałem testy automatyczne.

  12. 221  
    10 dni1301 PLN

    Witam. Mam doświadczenie w pracy z zadaniami OSINT oraz automatyzacją zbierania danych.

    Oto krok po kroku plan realizacji:

    1. Ominięcie ograniczeń: Do pracy z LinkedIn/Facebook wykorzystam architekturę opartą na Playwright (lub Selenium z rotacją proxy) w celu symulacji zachowania prawdziwego użytkownika, aby zminimalizować ryzyko blokad.

    2. Walidacja i dopasowanie: Do porównania znalezionych profili z bazą zastosuję nie tylko tekstowe dopasowanie imienia, ale także dodatkowe atrybuty: geolokalizacja (stan), nazwa firmy (poprzez fuzzy matching/odległość Levenshteina), aby odfiltrować nieistotne wyniki.

    3. Dedupikacja: Zrealizuję sprawdzenie na etapie zapisu do bazy danych, aby uniknąć duplikatów.

    W rezultacie otrzymasz uporządkowany plik JSON/CSV.

    Wcześniej realizowałem podobne systemy zbierania danych (pracowałem z parsowaniem kontaktów dla CRM). Jestem gotów omówić szczegóły zadania technicznego.

  13. 3880    15  0
    1 dzień595 PLN

    Dzień dobry, Romanie!

    Zadanie jest dla mnie całkowicie zrozumiałe: wzbogacić bazę właścicieli małych firm w USA danymi z otwartych źródeł (LinkedIn/media społecznościowe) — znaleźć profil, porównać z istniejącym zapisem (imię/firma/adres/stan), zweryfikować, usunąć duplikaty i oddać uporządkowany JSON/CSV dla wszystkich stanów. To jest dokładnie moja nisza.

    Relewantne doświadczenie: budowałem bulk-scraper/enricher do email marketingu (Node.js, 250 równoległych procesów), który wyciągał emaile i telefony ze stron baz danych domen w krajach WNP i deduplikował w stosunku do istniejącej bazy danych — to właściwie wasze zadanie wzbogacania zapisów;
    +multipla marketplace scraper tablic vinted, bazos, jofogas, olx z anty-detekcją rotacji proxy i walidacją kont; Python-scrapery nieruchomości OLX/Dom.ria (aiohttp/asyncio + dedup na poziomie bazy danych); boty na Selenium/Playwright do zakupu biletów.

    Stos: Python (Playwright/Selenium dla dynamiki, async HTTP + BeautifulSoup dla statyki, Scrapy w razie potrzeby), rotacja proxy + throttling, fuzzy-matching do porównania, eksport do JSON/CSV.

    Podejście: wyszukiwanie przez operatory (site:linkedin.com/in "Imię" "Firma") → wyciąganie publicznych danych → fuzzy-match według imienia/firmy/adresu/stanu z confidence-score (minimalizuje fałszywe dopasowania) → dedup → uporządkowany eksport.

    Szczerze o ograniczeniach: LinkedIn agresywnie blokuje boty, a email/telefon często nie są publiczne — rzeczywiste pokrycie nie będzie 100%, i to uwzględniam w architekturze (proxy, throttling, match-score, fallback-źródła).

    Rzeczywiste opinie od klientów — w moim profilu: [https://freelancehunt.com/project/vosstanovlenie-podderzhka-dorabotka-telegram-bota-dlya/1596685.html], [https://freelancehunt.com/project/parser-na-node-js/634091.html].

    Pytanie: jaki jest zakres zapisów i które pola są krytyczne? Od tego zależy wycena. Szczegóły — w korespondencji.

    Pracuję za stawkę godzinową do uzgodnienia: +-20$.

  14. 387    1  0
    7 dni2230 PLN

    ! Specjalizuję się w automatyzacji zbierania i wzbogacania danych w Pythonie, dlatego z przyjemnością opracuję dla Ciebie niezawodny system do wyszukiwania kontaktów amerykańskich małych firm. Na podstawie Twojej bazy algorytm za pomocą Scrapy lub Playwright znajdzie profile właścicieli na LinkedIn i Facebooku. Aby całkowicie wykluczyć błędne dopasowania z powodu podobnych nazw firm, skonfiguruję inteligentne dopasowanie danych według imienia, stanu i adresu. Dla stabilnej pracy bez blokad podłączę rotacyjne proxy, a gotowy wynik w JSON lub CSV oczyścię z duplikatów i zweryfikuję znalezione emaile.

  15. 3481    49  2
    7 dni1672 PLN

    Cześć!
    Opracowałem dziesiątki parserów, tutaj również sobie poradzę, ale chcę zaproponować bardziej stabilne i potencjalnie tańsze podejście: bezpośrednie skrobanie profili LinkedIn szybko prowadzi do zablokowania, nawet z proxy - potrzebne są dokładnie rezydenckie (proxy z datacenter są natychmiast blokowane). Orientacyjnie rezydenckie proxy kosztują od 3,6 do 7,35 USD/GB, podczas gdy płatne API wyszukiwania typu SerpAPI kosztują od 0,001 do 0,01 USD za zapytanie - na dużą skalę jest to znacznie tańsze i stabilniejsze niż bezpośrednie skrobanie + proxy. Po ostatnich aktualizacjach Cloudflare (to trwało gdzieś pół roku) trochę ciężko jest z ustawieniami unikalnych odcisków urządzeń do antydetekcji.
    Dlatego proponuję podejście przez API wyszukiwania zamiast bezpośredniego skrobania - mniejsze ryzyko blokad i bardziej przewidywalny koszt.

  16. 2025    4  0
    10 dni1487 PLN

    Cześć!

    Mam duże doświadczenie w opracowywaniu rozwiązań do parsowania i przetwarzania danych (różne źródła, ochrona przed blokadami, automatyzacja). Jestem gotów wykonać postawione zadanie.

    Proponuję omówić szczegóły w wiadomościach prywatnych.

  17. 956    6  1
    4 dni372 PLN

    Witam, mam doświadczenie z technologiami, które wymieniłeś, a także pracowałem nad podobnymi projektami związanymi z parsowaniem. Najciekawszym i najtrudniejszym projektem był projekt związany z parsowaniem i automatyzacją rejestracji na wycieczki, gdzie występowały problemy z limitami i blokadami.

  18. Nick Osipov Web4Business
    4975    41  4   1
    3 dni3717 PLN

    Dzień dobry!

    Mam duże doświadczenie w opracowywaniu rozwiązań OSINT oraz systemów wzbogacania danych w Pythonie z wykorzystaniem Playwright/Selenium/Scrapy. Efektywnie realizuję wyszukiwanie, weryfikację i strukturyzację danych z otwartych źródeł, zapewniając dokładność i skalowalność.

    Napisz do mnie na priv, doprecyzujemy szczegóły.

  19. 1602    31  1
    1 dzień743 PLN

    Dzień dobry, programowaniem w sieci zajmuję się od ponad 9 lat. Pracuję z rest api, frameworkami i cms takimi jak django, laravel, yii2, wp, opencart, codeigniter itd. To nie jest sztuczna inteligencja.

  20. 650    2  0
    1 dzień186 PLN

    Dzień dobry!

    Robiłem podobne rzeczy — wzbogacanie baz kontaktów poprzez wyszukiwanie i porównywanie profili, więc zadanie jest zrozumiałe z pół słowa.

    Co do podejścia: wpisy z waszej bazy (imię + firma + stan) przeszukuję przez Google z operatorami typu site:linkedin.com/in "Imię" "Firma" — tak znajduje się sam profil, nie wpadając od razu w blokadę LinkedIn. Następnie — porównanie: sprawdzam znaleziony profil z wyjściowym wpisem według imienia, nazwy firmy, stanu i adresu, aby nie łapać fałszywych zgodności (przy tych samych imionach to główny problem, dlatego dopasowanie robię według kilku atrybutów + próg pewności). Duplikaty czyszczę na wyjściu.

    Stos technologiczny: Python + Playwright (do stron renderowanych) oraz Scrapy/requests tam, gdzie można prościej. Proxy koniecznie — w przeciwnym razie LinkedIn ogranicza ilościowo. Wynik oddaję w JSON lub CSV, jak wam wygodniej.

    Szczerze o jednym punkcie, aby nie było niespodzianek: zdjęcia, linki do mediów społecznościowych i strony firmy z LinkedIn są dostępne normalnie, ale e-mail i telefon są tam częściej ukryte — publicznie nie są widoczne u wszystkich. To, co jest otwarte, zbiorę; gdzie kontaktów nie ma w dostępie, pole będzie puste (mogę dodatkowo pozyskiwać z innych źródeł, jeśli trzeba, — omówimy).

    Na jakim wolumenie planujecie start i czy macie przykład waszej aktualnej tabeli? Zobaczę strukturę — i powiem realne terminy.

    Bezpłatnie doradzę w projekcie w wiadomości prywatnej 🙂

  21. 2335    37  0
    10 dni929 PLN

    Dzień dobry, mogę stworzyć taki produkt z użyciem Pythona. Skrobanie, deduplikacja itd.

  22. 427  
    7 dni2230 PLN

    Dzień dobry.

    Realizacja wyszukiwania przez operatory "site:linkedin.com/in" to właściwy wybór, który pozwoli wzbogacić bazę bez ryzyka natychmiastowego zablokowania kont w samym LinkedIn. Jednak przy pracy z dużymi zbiorami danych w USA istnieją dwa krytyczne aspekty inżynieryjne, które należy uwzględnić w architekturze od samego początku:

    1. Ominięcie limitów Google i LinkedIn
    Bezpośrednie uruchomienie emulatora przeglądarki do zapytań wyszukiwania w Google szybko napotka na CAPTCHA (już po kilku dziesiątkach iteracji). Dla stabilnej pracy systemu w trybie wielowątkowym używam PHP w połączeniu z rotacyjnymi proxy residentami oraz narzędziami automatyzacji (takimi jak Symfony Panther lub w ramach Laravel przez Spatie Browsershot / headless Chrome). Alternatywną i bardziej stabilną opcją dla dużych wolumenów wyszukiwania jest integracja przez Search API, co całkowicie eliminuje problem CAPTCHA Google. Same zdjęcia profili oraz dane biznesowe są pobierane przez emulację przeglądarki w celu ominięcia ochrony JS LinkedIn.

    2. Weryfikacja i minimalizacja błędnych dopasowań (Matching)
    Aby uniknąć łączenia osób o tym samym nazwisku z różnych stanów, system wykonuje wielopoziomową walidację za pomocą PHP:
    - Normalizacja nazw firm (oczyszczenie z Ltd, Corp, LLC).
    - Porównywanie ciągów za pomocą algorytmów podobieństwa tekstów (wbudowane "levenshtein()", "similar_text()" lub implementacja Jaro-Winkler) dla imion i nazw firm.
    - Ścisły filtr geograficzny na zgodność stanu/adresu podanego w twojej bazie z danymi znalezionego profilu.
    Na podstawie tych czynników każdemu wpisowi przypisywana jest ocena pewności. Do końcowego pliku CSV/JSON eksportowane są tylko wyniki, które przeszły ustalony próg dokładności.

    Stos technologiczny: PHP (CLI / Laravel), Symfony Panther / Headless Chrome (automatyzacja przeglądarki), Laravel Queues (Redis) dla niezawodnej kolejki i wielowątkowości, algorytmy dopasowywania ciągów do oczyszczania danych.

    Szacunkowy koszt opracowania i konfiguracji takiego rozwiązania: 400 – 600 USD (w zależności od ostatecznej objętości danych i potrzeby integracji z zewnętrznymi API).
    Termin realizacji: 5–7 dni roboczych do wydania pierwszego stabilnego wyniku.

    Jestem gotów przetestować logikę na małym teście twojej bazy (na przykład 20–50 wierszy), aby pokazać dokładność zbierania i dopasowywania na moim stosie. Czekam na feedback na czacie.

  23. 477  
    1 dzień186 PLN

    Dzień dobry!

    Jestem gotów zająć się realizacją systemu wzbogacania danych z otwartych źródeł.

    Mam doświadczenie w parsowaniu, wzbogacaniu danych, automatyzacji wyszukiwania, przetwarzaniu dużych zbiorów CSV/JSON, deduplikacji oraz weryfikacji danych według kilku atrybutów.

    Proponuję stos technologiczny:
    • Python;
    • Playwright / Selenium do stron dynamicznych;
    • Scrapy / Requests / BeautifulSoup do źródeł statycznych;
    • pandas do przetwarzania danych;
    • fuzzy matching do dopasowywania imion, firm, adresów i stanów;
    • eksport wyników do CSV / JSON.

    Widzę podejście w następujący sposób:

    1. Załadowanie początkowej bazy.
    2. Generacja zapytań wyszukujących według imienia, firmy, stanu i adresu.
    3. Wyszukiwanie profili i stron biznesowych przez otwarte źródła.
    4. Dopasowanie wyników do rekordów według kilku parametrów.
    5. Weryfikacja dopasowań i przypisanie confidence score.
    6. Zbieranie dostępnych pól: LinkedIn/Facebook, strona, telefon, email, zdjęcie profilu, media społecznościowe.
    7. Deduplikacja i formowanie finalnego CSV/JSON.

    Mogę również przewidzieć logowanie, ponowne przetwarzanie nieudanych rekordów oraz ręczną weryfikację wątpliwych dopasowań, aby zminimalizować błędy.

    Jestem gotów omówić zakres bazy, przykład pliku wejściowego oraz pożądaną strukturę wyniku.

  24. 2947    73  4   2
    2 dni483 PLN

    Dzień dobry! Zadanie jest zrozumiałe, więc mogę zrealizować taki system w ciągu kilku dni!!! Gotowa na produktywną i jakościową współpracę!!!

  25. 512    6  0
    1 dzień372 PLN

    Dzień dobry.

    Mam duże doświadczenie w tworzeniu projektów internetowych w PHP i Pythonie, automatyzacji przetwarzania danych, integracjach z zewnętrznymi usługami oraz pracy z dużymi zbiorami informacji. Pracowałem również z parsowaniem danych z otwartych źródeł, przetwarzaniem wyników oraz ich dalszym strukturyzowaniem do wykorzystania w procesach biznesowych. W swoim czasie zarządzaliśmy sieciami stron internetowych mfa z zebranych danych firm.

    Aby zrealizować podobny projekt, widzę rozwiązanie w postaci wielostopniowego pipeline'u:

    wyszukiwanie potencjalnych profili przez wyszukiwarki i otwarte źródła;
    automatyczny zbiór danych za pomocą Pythona (Selenium/Scrapy, zobaczymy, co będzie odpowiednie);
    werifikacja zgodności według imienia i nazwiska, nazwy firmy, adresu, stanu oraz dodatkowych atrybutów;
    deduplication i ocena wiarygodności znalezionych wyników;
    formowanie ustrukturyzowanego wyniku w formatach JSON lub CSV.

    Z technologii mam doświadczenie w pracy z Pythonem, Selenium, SQL, REST API, przetwarzaniem danych oraz automatyzacją procesów biznesowych. Mam również znaczące doświadczenie w pracy z systemami legacy oraz projektami, w których trzeba szybko zrozumieć logikę przetwarzania dużych ilości danych.

    Jestem gotów omówić szczegóły, oczekiwane ilości zapisów oraz wymagania dotyczące dokładności dopasowania danych.

  26. 462    1  1
    10 dni1208 PLN

    Dzień dobry.\nJestem gotów zrealizować system wzbogacania bazy danych z otwartych źródeł: LinkedIn, Facebook, strony firmowe oraz wyszukiwarki.\nPracuję z Pythonem, Playwright/Selenium, CSV/JSON, parsowaniem, deduplikacją oraz weryfikacją danych. Mogę skonfigurować wyszukiwanie profili, dopasowywanie według imienia, firmy, adresu/stanu oraz formowanie gotowego wyniku w CSV lub JSON.

  27. 182  
    2 dni93 PLN

    Dzień dobry.

    Mam doświadczenie w tworzeniu parserów oraz systemów zbierania/wzbogacania danych w Pythonie (Playwright, Selenium). Pracowałem z wyszukiwaniem i weryfikacją kontaktów, profili firm i właścicieli biznesów z otwartych źródeł.

    Mogę zaproponować rozwiązanie do dopasowywania danych według imienia i nazwiska, firmy oraz lokalizacji z eksportem wyników do CSV lub JSON. Jeśli masz przykład bazy — prześlij, szybko ocenię złożoność i zakres prac.

  28. 9944    117  0
    1 dzień186 PLN

    Cześć.

    Opracowuję parsery w NodeJS. Jestem gotów się tym zająć. Piszcie, omówimy.

  29. 1014    6  1
    1 dzień93 PLN

    Witam. Mam odpowiednie doświadczenie w automatyzacji w Pythonie, parsowaniu otwartych źródeł, podejściu OSINT, deduplikacji i strukturyzacji danych.

    Pracowałem nad zadaniami zbierania danych z witryn, mediów społecznościowych, Telegramu/źródeł internetowych, przetwarzania profili, wyszukiwania dopasowań, filtrowania nieistotnych wyników oraz eksportu do CSV/Excel/JSON.

    Stos technologiczny: Python, Playwright, Selenium, Scrapy/BeautifulSoup, requests/httpx, Pandas, PostgreSQL/SQLite, SQLAlchemy, Docker. W razie potrzeby można dodać kolejki, proxy, limity prędkości, logowanie oraz mechanizm wznowienia dla dużych zbiorów danych.

    Widzę podejście w ten sposób:

    1. Bierzemy dane wejściowe: imię, firma, adres, stan.
    2. Generujemy zapytania wyszukujące przez Google/Bing z operatorami `site:linkedin.com/in`, `site:linkedin.com/company`, a także wyszukiwanie na stronie firmy.
    3. Zbieramy kandydatów: profil LinkedIn, strona firmy, witryna, telefon, e-mail, linki do mediów społecznościowych.
    4. Robimy ocenę weryfikacyjną: dopasowanie imienia, firmy, stanu, adresu/miasta, stanowiska, domeny firmy.
    5. Odrzucamy słabe dopasowania, duplikaty i podejrzane wyniki.
    6. Formujemy ustrukturyzowany wynik w CSV lub JSON z wynikiem pewności i źródłami.

    Mogę zrealizować MVP, które przetwarza część bazy, pokazuje jakość dopasowania, a następnie skalować pod duże zbiory we wszystkich stanach USA.

  30. 196  
    16 dni92 917 PLN

    mamy prawie gotowe rozwiązanie do wzbogacania baz i klasyfikacji znalezionych profili, możemy szybko dostosować do twoich zapisów i omówić szczegóły tutaj, jestem w kontakcie ))
    wstępnie widzę pierwszy etap roboczy na 16 dni, w stawce zakładam 65000 UAH za pilota z wyszukiwaniem, weryfikacją dopasowań, deduplikacją i eksportem do JSON lub CSV.
    Technicznie robiłbym to w Pythonie, Playwright lub Scrapy, kolejki zadań, cache wyników, scoring dopasowań według imienia, firmy, adresu, stanu, domeny i telefonu.
    Osobno zakładałbym ograniczenia częstotliwości, ponowne weryfikacje, log przyczyn dopasowania i ręczną listę wątpliwych zapisów, bo w takich zadaniach lepiej siedem razy zmierzyć, niż potem czyścić całą bazę ręcznie.
    Relewantne doświadczenie mam w automatyzacji zbierania, strukturyzowania i weryfikacji danych dla procesów biznesowych.
    https://business.ingello.com/vorfahr - blisko pod względem logiki automatyzacji wyszukiwania i pracy z danymi.
    https://business.ingello.com/fractal - przykład automatyzacji agencji i skomplikowanych procesów przetwarzania informacji.
    nasz profil i podejście dla FLH - https://systems-fl.ingello.com/ua
    wyjaśnię tylko 2 rzeczy.
    jaki jest zakres pierwszej partii - 1000, 10000, 100000 zapisów czy więcej?
    fotografia profilu ma być przechowywana jako link czy ładowana plikiem?

  31. 2496    20  0
    1 dzień186 PLN

    Dzień dobry, jestem gotów wykonać twoje zadanie szybko i jakościowo. Mam duże doświadczenie w tworzeniu różnych parserów. Napisz w wiadomościach prywatnych, omówimy szczegóły. Chętnie pomogę)

  32. Jeszcze 7 ofert jest ukrytych
  1. 4120    8  0   1
    1 dzień93 PLN

    Dzień dobry.
    Nasz zespół ma wieloletnie doświadczenie w tworzeniu ERP, CRM, CMS oraz specjalistycznego oprogramowania dla biznesu. Tworzymy efektywne rozwiązania cyfrowe, które pomagają automatyzować procesy, zwiększać wydajność i skalować firmy.

    Mamy już gotowe rozwiązanie dotyczące parsera.

    Pracujemy z nowoczesnymi technologiami — od botów i skryptów po agentów AI i systemy analityczne. Opracowujemy strony internetowe o różnym stopniu skomplikowania. W naszym portfolio znajdują się zrealizowane rozwiązania ERP dla branży hotelarskiej, a także dla firm zajmujących się importem i sprzedażą towarów, a także nasz własny produkt XFitness — system ERP stworzony specjalnie dla klubów fitness.

    Jesteśmy gotowi zrealizować Twój projekt i zaproponować najlepsze rozwiązanie dostosowane do Twoich potrzeb.
    Nasze portfolio: Freelancehunt

    Specjalizujemy się w takich dziedzinach:
    -Rozwój systemów ERP
    -Rozwój systemów CRM
    -Rozwój stron internetowych o dowolnym stopniu skomplikowania
    -Rozwój systemów CMS
    -Wsparcie stron internetowych
    -Rozwój OpenCart
    -Wsparcie OpenCart
    -Modyfikacja OpenCart
    -Doróbka OpenCart
    -Rozwój WordPress
    -Wsparcie WordPress
    -Modyfikacja WordPress
    -Doróbka WordPress
    -Rozwój ECommerce
    -Wsparcie ECommerce
    -Modyfikacja ECommerce
    -Doróbka ECommerce
    -Rozwój aplikacji webowych
    -Wsparcie serwerów 1C
    -Wsparcie serwerów webowych
    -Rozwój aplikacji mobilnych
    -Parsowanie danych
    -Rozwój botów
    -Rozwój agentów AI

    oraz w takich technologiach:
    -Python
    -PHP
    -Laravel
    -Symfony
    -Yii2
    -JS
    -NodeJS
    -jQuery
    -TypeScript
    -MySQL
    -HTML
    -CSS
    -Vue
    -Nuxt.js
    -React
    -React Native
    -C++

  2. 520    4  2
    1 dzień93 PLN

    Dzień dobry.
    Mam doświadczenie w opracowywaniu systemów zbierania i wzbogacania danych, parserów oraz automatyzacji pracy z dużymi zbiorami informacji. Do podobnych zadań zazwyczaj używam Pythona, Playwright, Selenium, Scrapy, PostgreSQL oraz narzędzi do deduplikacji i weryfikacji danych.
    Będę w stanie zrealizować proces wyszukiwania i porównywania profili właścicieli firm na podstawie imienia, nazwy firmy, adresu, stanu i innych atrybutów w celu minimalizacji błędnych dopasowań. Wynik może być formowany w JSON lub CSV z wymaganą strukturą danych do dalszego przetwarzania.

    Mam również doświadczenie w budowaniu pipeline'ów wzbogacania danych, gdzie ważne jest nie tylko znalezienie informacji, ale także sprawdzenie jej trafności i jakości przed zapisaniem w bazie.
    Proszę o informację:
    * Jaki jest orientacyjny rozmiar bazy na początku (tysiące czy dziesiątki tysięcy rekordów)?
    * Czy potrzebne jest jednorazowe przetwarzanie, czy regularne aktualizacje danych?
    * Czy istnieje przykład pożądanego formatu JSON/CSV dla ostatecznego wyniku?

  3. Jeszcze 3 ofert jest ukrytych

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych

Badanie segmentu premium Kijowa

Badanie segmentu premium w Kijowie Potrzebne jest przeprowadzenie poszukiwań otwartych publicznych kanałów komunikacji z przedstawicielami segmentu premium w Kijowie. Co należy zebrać: otwarcie opublikowany email lub telefon do kontaktu, jeśli jest umieszczony w publicznym…

Parsowanie danychWyszukiwanie i zbieranie informacji ∙ 6 godzin 40 minut temu ∙ 9 ofert

Wymagany specjalista ds. promocji w Telegramie.

106 PLN

Zadania: zapraszanie rzeczywistych użytkowników z bazy nazw użytkowników do nowych czatów oraz wysyłanie wiadomości do docelowej bazy. Interesuje nas tylko jakościowy ruch i praca z żywą publicznością — wykonawców korzystających z botów, sztucznego zwiększania lub niskiej…

Parsowanie danychPromocja w sieciach społecznościowych (SMM) ∙ 3 dni 1 godzina temu ∙ 8 ofert

Zbieranie bazy danych B2B firm w Niemczech

149 PLN

Cel: Uzyskanie listy potencjalnych pracodawców (klientów) do wysyłki B2B. Region: Monachium (München) + promień 50 km. Wymagane nisze: Firmy budowlane (Bauunternehmen) Przemysł spożywczy (Lebensmittelhersteller, zakłady mięsne, piekarnie) Logistyka i kompleksy magazynowe…

Parsowanie danychSprzedaż i generowanie leadów ∙ 3 dni 3 godziny temu ∙ 34 oferty

Konsultacja dotycząca parsowania subskrybentów kont Instagram

Witam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem…

Parsowanie danych ∙ 6 dni 20 godzin temu ∙ 13 ofert

Potrzebny specjalista do wyszukiwania kontaktów decydentów w Ukrainie

Konieczne jest zebranie bazy (lub gotowej bazy) kontaktów osób podejmujących decyzje (LPR) w firmach Ukrainy.

Wyszukiwanie i zbieranie informacjiParsowanie danych ∙ 7 dni temu ∙ 20 ofert

Zleceniodawca
Roman Sovan
Stany Zjednoczone Stany Zjednoczone  300  1
Zlecenie zostało opublikowane
7 dni 7 godzin temu
448 wyświetleń
Do zamknięcia
6 dni 16 godzin
Tagi