Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak

Viktor Gayoha

Zaproponuj Viktor pracę nad swoim kolejnym zleceniem.

Ukraina Czerniowce, Ukraina
1 miesiąc 4 dni temu
Gotowy do podjęcia pracy gotowy do podjęcia pracy
Zakończone 2 Sejfy
1 miesiąc 30 dni temu
2 zleceniodawców
wiek 29 lat
w Serwisie 2 lata

Ranking

Zakończonych zleceń
Brak danych
Średnia ocena
Brak danych
Ranking
783
Parsowanie danych
Python

Poziom znajomości języków obcych

Українська Українська: native
Русский Русский: zaawansowany
Polski Polski: średniozaawansowany
English English: podstawowy

Umiejętności i kwalifikacje

Portfolio


  • Parsowanie zabezpieczonej strony SPA, Ominięcie Cloudflare i systemu antybotowego

    Parsowanie danych
    Cel: Zgromadzić 100% dokładne dane o ponad 1000 wystawcach (nazwa, kraj, numer stoiska, ukryte e-maile i telefony, kategorie) z oficjalnej strony Salone del Mobile.

    Główne wyzwania:

    Agresywna ochrona antybotowa (Cloudflare): Standardowe zapytania (requests/httpx) zwracały 403 Forbidden. Zwykłe przeglądarki headless (Selenium, Playwright) oraz nawet frameworki takie jak undetected-chromedriver były natychmiast blokowane.

    Skomplikowana architektura SPA (React / Next.js): Na stronie nie było standardowych linków HTML. Cała nawigacja odbywała się wyłącznie przez obsługiwacze zdarzeń React (onClick), co uniemożliwiało tradycyjne zbieranie URL. Ponadto dane kontaktowe były ukryte w nie-semantycznych tagach.

    Moje rozwiązanie:
    Aby osiągnąć idealną dokładność i obejść ochronę, opracowałem niestandardowe podejście hybrydowe:

    Połączenie przez Chrome DevTools Protocol (CDP): Zamiast uruchamiać nową instancję zautomatyzowanej przeglądarki, mój skrypt używał Playwright do połączenia z już uruchomioną, "żywą" sesją Google Chrome (http://localhost:9222). To dało 100% "czynnik zaufania" legalnego użytkownika (razem z rzeczywistymi ciasteczkami, historią i odciskami Canvas). Cloudflare zostało ominięte bez żadnej rozwiązanej captchy.

    Inteligentna nawigacja: Skrypt wizualnie naśladował zachowanie człowieka — przechwytywał dynamiczne lokalizatory, fizycznie klikał myszką, aby wywołać stany React i używał wewnętrznego routera strony, aby wrócić do listy, zachowując paginację.

    Parsowanie HTML: Przechwycony stan strony był przetwarzany przez BeautifulSoup oraz złożone wyrażenia regularne (Regex) w celu dokładnego wyodrębnienia "zepsutych" lub źle sformatowanych linków oraz numerów telefonów.

    Wykorzystane technologie:

    Python 3.12

    Playwright (Sync API): interakcja z DOM i połączenie przez CDP.

    BeautifulSoup4 & Regex: dokładne wyszukiwanie i wyodrębnianie danych.

    Pandas: strukturyzacja i eksport danych do czystego CSV (UTF-8 z BOM) oraz Excel.

    Wynik:
    Skrypt całkowicie autonomicznie zgromadził i idealnie sformatował dane ponad 1200 firm. Stworzona architektura pozwala na skalowanie parsowania bez ryzyka uzyskania bana po IP.
  • Skraper do generowania leadów B2B (Bazy danych korporacyjnych)

    Parsowanie danych
    Cel: Opracowanie zautomatyzowanego web scrapera w Pythonie do zbierania uporządkowanych danych kontaktowych i finansowych potencjalnych klientów B2B z publicznych katalogów biznesowych.

    Moje rozwiązanie i realizacja techniczna:

    Parsowanie tabel HTML: Skrypt skutecznie przeszukuje strony katalogów i wyciąga potrzebne informacje ze skomplikowanej struktury tabelarycznej stron za pomocą biblioteki BeautifulSoup.

    Stabilność działania: Aby zapobiec blokadom ze strony docelowych serwerów, skonfigurowano niestandardowe nagłówki HTTP, które imitują zapytania z prawdziwej przeglądarki. Zapewniło to nieprzerwane zbieranie danych podczas długich sesji.

    Głębokie czyszczenie danych: Zebrane "surowe" informacje często zawierały zbędne znaki i artefakty formatowania. Za pomocą biblioteki Pandas wdrożyłem logikę automatycznego czyszczenia kluczowych metryk. Na przykład pola "Przychód firmy" oraz "Liczba pracowników" zostały programowo oczyszczone z tekstu i przekształcone w ścisłe wartości liczbowe.

    Przygotowanie do CRM: Ostateczny zestaw danych jest automatycznie eksportowany w poprawnym formacie CSV z właściwą strukturą kolumn.

    Wykorzystane technologie:
    Python, BeautifulSoup, Pandas, Konfiguracja nagłówków HTTP.

    Wynik:
    Zleceniodawca otrzymał w pełni zautomatyzowane narzędzie do generowania leadów. Na wyjściu powstaje idealnie czysty plik CSV, który można natychmiast zaimportować do dowolnego systemu CRM bez potrzeby dodatkowego ręcznego przetwarzania czy poprawiania błędów formatowania.
  • Rozszerzony parser E-commerce (Selenium i omijanie ochrony antybotowej)

    Parsowanie danych
    Cel: Opracowanie odpornego web scrapera do zbierania aktualnych danych o produktach w czasie rzeczywistym z dynamicznych platform e-commerce (takich jak eBay) do monitorowania cen i analityki.

    Główne wyzwania:

    Dynamiczna treść: Dane były ładowane przez skomplikowane zapytania JavaScript/AJAX, a nie po prostu znajdowały się w HTML.

    Systemy antybotowe: Platformy stosowały zaawansowane algorytmy do blokowania zautomatyzowanych działań.

    Niestabilny układ: Struktura stron (DOM) mogła się zmieniać, co powodowało, że zwykłe sztywno napisane parsery natychmiast się psuły.

    Moje rozwiązanie:

    Obchodzenie zabezpieczeń: Użyłem Selenium z elastycznymi konfiguracjami stealth webdriver. Aby skrypt wyglądał jak żywa osoba, dodałem symulację naturalnego zachowania (losowe opóźnienia między kliknięciami, przewijanie), co pozwoliło na zbieranie danych bez ryzyka zablokowania.

    Odporność kodu (Fallback Selectors): Wprowadziłem system dynamicznych selektorów zapasowych. Jeśli sklep internetowy nieznacznie zmieniał design lub układ, skrypt nie kończył się błędem, lecz automatycznie przechodził na zapasową metodę wyszukiwania elementu i kontynuował pracę.

    Automatyczna nawigacja: Skonfigurowano niezawodną paginację, co pozwoliło na autonomiczne zebranie setek listingów z wielu stron w jednym uruchomieniu.

    Głęboka czyszczenie danych: Surowe dane z sklepów internetowych często zawierają śmieci. Zastosowałem wyrażenia regularne (Regex) do czyszczenia tekstu (na przykład, wydobywanie czystej ceny bez waluty i spacji) oraz Pandas do sortowania końcowego zbioru danych według rosnącej ceny.

    Wykorzystane technologie: Python, Selenium (Stealth), Pandas, Regex (Wyrażenia regularne).

    Wynik:
    Zleceniodawca otrzymał nie tylko skrypt, ale niezawodne narzędzie. Na wyjściu — idealnie sformatowane, posortowane i gotowe do produkcji pliki CSV, które można od razu załadować do systemów analitycznych lub baz danych.

Recenzje dotyczące zrealizowanych zleceń 2

Jakość
Profesjonalizm
Koszt
Zawsze w kontakcie
Terminy

Niesamowicie zadowolony ze współpracy! Bardzo fajne podejście, wykonawca nie tylko czeka na wskazówki, ale sam wykazuje inicjatywę i znajduje optymalne sposoby rozwiązania trudnych kwestii. Zawsze w kontakcie, natychmiast odpowiada, komunikacja na najwyższym poziomie. Profesjonalista, który naprawdę zna się na swojej pracy. Zrobił wszystko szybko, jakościowo i z rozwagą. Zdecydowanie będę sięgać po usługi ponownie!

Jakość
Profesjonalizm
Koszt
Zawsze w kontakcie
Terminy

Bardzo dziękuję!
Świetny wykonawca - zrobił wszystko szybko i dokładnie
Super wsparcie - wychodzi naprzeciw - otrzymaliśmy nawet więcej niż było wskazane w specyfikacji
Będziemy jeszcze współpracować!

Profil został usunięty | Sejf Sejf | Wzajemna opinia

Aktywność

  Ostatnie oferty 10
Parsowanie PDF bankowych wyciągów
247 PLN
Parser książek PDF (tekst + obrazy)
822 PLN
Opracowanie asystenta AI do zautomatyzowanej kontroli i analityki połączeń
1439 PLN
Skrypt Telegram
547 PLN
Czat-bot telegramowy do rezerwacji w studiu detailingowym
247 PLN
Należy zebrać i uruchomić 10 stron internetowych za pomocą AI
206 PLN
Parsowanie zdjęć produktów dla sklepu internetowego
688 PLN
Парсинг даних товарів з сайту постачальника
164 PLN
Automatyka/oprogramowanie do odczytu powiadomień PUSH banku (P2P, kryptowaluty, banki)
370 PLN
Zrób parser z Allegro w niszy sprzętu specjalistycznego
1234 PLN