Skrypt do web scrapingu danych sportowych z Sofascore
Potrzebny jest kod w Pythonie do web scrapingu. Biblioteka/funkcja, którą mogę użyć do osiągnięcia następujących celów:
- Pobranie danych o nadchodzących meczach tenisowych: kursy, nazwiska graczy, rankingi i standardowe dane meczowe, które są wymienione na stronie
- Pobranie danych historycznych meczów tenisowych: statystyki, punkt po punkcie, moc tenisowa, kursy, nazwiska graczy i rankingi, standardowe dane meczowe, które są wymienione na stronie
- Dane poszczególnych graczy tenisowych
- Rankingi ATP i WTA (rankingi tenisowe)
Wszystkie te dane prawdopodobnie są dostępne w formie czytelnych jsonów w aktywności sieciowej strony internetowej. Potrzebuję kogoś, kto stworzy funkcje/bibliotekę w Pythonie, która pobierze te dane i zwróci na przykład DataFrame z tymi pobranymi jsonami zapisanymi w kolumnach jako tekst lub json.
Mam już kod, który robi tego typu rzeczy dla meczów piłkarskich. Ale ten kod pobiera tylko około 500-1500 historycznych meczów i potem zwraca błąd 403. Potrzebne jest rozwiązanie do scrapowania danych tenisowych, które będzie działać szybko i niezawodnie, pobierając 300000 meczów w ciągu godzin/dni. A nadchodzące/zaplanowane mecze w sekundach/minutach. Obecne rozwiązanie do scrapowania piłkarskiego korzysta z curl_cffi, różnych ustawień nagłówków (język i ustawienia przeglądarki), najtańskiego rotującego proxy rezydencyjnego, które znalazłem, oraz kilku sekundowych przerw między żądaniami. Funkcje stealth w obecnym kodzie są moją własną pracą, więc można je jeszcze poprawić.
Proszę pytać, jeśli potrzebujesz więcej informacji o tym projekcie.
Opinia zleceniodawcy o współpracy z Yelisey H.
Skrypt do web scrapingu danych sportowych z SofascoreŚwietny końcowy efekt. Dobra robota.
Opinia freelancera o współpracy z Joachim Virta
Skrypt do web scrapingu danych sportowych z SofascoreSzczerze dziękuję Joachimowi za ten projekt. Jasne wymagania techniczne, szybka i przyjazna komunikacja oraz głębokie zaangażowanie w proces — współpraca była naprawdę przyjemna. Klient zawsze udzielał terminowych informacji zwrotnych, zapewnił wszelkie niezbędne dostępy i podejmował decyzje szybko, co pozwoliło mi w pełni skupić się na stronie technicznej i dostarczyć najlepszy rezultat. Chętnie ponownie będę pracować z Joachimem w przyszłości i zdecydowanie polecam go jako rzetelnego i wyrozumiałego klienta.
Dziękuję za możliwość pracy nad interesującym i ważnym zadaniem!
-
2 dni469 PLN
71 2 dni469 PLNCześć Joachim.
Muszę powiedzieć, że ostatnio pracowałem nad web scraperem do projektu na uczelni, nie tylko to, ale także stworzyłem aplikację Streamlit do wyświetlania i analizy danych za pomocą dynamicznych wykresów.
Python jest jedną z moich mocnych stron, ponieważ realizowałem wiele projektów związanych z danymi, korzystając z tego języka.
W ramach Twojego projektu mogę pobrać dane, oczyścić je i dostarczyć Ci aplikację Streamlit, którą będziesz mógł oglądać na żywo za każdym razem, gdy się zaktualizuje, bez konieczności dalszego kodowania. A jeśli nie potrzebujesz aplikacji i chcesz, żebym pracował nad już nieukończoną aplikacją, którą masz, również mogę to zrobić.
Śmiało skontaktuj się ze mną, aby rozpocząć pracę nad projektem.
-
5 dni1918 PLN
146 5 dni1918 PLNCześć, Dziękuję za szczegółowe wyjaśnienie. Pracowałem nad podobnymi projektami skrobania danych, w tym zbieraniem danych sportowych o dużej objętości i automatyzacją ukrytą opartą na proxy. Dla Sofascore mogę zbudować bibliotekę w Pythonie z dobrze zorganizowanymi funkcjami, które zwracają nadchodzące mecze, statystyki historyczne, informacje o zawodnikach i rankingi — wszystko poprzez szybkie i odporne skrobanie.
Mój plan to użycie `httpx` z `curl_cffi` i rotacją sesji, dokładne dopasowanie nagłówków i odcisków urządzeń. Aby uniknąć błędów 403 podczas długich sesji skrobania, zoptymalizuję obsługę proxy i logikę ponawiania prób. Funkcje będą zwracać czyste DataFrame'y pandas z surowymi ładunkami JSON na rekord, dzięki czemu łatwo będzie eksplorować lub przechowywać dane.
Proponuję również cache'ować tokeny sesji lub ciasteczka, gdy to możliwe, aby zmniejszyć obciążenie związane z uwierzytelnianiem i wcześnie wykrywać zachowania anty-botowe. Jeśli masz już swój aktualny skrypt piłkarski, chętnie go bezpośrednio ulepszę.
Czy możesz potwierdzić, czy masz już dostawcę proxy, czy wolisz, żebym polecił lepszego na podstawie Twojego wolumenu?
Czekam na współpracę.
Pozdrawiam,
… Daniel
-
Oferta, która wygrała2 dni469 PLN
709 7 0 Oferta, która wygrała2 dni469 PLNDzień dobry!
Gotowy do realizacji Twojego projektu w Pythonie z wykorzystaniem zapytań do wewnętrznego API strony Sofascore.
✅ Co zrobię:
Napiszę stabilny skrypt Python (bibliotekę/funkcję), który będzie parsować dane o meczach tenisowych z Sofascore (kursy, statystyki, rankingi ATP i WTA itp.).
Dostarczę wygodny interfejs do pobierania danych w formatach JSON i pandas DataFrame.
…
Rozwiążę problem z blokadami (błąd 403), korzystając z niezawodnej rotacji nagłówków i proxy (jeśli będzie konieczne — mogę zaproponować przetestowane rozwiązania z residential proxy).
⚙️ Stos:
Python (requests, pandas)
Wewnętrzne zapytania API JSON bezpośrednio do serwera (bez automatyzacji przeglądarki)
🚀 Gwarantuję:
Stabilność i dokładność danych
Wysoką szybkość działania (setki tysięcy zapytań dziennie)
Czysty i czytelny kod z komentarzami
Koszt: 110 EUR
Termin: 3 dni
Jestem do dyspozycji, aby omówić szczegóły!
-
5 dni1918 PLN
16265 36 0 5 dni1918 PLNCześć Joachim,
Starannie przeanalizowałem Twój projekt dotyczący wyciągania danych tenisowych z Sofascore. To trudne zadanie, ale posiadam doświadczenie, aby zbudować solidne, szybkie rozwiązanie, którego potrzebujesz.
Błąd 403, na który napotykasz w swoim obecnym skrypcie, jest wyraźnym sygnałem, że Sofascore skutecznie "odczuwa" i blokuje Twoje żądania. Proste podejście curl_cffi z podstawowymi nagłówkami i proxy często nie wystarcza dla tak zaawansowanego celu.
Aby to rozwiązać, zbuduję profesjonalną bibliotekę do scrapowania w Pythonie, korzystając z dużo potężniejszej architektury:
Silnik główny (Playwright): Użyję Playwright, a nie tylko bibliotek requests. To pozwala na automatyzację prawdziwej instancji przeglądarki, co sprawia, że zachowanie naszego skryptu jest niemal nie do odróżnienia od użytkownika.
…
Zaawansowane techniki Anti-Fingerprinting: Wdrożę techniki ukrywania się, aby uniknąć wykrycia. Obejmuje to tworzenie własnych "kontekstów" przeglądarki z losowymi agentami użytkownika, rozdzielczościami ekranu i innymi właściwościami na poziomie przeglądarki, które systemy anty-botowe sprawdzają.
Inteligentne zarządzanie żądaniami: Skrypt będzie zaprojektowany tak, aby naśladować ludzkie wzorce przeglądania, a nie tylko wykonywać szybkie żądania. Będzie również inteligentnie obsługiwał rotację proxy, aby zminimalizować ryzyko blokady IP.
Jako certyfikowany programista Python PCAP™, specjalizuję się w tworzeniu tego typu niezawodnych systemów ekstrakcji danych. Ostateczny produkt będzie czystą biblioteką Python z funkcjami takimi jak get_upcoming_matches(), get_historical_data(match_id) itd., które zwrócą dane w DataFrame, jak tego oczekiwałeś.
Szacunkowy czas realizacji:
Termin: 5 dni
Cena: 450 USD
Twój budżet €110 niestety nie wystarcza na opracowanie systemu, który potrafiłby obejść nowoczesne rozwiązania anty-botowe na takim poziomie, jakiego potrzebujesz. Moja cena odzwierciedla rozwój profesjonalnego narzędzia, które będzie szybkie, niezawodne i zdolne do obsługi Twoich potrzeb związanych z danymi.
Jestem gotowy zbudować scraper, który naprawdę działa.
-
2 dni469 PLN
1338 17 0 2 dni469 PLNDobry wieczór, mogę pomóc Ci z Twoim projektem, mam również doświadczenie w tej dziedzinie. Pisz i omówimy wszystkie szczegóły.
-
1 dzień469 PLN
634 22 0 1 dzień469 PLNWitam..
Robiłem podobne rzeczy związane z piłką nożną dla strony flashcore. (jest w portfolio). Pod względem szybkości około 2000 meczów na minutę. Jeśli taki wariant odpowiada, proponuję omówić to bardziej szczegółowo w wiadomościach prywatnych
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Zeskanuje grupy na Telegramie
58 PLN
Należy zeskrobać telegramy grupy i posortować je według folderów. Potrzebne są grupy publiczne i prywatne. Wszystko, co jest w Polsce Parsowanie danych, Tworzenie chatbota ∙ 10 godzin 32 minuty temu ∙ 16 ofert |
Badanie segmentu premium KijowaBadanie segmentu premium w Kijowie Potrzebne jest przeprowadzenie poszukiwań otwartych publicznych kanałów komunikacji z przedstawicielami segmentu premium w Kijowie. Co należy zebrać: otwarcie opublikowany email lub telefon do kontaktu, jeśli jest umieszczony w publicznym… Parsowanie danych, Wyszukiwanie i zbieranie informacji ∙ 20 godzin 36 minut temu ∙ 13 ofert |
Wymagany specjalista ds. promocji w Telegramie.
107 PLN
Zadania: zapraszanie rzeczywistych użytkowników z bazy nazw użytkowników do nowych czatów oraz wysyłanie wiadomości do docelowej bazy. Interesuje nas tylko jakościowy ruch i praca z żywą publicznością — wykonawców korzystających z botów, sztucznego zwiększania lub niskiej… Parsowanie danych, Promocja w sieciach społecznościowych (SMM) ∙ 3 dni 15 godzin temu ∙ 8 ofert |
Zbieranie bazy danych B2B firm w Niemczech
149 PLN
Cel: Uzyskanie listy potencjalnych pracodawców (klientów) do wysyłki B2B. Region: Monachium (München) + promień 50 km. Wymagane nisze: Firmy budowlane (Bauunternehmen) Przemysł spożywczy (Lebensmittelhersteller, zakłady mięsne, piekarnie) Logistyka i kompleksy magazynowe… Parsowanie danych, Sprzedaż i generowanie leadów ∙ 3 dni 17 godzin temu ∙ 34 oferty |
Konsultacja dotycząca parsowania subskrybentów kont InstagramWitam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem… Parsowanie danych ∙ 7 dni 10 godzin temu ∙ 13 ofert |