Промисловий парсер тенісних даних Sofascore – робота з портфоліо фрилансера Елисея | приклад з категорії Парсинг даних (№1958396)

Switch to English version?

Yes

Переключитись на українську версію?

Так

Переключиться на русскую версию?

Да

Przełączyć się na polską wersję?

Tak

#Парсинг #Python #Автоматизація #DataScience #Sofascore #Скрейпер

Створив модульну бібліотеку[див. фото 1] і комплект скриптів на Python для автоматизованого збору даних по всіх тенісних матчах і гравцях з сайту Sofascore.

Функціонал:
Збір всієї історії та майбутніх матчів за діапазоном дат (id, статистика, очки, коефіцієнти, сила гравців).
Парсинг інформації по кожному гравцю та його рейтингу.
Вбудований захист від антибота: автоматична ротація проксі, динамічний user-agent, cookies.
Багатопоточність: регулюється через налаштування, дозволяє прискорити збір (16400 матчів/год[див. фото 2] і 42000 гравців/год[див. фото 3]).
Розумна система повторних спроб і автоматичне оновлення недостаючих даних (403, 429)[див. фото 4].
Весь налаштування — через файл config.py (дати, проксі, потоки, затримки).
Експорт: чисті CSV-файли, повністю сумісні з pandas, готові для ML і аналітики.
Логи, прогрес-бар, ETA (залишковий час), вивід швидкості в хвилину/годину.
Детальна документація українською та англійською, приклади запуску з коду та консолі.

Результат:
Проєкт успішно реалізовано для клієнта, повністю автоматизовано процес збору та оновлення даних, забезпечена висока швидкість і стабільність навіть при великих обсягах.

Стек: Python 3.11+, curl_cffi, pandas, threading, проксі.

←
Робота 2 з 3
→

Додано 12 липня 2025

260 переглядів

Опублікувати аналогічний проєкт

Елисей Х.

Дніпро 7

Вільний для роботи

7 Сейфів завершено

На сервісі 1 рік

←
Робота 2 з 3
→