Промышленный парсер теннисных данных Sofascore
#Парсинг #Python #Автоматизация #DataScience #Sofascore #Скрейпер
Создал модульную библиотеку[см фото 1] и комплект скриптов на Python для автоматизированного сбора данных по всем теннисным матчам и игрокам с сайта Sofascore.
Функционал:
Сбор всей истории и будущих матчей по диапазону дат (id, статистика, очки, коэффициенты, сила игроков).
Парсинг информации по каждому игроку и его рейтингу.
Встроенная защита от антибота: автоматическая ротация прокси, динамический user-agent, cookies.
Многопоточность: регулируется через настройки, позволяет ускорить сбор (16400 матчей/ч[см фото 2] и 42000 игроков/ч[см фото 3).
Умная система повторных попыток и автоматический рефетч недостающих данных (403, 429)[см фото 4].
Вся настройка — через файл config.py (даты, прокси, потоки, задержки).
Экспорт: чистые CSV-файлы, полностью совместимы с pandas, готовы для ML и аналитики.
Логи, прогресс-бар, ETA (оставшееся время), вывод скорости в минуту/час.
Подробная документация на русском и английском, примеры запуска из кода и консоли.
Результат:
Проект успешно реализован для клиента, полностью автоматизирован процесс сбора и обновления данных, обеспечена высокая скорость и стабильность даже при больших объёмах.
Стек: Python 3.11+, curl_cffi, pandas, threading, прокси.
Создал модульную библиотеку[см фото 1] и комплект скриптов на Python для автоматизированного сбора данных по всем теннисным матчам и игрокам с сайта Sofascore.
Функционал:
Сбор всей истории и будущих матчей по диапазону дат (id, статистика, очки, коэффициенты, сила игроков).
Парсинг информации по каждому игроку и его рейтингу.
Встроенная защита от антибота: автоматическая ротация прокси, динамический user-agent, cookies.
Многопоточность: регулируется через настройки, позволяет ускорить сбор (16400 матчей/ч[см фото 2] и 42000 игроков/ч[см фото 3).
Умная система повторных попыток и автоматический рефетч недостающих данных (403, 429)[см фото 4].
Вся настройка — через файл config.py (даты, прокси, потоки, задержки).
Экспорт: чистые CSV-файлы, полностью совместимы с pandas, готовы для ML и аналитики.
Логи, прогресс-бар, ETA (оставшееся время), вывод скорости в минуту/час.
Подробная документация на русском и английском, примеры запуска из кода и консоли.
Результат:
Проект успешно реализован для клиента, полностью автоматизирован процесс сбора и обновления данных, обеспечена высокая скорость и стабильность даже при больших объёмах.
Стек: Python 3.11+, curl_cffi, pandas, threading, прокси.