Промисловий парсер тенісних даних Sofascore
#Парсинг #Python #Автоматизація #DataScience #Sofascore #Скрейпер
Створив модульну бібліотеку[див. фото 1] і комплект скриптів на Python для автоматизованого збору даних по всіх тенісних матчах і гравцях з сайту Sofascore.
Функціонал:
Збір всієї історії та майбутніх матчів за діапазоном дат (id, статистика, очки, коефіцієнти, сила гравців).
Парсинг інформації по кожному гравцю та його рейтингу.
Вбудований захист від антибота: автоматична ротація проксі, динамічний user-agent, cookies.
Багатопоточність: регулюється через налаштування, дозволяє прискорити збір (16400 матчів/год[див. фото 2] і 42000 гравців/год[див. фото 3]).
Розумна система повторних спроб і автоматичне оновлення недостаючих даних (403, 429)[див. фото 4].
Весь налаштування — через файл config.py (дати, проксі, потоки, затримки).
Експорт: чисті CSV-файли, повністю сумісні з pandas, готові для ML і аналітики.
Логи, прогрес-бар, ETA (залишковий час), вивід швидкості в хвилину/годину.
Детальна документація українською та англійською, приклади запуску з коду та консолі.
Результат:
Проєкт успішно реалізовано для клієнта, повністю автоматизовано процес збору та оновлення даних, забезпечена висока швидкість і стабільність навіть при великих обсягах.
Стек: Python 3.11+, curl_cffi, pandas, threading, проксі.
Створив модульну бібліотеку[див. фото 1] і комплект скриптів на Python для автоматизованого збору даних по всіх тенісних матчах і гравцях з сайту Sofascore.
Функціонал:
Збір всієї історії та майбутніх матчів за діапазоном дат (id, статистика, очки, коефіцієнти, сила гравців).
Парсинг інформації по кожному гравцю та його рейтингу.
Вбудований захист від антибота: автоматична ротація проксі, динамічний user-agent, cookies.
Багатопоточність: регулюється через налаштування, дозволяє прискорити збір (16400 матчів/год[див. фото 2] і 42000 гравців/год[див. фото 3]).
Розумна система повторних спроб і автоматичне оновлення недостаючих даних (403, 429)[див. фото 4].
Весь налаштування — через файл config.py (дати, проксі, потоки, затримки).
Експорт: чисті CSV-файли, повністю сумісні з pandas, готові для ML і аналітики.
Логи, прогрес-бар, ETA (залишковий час), вивід швидкості в хвилину/годину.
Детальна документація українською та англійською, приклади запуску з коду та консолі.
Результат:
Проєкт успішно реалізовано для клієнта, повністю автоматизовано процес збору та оновлення даних, забезпечена висока швидкість і стабільність навіть при великих обсягах.
Стек: Python 3.11+, curl_cffi, pandas, threading, проксі.