Парсер теннисных матчей для Melbet (melbet.com) — сбор данных для
Разработал синхронный парсер теннисных матчей с букмекерского сайта Melbet (melbet.com) для дальнейшего использования данных в модели машинного обучения.
Парсер в режиме, приближенном к реальному времени, проходил страницы с теннисными событиями через Selenium WebDriver, последовательно обходил необходимые узлы DOM и забирал структурированные данные: турнир, игроки, время начала, рынки, коэффициенты и т.д. Скорость парсинга регулировалась (настроенные паузы между запросами и переходами между страницами), чтобы обеспечить стабильную работу без перегрузки сайта.
Полученные данные очищались, проверялись на корректность и сохранялись в MS SQL Server в виде нормализованных таблиц (матчи, турниры, рынки, коэффициенты). После этого реализован экспорт в CSV/табличные файлы в формате, удобном для дальнейшего анализа и обучения ML-моделей прогнозирования результатов/коэффициентов.
Я полностью спроектировал и реализовал решение: схему базы данных, логику синхронного обхода страниц с управлением скоростью, обработку ошибок в Selenium, маппинг в SQL-таблицы и модуль экспорта данных в CSV.
Использованные технологии: C#, .NET, Selenium WebDriver, MS SQL Server, ADO.NET / ORM, CSV-экспорт, подготовка датасета для ML.
Парсер в режиме, приближенном к реальному времени, проходил страницы с теннисными событиями через Selenium WebDriver, последовательно обходил необходимые узлы DOM и забирал структурированные данные: турнир, игроки, время начала, рынки, коэффициенты и т.д. Скорость парсинга регулировалась (настроенные паузы между запросами и переходами между страницами), чтобы обеспечить стабильную работу без перегрузки сайта.
Полученные данные очищались, проверялись на корректность и сохранялись в MS SQL Server в виде нормализованных таблиц (матчи, турниры, рынки, коэффициенты). После этого реализован экспорт в CSV/табличные файлы в формате, удобном для дальнейшего анализа и обучения ML-моделей прогнозирования результатов/коэффициентов.
Я полностью спроектировал и реализовал решение: схему базы данных, логику синхронного обхода страниц с управлением скоростью, обработку ошибок в Selenium, маппинг в SQL-таблицы и модуль экспорта данных в CSV.
Использованные технологии: C#, .NET, Selenium WebDriver, MS SQL Server, ADO.NET / ORM, CSV-экспорт, подготовка датасета для ML.