Parser meczów tenisowych dla Melbet (melbet.com) — zbieranie danych dla
Opracowałem synchronny parser meczów tenisowych z bukmacherskiej strony Melbet (melbet.com) do dalszego wykorzystania danych w modelu uczenia maszynowego.
Parser w trybie zbliżonym do rzeczywistego czasu przeszukiwał strony z wydarzeniami tenisowymi za pomocą Selenium WebDriver, kolejno przechodził przez niezbędne węzły DOM i zbierał zorganizowane dane: turniej, zawodnicy, czas rozpoczęcia, rynki, kursy itp. Szybkość parsowania była regulowana (ustawione przerwy między zapytaniami i przejściami między stronami), aby zapewnić stabilną pracę bez przeciążania strony.
Uzyskane dane były oczyszczane, sprawdzane pod kątem poprawności i przechowywane w MS SQL Server w postaci znormalizowanych tabel (mecze, turnieje, rynki, kursy). Następnie zrealizowano eksport do plików CSV/tabelarycznych w formacie dogodnym do dalszej analizy i uczenia modeli ML prognozujących wyniki/kursy.
Całkowicie zaprojektowałem i wdrożyłem rozwiązanie: schemat bazy danych, logikę synchronnego przeszukiwania stron z kontrolą prędkości, obsługę błędów w Selenium, mapowanie do tabel SQL oraz moduł eksportu danych do CSV.
Wykorzystane technologie: C#, .NET, Selenium WebDriver, MS SQL Server, ADO.NET / ORM, eksport CSV, przygotowanie zbioru danych dla ML.
Parser w trybie zbliżonym do rzeczywistego czasu przeszukiwał strony z wydarzeniami tenisowymi za pomocą Selenium WebDriver, kolejno przechodził przez niezbędne węzły DOM i zbierał zorganizowane dane: turniej, zawodnicy, czas rozpoczęcia, rynki, kursy itp. Szybkość parsowania była regulowana (ustawione przerwy między zapytaniami i przejściami między stronami), aby zapewnić stabilną pracę bez przeciążania strony.
Uzyskane dane były oczyszczane, sprawdzane pod kątem poprawności i przechowywane w MS SQL Server w postaci znormalizowanych tabel (mecze, turnieje, rynki, kursy). Następnie zrealizowano eksport do plików CSV/tabelarycznych w formacie dogodnym do dalszej analizy i uczenia modeli ML prognozujących wyniki/kursy.
Całkowicie zaprojektowałem i wdrożyłem rozwiązanie: schemat bazy danych, logikę synchronnego przeszukiwania stron z kontrolą prędkości, obsługę błędów w Selenium, mapowanie do tabel SQL oraz moduł eksportu danych do CSV.
Wykorzystane technologie: C#, .NET, Selenium WebDriver, MS SQL Server, ADO.NET / ORM, eksport CSV, przygotowanie zbioru danych dla ML.