Збір даних з комерційного реєстру Мін'юсту Словаччини
Розробка скрипта на Python для автоматизації збору даних із комерційного реєстру Міністерства юстиції Словацької Республіки.
Скрипт використовує:
requests для отримання веб-сторінок,
BeautifulSoup для парсингу HTML,
ThreadPoolExecutor для багатопотоковості й прискорення обробки,
xlsxwriter і openpyxl для збереження даних у форматі Excel.
Основні задачі:
Обійти обмеження ресурсу на кількість записів, які повертаються за один запит.
Реалізувати ітеративний і оптимізований процес збору даних.
Результати:
Успішно зібрано та оброблено понад 300 000 записів.
Рішення продемонструвало високу масштабованість і надійність.
Дані підготовлені у зручному форматі для аналізу.
Скрипт використовує:
requests для отримання веб-сторінок,
BeautifulSoup для парсингу HTML,
ThreadPoolExecutor для багатопотоковості й прискорення обробки,
xlsxwriter і openpyxl для збереження даних у форматі Excel.
Основні задачі:
Обійти обмеження ресурсу на кількість записів, які повертаються за один запит.
Реалізувати ітеративний і оптимізований процес збору даних.
Результати:
Успішно зібрано та оброблено понад 300 000 записів.
Рішення продемонструвало високу масштабованість і надійність.
Дані підготовлені у зручному форматі для аналізу.