Автоматизований збір даних через багатоступеневий OSINT-парсинг
У рамках власного OSINT-інструментарію був реалізований скрипт, що автоматично обробляє базу з 6000+організацій та шукає для кожної:
• електронну пошту,
• телефон,
• офіційний сайт,
• ПІБ голови,
• КП/ЖЕК (комунальне підприємство).
Для досягнення результату використано кілька послідовних етапів парсингу:
1. Clarity-Project.info — автоматичне витягування email, телефона та ПІБ керівника по ЄДРПОУ.
2. DuckDuckGo Search + Google Search — формування запиту на кшталт Назва + email + телефон, з парсингом сніпетів перших 10 результатів.
3. Ротація проксі (http/socks5) для обходу антибот-захисту.
4. Автоматичне збереження результатів у файл .csv після кожного успішного запиту, з логуванням прогресу (наприклад: [959/1004] назва (індифікатор) → Email: | Телефон: ).
5. Фінальна обробка в Excel: злиття адреси, email та телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).
Технології:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротація проксі
• Google & DuckDuckGo search scraping
• CSV/Excel-обробка (pandas, openpyxl)
Результат:
Таблиця із сотень точних контактів організацій, доповнених неповними даними, що значно підвищує покриття бази для подальших цілей (email-розсилки, прозвон тощо).
• електронну пошту,
• телефон,
• офіційний сайт,
• ПІБ голови,
• КП/ЖЕК (комунальне підприємство).
Для досягнення результату використано кілька послідовних етапів парсингу:
1. Clarity-Project.info — автоматичне витягування email, телефона та ПІБ керівника по ЄДРПОУ.
2. DuckDuckGo Search + Google Search — формування запиту на кшталт Назва + email + телефон, з парсингом сніпетів перших 10 результатів.
3. Ротація проксі (http/socks5) для обходу антибот-захисту.
4. Автоматичне збереження результатів у файл .csv після кожного успішного запиту, з логуванням прогресу (наприклад: [959/1004] назва (індифікатор) → Email: | Телефон: ).
5. Фінальна обробка в Excel: злиття адреси, email та телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).
Технології:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротація проксі
• Google & DuckDuckGo search scraping
• CSV/Excel-обробка (pandas, openpyxl)
Результат:
Таблиця із сотень точних контактів організацій, доповнених неповними даними, що значно підвищує покриття бази для подальших цілей (email-розсилки, прозвон тощо).