Автоматизований збір даних через багатоступеневий OSINT-парсинг

Бази даних та SQL 15 000 UAH
Робота 4 з 10
У рамках власного OSINT-інструментарію був реалізований скрипт, що автоматично обробляє базу з 6000+організацій та шукає для кожної:
• електронну пошту,
• телефон,
• офіційний сайт,
• ПІБ голови,
• КП/ЖЕК (комунальне підприємство).

Для досягнення результату використано кілька послідовних етапів парсингу:
1. Clarity-Project.info — автоматичне витягування email, телефона та ПІБ керівника по ЄДРПОУ.
2. DuckDuckGo Search + Google Search — формування запиту на кшталт Назва + email + телефон, з парсингом сніпетів перших 10 результатів.
3. Ротація проксі (http/socks5) для обходу антибот-захисту.
4. Автоматичне збереження результатів у файл .csv після кожного успішного запиту, з логуванням прогресу (наприклад: [959/1004] назва (індифікатор) → Email: | Телефон: ).
5. Фінальна обробка в Excel: злиття адреси, email та телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).

Технології:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротація проксі
• Google & DuckDuckGo search scraping
• CSV/Excel-обробка (pandas, openpyxl)

Результат:
Таблиця із сотень точних контактів організацій, доповнених неповними даними, що значно підвищує покриття бази для подальших цілей (email-розсилки, прозвон тощо).
Деталі
  • Додано:
195

Фрилансер

  • Проєктів 53
  • Оцінка 4.9
  • Рейтинг 2 528
Зареєструйтеся

Якщо у вас є акаунт, авторизуйтеся

Показники

  • Останній візит: 1 місяць 13 днів тому