Автоматизированный сбор данных через многоуровневый OSINT-парсинг
В рамках собственного OSINT-инструментария был реализован скрипт, который автоматически обрабатывает базу из 6000+ организаций и ищет для каждой:
• электронную почту,
• телефон,
• официальный сайт,
• ФИО руководителя,
• КП/ЖЕК (коммунальное предприятие).
Для достижения результата использовано несколько последовательных этапов парсинга:
1. Clarity-Project.info — автоматическое извлечение email, телефона и ФИО руководителя по ЕДРПОУ.
2. DuckDuckGo Search + Google Search — формирование запроса наподобие Название + email + телефон, с парсингом сниппетов первых 10 результатов.
3. Ротация прокси (http/socks5) для обхода антибот-защиты.
4. Автоматическое сохранение результатов в файл .csv после каждого успешного запроса, с логированием прогресса (например: [959/1004] название (идентификатор) → Email: | Телефон: ).
5. Финальная обработка в Excel: слияние адреса, email и телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).
Технологии:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротация прокси
• Google & DuckDuckGo search scraping
• CSV/Excel-обработка (pandas, openpyxl)
Результат:
Таблица из сотен точных контактов организаций, дополненных неполными данными, что значительно повышает покрытие базы для дальнейших целей (email-рассылки, прозвон и т.д.).
• электронную почту,
• телефон,
• официальный сайт,
• ФИО руководителя,
• КП/ЖЕК (коммунальное предприятие).
Для достижения результата использовано несколько последовательных этапов парсинга:
1. Clarity-Project.info — автоматическое извлечение email, телефона и ФИО руководителя по ЕДРПОУ.
2. DuckDuckGo Search + Google Search — формирование запроса наподобие Название + email + телефон, с парсингом сниппетов первых 10 результатов.
3. Ротация прокси (http/socks5) для обхода антибот-защиты.
4. Автоматическое сохранение результатов в файл .csv после каждого успешного запроса, с логированием прогресса (например: [959/1004] название (идентификатор) → Email: | Телефон: ).
5. Финальная обработка в Excel: слияние адреса, email и телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).
Технологии:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротация прокси
• Google & DuckDuckGo search scraping
• CSV/Excel-обработка (pandas, openpyxl)
Результат:
Таблица из сотен точных контактов организаций, дополненных неполными данными, что значительно повышает покрытие базы для дальнейших целей (email-рассылки, прозвон и т.д.).