Автоматизированный сбор данных через многоуровневый OSINT-парсинг

Базы данных и SQL 15 000 UAH
Работа 4 из 10
В рамках собственного OSINT-инструментария был реализован скрипт, который автоматически обрабатывает базу из 6000+ организаций и ищет для каждой:
• электронную почту,
• телефон,
• официальный сайт,
• ФИО руководителя,
• КП/ЖЕК (коммунальное предприятие).

Для достижения результата использовано несколько последовательных этапов парсинга:
1. Clarity-Project.info — автоматическое извлечение email, телефона и ФИО руководителя по ЕДРПОУ.
2. DuckDuckGo Search + Google Search — формирование запроса наподобие Название + email + телефон, с парсингом сниппетов первых 10 результатов.
3. Ротация прокси (http/socks5) для обхода антибот-защиты.
4. Автоматическое сохранение результатов в файл .csv после каждого успешного запроса, с логированием прогресса (например: [959/1004] название (идентификатор) → Email: | Телефон: ).
5. Финальная обработка в Excel: слияние адреса, email и телефона в одну колонку через формулу =TEXTJOIN(", "; TRUE; F2:H2).

Технологии:
• Python (requests, BeautifulSoup, fake_useragent)
• Ротация прокси
• Google & DuckDuckGo search scraping
• CSV/Excel-обработка (pandas, openpyxl)

Результат:
Таблица из сотен точных контактов организаций, дополненных неполными данными, что значительно повышает покрытие базы для дальнейших целей (email-рассылки, прозвон и т.д.).
Детали
  • Добавлена:
193

Фрилансер

  • Проектов 53
  • Оценка 4.9
  • Рейтинг 2 528
Зарегистрируйтесь

Если у вас есть аккаунт, авторизуйтесь

Показатели

  • Последний визит: 1 месяц 13 дней назад