Zautomatyzowane zbieranie danych poprzez wielostopniowe parsowanie OSINT

Bazy danych i SQL 1264 PLN
Praca 4 z 10
W ramach własnego narzędzia OSINT zrealizowano skrypt, który automatycznie przetwarza bazę z 6000+ organizacji i poszukuje dla każdej:
• adresu e-mail,
• telefonu,
• oficjalnej strony internetowej,
• imienia i nazwiska przewodniczącego,
• KP/ŻEK (komunalne przedsiębiorstwo).

Aby osiągnąć wynik, wykorzystano kilka kolejnych etapów parsowania:
1. Clarity-Project.info — automatyczne wyciąganie e-maila, telefonu i imienia oraz nazwiska kierownika z EDRPOU.
2. DuckDuckGo Search + Google Search — formułowanie zapytania w stylu Nazwa + e-mail + telefon, z parsowaniem snippetów pierwszych 10 wyników.
3. Rotacja proxy (http/socks5) w celu obejścia ochrony antybotowej.
4. Automatyczne zapisywanie wyników do pliku .csv po każdym udanym zapytaniu, z logowaniem postępu (na przykład: [959/1004] nazwa (identyfikator) → E-mail: | Telefon: ).
5. Finalne przetwarzanie w Excelu: scalanie adresu, e-maila i telefonu w jedną kolumnę za pomocą formuły =TEXTJOIN(", "; TRUE; F2:H2).

Technologie:
• Python (requests, BeautifulSoup, fake_useragent)
• Rotacja proxy
• Google & DuckDuckGo search scraping
• CSV/Excel-przetwarzanie (pandas, openpyxl)

Wynik:
Tabela z setkami dokładnych kontaktów organizacji, uzupełnionych niepełnymi danymi, co znacznie zwiększa pokrycie bazy dla dalszych celów (e-mail marketing, telefonowanie itp.).
Szczegóły
  • Dodana:
192

Freelancer

  • Zleceń 53
  • Ocena 4.9
  • Ranking 2 528
Zarejestruj się

Jeśli masz konto, zaloguj się

Wskaźniki

  • Ostatnia wizyta: 1 miesiąc 12 dni temu