Парсинг мейлов из списка сайтов - Emails Parser
#Парсинг #мейлов (#emails #parser) собирает мейлы из списка линков на любые сайты.
Выполнен на Python + Selenium (самый эффективный вариант).
Поиск ведется на голой странице, странице Контактов (при условии что в названии страницы есть слово "контакт" и на странице команды (team). Список таких страниц можно добавить самостоятельно)
Программа берет данные для парсинга:
1. Загруженный файл Excel (главное, чтобы в нем был столбик с названием Site, дополнительно (не обязательно) там может быть столбик под названием Name)
2. Просто скопированный и вставленный список ссылок на сайт
Программа логинится в Ваш Фейсбук аккаунт для того, чтобы иметь возможность собирать мейлы и со страниц Фейсбук, поэтому в программе предусмотрены поля login и pass. Не является обязательным условием. Можно не заполнять.
Важно: Мейлы в рамках одного сайта собираются без дублей, исключены самые типичные обманные мейлы. Также встроен обход различных видов защищенных от парсинга мейлов.
Результатом является файл excel:
- название компании (при условии, что это название присутствовало в исходном excel файле в столбце Name)
- сайт
- все найденные мейлы на сайте через запятую
- ссылка на Facebook страницу
- ссылка на LinkedIn страницу
Split Mails: Дополнительно есть функция разбить мейлы (которые собраны для одной компании через запятую) - один мейл в строке. Это будет полезно для массовых рассылок.
P.S.
Отдельно есть вариант на Python + requests и еще один, самый быстрый, асинхронный парсер для больших массивов данных.
Выполнен на Python + Selenium (самый эффективный вариант).
Поиск ведется на голой странице, странице Контактов (при условии что в названии страницы есть слово "контакт" и на странице команды (team). Список таких страниц можно добавить самостоятельно)
Программа берет данные для парсинга:
1. Загруженный файл Excel (главное, чтобы в нем был столбик с названием Site, дополнительно (не обязательно) там может быть столбик под названием Name)
2. Просто скопированный и вставленный список ссылок на сайт
Программа логинится в Ваш Фейсбук аккаунт для того, чтобы иметь возможность собирать мейлы и со страниц Фейсбук, поэтому в программе предусмотрены поля login и pass. Не является обязательным условием. Можно не заполнять.
Важно: Мейлы в рамках одного сайта собираются без дублей, исключены самые типичные обманные мейлы. Также встроен обход различных видов защищенных от парсинга мейлов.
Результатом является файл excel:
- название компании (при условии, что это название присутствовало в исходном excel файле в столбце Name)
- сайт
- все найденные мейлы на сайте через запятую
- ссылка на Facebook страницу
- ссылка на LinkedIn страницу
Split Mails: Дополнительно есть функция разбить мейлы (которые собраны для одной компании через запятую) - один мейл в строке. Это будет полезно для массовых рассылок.
P.S.
Отдельно есть вариант на Python + requests и еще один, самый быстрый, асинхронный парсер для больших массивов данных.