Вытягивание данных с сайта
Цель проекта: Разработать парсер для извлечения следующей информации с веб-сайта https://www.realitnieso.cz/:
- E-mail адресов
- Номеров телефонов
- Названий компаний
Описание задачи: Разработать программу, способную автоматически сканировать указанный веб-сайт, извлекать необходимые данные и сохранять их для дальнейшего анализа. Данные взять с страницы https://www.realitnieso.cz/adresar-rk# по региону Прага
Функциональные требования:
- Парсер должен принимать URL веб-страницы для сканирования.
- Должна быть возможность выбора типа данных для извлечения: e-mail адресов, номеров телефонов, названий компаний или их комбинации.
- Парсер должен обрабатывать страницу и извлекать указанные данные.
- Полученные данные должны быть сохранены в удобном формате (например, CSV, JSON или Google Таблицы для последующего анализа или использования.
Технические требования. Язык программирования: выбранный по усмотрению разработчика (Python, JavaScript и т. д.).
- Использование библиотек/фреймворков для парсинга веб-страницы (например, BeautifulSoup, Scrapy для Python, Cheerio, Puppeteer для JavaScript).
- Обработка ошибок: программное обеспечение должно быть устойчиво к ошибкам и исключениям, связанным с изменением структуры страницы или отсутствием необходимых данных.
Интерфейс:
- Пользовательский интерфейс не требуется, однако возможна реализация консольного интерфейса для ввода URL и выбора типа данных.
Тестирование:
- Необходимо провести тестирование парсера на различных веб-страницах с разной структурой для проверки точности извлечения данных.
- Проверка на корректность извлечения e-mail адресов, номеров телефонов и названий компаний.
Дополнительные требования:
- Документация: разработать краткое описание процесса установки и использования парсера.
- Возможность расширения функциональности парсера для извлечения других данных (при необходимости).
Ожидаемый результат:
- Разработанный и протестированный парсер, способный извлекать e-mail адреса, номера телефонов и названия компаний с веб-сайта и сохранять полученные данные в удобном формате.
Ограничения:
- Парсер должен быть написан и использован в соответствии с законами о защите данных и правилами использования информации из интернета.
1) Желательно сделать вывод информации в Гугл Таблицы
2) Если у компании отсутствует 1 тип контакта, оставить столбец пустым, например нет номера телефона, должно вытянуть почту и название компании.
3) При перезапуске программы, чтобы не дублировались данные
4) при повторяющихся данных компании, не дублировала
5) при нескольких контактах компании, записывало в разные ячейки
-
486 23 0 Доброго дня .
Готов выполнить задание.
Большой опыт парсинга, более 500 проектов выполненных
-
456 Даю подсказку есть конструктор который позволяет интуитивно собрать любой парсер.
Собрать данные могу за 1-день без всякой писанины...
-
82 Готов вьіполнить в кратчайшие сроки на php, в соответствии с тз
-
3715 88 0 Приветствую
сделаю просто парсер на Python selenium только для типовой страницы.
вытянет все 1223 компаний.
Актуальные фриланс-проекты в категории Парсинг данных
Парсинг данных
1000 UAH
добрый день. нужно спарсить данные с двух небольших категории всем известной доски объявлений. общее количество объявлений ~12к. нужны такие столбцы: подкатегория - город - телефон - заголовок объявления. результат в .xlsx. Парсинг данных ∙ 24 минуты назад ∙ 13 ставок |
Консультация по парсингу подписчиков Instagram-аккаунтовЗдравствуйте. Необходимо провести предварительную оценку возможности выполнения следующей задачи. У меня есть список Instagram-аккаунтов. Цель — получить контактные данные (в первую очередь email-адреса) пользователей, которые подписаны на эти аккаунты. Ранее мне встречались… Парсинг данных ∙ 1 день 12 часов назад ∙ 12 ставок |
Нужен специалист для поиска контактов ЛПР по УкраинеНеобходимо собрать базу (или готовую базу) контактов лиц, принимающих решения (ЛПР), в компаниях Украины. Поиск и сбор информации, Парсинг данных ∙ 1 день 17 часов назад ∙ 16 ставок |
Необходимо спарсить данные из LinkedinНеобходимо спарсить данные с Linkedin по нашему списку. Для каждой записи нужно найти и собрать доступные данные, если такие есть на Linkedin профиле, включая фотографию профиля в соцсети Linkedin, email-адрес, ссылки на социальные сети, вебсайт компании, номер телефона. Все… Парсинг данных ∙ 1 день 22 часа назад ∙ 27 ставок |
Парсинг и классификация данныхИщем разработчика для реализации системы сбора и структурирования данных из открытых источников. У нас есть база владельцев малого бизнеса в США, которая содержит имя человека, название компании, адрес и штат. Необходимо построить процесс обогащения этих записей дополнительной… Веб-программирование, Парсинг данных ∙ 2 дня назад ∙ 40 ставок |