Парсер для youcontrol.com.ua
Привет всем!
Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
API использовать не будем, только обычный парсинг.
На сайте стоит защита от reCaptcha, поэтому этот факт тоже нужно учитывать.
От вас хотелось бы услышать объективные сроки и стоимость выполнения задачи.
Привет всем!
Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
Готов ответить на все дополнительные вопросы и уточнить процесс работы.
От вас хотелось бы услышать объективные сроки и стоимость выполнения задачи.
-
902 29 1 Здравствуйте!
Я имею большой опыт в создании парсеров.
Напишу быстро и качественно на c#
-
114 1 0 Добрый день, посмотрел сайт, готов сделать быстро и качественно, пишите в л.с., обговорим детали. На выходе будет парсер с интерфейсом и выбираемым режимом парсинга (по кведу, городу, запросу). Пример интерфейса парсера можете глянуть в порфтолио (парсер Авториа).
-
227 1 1 Добрый день! В каком виде вы будете передавать параметры парсеру, в виде файла(таблицы, списка), либо вручную в программе вбивать?
-
Добрый день,зачем вам парсер,если у нас уже есть готовое решение на сайте))
-
Актуальные фриланс-проекты в категории Парсинг данных
Нужен парсер интернет-магазина https://www.lcsc.com/нужно регулярно (1 раз в месяц, или по запуску скрипта) получать актуальную информацию о товарах в наличии магазина https://www.lcsc.com/ из каталога всех разделов… Парсинг данных ∙ 9 часов 29 минут назад ∙ 33 ставки |
OpenCart — каталог аренды спецтехники
6000 UAH
OpenCart — каталог аренды спецтехникиНеобходимо запустить каталог аренды спецтехники на OpenCart.Тематика:экскаваторыавтовышкипогрузчикигенераторыкраныстроительные лесадругая строительная техника.Желательно, чтобы у вас уже был готовый шаблон или наработки под спецтехнику,… Веб-программирование, Парсинг данных ∙ 1 день 1 час назад ∙ 47 ставок |
Перенести программу - слетел сервер, где была программа (официальный разрешенный парсинг гос данных)
2061 UAH
Добрый! У меня у клиента произошел данный кейс описанный ниже. Нужно помочь перенести на новый сервер и оттестировать программу. Лучше программист, который разбирается в парсинге. Настройка ПО и серверов, Парсинг данных ∙ 1 день 5 часов назад ∙ 27 ставок |
Парсинг сайтаТребуется реализация 4 парсеров (сайты каталоги) Есть тз, есть пример кода как референс . В задачи входит: Написать парсер Прикрутить прокси Логика дедубликации (перенести логику из примера) Логика хешированя по 3 полям Парсер должен работать как пайплайн с логикой что… Парсинг данных ∙ 2 дня 22 часа назад ∙ 44 ставки |
Сбор(парсинг) базы товаров с сайтов поставщиков (Excel / CSV)
10 000 UAH
Сбор базы товаров с сайтов поставщиков (Excel / CSV) Добрый день. Требуется специалист для сбора и структурирования данных с нескольких сайтов поставщиков, доступ к которым будет предоставлен.Задача: Необходимо сформировать единую базу товаров в формате Excel (XLSX) или CSV.Для… Веб-программирование, Парсинг данных ∙ 4 дня 5 часов назад ∙ 105 ставок |