Параметр youcontrol
3000 ₴Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт, дата регистрации (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
Нужно парсить в авто режиме собирать данные из новых зарегистрированных ФЛП или компаний, фирма зарегистрировалась, мне нужны их данные.
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
-
1145 8 0 могу предложить вам полную готовую базу юрлиц и фопов, около 7 млн. записей. и вам не нужен будет парсер.
-
Добрый день. могу реализовать все перечисленные вами требования но в при помощи другого решения. если интересует альтернативное решение то пишите в личные сообщения.
-
163 2 0 Готов выполнить данный проект. Есть большой опыт разработки различного рода ПО на С/С++
-
102 3 1 1 Есть готовый парсер https://youcontrol.com.ua/ с обходом защиты могу через тимвивер продемонстрировать
-
200 Приветствую) Ранее делал похожий на ваш проект. Реализую на десктоп решении под windows. Для решения поставленной задачи данный софт будет наиболее подходящим. Указал бюджет ,который обсуждается