Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт, дата регистрации (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
Нужно парсить в авто режиме собирать данные из новых зарегистрированных ФЛП или компаний, фирма зарегистрировалась, мне нужны их данные.
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
-
5592 105 2 могу предложить вам полную готовую базу юрлиц и фопов, около 7 млн. записей. и вам не нужен будет парсер.
-
74 3 1 1 Есть готовый парсер https://youcontrol.com.ua/ с обходом защиты могу через тимвивер продемонстрировать
-
246 2 0 Добрый день. могу реализовать все перечисленные вами требования но в при помощи другого решения. если интересует альтернативное решение то пишите в личные сообщения.
Актуальные фриланс-проекты в категории C и C++
Инженер по инфраструктуре резидентных проксиМы строим сеть резидентных прокси с нуля — полностью собственную, без сторонних поставщиков. Нам нужен один исключительный сетевой инженер для создания всей технической базы. Что вы будете строить: - Android SDK для фонового использования, который направляет прокси-трафик через… C и C++, DevOps ∙ 2 дня 18 часов назад ∙ 12 ставок |
Добробка в существующей версии 1с розница блока для РЦ(распределительного центра)В общем поясню, что у нас за база - есть общий сервер, где есть база Розница (где ставятся все приходы) - база УТП, куда переливаются все продажи - считается наценка, остатки по складам - маленькие базы розничных магазинов. По обменам у нас магазины обмениваются с базой Розница… C и C++, C# ∙ 3 дня 9 часов назад ∙ 6 ставок |
ПО Мастер-программа «KONSTRUCTOR»
185 977 UAH
Мы ищем очень опытного C++ разработчика для модернизации существующего ПО (мастер-программы). Программа отвечает за создание производного ПО представляющего аудио-визуальные сеансы психологической коррекции. Текущая версия написана на чистом WinAPI (Visual Studio 2019/2022).… C и C++, Десктопные приложения ∙ 8 дней 12 часов назад ∙ 19 ставок |
Написание кода для ArduinoНеобходимо разработать программное обеспечение для весового дозатора на базе Arduino Uno. Комплектующие: Arduino Uno R3 HX711 + тензодатчик LCD1602 I2C дисплей MAX7219 светодиодная матрица 8x32 5 кнопок управления 4-канальное реле 2 сигнальные лампы Вибромагнит грубого… C и C++, Встраиваемые системы и микроконтроллеры ∙ 9 дней 20 часов назад ∙ 15 ставок |
Нужно доработать проект или предоставить консультацию.
1000 UAH
|