Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт, дата регистрации (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
Нужно парсить в авто режиме собирать данные из новых зарегистрированных ФЛП или компаний, фирма зарегистрировалась, мне нужны их данные.
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
-
5588 105 2 могу предложить вам полную готовую базу юрлиц и фопов, около 7 млн. записей. и вам не нужен будет парсер.
-
74 3 1 1 Есть готовый парсер https://youcontrol.com.ua/ с обходом защиты могу через тимвивер продемонстрировать
-
246 2 0 Добрый день. могу реализовать все перечисленные вами требования но в при помощи другого решения. если интересует альтернативное решение то пишите в личные сообщения.
Current freelance projects in the category C & C++
Residential Proxy Infrastructure EngineerWe're building a residential proxy network from scratch — fully owned, no third-party suppliers. We need one exceptional network engineer to build the entire technical foundation. What you'll build: - Android background SDK that routes proxy traffic through user devices… C & C++, DevOps ∙ 3 days 11 hours back ∙ 13 proposals |
Improvement in the existing version of 1C retail block for the distribution center (DC)In general, I will explain what kind of database we have - There is a main server where there is a retail database (where all receipts are recorded) - a UTP database - where all sales are transferred - it calculates the markup and stock balances - small databases of retail… C & C++, C# ∙ 4 days 1 hour back ∙ 6 proposals |
About the Master Program "KONSTRUCTOR"
4182 USD
We are looking for a very experienced C++ developer to modernize existing software (master program). The program is responsible for creating derivative software representing audio-visual sessions of psychological correction. The current version is written in pure WinAPI (Visual… C & C++, Desktop Apps ∙ 9 days 4 hours back ∙ 19 proposals |
Writing code for ArduinoIt is necessary to develop software for a weight dispenser based on Arduino Uno. Components: Arduino Uno R3 HX711 + load cell LCD1602 I2C display MAX7219 LED matrix 8x32 5 control buttons 4-channel relay 2 signal lamps Coarse dosing vibrator Precise dosing vibrator Operation… C & C++, Embedded Systems & Microcontrollers ∙ 10 days 13 hours back ∙ 15 proposals |
It is necessary to complete the project or provide consultation.
23 USD
|