Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт, дата регистрации (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
Нужно парсить в авто режиме собирать данные из новых зарегистрированных ФЛП или компаний, фирма зарегистрировалась, мне нужны их данные.
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
-
5592 105 2 могу предложить вам полную готовую базу юрлиц и фопов, около 7 млн. записей. и вам не нужен будет парсер.
-
74 3 1 1 Есть готовый парсер https://youcontrol.com.ua/ с обходом защиты могу через тимвивер продемонстрировать
-
246 2 0 Добрый день. могу реализовать все перечисленные вами требования но в при помощи другого решения. если интересует альтернативное решение то пишите в личные сообщения.
Aktualne zlecenia dla freelancerów w kategorii C i C++
Inżynier infrastruktury proxy mieszkalnychBudujemy sieć proxy dla użytkowników od podstaw — w pełni własną, bez dostawców zewnętrznych. Potrzebujemy jednego wyjątkowego inżyniera sieci, który zbuduje całą podstawę techniczną. Co zbudujesz: - SDK w tle dla Androida, które kieruje ruch proxy przez urządzenia użytkowników… C i C++, DevOps ∙ 2 dni 18 godzin temu ∙ 12 ofert |
Dobrobka w istniejącej wersji 1c detalicznego bloku dla RC (centrum dystrybucji)Ogólnie wyjaśnię, co mamy za bazę - jest ogólny serwer, gdzie znajduje się baza Detal (gdzie rejestrowane są wszystkie przychody) - baza UTP, do której przelewają się wszystkie sprzedaże - liczy się marża, stany magazynowe - małe bazy detalicznych sklepów. W przypadku wymian,… C i C++, C# ∙ 3 dni 9 godzin temu ∙ 6 ofert |
Mistrzowska program «KONSTRUCTOR»
15 240 PLN
Szukamy bardzo doświadczonego programisty C++ do modernizacji istniejącego oprogramowania (programu głównego). Program odpowiada za tworzenie pochodnego oprogramowania reprezentującego sesje audiowizualnej korekcji psychologicznej. Obecna wersja jest napisana w czystym WinAPI… C i C++, Aplikacje desktopowe ∙ 8 dni 12 godzin temu ∙ 19 ofert |
Pisanie kodu dla ArduinoPotrzebne jest opracowanie oprogramowania dla wagowego dozownika opartego na Arduino Uno. Komponenty: Arduino Uno R3 HX711 + czujnik tensometryczny Wyświetlacz LCD1602 I2C Matryca LED MAX7219 8x32 5 przycisków sterujących 4-kanałowe przekaźniki 2 lampy sygnalizacyjne Wibromagnes… C i C++, Systemy wbudowane i mikrokontrolery ∙ 9 dni 20 godzin temu ∙ 15 ofert |
Trzeba dokończyć projekt lub udzielić konsultacji.
82 PLN
|