Парсер для youcontrol.com.ua
Привет всем!
Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
API использовать не будем, только обычный парсинг.
На сайте стоит защита от reCaptcha, поэтому этот факт тоже нужно учитывать.
От вас хотелось бы услышать объективные сроки и стоимость выполнения задачи.
Привет всем!
Задача такая: нужно создать парсер, который будет на выходе создавать файлик (.xlsx, .csv), где будут данные: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть).
Сайт который нужно парсить: https://youcontrol.com.ua/
Основные условия:
1) чтобы можно было парсить по определенному КВЕДУ: https://youcontrol.com.ua/catalog/kved/62/01/6201/ (например так, здесь КВЕД 6201);
2) чтобы можно было парсить по определенному городу: https://youcontrol.com.ua/catalog/company/kyev/ (например, Киев);
3) чтобы можно было парсить по запросу https://youcontrol.com.ua/search/?country=1&q=%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F+%D1%84%D0%B8%D1%80%D0%BC%D0%B0 (например, запрос "строительная фирма");
Интересуют только компании и ФОП (судовые решения, электронные декларации и т.д. -- не нужно).
API использовать не будем, только обычный парсинг.
Дополнение и уточнение:
- не нужно забывать, что там стоит reCaptcha
- при множественных запросах к серверу мы можем получить 503 ошибку, а если сервер упал или кластер (точно не разбираюсь), то даже с помощью прокси не получится парсить, так как сервер лёг
Плюс уточнение процесса работы:
- сначала я выбираю опцию парсинга (парсинг по КВЕД, парсинг по городу [все компании в городе Киев], парсинг по запросу [строительная фирма]);
- далее парсер собирает данные (данных может быть 100000 - 200000 запросов, может даже больше);
- дальше я получаю файл .xlsx со всеми нужными данными: номер телефона, имя, почта, название, тип бизнеса, ссылка на сайт (если есть) + название бизнеса.
Потом я могу сразу выбрать какую-то другую опцию и получить снова актуальные данные.
Важные уточнения:
- этот парсер должен одинаково хорошо выдавать результат в любом режиме работы;
- парсер должен быть устойчив к капче и падениям сервера;
- если данных нет (а такое может быть, что нет, например email, то ставить просто прочерк --);
- интересуют только компании и ФОП;
Если все требования не будут выполнены, то проект не будет считаться завершенным.
Готов ответить на все дополнительные вопросы и уточнить процесс работы.
От вас хотелось бы услышать объективные сроки и стоимость выполнения задачи.
-
902 29 1 Здравствуйте!
Я имею большой опыт в создании парсеров.
Напишу быстро и качественно на c#
-
114 1 0 Добрый день, посмотрел сайт, готов сделать быстро и качественно, пишите в л.с., обговорим детали. На выходе будет парсер с интерфейсом и выбираемым режимом парсинга (по кведу, городу, запросу). Пример интерфейса парсера можете глянуть в порфтолио (парсер Авториа).
-
227 1 1 Добрый день! В каком виде вы будете передавать параметры парсеру, в виде файла(таблицы, списка), либо вручную в программе вбивать?
-
Добрый день,зачем вам парсер,если у нас уже есть готовое решение на сайте))
-
Актуальні фриланс-проєкти в категорії Парсинг даних
Парсинг email-ів компаній зі специфічної індустрії
5000 UAH
Знайти контакти (e-mail, номер телефону) компаній, котрі займаються визначеним бізнесом, вказаним у цьому Google документі https://docs.google.com/document/d/1_d-iLxLSL3gjRvo1GmUpWNm0Pm5YoKGcEvaiDc_2I0g/edit?usp=sharing Результат має бути у вигляді таблиці з колонками:… Парсинг даних ∙ 2 години 32 хвилини тому ∙ 12 ставок |
Потрібен парсер інтернет-магазину https://www.lcsc.com/потрібно регулярно (1 раз на місяць, або при запуску скрипта) отримувати актуальну інформацію про товари в наявності магазину https://www.lcsc.com/ з каталогу всіх розділів… Парсинг даних ∙ 1 день 7 годин тому ∙ 41 ставка |
OpenCart — каталог оренди спецтехніки
6000 UAH
OpenCart — каталог оренди спецтехніки Потрібно запустити каталог оренди спецтехніки на OpenCart. Тематика: екскаватори; автовишки; навантажувачі; генератори; крани; риштування; інша будівельна техніка. Бажано, щоб у вас вже був готовий шаблон або напрацювання під… Веб-програмування, Парсинг даних ∙ 2 дні тому ∙ 57 ставок |
Перенести програму - слетів сервер, де була програма (офіційний дозволений парсинг державних даних)
2061 UAH
Добрий! У мене у клієнта стався даний кейс, описаний нижче. Потрібно допомогти перенести на новий сервер і протестувати програму. Краще програміст, який розбирається в парсингу. Налаштування ПЗ та серверів, Парсинг даних ∙ 2 дні 4 години тому ∙ 29 ставок |
Парсинг сайтуПотрібна реалізація 4 парсерів (сайти каталоги) Є ТЗ, є приклад коду як референс. В завдання входить: Написати парсер Прикрутити проксі Логіка дедублікації (перенести логіку з прикладу) Логіка хешування по 3 полям Парсер має працювати як пайплайн з логікою, що описана… Парсинг даних ∙ 3 дні 20 годин тому ∙ 44 ставки |