Парсер для сайта
2000 UAHЗдравствуйте.
Есть сайт с доступом по логину и паролю - http://costar.com/.
На нем есть 5 типов поиска, из которых 4 типа с разной структурой поисковой выдачи.
Для парсинга этого сайта есть готовый скрипт на Питоне, но скорость его работы меньше чем необходимо.
Требуемая скорость - не более 5 сек на парсинг 1 записи. Сейчас получается 8сек, из-за непрямого парсинга с URL, а методом кликов и переходов.
Чтобы облегчить задание и скрипт - решили авторизацию на сайте и переход в поисковой выдаче делать вручную.
Автоматизировать нужно только часть с парсингом самих данных и сохранением в CSV или XLSX формате(образец файла прилагаю).
Для доступа к сайту нужен NordVPN, либо индивидуальный платный прокси с локацией США, Лос Анджелес.
Как вариант, доступ может быть предоставлен с моего ПК удаленно по Anydesk или Teamviewer.
Приветствуется любой язык программирования. Запуск только из под Windows.
Вот видео работы Питон парсера сейчас - https://youtu.be/SCVxXKs19ak, между запросами интервал 8 сек, нужно 2-5сек.
Приложения 1
Отзыв заказчика о сотрудничестве с Николаем Кравченко
Парсер для сайтаБыла задержка по времени, по причине того, что сайт оказался гораздо сложнее, чем кажется на первый взгляд. Была проделана огромная работа по тестированию и исследованию всех возможных особенностей сайта. Исполнитель терпеливо и методично двигался к завершению изо дня в день и достиг успеха! Трудолюбивый и ответственный фрилансер, которому можно доверить выполнение даже очень сложных задач по его специализации. Рекомендую к сотрудничеству!
-
Победившая ставка3 дня2000 UAH
499 45 4 Победившая ставка3 дня2000 UAHЗдравствуйте. Готов выполнить задачу за 3 дня, стоимость 2000 грн. Есть большой опыт в парсинге.
-
283 10 0 Здравствуйте.
Имею огромный опыт в парсинге данных.
Реализую на питоне.
Выполню качественно и быстро.
Обращайтесь
-
1641 23 0 Здравствуйте.
Готов взяться за данный проект, но для начала необходимо ознакомиться с исходником.
Реализацию предлагаю на языке Python.
Жду вас в личных сообщениях
-
223 8 0 Здравствуйте. Судя из того, что я увидел то работает это всё на selenium. Есть опыт с ним, также недавно делал многопоточный парсер с его применением. Нужно смотреть что там Вам накодили, думаю там есть что поотимизировать.
Срок указан максимальный. Если вдруг там будет проще всё переписать с нуля.
-
1520 41 2 Готов помочь вам в оптимизации парсера. скорее всего он написан с использованием Selenium, можно ускорить процесс переведя на многопоточность, но можно рассмотреть еще один вариант который будет намного быстрей но нужно уже посмотреть на саму систему авторизации на сайте, об этом подробнее в ЛС. Сроки указал для варианта с оптимизацией.
-
875 51 0 1 Готов сотрудничать.
Пишу на питоне.
От вас - исходный код, данные для авторизации и прокси для тестирования.
Обращайтесь.
-
75 9 2 3 Здраствуйте! Есть большущий опыт в парсинге(около 2-х лет). Готов выполнить максимально быстро на c# wpf. На счёт авторизации, профиль один всё время юзаеться?
-
4796 67 0 Здравствуйте. Готов выполнить парсер. Есть опыт в парсинге данных. Пишите в лс уточним детали
-

И у меня почему-то поиск типа https://www.costar.com/search?market=3&tags=256&page=2 прекрасно работает без авторизаций и локаций...
-

Посмотрела видео, но все еще не поняла.
Нормальный парсер по своей функциональности - это ЧАСТЬ механизма браузера, которая берет ТОЛЬКО НУЖНОЕ и складирует его в какую-то БАЗУ - т.е. ничего человеческого в его действиях быть не может! Для чего парсер и помещают обычно на сервере, где нет человека, одни программы, инфа и все быстрое.
Да, в тяжелых случаях (яваскрипты) нужно извращаться и иногда даже нет выхода, кроме как задействовать весь браузер. Но и тогда обычно его (браузер) тянут на сервер (предварительно обрезав в нем все человеческое).
Почему же здесь парсер, как я понимаю, на клиенте стоит? И почему считается, что руками человека получится быстрее листать страницы?
-

Короче, я предлагаю поставить такой вопрос. На том сайте выдача публичного поиска типа https://www.costar.com/search?market=3&tags=256&page=2 кардинально отличается от выдачи нужного поиска или нет???
Если кардинальных отличий нет, то (почти) любой (программист) может посмотреть как работает публичный поиск, какие даются запросы, какие приходят ответы. И прикинуть парсер для этого.
-
Актуальные фриланс-проекты в категории Javascript и Typescript
Full-stack разработка — Amazon PPC Dashboard (Stage 1)Нужен full-stack разработчик с опытом работы с Amazon API для реализации Stage 1 внутреннего PPC-дашборда. Проект реальный, данные живые, всё готово к старту. Прототип фронтенда (5 страниц, React + TypeScript): ЧТО УЖЕ ГОТОВО — Фронтенд-прототип на React 18 + TypeScript + Vite… Javascript и Typescript, Веб-программирование ∙ 1 день 10 часов назад ∙ 26 ставок |
Разработка сайта-конструктора фотокниг и фоторамокЦель проекта Необходимо разработать современный веб-сайт для заказа фотокниг, фоторамок и другой персонализированной фотопродукции. Главная задача проекта — предоставить клиенту возможность самостоятельно создать готовый макет изделия непосредственно на сайте без участия… Javascript и Typescript, Веб-программирование ∙ 3 дня 2 часа назад ∙ 95 ставок |
Команда для самописного маркетплейса ритуальных услуг.Ищем команду для запуска и развития самописного национального маркетплейса ритуальных услуг. Сразу: не ищем одиночек, джунов и “сборщиков сайтов”. Нужна сильная продуктовая команда уровня middle+/senior с реальными кейсами маркетплейсов/сложных SaaS. Просьба не откликаться,… Javascript и Typescript, Веб-программирование ∙ 3 дня 20 часов назад ∙ 26 ставок |
Доработка существующего Next.js/Supabase проекта: офферы, CRM, аналитика, AI-чатЕсть действующий проект WatchGenius — платформа аналитики люксовых часов с каталогом моделей, ценовой аналитикой, внешними офферами, формами заявок и AI-чатом. Проект уже разработан частично. Нужен не сайт с нуля, а опытный full-stack разработчик, который сможет разобраться в… Javascript и Typescript, Веб-программирование ∙ 5 дней 22 часа назад ∙ 55 ставок |
Ищу Senior Full-Stack разработчика (Payload CMS) — миграция 2 сайтов гостиничной сетиСеть курортных отелей переходит с Webflow на собственный headless-стек. Два корпоративных сайта (~140 страниц вместе), multi-tenant архитектура — один код обслуживает несколько отелей на разных доменах. Проект уже стартовал: инфраструктура развернута, tenants настроены, базовые… CMS, Javascript и Typescript ∙ 9 дней 20 часов назад ∙ 19 ставок |