Фриланс проекты › Нужно спарсить интернет магазин
Нужно спарсить интернет магазин
истекло время актуальности
Нужно спарсить сложный интернет магазин. Запросы и код обфусцирован, сайт нужно открывать многопоточно в puppeteer или selenium. Парсить нужно все категории товаров, подкатегории, таблицу со списком товаров, зайти в каждый товар, спарсить картинку, описание, название. Парсер должен быть написан на Node и TypeScript, другие варианты не рассматриваем. Запуск и остановку парсера нужно сделать на html, чтобы можно было управлять из браузера, а не через консоль. Парсить нужно тысячи товаров каждые 1-5 секунд, обновляться всё должно в реальном времени.
Весь код должен быть покрыт тестами на Mocha+Chai.
Сборка проекта должна быть сделана с помощью Webpack.
-
Андрей Логащук
230В принципе, если потратится на достаточно мощный комп, то это вполне посильная задача.
-
Иван Якушенко
389 3 0Напишите в ЛС этот "сложный интернет магазин", после ознакомления смогу сделать конкретное предложение.
-
ставка скрыта фрилансером
-
Pavel Voloshyn
195 1Добрый день.
Реализую на хорошем браузерном решении ,не то что извращения которые тербуют немеренно ресурсов.Прога получит данные и поифг что код одусфицирован .если его видно человеку программа тоже спарсит его по хтмл тегам . Это один из лучших софтов,решений для вашей задачи.так же софт работает через прокси ,если это нужно,так же программа может работать многопоточно.
Программа(проект) передается Вам с открытым исходным кодом,можете использовать в дальнейшем,если понадобится.
Так же включен месяц бесплатной техподдержки.
Бюджет проект обсуждаемый.
Если у Вас есть какие-либо вопросы-задавайте
Связь со мной:
telegram businessforpeoples
-
Вам треба дуже багато оперативки, і дуже багато ядер, якщо ви хочети парсити за допомогою Selenium, на такій швидкості.
-
Так вам нужен не парсинг, а ПАРСЕР. Изменить название проекта, не вводите в заблуждение фрилансеров.
-
Запросы и код обфусцирован
Это вы так сказали? Как по-вашему тогда клиент (сайт) эти запросы читает и рендерит в html? Что бы нормально работать с несколькими инстансами selenium нужен не многопоток, а многопроцессорность, ибо вы запустив пару инстансов упретесь в потолок производительности ядра, параллельные вычисления на node - боль, никто такими костылями даже за вменяемые деньги не будет. Найдите нормального программиста, который не будет вам рассказывать сказки про обфусцированные запросы и городить ерунду про многопоточный node и selenium.
С уважением.
-
А это вообще возможно - Парсить нужно тысячи товаров каждые 1-5 секунд ?
Даже однократно это будет за гранью, а постоянно - это как вам видится?
-
Я имел ввиду - как сервер это отдаст и как поведёт себя серверный анализатор ботов?
-
Pavel Voloshyn
(общение в форумах ограничено до 18 декабря)
на зеннопостере такое потянет на 5 серверах .на каждом по 200 браузерных потоков.сам делаю масштабные проекты.протестировано уже многократно и это получше будет чем извращение с селениумом.на 1 инстанс идет 100-100 мбайт памяти оперативной.проц грузит 80% при 200 потоках браузера
-
Люди забийте на цей проект!
Скидав заказчик пару днів назад, приклад сайту який потрібно парсити, то цей сайт купляє дані в міжнародних компаній, і від того що ви будете парсити цей сайт , вони будуть мати не погані збитки(1 секунда == 1000 запросів).