Доработка парсера
Здравствуйте.
Нам делали парсер, но в итоге он не работает как нужно - вытаскивает только часть часть товаров, а не все. Программер пропал, на связь не выходит.
ТЗ было следующим:
У нас есть файл от поставщика - https://www.dropbox.com/s/r34hp3esq1p93tx/rozn.xml?dl=1 в нем есть артикул, цены и наличие, но нет контента.
Нужно взять с этого файла артикул товара, который находится в переменной <sku> - https://prnt.sc/kzYQgBM6x2PS
По этому артикулу найти товар на сайте https://8t.com.ua/
https://prnt.sc/DPDk0m8HYOfp
и спарсить фото, описание и характеристики (на 2х языках).
В итоговый файл должны подтянуться цена и наличие с изначального файла от поставщика, а фото, описание, характеристики - с сайта, который парсим. Цена - с этого поля - https://prnt.sc/2jGkTgRXWK-- . А наличие поставить плюсовое, если хотя бы одна из этих переменных - https://prnt.sc/lMf9lppeyq4_ имеет значение больше нуля.
Если по артикулу не удается найти товар на сайте - пропускаем такой товар.
Идентификатор для товара берем с этого поля: https://prnt.sc/3wzp17kq8roq
Второй этап - программа обновления, она должна просто менять файл от поставщика (вот этот - https://www.dropbox.com/s/r34hp3esq1p93tx/rozn.xml?dl=1 )в стандартный xml формат, вот такого типа - https://prnt.sc/bb8de2tF8V9O
На выходе в этом файле должен быть айди товара, артикул, название, цена и наличие, мы соответственно будет этим файлом обновлять цены и остатки.
В процессе обнаружилась проблема - сайт донор отдает 403 ошибку, закрывает доступ по айпи. https://prnt.sc/uc8nig4fbDXW но не всегда, по какому-то одному ему понятному алгоритму. В любом случае, через ВПН все работает.
Пока с этим разбирались, попробували спарсить второй источник https://shambala.com.ua/ , здесь тоже біли свои нюансы - защита на фото, удалось найти способ брать фото без защиты, но также получалось взять только небольшую часть товаров.
В итоге слепили из 2х сайтов все в одно - парсер обрабатывает один сайт ,потом второй и подтягивает в результирующий файл уникальные айди. Но опять же, в итоге мы получили только часть товаров.
Если бы правильно настроить парсинг первого сайта, то второй нам бы не понадобился, в парсере как-то вытастикаются товары через карту сайта, а видимо у эту карту попадают далеко не все товары.
Нужно нормально настроить парсинг с первого сайта, чтобы не было такого, что артикул товара есть в файле поставщика, есть на сайте https://8t.com.ua/ но нет в результирующем файле.
Также с описаний нужно вырезать ссылки на сайт поставщика.
Ссылка на сам парсер: https://fex.net/ru/s/rcfkrcx
Напишите пожалуйста стоимость такой доработки. Спасибо
-
На чем написан парсер?
Исходники есть?
Т.к. в архиве парсер запакован в .exe - в таком виде нет возможности его "доработки"
-
Актуальные фриланс-проекты в категории Парсинг данных
База сайтов на woocommerceНеобходимо собрать базу украинских сайтов интернет-магазинов на woocommerce с контактами, которые указаны на сайтах. Только работающие сайты (индикатор: обновление каталога/контента, рабочий домен) Формат таблицы - адрес сайта, номер телефона, e-mail. Парсинг данных ∙ 1 день 12 часов назад ∙ 20 ставок |
Создать дашборд в https://airtable.com/ по результативности рекламных креативов из facebook adsПолноценное ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Базы данных и SQL, Парсинг данных ∙ 3 дня 2 часа назад ∙ 17 ставок |
Создание файла Exel для загрузки товаров на сайты других партнеров.Меня интересует, чтобы сделать таблицу Excel со всеми параметрами. Вот сайт - https://heiztechnik.com.ua/ И позиции, которые интересуют, чтобы были перенесены : Ручные котлы : 1) TIS UNI 15-95 кВт (10) шт 2)TIS HARD 150-500 кВт (7) шт Пеллетные котлы: 1)TIS PELLET 15-95 кВт… Парсинг данных ∙ 3 дня 6 часов назад ∙ 34 ставки |
Требуется разработчик для парсинга каталога и автоматизации импорта данныхПодробное ТЗ в прикрепленном документе прошу в отклике указать ориентировочную стоимость и сроки реализации есть ли опыт работы с парсингом крупных каталогов какие возможные сложности или ограничения вы видите в данной задаче Базы данных и SQL, Парсинг данных ∙ 3 дня 9 часов назад ∙ 40 ставок |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 3 дня 14 часов назад ∙ 24 ставки |