Парсинг интернет магазина Nordstrom
Адрес магазина https://shop.nordstrom.com/
Категории товаров:
Women - Clothing (~30K позиций)
Women - Shoes (~13K)
Men - Clothing (~10K)
Men - Shoes (~3,5K)
Пример товара
https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126
Для каждого товара необходимо заполнить поля ("[]" - список, "?" - опционально):
url: URL без query params (https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126)
id: ID из URL (3738126)
name: Наименование (Double Breasted Peacoat)
brand: Бренд (Thread & Supply) привести к правильному регистру
size_addition: Иногда встречается под брендом (пример: "Regular & Tall", см https://shop.nordstrom.com/s/levis-514-straight-leg-jeans-tumbled-rigid-regular-tall/3394388 )
price: Цена ($37.90)
original_rice?: Оригинальная цена ($58.00)
discount?: Скидка (35%)
description: Описание (Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.)
color_variants[]: Несколько вариантов цветов, для каждого:
color_name: Название цвета (Camel)
color_url: URL картинки с цветом, очищенный (https://n.nordstrommedia.com/id/7c59d987-9677-418a-a726-ff9d8c466df4.jpeg)
size_variants[]?: Комбинации размеров, для каждой:
size_name: Название размера (Medium)
width_name?: Ширина, встречается у обуви (пример: "M (Medium)", см. https://shop.nordstrom.com/s/steve-madden-gills-platform-slip-on-sneaker-women/4505146 )
inventory: Наличие ("Not available" | "Available" | "Only X left" -> X)
images[]: Изображения , для каждого:
url: URL картинки, очищенный (https://n.nordstrommedia.com/id/6aa324aa-e2d7-4583-a06f-436ded444dff.jpeg)
size_info[]: Строки под "Size Info" ("True to size.", "XS=000, S=00-0, M=2-4, L=6-8, XL=10-12.")
details_care[]: Строки под "Details & Care" ("Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.", "27' length (size Medium)." ...)
avg_review_stars: Среднее кол-во звезд (86.516%)
fit_rating: Fit rating (runs true to size)
reviews[]: Для каждого отзыва (необходимо пройтись по всем страницам пагинации)
stars: Кол-во звезд (5)
title: Заголовок (Perfect, Stylish, EXACTLY what I was looking for)
comment: Текст отзыва (I hesitated to purchase this coat for 2 months, because several reviews stated it was lighter weight. I'm so glad I decided to go ahead and get it. It is perfect for our mild...)
date: Дата (Jan 28, 2019 -> 2019-01-29)
fit: Fit (true to size)
author: Автор (Brookslucinda)
bought_together[]: Frequently Bought Together
id: ID из URL (4737821)
url: URL очищенный (https://shop.nordstrom.com/s/4737821)
also_viewed[]: People Also Viewed
id: ID из URL (4972497)
url: URL очищенный (https://shop.nordstrom.com/s/4972497)
Как парсить:
- Предпочтительно использовать Python + Scrapy (можно обсудить другие варианты)
- Использовать кэш запросов и сохранять его, предпочтительно LevelDB (не кэшировать ответы с ошибками)
- Сайт может блокировать доступ для IP адресов за пределами США, возможно приется использовать прокси
- Следовать robots.txt и terms of use, не перенагружать сервер
- На kaggle есть датасет, возможно он будет полезен https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others#shop_nordstrom_com.csv
Результат предоставить в виде:
json файл с результатами парсинга (~56K записей), каждый товар - 1 строка файла (пример:
[
{"id": 234324, "name": "abc..."},
{"id": 234325, "name": "abc..."}
])исходный код парсера и паука
инструкции по запуску (парсер должен заработать и скачать хотя бы несколько товаров без кэша, тестироваться будет на macOS)
кэш html страниц (повторный запуск в идеале должен получить все результаты используя только кэш)
В отклике, пожалуйста, укажите:
Вкратце ваш опыт работы с парсерами
Какой стек технологий планируете использовать
Какие трудности вы видите в парсинге shop.nordstrom.com
Оценка по сроку и стоимости
-
62 1 0 Добрый день.
Пишу парсеры на node.js, для динамических сайтов могу использвать headless chrome.
1. Собирал подобные базы не раз: магазины, финансовая информация.
2. node.js, cheerio + scrape-it/Headless Chrome (в случае необходимости логина), возможно, mysql. Но можно обойтись и in-memory хранилищем, без базы. Консольное приложение, без интерфейса.
3. В парсинге больших баз всегда есть различная верстка, которая не попадает под уже написанные правила. Много парсеров разбора характеристик товаров. Также, если есть защита от сбора, то это тоже занимает непрогнозируемое время.
4. На первый взгляд, должно все получиться за 2-3 недели.
С европейского прокси сайт выдает цены в Евро. Нужно в какой валюте?
-
1016 33 2 Опыт в парсинге огромный:(букмекерские конторы, разные агрегаторы, онлайн магазины и т.д.)
язык java(javaFX для десктоп окна, jsoup + apache http client или htmlunit для получения и обработки информации)
возможны блокировки, наверно надо будет обойти защиту от ботов/парсинга.
-
1825 52 0 Могу сделать десктоп приложение на java. Должно работать везде где установлена java.
Опыт работы более 1 года.
Буду использовать java + javafx + htmlunit
Сайт еще нужно будет проверить на блокировки + ,нужны прокси для парсинга
skype: hdls19
-
Из США сайт доступен, возможно придется использовать проски
-
Актуальні фриланс-проєкти в категорії Парсинг даних
Парсинг бази
2000 UAH
Вимоги до каналів: 1.Мова контенту: Російська або українська (допускається змішаний контент RU/UA) 2.Кількість підписників: Не менше500 підписників 3.Активність: Останній пост опублікованийне пізніше ніж 32 години тому 4.Коментарі: В каналі повинні бутивідкриті коментарі під… Бази даних та SQL, Парсинг даних ∙ 22 хвилини тому ∙ 8 ставок |
Спарсити базу і добавити в тг чатСпарсити базу з Ліст юа і додати по номерам в телеграм чат. Чат на тему ремонту та дизайну інтер`єру. Парсинг даних, Робота з клієнтами ∙ 17 годин 57 хвилин тому ∙ 25 ставок |
Потрібно розробити Telegram-бота для моніторингу автомобілів з аукціонів США (Copart, IAAI)Потрібно створити Telegram-бота для автоматичного пошуку та моніторингу автомобілів "BUY IT NOW" на аукціонах США (Copart, IAAI) Бот повинен працювати в автоматичному режимі та надсилати повідомлення про нові автомобілі, які відповідають заданим фільтрам.Основний… Парсинг даних, Розробка ботів ∙ 1 день 1 година тому ∙ 80 ставок |
Парсинг товарів, підготовка до імпорту на WPСпарсити повний каталог цих сайтів: https://svit-mebliv.ua/ https://kompanit.com.ua/ru https://amia.com.ua/ https://mebliromax.com.ua/ https://pehotin.com.ua/catalog/ https://www.sokme.ua/ru/ Всі товари потрібно об'єднати в одну загальну таблицю для імпорту в WP. Кожен товар… Веб-програмування, Парсинг даних ∙ 3 дні 18 годин тому ∙ 58 ставок |
Требуется спеціаліст з просування в Telegram.
1273 UAH
Завдання: інвайт реальних користувачів за базою юзернеймів у нові чати та розсилка повідомлень по цільовій базі. Цікавить тільки якісний трафік і робота з живою аудиторією — виконавців, які використовують ботів, накрутку або неякісні методи, прохання НЕ БЕСПОКІТЬ. Робота… Парсинг даних, Просування у соціальних мережах (SMM) ∙ 8 днів 17 годин тому ∙ 9 ставок |
