Парсинг интернет магазина Nordstrom
Адрес магазина https://shop.nordstrom.com/
Категории товаров:
Women - Clothing (~30K позиций)
Women - Shoes (~13K)
Men - Clothing (~10K)
Men - Shoes (~3,5K)
Пример товара
https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126
Для каждого товара необходимо заполнить поля ("[]" - список, "?" - опционально):
url: URL без query params (https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126)
id: ID из URL (3738126)
name: Наименование (Double Breasted Peacoat)
brand: Бренд (Thread & Supply) привести к правильному регистру
size_addition: Иногда встречается под брендом (пример: "Regular & Tall", см https://shop.nordstrom.com/s/levis-514-straight-leg-jeans-tumbled-rigid-regular-tall/3394388 )
price: Цена ($37.90)
original_rice?: Оригинальная цена ($58.00)
discount?: Скидка (35%)
description: Описание (Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.)
color_variants[]: Несколько вариантов цветов, для каждого:
color_name: Название цвета (Camel)
color_url: URL картинки с цветом, очищенный (https://n.nordstrommedia.com/id/7c59d987-9677-418a-a726-ff9d8c466df4.jpeg)
size_variants[]?: Комбинации размеров, для каждой:
size_name: Название размера (Medium)
width_name?: Ширина, встречается у обуви (пример: "M (Medium)", см. https://shop.nordstrom.com/s/steve-madden-gills-platform-slip-on-sneaker-women/4505146 )
inventory: Наличие ("Not available" | "Available" | "Only X left" -> X)
images[]: Изображения , для каждого:
url: URL картинки, очищенный (https://n.nordstrommedia.com/id/6aa324aa-e2d7-4583-a06f-436ded444dff.jpeg)
size_info[]: Строки под "Size Info" ("True to size.", "XS=000, S=00-0, M=2-4, L=6-8, XL=10-12.")
details_care[]: Строки под "Details & Care" ("Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.", "27' length (size Medium)." ...)
avg_review_stars: Среднее кол-во звезд (86.516%)
fit_rating: Fit rating (runs true to size)
reviews[]: Для каждого отзыва (необходимо пройтись по всем страницам пагинации)
stars: Кол-во звезд (5)
title: Заголовок (Perfect, Stylish, EXACTLY what I was looking for)
comment: Текст отзыва (I hesitated to purchase this coat for 2 months, because several reviews stated it was lighter weight. I'm so glad I decided to go ahead and get it. It is perfect for our mild...)
date: Дата (Jan 28, 2019 -> 2019-01-29)
fit: Fit (true to size)
author: Автор (Brookslucinda)
bought_together[]: Frequently Bought Together
id: ID из URL (4737821)
url: URL очищенный (https://shop.nordstrom.com/s/4737821)
also_viewed[]: People Also Viewed
id: ID из URL (4972497)
url: URL очищенный (https://shop.nordstrom.com/s/4972497)
Как парсить:
- Предпочтительно использовать Python + Scrapy (можно обсудить другие варианты)
- Использовать кэш запросов и сохранять его, предпочтительно LevelDB (не кэшировать ответы с ошибками)
- Сайт может блокировать доступ для IP адресов за пределами США, возможно приется использовать прокси
- Следовать robots.txt и terms of use, не перенагружать сервер
- На kaggle есть датасет, возможно он будет полезен https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others#shop_nordstrom_com.csv
Результат предоставить в виде:
json файл с результатами парсинга (~56K записей), каждый товар - 1 строка файла (пример:
[
{"id": 234324, "name": "abc..."},
{"id": 234325, "name": "abc..."}
])исходный код парсера и паука
инструкции по запуску (парсер должен заработать и скачать хотя бы несколько товаров без кэша, тестироваться будет на macOS)
кэш html страниц (повторный запуск в идеале должен получить все результаты используя только кэш)
В отклике, пожалуйста, укажите:
Вкратце ваш опыт работы с парсерами
Какой стек технологий планируете использовать
Какие трудности вы видите в парсинге shop.nordstrom.com
Оценка по сроку и стоимости
-
62 1 0 Добрый день.
Пишу парсеры на node.js, для динамических сайтов могу использвать headless chrome.
1. Собирал подобные базы не раз: магазины, финансовая информация.
2. node.js, cheerio + scrape-it/Headless Chrome (в случае необходимости логина), возможно, mysql. Но можно обойтись и in-memory хранилищем, без базы. Консольное приложение, без интерфейса.
3. В парсинге больших баз всегда есть различная верстка, которая не попадает под уже написанные правила. Много парсеров разбора характеристик товаров. Также, если есть защита от сбора, то это тоже занимает непрогнозируемое время.
4. На первый взгляд, должно все получиться за 2-3 недели.
С европейского прокси сайт выдает цены в Евро. Нужно в какой валюте?
-
1064 33 2 Опыт в парсинге огромный:(букмекерские конторы, разные агрегаторы, онлайн магазины и т.д.)
язык java(javaFX для десктоп окна, jsoup + apache http client или htmlunit для получения и обработки информации)
возможны блокировки, наверно надо будет обойти защиту от ботов/парсинга.
-
1825 52 0 Могу сделать десктоп приложение на java. Должно работать везде где установлена java.
Опыт работы более 1 года.
Буду использовать java + javafx + htmlunit
Сайт еще нужно будет проверить на блокировки + ,нужны прокси для парсинга
skype: hdls19
-
Из США сайт доступен, возможно придется использовать проски
-
Актуальные фриланс-проекты в категории Парсинг данных
Требуется специалист по продвижению в Telegram.
1286 UAH
Задачи: инвайт реальных пользователей по базе юзернеймов в новые чаты и рассылка сообщений по целевой базе. Интересует только качественный трафик и работа с живой аудиторией — исполнителей, использующих ботов, накрутку или некачественные методы, просьба НЕ БЕСПОКОИТЬ. Работа… Парсинг данных, Продвижение в социальных сетях (SMM) ∙ 1 день 16 часов назад ∙ 8 ставок |
Сбор B2B базы данных компаний в Германии
1801 UAH
Цель: Получение списка потенциальных работодателей (клиентов) для B2B рассылки. Регион: Мюнхен (München) + радиус 50 км. Требуемые ниши: Строительные компании (Bauunternehmen) Пищевые предприятия (Lebensmittelhersteller, мясокомбинаты, пекарни) Логистика и складские… Парсинг данных, Продажи и генерация лидов ∙ 1 день 18 часов назад ∙ 30 ставок |
База данных перевозчиковИнтересует сбор базы данных перевозчиков по Украине за 2026 год, включая цистерны, тенты, зерновозы и другие. Желательно разработать таблицу. Поиск и сбор информации, Парсинг данных ∙ 1 день 20 часов назад ∙ 31 ставка |
Консультация по парсингу подписчиков Instagram-аккаунтовЗдравствуйте. Необходимо провести предварительную оценку возможности выполнения следующей задачи. У меня есть список Instagram-аккаунтов. Цель — получить контактные данные (в первую очередь email-адреса) пользователей, которые подписаны на эти аккаунты. Ранее мне встречались… Парсинг данных ∙ 5 дней 11 часов назад ∙ 12 ставок |
Нужен специалист для поиска контактов ЛПР по УкраинеНеобходимо собрать базу (или готовую базу) контактов лиц, принимающих решения (ЛПР), в компаниях Украины. Поиск и сбор информации, Парсинг данных ∙ 5 дней 15 часов назад ∙ 18 ставок |
