Парсинг интернет магазина Nordstrom
Адрес магазина https://shop.nordstrom.com/
Категории товаров:
Women - Clothing (~30K позиций)
Women - Shoes (~13K)
Men - Clothing (~10K)
Men - Shoes (~3,5K)
Пример товара
https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126
Для каждого товара необходимо заполнить поля ("[]" - список, "?" - опционально):
url: URL без query params (https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126)
id: ID из URL (3738126)
name: Наименование (Double Breasted Peacoat)
brand: Бренд (Thread & Supply) привести к правильному регистру
size_addition: Иногда встречается под брендом (пример: "Regular & Tall", см https://shop.nordstrom.com/s/levis-514-straight-leg-jeans-tumbled-rigid-regular-tall/3394388 )
price: Цена ($37.90)
original_rice?: Оригинальная цена ($58.00)
discount?: Скидка (35%)
description: Описание (Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.)
color_variants[]: Несколько вариантов цветов, для каждого:
color_name: Название цвета (Camel)
color_url: URL картинки с цветом, очищенный (https://n.nordstrommedia.com/id/7c59d987-9677-418a-a726-ff9d8c466df4.jpeg)
size_variants[]?: Комбинации размеров, для каждой:
size_name: Название размера (Medium)
width_name?: Ширина, встречается у обуви (пример: "M (Medium)", см. https://shop.nordstrom.com/s/steve-madden-gills-platform-slip-on-sneaker-women/4505146 )
inventory: Наличие ("Not available" | "Available" | "Only X left" -> X)
images[]: Изображения , для каждого:
url: URL картинки, очищенный (https://n.nordstrommedia.com/id/6aa324aa-e2d7-4583-a06f-436ded444dff.jpeg)
size_info[]: Строки под "Size Info" ("True to size.", "XS=000, S=00-0, M=2-4, L=6-8, XL=10-12.")
details_care[]: Строки под "Details & Care" ("Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.", "27' length (size Medium)." ...)
avg_review_stars: Среднее кол-во звезд (86.516%)
fit_rating: Fit rating (runs true to size)
reviews[]: Для каждого отзыва (необходимо пройтись по всем страницам пагинации)
stars: Кол-во звезд (5)
title: Заголовок (Perfect, Stylish, EXACTLY what I was looking for)
comment: Текст отзыва (I hesitated to purchase this coat for 2 months, because several reviews stated it was lighter weight. I'm so glad I decided to go ahead and get it. It is perfect for our mild...)
date: Дата (Jan 28, 2019 -> 2019-01-29)
fit: Fit (true to size)
author: Автор (Brookslucinda)
bought_together[]: Frequently Bought Together
id: ID из URL (4737821)
url: URL очищенный (https://shop.nordstrom.com/s/4737821)
also_viewed[]: People Also Viewed
id: ID из URL (4972497)
url: URL очищенный (https://shop.nordstrom.com/s/4972497)
Как парсить:
- Предпочтительно использовать Python + Scrapy (можно обсудить другие варианты)
- Использовать кэш запросов и сохранять его, предпочтительно LevelDB (не кэшировать ответы с ошибками)
- Сайт может блокировать доступ для IP адресов за пределами США, возможно приется использовать прокси
- Следовать robots.txt и terms of use, не перенагружать сервер
- На kaggle есть датасет, возможно он будет полезен https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others#shop_nordstrom_com.csv
Результат предоставить в виде:
json файл с результатами парсинга (~56K записей), каждый товар - 1 строка файла (пример:
[
{"id": 234324, "name": "abc..."},
{"id": 234325, "name": "abc..."}
])исходный код парсера и паука
инструкции по запуску (парсер должен заработать и скачать хотя бы несколько товаров без кэша, тестироваться будет на macOS)
кэш html страниц (повторный запуск в идеале должен получить все результаты используя только кэш)
В отклике, пожалуйста, укажите:
Вкратце ваш опыт работы с парсерами
Какой стек технологий планируете использовать
Какие трудности вы видите в парсинге shop.nordstrom.com
Оценка по сроку и стоимости
-
62 1 0 Добрый день.
Пишу парсеры на node.js, для динамических сайтов могу использвать headless chrome.
1. Собирал подобные базы не раз: магазины, финансовая информация.
2. node.js, cheerio + scrape-it/Headless Chrome (в случае необходимости логина), возможно, mysql. Но можно обойтись и in-memory хранилищем, без базы. Консольное приложение, без интерфейса.
3. В парсинге больших баз всегда есть различная верстка, которая не попадает под уже написанные правила. Много парсеров разбора характеристик товаров. Также, если есть защита от сбора, то это тоже занимает непрогнозируемое время.
4. На первый взгляд, должно все получиться за 2-3 недели.
С европейского прокси сайт выдает цены в Евро. Нужно в какой валюте?
-
1064 33 2 Опыт в парсинге огромный:(букмекерские конторы, разные агрегаторы, онлайн магазины и т.д.)
язык java(javaFX для десктоп окна, jsoup + apache http client или htmlunit для получения и обработки информации)
возможны блокировки, наверно надо будет обойти защиту от ботов/парсинга.
-
1825 52 0 Могу сделать десктоп приложение на java. Должно работать везде где установлена java.
Опыт работы более 1 года.
Буду использовать java + javafx + htmlunit
Сайт еще нужно будет проверить на блокировки + ,нужны прокси для парсинга
skype: hdls19
-
Из США сайт доступен, возможно придется использовать проски
-
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Zbieranie listy wydarzeń offline AI/Tech (2026)
83 PLN
Potrzebne jest zebranie listy odpowiednich wydarzeń offline w dziedzinie AI/ML/Data/Tech w takich miastach USA: Austin, Minneapolis, Portland w roku 2026 (włącznie z całym rokiem). Co należy znaleźć: konferencje spotkania / meetupy szczyty spotkania branżowe / stowarzyszenia /… Parsowanie danych ∙ 1 godzina 7 minut temu ∙ 9 ofert |
Badanie segmentu premium KijowaBadanie segmentu premium w Kijowie Potrzebne jest przeprowadzenie poszukiwań otwartych publicznych kanałów komunikacji z przedstawicielami segmentu premium w Kijowie. Co należy zebrać: otwarcie opublikowany email lub telefon do kontaktu, jeśli jest umieszczony w publicznym… Parsowanie danych, Wyszukiwanie i zbieranie informacji ∙ 2 godziny 41 minut temu ∙ 7 ofert |
Wymagany specjalista ds. promocji w Telegramie.
106 PLN
Zadania: zapraszanie rzeczywistych użytkowników z bazy nazw użytkowników do nowych czatów oraz wysyłanie wiadomości do docelowej bazy. Interesuje nas tylko jakościowy ruch i praca z żywą publicznością — wykonawców korzystających z botów, sztucznego zwiększania lub niskiej… Parsowanie danych, Promocja w sieciach społecznościowych (SMM) ∙ 2 dni 21 godzin temu ∙ 8 ofert |
Zbieranie bazy danych B2B firm w Niemczech
149 PLN
Cel: Uzyskanie listy potencjalnych pracodawców (klientów) do wysyłki B2B. Region: Monachium (München) + promień 50 km. Wymagane nisze: Firmy budowlane (Bauunternehmen) Przemysł spożywczy (Lebensmittelhersteller, zakłady mięsne, piekarnie) Logistyka i kompleksy magazynowe… Parsowanie danych, Sprzedaż i generowanie leadów ∙ 2 dni 23 godziny temu ∙ 33 oferty |
Konsultacja dotycząca parsowania subskrybentów kont InstagramWitam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem… Parsowanie danych ∙ 6 dni 16 godzin temu ∙ 13 ofert |
