Парсинг интернет магазина Nordstrom
Адрес магазина https://shop.nordstrom.com/
Категории товаров:
Women - Clothing (~30K позиций)
Women - Shoes (~13K)
Men - Clothing (~10K)
Men - Shoes (~3,5K)
Пример товара
https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126
Для каждого товара необходимо заполнить поля ("[]" - список, "?" - опционально):
url: URL без query params (https://shop.nordstrom.com/s/thread-supply-double-breasted-peacoat/3738126)
id: ID из URL (3738126)
name: Наименование (Double Breasted Peacoat)
brand: Бренд (Thread & Supply) привести к правильному регистру
size_addition: Иногда встречается под брендом (пример: "Regular & Tall", см https://shop.nordstrom.com/s/levis-514-straight-leg-jeans-tumbled-rigid-regular-tall/3394388 )
price: Цена ($37.90)
original_rice?: Оригинальная цена ($58.00)
discount?: Скидка (35%)
description: Описание (Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.)
color_variants[]: Несколько вариантов цветов, для каждого:
color_name: Название цвета (Camel)
color_url: URL картинки с цветом, очищенный (https://n.nordstrommedia.com/id/7c59d987-9677-418a-a726-ff9d8c466df4.jpeg)
size_variants[]?: Комбинации размеров, для каждой:
size_name: Название размера (Medium)
width_name?: Ширина, встречается у обуви (пример: "M (Medium)", см. https://shop.nordstrom.com/s/steve-madden-gills-platform-slip-on-sneaker-women/4505146 )
inventory: Наличие ("Not available" | "Available" | "Only X left" -> X)
images[]: Изображения , для каждого:
url: URL картинки, очищенный (https://n.nordstrommedia.com/id/6aa324aa-e2d7-4583-a06f-436ded444dff.jpeg)
size_info[]: Строки под "Size Info" ("True to size.", "XS=000, S=00-0, M=2-4, L=6-8, XL=10-12.")
details_care[]: Строки под "Details & Care" ("Tortoiseshell-patterned buttons elevate a double-breasted peacoat detailed with classic button-tab cuffs.", "27' length (size Medium)." ...)
avg_review_stars: Среднее кол-во звезд (86.516%)
fit_rating: Fit rating (runs true to size)
reviews[]: Для каждого отзыва (необходимо пройтись по всем страницам пагинации)
stars: Кол-во звезд (5)
title: Заголовок (Perfect, Stylish, EXACTLY what I was looking for)
comment: Текст отзыва (I hesitated to purchase this coat for 2 months, because several reviews stated it was lighter weight. I'm so glad I decided to go ahead and get it. It is perfect for our mild...)
date: Дата (Jan 28, 2019 -> 2019-01-29)
fit: Fit (true to size)
author: Автор (Brookslucinda)
bought_together[]: Frequently Bought Together
id: ID из URL (4737821)
url: URL очищенный (https://shop.nordstrom.com/s/4737821)
also_viewed[]: People Also Viewed
id: ID из URL (4972497)
url: URL очищенный (https://shop.nordstrom.com/s/4972497)
Как парсить:
- Предпочтительно использовать Python + Scrapy (можно обсудить другие варианты)
- Использовать кэш запросов и сохранять его, предпочтительно LevelDB (не кэшировать ответы с ошибками)
- Сайт может блокировать доступ для IP адресов за пределами США, возможно приется использовать прокси
- Следовать robots.txt и terms of use, не перенагружать сервер
- На kaggle есть датасет, возможно он будет полезен https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others#shop_nordstrom_com.csv
Результат предоставить в виде:
json файл с результатами парсинга (~56K записей), каждый товар - 1 строка файла (пример:
[
{"id": 234324, "name": "abc..."},
{"id": 234325, "name": "abc..."}
])исходный код парсера и паука
инструкции по запуску (парсер должен заработать и скачать хотя бы несколько товаров без кэша, тестироваться будет на macOS)
кэш html страниц (повторный запуск в идеале должен получить все результаты используя только кэш)
В отклике, пожалуйста, укажите:
Вкратце ваш опыт работы с парсерами
Какой стек технологий планируете использовать
Какие трудности вы видите в парсинге shop.nordstrom.com
Оценка по сроку и стоимости
-
62 1 0 Добрый день.
Пишу парсеры на node.js, для динамических сайтов могу использвать headless chrome.
1. Собирал подобные базы не раз: магазины, финансовая информация.
2. node.js, cheerio + scrape-it/Headless Chrome (в случае необходимости логина), возможно, mysql. Но можно обойтись и in-memory хранилищем, без базы. Консольное приложение, без интерфейса.
3. В парсинге больших баз всегда есть различная верстка, которая не попадает под уже написанные правила. Много парсеров разбора характеристик товаров. Также, если есть защита от сбора, то это тоже занимает непрогнозируемое время.
4. На первый взгляд, должно все получиться за 2-3 недели.
С европейского прокси сайт выдает цены в Евро. Нужно в какой валюте?
-
1064 33 2 Опыт в парсинге огромный:(букмекерские конторы, разные агрегаторы, онлайн магазины и т.д.)
язык java(javaFX для десктоп окна, jsoup + apache http client или htmlunit для получения и обработки информации)
возможны блокировки, наверно надо будет обойти защиту от ботов/парсинга.
-
1825 52 0 Могу сделать десктоп приложение на java. Должно работать везде где установлена java.
Опыт работы более 1 года.
Буду использовать java + javafx + htmlunit
Сайт еще нужно будет проверить на блокировки + ,нужны прокси для парсинга
skype: hdls19
-
Из США сайт доступен, возможно придется использовать проски
-
Current freelance projects in the category Data Parsing
Scrape the database and add it to the Telegram chatScrape the database from List.ua and add by numbers to the Telegram chat. The chat is about repairs and interior design. Data Parsing, Customer Support ∙ 2 hours 37 minutes back ∙ 17 proposals |
It is necessary to develop a Telegram bot for monitoring cars from auctions in the USA (Copart, IAAI)A Telegram bot is needed for automatic searching and monitoring of "BUY IT NOW" cars at auctions in the USA (Copart, IAAI). The bot should operate automatically and send notifications about new cars that meet the specified filters.Main functionalityFilter settings: 1. Car… Data Parsing, Bot Development ∙ 10 hours 10 minutes back ∙ 62 proposals |
Parsing products, preparation for import to WPScrape the full catalog of these websites: https://svit-mebliv.ua/ https://kompanit.com.ua/ru https://amia.com.ua/ https://mebliromax.com.ua/ https://pehotin.com.ua/catalog/ https://www.sokme.ua/ru/ All products need to be combined into one general table for import into WP.… Web Programming, Data Parsing ∙ 3 days 2 hours back ∙ 57 proposals |
A specialist in Telegram promotion is required.
28 USD
Tasks: invite real users from the username database to new chats and send messages to the target database. Only quality traffic and work with a live audience are of interest — performers using bots, fake engagement, or low-quality methods are requested NOT TO DISTURB. Work… Data Parsing, Social Media Marketing (SMM) ∙ 8 days 2 hours back ∙ 9 proposals |
Consultation on parsing Instagram account subscribersHello. It is necessary to conduct a preliminary assessment of the feasibility of the following task. I have a list of Instagram accounts. The goal is to obtain contact information (primarily email addresses) of users who follow these accounts. Previously, I encountered companies… Data Parsing ∙ 11 days 21 hours back ∙ 13 proposals |
