Спарсити сайт Steam
Сайт https://store.steampowered.com/
Всі ігри на українській та англійській мові (регіон Україна та США), окрім ігор для дорослих (секс контент).
Саундтреки, програми та інший контент не потрібен, лише ігри.
Кожна категорія містить підкатегорію, наприклад Аркади, Казуальні, Відкритий світ, Стрілянки та багато інших.
Перелік посилань для парсингу відсутній, необхідно зібрати самостійно. На сайті є посилання на всі категорії та різні операційні системи.
1. Дані повинні бути у вигляді файлів json (по 100 мб кожний), щоб можна було скриптом завантажити в mysql базу даних для нашої структури.
2. Перший файл складається з двох підрозділів: "categories" та "apps".
- "categories" містить в собі масив об'єктів, які включають в себе "title" (назва категорії/розділу) та link (повне посилання на категорію/розділ)
- "apps" містить в собі масив об'єктів, які включають в себе всю інформацію про додаток.
Кожен наступний файл вже не містить в собі розділення на "categories" та "apps", бо весь список категорій є в першому файлі. Далі тільки інформація про додатки.
3. Структура об'єктів, які містить масив "apps":
link - Повне посилання на додаток/гру
name_company - Розробник
company_link - Повне посилання на розробника
title - Назва додатка/гри
content - Опис додатка/гри (текст опису та вся технічна інформація. версія, вартість, оновлення, мови і тд)
categories - Всі категорії до яких відноситься додаток/гра, наприклад ['Інді', 'Стратегії']
rated - Вікові обмеження
update - Останнє оновлення додатку/гри
reviews - Кількість відгуків додатку/гри
rating - Рейтинг застосунку
price - Вартість (ціна)
size - Розмір додатку (мегабайт)
compatibility - Сумісність ( Windows, MacOS, Linux, SteamOS тощо), наприклад ['Windows', 'macOS']
logo_image - Посилання на зображення зі сторінки - Логотип застосунку/гри
logo_path - Назва зображення зі сторінки - Логотип застосунку/гри
all_image - Посилання на зображення зі сторінки - “скріншоти” застосунку/гри (перші 3 скріншоти, якщо немає зображень, то таку гру пропускаємо)
all_image_path - Назва зображення зі сторінки - “скріншоти” застосунку/гри
3. До цих файлів нам необхідна папка:
- З картинками (логотип додатка/гри + зображення зі сторінки додатка/гри)
Резюмуючі, нам потрібно мати:
- 1.json, 2.json, 3.json... - файли з усією інформацією про всі категорії та додатки/ігри
- images_1, images_2, images_3... - папки з зображеннями зі сторінок додатків/ігор, можна розділити їх по 5 гб
Всі ігри на українській та англійській мові (регіон Україна та США), окрім ігор для дорослих (секс контент).
Саундтреки, програми та інший контент не потрібен, лише ігри.
Кожна категорія містить підкатегорію, наприклад Аркади, Казуальні, Відкритий світ, Стрілянки та багато інших.
Перелік посилань для парсингу відсутній, необхідно зібрати самостійно. На сайті є посилання на всі категорії та різні операційні системи.
1. Дані повинні бути у вигляді файлів json (по 100 мб кожний), щоб можна було скриптом завантажити в mysql базу даних для нашої структури.
2. Перший файл складається з двох підрозділів: "categories" та "apps".
- "categories" містить в собі масив об'єктів, які включають в себе "title" (назва категорії/розділу) та link (повне посилання на категорію/розділ)
- "apps" містить в собі масив об'єктів, які включають в себе всю інформацію про додаток.
Кожен наступний файл вже не містить в собі розділення на "categories" та "apps", бо весь список категорій є в першому файлі. Далі тільки інформація про додатки.
3. Структура об'єктів, які містить масив "apps":
link - Повне посилання на додаток/гру
name_company - Розробник
company_link - Повне посилання на розробника
title - Назва додатка/гри
content - Опис додатка/гри (текст опису та вся технічна інформація. версія, вартість, оновлення, мови і тд)
categories - Всі категорії до яких відноситься додаток/гра, наприклад ['Інді', 'Стратегії']
rated - Вікові обмеження
update - Останнє оновлення додатку/гри
reviews - Кількість відгуків додатку/гри
rating - Рейтинг застосунку
price - Вартість (ціна)
size - Розмір додатку (мегабайт)
compatibility - Сумісність ( Windows, MacOS, Linux, SteamOS тощо), наприклад ['Windows', 'macOS']
logo_image - Посилання на зображення зі сторінки - Логотип застосунку/гри
logo_path - Назва зображення зі сторінки - Логотип застосунку/гри
all_image - Посилання на зображення зі сторінки - “скріншоти” застосунку/гри (перші 3 скріншоти, якщо немає зображень, то таку гру пропускаємо)
all_image_path - Назва зображення зі сторінки - “скріншоти” застосунку/гри
3. До цих файлів нам необхідна папка:
- З картинками (логотип додатка/гри + зображення зі сторінки додатка/гри)
Резюмуючі, нам потрібно мати:
- 1.json, 2.json, 3.json... - файли з усією інформацією про всі категорії та додатки/ігри
- images_1, images_2, images_3... - папки з зображеннями зі сторінок додатків/ігор, можна розділити їх по 5 гб