Парсинг веб-сайта
Добрый день!
У нас задача парсинга.
Необходимо написать парсер для clutch.co, который будет собирать информацию про компании и отзывы. Вся информация от сессии скрапинга должна сохранятся в разработанную Вами структуру в MSSQL.
Также нужен простой интерфейс(или бек-енд механизм) для запуска парсинга по определенным параметрам
Пошаговая инструкция:
1. В БД в отдельную таблицу нужно спарсить список категорий(/agencies/digital-marketing, /agencies/email etc). Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
2. В БД в отдельную таблицу нужно спарсить список стран(in, ua etc), по которым нам нужно делать выборку. Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
3. Пользователь должен иметь возможность инициировать поиск на основании выбранной из списка категории <и страны если выбранно>. Парсер создает новый sessionId в БД, сохраняет проходит по n страниц(n берем из конфига) и заполняет информацию.
Компании нам нужно держать в отдельной таблице(Companies), где ключем будет Company Clutch url : string(или цифровой ид).
Вот данные для таблицы Sessions:
a. Position: number - Позиция компании в списке
b. Company Clutch url: string
c: Sponsor: boolean
Вот данные для таблицы Companies
a. Company Name: String
b. Company Clutch URL : string
c. Company Description: string
d. Service focus: an array of {Service Category: String, Percent: Number}
e. Review Count: Number
f. Rank(Avg Review Value): Number
g. Verified: bool
h. Min. project size: Number
i. Avg. Hourly Rate: {Min rate: number, Max rate: number}
j. Employees: {From: number, To: number}
k. Location: string
l. Website: string
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются.
b. Мы не создаем сессию если сессия с такими же параметрами была запущена меньше чем 24 часа назад.
4. По каждой компании нам нужно получить расширенную информацию.
Список дополнительных полей по компании, которые мы парсим на основании урла компании и дополняем данные для конкретной компании:
a. Full description
b. Client focus: array of {Name: String, Percent: Number}
c. Industry focus: array of {Name: String, Percent: Number}
d. Frameworks and CMS focus: array of {Name: String, Percent: Number}
e. Mobile Focus: array of {Name: String, Percent: Number}
f. Mobile Platforms Focus: array of {Name: String, Percent: Number}
g. User Experience Focus: array of {Name: String, Percent: Number}
h. Key Clients: number
i. Portfolio items count: number
j. Reviews: array of Review
Review structure:{
Project Name: string,
Category: string,
Size: number,
Duration: {From : date, To: date},
Project Summary: string
Review name: string,
Review Date: date,
Feedback summary: string,
Quality: number,
Schedule: number,
Cost: number,
Willing to refer: number,
Reviewer name: string,
Reviewer Industry: string,
Reviewer company size: {From: number, To: number},
Reviewer location: string,
Reviewer review type: string
Review status: boolean,
background: string,
challenge: string,
solution: string,
results: string
}
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются. Соответственно, мы рассматриваем отзывы по компаниям только от даты ее последнего парсинга.
Важные пункты:
* Одна страница (30 компаний) с переходами и полном парсингом не должна занимать больше чем 15 минут.
* Парсер должен иметь возможность скрапить минимум 50 страниц в день (1500 профилей компаний).
Что ожидаем от вас в ставке:
- Чем вы планируете пользоваться.
- Подтвержение что вы полностью изучили задачу.
Актуальні фриланс-проєкти в категорії Парсинг даних
Svitlahata
750 UAH
Потрібно імпортувати 1819 товарів із XML/YML-фіду Prom.ua до OpenCart 3. Є готовий XML-файл, який містить назви товарів, описи, ціни, фотографії, характеристики, виробників та категорії. Необхідно: імпортувати всі товари до OpenCart 3; створити та прив’язати категорії;… CMS, Парсинг даних ∙ 10 годин 33 хвилини тому ∙ 27 ставок |
Парсинг даних через мобільне APIШукаю людину з досвідом парсингу даних через мобільне API, для парсингу e-commerce, rozetka та аналоги Завдання: 1. Перехоплення трафіку мобільного додатку (Android) налаштування проксі, аналіз запитів 2. Визначення потрібних API endpoints, куди йдуть запити, які headers… Python, Парсинг даних ∙ 2 дні 5 годин тому ∙ 30 ставок |
Шукаю програміста або вайб-кодера для автоматизації збору даних 2https://drive.google.com/file/d/14tP5XWJB9acV4gn_cJrFwMpihUj3EbQz/view?usp=sharing я випадково на ту ссылку послав Веб-програмування, Парсинг даних ∙ 2 дні 7 годин тому ∙ 39 ставок |
Створити дашборд у https://airtable.com/ по результативності рекламних креативів з facebook adsПовноцінне ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Бази даних та SQL, Парсинг даних ∙ 7 днів 2 години тому ∙ 20 ставок |
Створення файлу Exel для завантаження товарів на сайти інших партнерів.Мене цікавить щоб зробити табличку Exel з повністю всіма параметрами. Ось сайт -https://heiztechnik.com.ua/ І позиціії які цікавлять щоб були перенесенні : Ручні котли : 1) TIS UNI 15-95 кВт(10) шт 2)TIS HARD 150-500 кВт(7) шт Пелетні котли: 1)TIS PELLET 15-95 кВт(10) шт 2)TIS… Парсинг даних ∙ 7 днів 6 годин тому ∙ 38 ставок |