Парсинг веб-сайта
Добрый день!
У нас задача парсинга.
Необходимо написать парсер для clutch.co, который будет собирать информацию про компании и отзывы. Вся информация от сессии скрапинга должна сохранятся в разработанную Вами структуру в MSSQL.
Также нужен простой интерфейс(или бек-енд механизм) для запуска парсинга по определенным параметрам
Пошаговая инструкция:
1. В БД в отдельную таблицу нужно спарсить список категорий(/agencies/digital-marketing, /agencies/email etc). Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
2. В БД в отдельную таблицу нужно спарсить список стран(in, ua etc), по которым нам нужно делать выборку. Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
3. Пользователь должен иметь возможность инициировать поиск на основании выбранной из списка категории <и страны если выбранно>. Парсер создает новый sessionId в БД, сохраняет проходит по n страниц(n берем из конфига) и заполняет информацию.
Компании нам нужно держать в отдельной таблице(Companies), где ключем будет Company Clutch url : string(или цифровой ид).
Вот данные для таблицы Sessions:
a. Position: number - Позиция компании в списке
b. Company Clutch url: string
c: Sponsor: boolean
Вот данные для таблицы Companies
a. Company Name: String
b. Company Clutch URL : string
c. Company Description: string
d. Service focus: an array of {Service Category: String, Percent: Number}
e. Review Count: Number
f. Rank(Avg Review Value): Number
g. Verified: bool
h. Min. project size: Number
i. Avg. Hourly Rate: {Min rate: number, Max rate: number}
j. Employees: {From: number, To: number}
k. Location: string
l. Website: string
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются.
b. Мы не создаем сессию если сессия с такими же параметрами была запущена меньше чем 24 часа назад.
4. По каждой компании нам нужно получить расширенную информацию.
Список дополнительных полей по компании, которые мы парсим на основании урла компании и дополняем данные для конкретной компании:
a. Full description
b. Client focus: array of {Name: String, Percent: Number}
c. Industry focus: array of {Name: String, Percent: Number}
d. Frameworks and CMS focus: array of {Name: String, Percent: Number}
e. Mobile Focus: array of {Name: String, Percent: Number}
f. Mobile Platforms Focus: array of {Name: String, Percent: Number}
g. User Experience Focus: array of {Name: String, Percent: Number}
h. Key Clients: number
i. Portfolio items count: number
j. Reviews: array of Review
Review structure:{
Project Name: string,
Category: string,
Size: number,
Duration: {From : date, To: date},
Project Summary: string
Review name: string,
Review Date: date,
Feedback summary: string,
Quality: number,
Schedule: number,
Cost: number,
Willing to refer: number,
Reviewer name: string,
Reviewer Industry: string,
Reviewer company size: {From: number, To: number},
Reviewer location: string,
Reviewer review type: string
Review status: boolean,
background: string,
challenge: string,
solution: string,
results: string
}
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются. Соответственно, мы рассматриваем отзывы по компаниям только от даты ее последнего парсинга.
Важные пункты:
* Одна страница (30 компаний) с переходами и полном парсингом не должна занимать больше чем 15 минут.
* Парсер должен иметь возможность скрапить минимум 50 страниц в день (1500 профилей компаний).
Что ожидаем от вас в ставке:
- Чем вы планируете пользоваться.
- Подтвержение что вы полностью изучили задачу.
Актуальные фриланс-проекты в категории Парсинг данных
Сбор базы телеграмм каналов(англоязычных)Нужно собрать базу телеграм каналов со следующим критериями(2000-3000) каналов Критерии ТГ каналов: Язык: English География аудитории: США (US)/Великобритания/Канада и т.д. англоязычные каналы под тир 1-2 гео Аудитория: преимущественно мужчины 21+ Канал публичный… Поиск и сбор информации, Парсинг данных ∙ 9 часов 5 минут назад ∙ 5 ставок |
База сайтов на woocommerceНеобходимо собрать базу украинских сайтов интернет-магазинов на woocommerce с контактами, которые указаны на сайтах. Только работающие сайты (индикатор: обновление каталога/контента, рабочий домен) Формат таблицы - адрес сайта, номер телефона, e-mail. Парсинг данных ∙ 1 день назад ∙ 19 ставок |
Создать дашборд в https://airtable.com/ по результативности рекламных креативов из facebook adsПолноценное ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Базы данных и SQL, Парсинг данных ∙ 2 дня 14 часов назад ∙ 17 ставок |
Создание файла Exel для загрузки товаров на сайты других партнеров.Меня интересует, чтобы сделать таблицу Excel со всеми параметрами. Вот сайт - https://heiztechnik.com.ua/ И позиции, которые интересуют, чтобы были перенесены : Ручные котлы : 1) TIS UNI 15-95 кВт (10) шт 2)TIS HARD 150-500 кВт (7) шт Пеллетные котлы: 1)TIS PELLET 15-95 кВт… Парсинг данных ∙ 2 дня 18 часов назад ∙ 34 ставки |
Требуется разработчик для парсинга каталога и автоматизации импорта данныхПодробное ТЗ в прикрепленном документе прошу в отклике указать ориентировочную стоимость и сроки реализации есть ли опыт работы с парсингом крупных каталогов какие возможные сложности или ограничения вы видите в данной задаче Базы данных и SQL, Парсинг данных ∙ 2 дня 21 час назад ∙ 39 ставок |