Парсинг веб-сайта
Добрый день!
У нас задача парсинга.
Необходимо написать парсер для clutch.co, который будет собирать информацию про компании и отзывы. Вся информация от сессии скрапинга должна сохранятся в разработанную Вами структуру в MSSQL.
Также нужен простой интерфейс(или бек-енд механизм) для запуска парсинга по определенным параметрам
Пошаговая инструкция:
1. В БД в отдельную таблицу нужно спарсить список категорий(/agencies/digital-marketing, /agencies/email etc). Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
2. В БД в отдельную таблицу нужно спарсить список стран(in, ua etc), по которым нам нужно делать выборку. Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
3. Пользователь должен иметь возможность инициировать поиск на основании выбранной из списка категории <и страны если выбранно>. Парсер создает новый sessionId в БД, сохраняет проходит по n страниц(n берем из конфига) и заполняет информацию.
Компании нам нужно держать в отдельной таблице(Companies), где ключем будет Company Clutch url : string(или цифровой ид).
Вот данные для таблицы Sessions:
a. Position: number - Позиция компании в списке
b. Company Clutch url: string
c: Sponsor: boolean
Вот данные для таблицы Companies
a. Company Name: String
b. Company Clutch URL : string
c. Company Description: string
d. Service focus: an array of {Service Category: String, Percent: Number}
e. Review Count: Number
f. Rank(Avg Review Value): Number
g. Verified: bool
h. Min. project size: Number
i. Avg. Hourly Rate: {Min rate: number, Max rate: number}
j. Employees: {From: number, To: number}
k. Location: string
l. Website: string
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются.
b. Мы не создаем сессию если сессия с такими же параметрами была запущена меньше чем 24 часа назад.
4. По каждой компании нам нужно получить расширенную информацию.
Список дополнительных полей по компании, которые мы парсим на основании урла компании и дополняем данные для конкретной компании:
a. Full description
b. Client focus: array of {Name: String, Percent: Number}
c. Industry focus: array of {Name: String, Percent: Number}
d. Frameworks and CMS focus: array of {Name: String, Percent: Number}
e. Mobile Focus: array of {Name: String, Percent: Number}
f. Mobile Platforms Focus: array of {Name: String, Percent: Number}
g. User Experience Focus: array of {Name: String, Percent: Number}
h. Key Clients: number
i. Portfolio items count: number
j. Reviews: array of Review
Review structure:{
Project Name: string,
Category: string,
Size: number,
Duration: {From : date, To: date},
Project Summary: string
Review name: string,
Review Date: date,
Feedback summary: string,
Quality: number,
Schedule: number,
Cost: number,
Willing to refer: number,
Reviewer name: string,
Reviewer Industry: string,
Reviewer company size: {From: number, To: number},
Reviewer location: string,
Reviewer review type: string
Review status: boolean,
background: string,
challenge: string,
solution: string,
results: string
}
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются. Соответственно, мы рассматриваем отзывы по компаниям только от даты ее последнего парсинга.
Важные пункты:
* Одна страница (30 компаний) с переходами и полном парсингом не должна занимать больше чем 15 минут.
* Парсер должен иметь возможность скрапить минимум 50 страниц в день (1500 профилей компаний).
Что ожидаем от вас в ставке:
- Чем вы планируете пользоваться.
- Подтвержение что вы полностью изучили задачу.
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Parsowanie strony YouControl (Jukontrol)
98 PLN
Trzeba wyciągnąć firmy z niektórych kategorii na stronie юконтрол, w tym 1) nazwa 2) ЄДРПОУ 3) kierownik 4) telefon Wszystkie te dane są publiczne. Parsowanie danych ∙ 6 godzin 40 minut temu ∙ 16 ofert |
Stworzyć dashboard w https://airtable.com/ dotyczący efektywności reklamowych kreacji z facebook adsPełnoprawne TZ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Bazy danych i SQL, Parsowanie danych ∙ 4 dni 9 godzin temu ∙ 19 ofert |
Stworzenie pliku Exel do załadowania towarów na strony innych partnerów.Interesuje mnie, aby stworzyć tabelę Excel ze wszystkimi parametrami. Oto strona - https://heiztechnik.com.ua/ A pozycje, które mnie interesują, powinny być przeniesione: Kotły ręczne: 1) TIS UNI 15-95 kW (10) szt 2)TIS HARD 150-500 kW (7) szt Kotły na pelety: 1)TIS PELLET… Parsowanie danych ∙ 4 dni 13 godzin temu ∙ 36 ofert |
Wymagany programista do parsowania katalogu i automatyzacji importu danychSzczegółowe TZ w załączonym dokumencie proszę w odpowiedzi podać orientacyjną cenę i terminy realizacji czy masz doświadczenie w parsowaniu dużych katalogów jakie możliwe trudności lub ograniczenia widzisz w tym zadaniu Bazy danych i SQL, Parsowanie danych ∙ 4 dni 16 godzin temu ∙ 41 ofert |
Znaleźć feed produktowy (Google Merchant XML) dla strony na OpenCart
57 PLN
Konieczne jest znalezienie bezpośredniego linku do działającego pliku z danymi produktowymi (XML) konkurenta dla Google Merchant Center Platforma (CMS): OpenCart / ocStore Znajdź oryginalny plik z danymiWymagania dotyczące wyniku: Roboczy link do pliku XML Python, Parsowanie danych ∙ 4 dni 21 godzin temu ∙ 27 ofert |