Парсинг веб-сайта
Добрый день!
У нас задача парсинга.
Необходимо написать парсер для clutch.co, который будет собирать информацию про компании и отзывы. Вся информация от сессии скрапинга должна сохранятся в разработанную Вами структуру в MSSQL.
Также нужен простой интерфейс(или бек-енд механизм) для запуска парсинга по определенным параметрам
Пошаговая инструкция:
1. В БД в отдельную таблицу нужно спарсить список категорий(/agencies/digital-marketing, /agencies/email etc). Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
2. В БД в отдельную таблицу нужно спарсить список стран(in, ua etc), по которым нам нужно делать выборку. Этот парсинг запускается в первый раз если эта таблица пуста. Структура древовидная, ссылку зашиваем в конфиге.
3. Пользователь должен иметь возможность инициировать поиск на основании выбранной из списка категории <и страны если выбранно>. Парсер создает новый sessionId в БД, сохраняет проходит по n страниц(n берем из конфига) и заполняет информацию.
Компании нам нужно держать в отдельной таблице(Companies), где ключем будет Company Clutch url : string(или цифровой ид).
Вот данные для таблицы Sessions:
a. Position: number - Позиция компании в списке
b. Company Clutch url: string
c: Sponsor: boolean
Вот данные для таблицы Companies
a. Company Name: String
b. Company Clutch URL : string
c. Company Description: string
d. Service focus: an array of {Service Category: String, Percent: Number}
e. Review Count: Number
f. Rank(Avg Review Value): Number
g. Verified: bool
h. Min. project size: Number
i. Avg. Hourly Rate: {Min rate: number, Max rate: number}
j. Employees: {From: number, To: number}
k. Location: string
l. Website: string
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются.
b. Мы не создаем сессию если сессия с такими же параметрами была запущена меньше чем 24 часа назад.
4. По каждой компании нам нужно получить расширенную информацию.
Список дополнительных полей по компании, которые мы парсим на основании урла компании и дополняем данные для конкретной компании:
a. Full description
b. Client focus: array of {Name: String, Percent: Number}
c. Industry focus: array of {Name: String, Percent: Number}
d. Frameworks and CMS focus: array of {Name: String, Percent: Number}
e. Mobile Focus: array of {Name: String, Percent: Number}
f. Mobile Platforms Focus: array of {Name: String, Percent: Number}
g. User Experience Focus: array of {Name: String, Percent: Number}
h. Key Clients: number
i. Portfolio items count: number
j. Reviews: array of Review
Review structure:{
Project Name: string,
Category: string,
Size: number,
Duration: {From : date, To: date},
Project Summary: string
Review name: string,
Review Date: date,
Feedback summary: string,
Quality: number,
Schedule: number,
Cost: number,
Willing to refer: number,
Reviewer name: string,
Reviewer Industry: string,
Reviewer company size: {From: number, To: number},
Reviewer location: string,
Reviewer review type: string
Review status: boolean,
background: string,
challenge: string,
solution: string,
results: string
}
Важно:
a. При каждой следующей сессии мы не удаляем данные о компаниях, а лишь обновляем их если они отличаются. Соответственно, мы рассматриваем отзывы по компаниям только от даты ее последнего парсинга.
Важные пункты:
* Одна страница (30 компаний) с переходами и полном парсингом не должна занимать больше чем 15 минут.
* Парсер должен иметь возможность скрапить минимум 50 страниц в день (1500 профилей компаний).
Что ожидаем от вас в ставке:
- Чем вы планируете пользоваться.
- Подтвержение что вы полностью изучили задачу.
Current freelance projects in the category Bot Development
Automation setup: Form on the website → WhatsApp bot → CRM (Make + WATI)Project Description: There is a transportation company website. Clients submit requests through a form on the site — the form is sent to email. We need to set up the following automation:Stage 1 — Form → WhatsApp — When a new request comes to the email from the website, the… Web Programming, Bot Development ∙ 1 day 16 hours back ∙ 43 proposals |
Telegram chatbot for a closed club
22 USD
Good day! I need to set up a bot for Telegram. Task: selling access to a closed channel. The bot should accept payments and after successful payment, issue a one-time invitation link. It is also necessary to set up automatic removal of a participant from the channel when their… Bot Development ∙ 4 days 3 hours back ∙ 96 proposals |
Mini apps Telegram. StoreGood afternoon An application is required in Telegram (online store) Example - essentially 1 to 1 like here brandspacebot Your experience is important, the stack you propose to use and why Price and timeframe approximately to start, I will be waiting for questions Web Programming, Bot Development ∙ 4 days 5 hours back ∙ 91 proposals |
Bots"I am looking for a programmer to create a turnkey Telegram bot. The bot should be an intelligent conversationalist based on AI (Gemini or ChatGPT), helping people on any topic and in any language. Payment (Monobank or LiqPay) for subscription needs to be integrated as well. I… Bot Development ∙ 4 days 14 hours back ∙ 62 proposals |
Need an AI agent for cold calls in Ukrainian.
445 USD
Need an AI agent for cold calls in Ukrainian. The topic is biofertilizers. The agent should call clients, work with a script, answer typical questions, and transfer interested clients to the manager. Need the cost of setup and monthly expenses. Bot Development ∙ 5 days 2 hours back ∙ 38 proposals |