Парсинг RSS лент
14 000 UAHСуть:
Мониторить RSS ленту 10к сайтов и записывать в базу все новости.
Технологии :
Go lang, MySQL
Общая логика:
Открываем RSS ленту, берем все последние новости и записываем в базу ссылку на новость, время, title, description.
Логика:
Каждые 5 минут минут обращаемся к RSS каждого сайта где нужно взять 4 основных параметра: time, link, title, description.
При повторному обращение нужно сделать проверку есть ли уже эта новость в базе, для проверки используем link.
Когда мы делаем запрос к RSS конкретного сайта перед этим выгружаем из базы все link которые у нас есть по этому сайту и держим в памяти Go. После того как RSS отдает все новые и старые link делаем проверку на уникальность и в базу записываем только те которых там нету или ничего не записываем если новых нет.
Так же все должно работать через много поточность и с разбивкой на микросервисы. Используя для этого все особености Go.
Заметка: Для работы я предоставлю уже готовые ссылки на RSS ленты. В некоторых RSS лентах нету description в таких случаях нужно будет предварительно пометить такие сайты в базе, поскольку decription играет очень важную роль.
База должна содержать такие значения.
site_link - ссылка на домен сайта
rss_link - ссылка на rss
rss_link_status - сюда пишем true/false для понимание работает или нет парсинг и есть ли desription в этой rss ленте.
site_map_link - будет использоваться в будущим
region - регион сайта (всего их 3 = ua,ru,us, на один сайт может быть 2 региона)
link - ссылка на новость
time_create_news - время создание новости на сайте с которого была взята новость
time - время добавление в базу
title - название новости
description - тело самой новости
Желательно сделать отдельную таблицу со всеми новостями где будет связь между
link - ссылка на новость
time_create_news - время создание новости на сайте с которого была взята новость
time - время добавление в базу
title - название новости
description - тело самой новости
Перед тем как ставить ставку посмотрите пример сайтов
Таких сайтов будет примерно 10 к , нужно будет проверить на дубли.
Так же надеюсь на дельнейшее сотрудничество поскольку это только часть всего проекта.
Для завершения проекта вам нужно будет поднять все у себя на сервере (или я могу предоставить свой) и показать что все работает.
Жду ваших предложений по цене.
Только Go. Только исполнители с опытом которые готовы закрыть эту задачу.
Если вы делаете ставку то будьте готовы ответить на мои вопросы.
-
рассматриваете только на go? есть опыт парсинга RSS лент на python, ~500тыс. лент с 6 млн, записей скачались за 24 часа.
-
Актуальные фриланс-проекты в категории Go
Синхронизация CRM с ERP
68 800 UAH
|
C# и go разработчик под рефакторинг перечня сервивов |
Скопировать/перенести приложение с iOS на Android |