Мониторинг СМИ
12 000 UAHНужно сделать бота (парсер) для мониторинга СМИ.
Суть мониторинга проверяем из списка СМИ и записываем в базу все новости которые там публикуются.
Структура базы :
ссылка на сайт Сайт
ссылка на статью
текст
время добавления в базу
Уникальность сервиса в том что он может парсить все новостные сайты которые есть в нашей базе и те которые мы будем добавлять. Так же как это делает гугл бот для индексации или яндекс.
Возможна реализация через RSS лента, Robot txt, sitemap
Допустим у нас есть база на 500 СМИ, бот должен каждую минуту-две проверять эти сайты на наличие новостей.
Допустим бот заходит на https://lenta.ru берет оттуда все ссылки на новости и грузит в базу данных текст и ссылку на новость. Потом он заходит через 2 минуты и проверяем снова все ссылки, если он нашел ссылку которой нет в базе то добавляем ее в базу.
WEB Нужно создать админку (без дизайна на ваше усмотрение) куда можно будет вставить ссылку на новостной портал который нужно в будущем мониторить. Делаем проверку на наличие RSS лента, Robot txt, sitemap если все ок тогда бот записывает все ссылки и текст с этого сайта, если бот не сможет его мониторить тогда выводим ошибку.
Для примера бот должен мониторить все эти сайты:
РФ
Украина
https://ukrainian.voanews.com/
https://www.pravda.com.ua/rus/news/
Нельзя делать решение под каждый сайт, это должно быть универсальным и работать со всеми новостными сайтами.
Хорошим примером является боты для индексации, они выполняют такую же работу.
Жду ваших предложений как можно это решить.
В написание нужно использовать только php или go lang, а база mysql (ubuntu)
-
194 2 0 Могу сделать на Golang. Админка на Vue.js
База PostgreSQL.
Приложение будет надежным и полностью покрыто тестами
Помогу с развертыванием (в т.ч и облаке) и по договоренности помогу в сопровождении
-
В рамках текущего бюджета возможно реализовать только парсер RSS лент. Для других вариантов понадобится парсить контент с анализом структуры и прочего. Это, конечно, уже другие порядки цен.
-