Парсинг / Импортирование новостей в базу CMS DLE 15
Задача:
1. Нужно периодически собирать новости из html-файлов (уже спарсены), которые размещены в каталоге MSN_result_parse (список всех этих новостей обновляется каждые 5 минут в файле “allnews_list.txt”),
очищать от лишних тегов и всех ссылок (сделать красивый контент), после чего скопировать в каталог cleaned_after_parsed.
2. Далее забираем html-файлы из каталога Translated и в виде новостей публикуем на сайте, учитывая следующие моменты:
- Перед публикацией необходимо переименовать сопутствующие картинки из *.img в *.jpg).
- Самую первую строку в HTML-файле нужно использовать в качестве названия статьи, Keywords, Title и Metatags.
- В поле Description добавляем часть из самой новости за исключением заголовка.
- Нужно создать также short_story с картинкой, которая идёт первая по списку в новости, чтобы красиво выглядело на сайте.
- Учесть, что html-файлы рассортированы по различным подкаталогам и часто имеют одинаковые названия
- Вести лог-файлы по загруженным новостям, обработанным файлам, чтобы можно было отследить возможные сбои.
- удостовериться, что новости с картинками корректно выводятся и отображаются на сайте (не ломается вёрстка).
- Изображения,которые идут с новостью выравниваем по центру в теле полной новости (full_story)
Можно и не в виде модуля для CMS, а в виде обычных PHP-файлов, которые будут запускаться по крону.
-
801 21 3 Добрый вечер, выполню в виде плагина для DLE.
Админпанель для просмотра логов и настроек, запуск по cron.
Обращайтесь.
-
фрилансер больше не работает на сервисе
-
99 3 0 Добрый вечер. С удовольствием бы выполнил данную задачу, парсить html умею, опыт в разработке на php большой.
Сделаю как отдельный сервис, не привязанный ни к каким CMS.
-
Можно и так, с плагином проще интегрироваться в админку сайта, если это нужно конечно.