Создать 2 парсера одного сайта по разделам сайта
1000 UAHЗдравствуйте.
Нужно создать парсер сайта по разделам Новости, Статьи, Обзоры и Кино.
Парсер должен пройтись по всем этим разделам и спарсить всю информацию поста (заголовок, главное фото, тест, фото в тексте).
Потом сделать на основании этого парсера ежедневный парсер, который будет брать ежедневные записи с сайта.
Скрипт должен будет запускаться по крон (первый скрип также будет запускаться только по крон. учтите это в работе) каждые 30 минут и выявлять новые записи. Если появилась новая запись, то записывать в базу в соответствующую рубрику Новости, Статьи, Обзоры и Кино.
Брать только новые записи.
Структура таблицы:
id, rubric_id, title,
main_photo (главное фото поста = хранится только одно фото ) - Все фотографии в посте и главное фото превью сохранять в папку по пути с именем /images/uploads/post_id(id в таблице)),
Название изображения можно не менять.
content - все ссылки в посте на изображение заменить на наши ссылки, которые будут вести в папку с изображениями.
К примеру, в посте есть ссылка на изображение /images/uploads/oq8ljurOVNQw.jpg заменяем её на /images/uploads/post_1/oq8ljurOVNQw.jpg
Если ссылка в посте внешняя, к примеру https://monosnap.com/file/0ORB9ManXgSSXh8t2wZmN2uM8P1YVp, то такую ссылку оставляем с добавлением атрибута ссылке rel="nofollow"
Если ссылки внешние (ссылки на другие посты, к примеру 'https://primer.com/news/8-vydet-odnovremenno-s-dzhonom-uikom-4), то приводим к виду https://#site#/news/8-vydet-odnovremenno-s-dzhonom-uikom-4,
#site# - константа.
Удаляем лишний мусор в тегах p https://monosnap.com/file/6979awJPlQgaIB476m9Z85Bh...
Не должно быть классов и атрибутов, тег p - должен быть чистым.
datе_created (дата создания поста с оригинального сайта),
datе_parsing (дата парсинга статьи),
site - здесь будет прописываться статическое название сайта),
url_original - сохранение url сайта вида https://#site#/hostings/country/ukraine - ссылка взята как пример, это сайт не будет парсится.
html - весь спарсенный пост (чтобы, если была ошибка, можно было просто пройтись по базе и все исправить, не парсим сайт с нуля)
От вас - на чем сделаете парсер, сроки и цена.
Актуальные фриланс-проекты в категории Парсинг данных
Olx
1789 UAH
Мне нужен бот OLX, который извлекает номер телефона из объявления до его публикации! Он ДОЛЖЕН быть неактивным — конкретно в статусе "ожидание". У меня есть записи ожидающих предложений; мне просто нужно извлечь номер из них. Парсинг данных, Python ∙ 56 минут назад ∙ 7 ставок |
Настроить модуль "Автоматическая обработка прайс-листов. v.9.5".Магазин на OcStore 2.3. установлен модуль "Автоматическая обработка прайс-листов. v.9.5". Все настроено автором модуля, но сейчас есть моменты по настройкам, которые не могу разобраться и допетрать логику работы модуля. Например, проблема с двумя языками в карточке товара, тянет… Интернет-магазины и электронная коммерция, Парсинг данных ∙ 15 часов 15 минут назад ∙ 20 ставок |
Ценообразование товаров автозапчастей от поставщиков для сайтов автозапчастей на базе Пром.Техническое задание Проект Настройка наполнения и синхронизации двух магазинов Prom.ua с поставщиками автозапчастей. Задача Необходимо реализовать загрузку и обновление товаров от поставщиков автозапчастей для двух интернет-магазинов на Prom.ua. ⸻ 1. Подключение… Парсинг данных ∙ 1 день 3 часа назад ∙ 44 ставки |
Парсинг базы
2000 UAH
Требования к каналам: 1. Язык контента: Русский или украинский (допускается смешанный контент RU/UA) 2. Количество подписчиков: Не менее 500 подписчиков 3. Активность: Последний пост опубликован не позднее чем 32 часа назад 4. Комментарии: В канале должны быть открыты… Базы данных и SQL, Парсинг данных ∙ 1 день 4 часа назад ∙ 29 ставок |
Необходимо разработать Telegram-бота для мониторинга автомобилей с аукционов США (Copart, IAAI)Необходимо создать Telegram-бота для автоматического поиска и мониторинга автомобилей "BUY IT NOW" на аукционах США (Copart, IAAI). Бот должен работать в автоматическом режиме и отправлять сообщения о новых автомобилях, которые соответствуют заданным фильтрам.Основной… Парсинг данных, Разработка ботов ∙ 2 дня 5 часов назад ∙ 93 ставки |