Парсинг данных

Парсинг данных — неверно указаны категории?

4597 UAH

Настроить индивидуально А-parser, Content Downloader, X-parser или любой другой парсер для парсинга по списку URl's одного блога-статейника

Входные данные:

- URL-адреса страниц инфо блога

Данные на выходе:

- текста с html разметкой в формате файл.txt (1 файл = 1 текст, см.пример)

- сохраненные картинки в отдельной папке /images/ которая лежит внутри папки с текстовыми файлами txt

Параметры:

сохранять только текст, картинки и заголовки (интересует только тело статьи+метатеги). не брать: содержание в начале, автора, коммерческие и рекламные вставки
брать только одну первую картинку слайдера
сохранять теги: title, description, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
текст Description сохраняем в начале в теге {desc}текст{/desc}
сохранять текстовые гиперссылки внутри текста на внешние источники
сохранять ссылки на самих себя в относительном виде, но без всего что идет перед слешем(включая сам слеш), т.е. когда сайр.ру/рубрика/урл/ - чтобы выглядело так: <a href="gripp/">анкор</a> где "gripp/" это урл. (сайт.ру/рубрика/ - в начале урла не нужны, нужен только хвост урла)
т.к. мы сохраняем относительные ссылки нам нужно и сохранять хвосты URL’s самих страниц, например сканируем страницу: https://site.ru/rubrika/rubcy/ значит внутри текста например первой строкой сделать тег с хвостом урла [url]rubcy[/url] (берем только хвост урла без слешей)
не сохранять ссылки с якорями, лишние символы типа фигурных и квадратных скобок в конце предложения [1], авторов, рекламу
разделять строки кода на абзацы, чтобы весь спаршенный код не был одной строкой.
нужно сделать подобные выделенные текста в виде тега <blockquote> он же цитата у WordPress
последнее в статье что берем - это источник и частые впоросы.
для сохранения рубрик в тегах:

[category]мат.рубрика[/category]

[category]рубрика[/category]

берем только первую(материнскую) и последнюю(обычную) рубрику

Пример готового текста: https://share.cleanshot.com/w40l2mwj

Ставки

Актуальные фриланс-проекты в категории Парсинг данных

Reddit API

Веб-программирование 25 ставок 30 июля

Не указан
Парсинг сайта, обход защиты Akami

Python 39 ставок 30 июля

Не указан
Парсинг маркетплейсу

Разработка ботов 31 ставка 30 июля

1700 UAH
Автоматический импорт цен из прайс-листов поставщиков в формате гугл таблиц CSV на ХОРОШОП

Веб-программирование 66 ставок 29 июля

5000 UAH
Найти и добавить ссылки на фото к 900 самолетам.

Обработка данных 33 ставки 28 июля

2000 UAH

Olga Raeva
Chteauroux, Франция

Проектов 18
Оценка 5.0
Рейтинг 1 107

Парсинг данных

Ставки пока отсутствуют

Ставки пока отсутствуют

Актуальные фриланс-проекты в категории Парсинг данных

Reddit API

Парсинг сайта, обход защиты Akami

Парсинг маркетплейсу

Автоматический импорт цен из прайс-листов поставщиков в формате гугл таблиц CSV на ХОРОШОП

Найти и добавить ссылки на фото к 900 самолетам.