Збір даних

Парсинг даних — неправильно зазначені категорії?

4597 UAH

Проєкт перекладено автоматично. Увійдіть або зареєструйтесь, щоб побачити оригінал

Налаштувати індивідуально А-parser, Content Downloader, X-parser або будь-який інший парсер для парсингу за списком URl's одного блогу-статейника

Вхідні дані:

- URL-адреси сторінок інфо блогу

Дані на виході:

- текст з html розміткою у форматі файл.txt (1 файл = 1 текст, див.приклад)

- збережені зображення в окремій папці /images/ яка лежить всередині папки з текстовими файлами txt

Параметри:

зберігати лише текст, зображення та заголовки (цікавить лише тіло статті+метатеги). не брати: вміст на початку, автора, комерційні та рекламні вставки
брати лише одне перше зображення слайдера
зберігати теги: title, description, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
текст Description зберігаємо на початку в тезі {desc}текст{/desc}
зберігати текстові гіперпосилання всередині тексту на зовнішні джерела
зберігати посилання на самих себе у відносному вигляді, але без усього, що йде перед слешем(включаючи сам слеш), тобто коли сайр.ру/рубрика/урл/ - щоб виглядало так: <a href="gripp/">анкор</a> де "gripp/" це урл. (сайт.ру/рубрика/ - на початку урла не потрібні, потрібен лише хвіст урла)
т.к. ми зберігаємо відносні посилання нам потрібно також зберігати хвости URL’s самих сторінок, наприклад скануємо сторінку: https://site.ru/rubrika/rubcy/ означає всередині тексту наприклад першим рядком зробити тег з хвостом урла [url]rubcy[/url] (беремо лише хвіст урла без слешів)
не зберігати посилання з якорями, зайві символи типу фігурних та квадратних дужок в кінці речення [1], авторів, рекламу
розділяти рядки коду на абзаци, щоб весь спаршений код не був одним рядком.
потрібно зробити подібні виділені тексти у вигляді тега <blockquote> він же цитата у WordPress
останнє в статті що беремо - це джерело та часті запитання.
для збереження рубрик у тегах:

[category]мат.рубрика[/category]

[category]рубрика[/category]

беремо лише першу(материнську) та останню(звичайну) рубрику

Приклад готового тексту: https://share.cleanshot.com/w40l2mwj

Ставки

Актуальні фриланс-проєкти в категорії Парсинг даних

API Reddit

Веб-програмування 24 ставки 30 липня

Не вказано
Парсинг сайту, обхід захисту Akami

Python 39 ставок 30 липня

Не вказано
Парсинг маркетплейсу

Розробка ботів 31 ставка 30 липня

1700 UAH
Автоматичний імпорт цін з прайсів постачальників в форматі гугл таблиць CSV на ХОРОШОП

Веб-програмування 66 ставок 29 липня

5000 UAH
Знайти та додати посилання на фото до 900 літаків.

Обробка даних 33 ставки 28 липня

2000 UAH

Olga Raeva
Chteauroux, Франція

Проєктів 18
Оцінка 5.0
Рейтинг 1 107

Збір даних

Ставки поки відсутні

Ставки поки відсутні

Актуальні фриланс-проєкти в категорії Парсинг даних

API Reddit

Парсинг сайту, обхід захисту Akami

Парсинг маркетплейсу

Автоматичний імпорт цін з прайсів постачальників в форматі гугл таблиць CSV на ХОРОШОП

Знайти та додати посилання на фото до 900 літаків.