Збір даних
Налаштувати індивідуально А-parser, Content Downloader, X-parser або будь-який інший парсер для парсингу за списком URl's одного блогу-статейника
Вхідні дані:
- URL-адреси сторінок інфо блогу
Дані на виході:
- текст з html розміткою у форматі файл.txt (1 файл = 1 текст, див.приклад)
- збережені зображення в окремій папці /images/ яка лежить всередині папки з текстовими файлами txt
Параметри:
- зберігати лише текст, зображення та заголовки (цікавить лише тіло статті+метатеги). не брати: вміст на початку, автора, комерційні та рекламні вставки
- брати лише одне перше зображення слайдера
- зберігати теги: title, description, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
- текст Description зберігаємо на початку в тезі {desc}текст{/desc}
- зберігати текстові гіперпосилання всередині тексту на зовнішні джерела
- зберігати посилання на самих себе у відносному вигляді, але без усього, що йде перед слешем(включаючи сам слеш), тобто коли сайр.ру/рубрика/урл/ - щоб виглядало так: <a href="gripp/">анкор</a> де "gripp/" це урл. (сайт.ру/рубрика/ - на початку урла не потрібні, потрібен лише хвіст урла)
- т.к. ми зберігаємо відносні посилання нам потрібно також зберігати хвости URL’s самих сторінок, наприклад скануємо сторінку: https://site.ru/rubrika/rubcy/ означає всередині тексту наприклад першим рядком зробити тег з хвостом урла [url]rubcy[/url] (беремо лише хвіст урла без слешів)
- не зберігати посилання з якорями, зайві символи типу фігурних та квадратних дужок в кінці речення [1], авторів, рекламу
- розділяти рядки коду на абзаци, щоб весь спаршений код не був одним рядком.
- потрібно зробити подібні виділені тексти у вигляді тега <blockquote> він же цитата у WordPress
- останнє в статті що беремо - це джерело та часті запитання.
- для збереження рубрик у тегах:
[category]мат.рубрика[/category]
[category]рубрика[/category]
беремо лише першу(материнську) та останню(звичайну) рубрику
Приклад готового тексту: https://share.cleanshot.com/w40l2mwj
Актуальні фриланс-проєкти в категорії Парсинг даних
База сайтів на woocommerceПотрібно зібрати базу українських сайтів інтернет-магазинів на woocommerce з контактами, які вказані на сайтах. Тільки працюючі сайти (індикатор: оновлення каталогу/контенту, робочий домен) Формат таблиці - адреса сайту, номер телефону, e-mail. Парсинг даних ∙ 2 дні 5 годин тому ∙ 21 ставка |
Створити дашборд у https://airtable.com/ по результативності рекламних креативів з facebook adsПовноцінне ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Бази даних та SQL, Парсинг даних ∙ 3 дні 19 годин тому ∙ 17 ставок |
Створення файлу Exel для завантаження товарів на сайти інших партнерів.Мене цікавить щоб зробити табличку Exel з повністю всіма параметрами. Ось сайт -https://heiztechnik.com.ua/ І позиціії які цікавлять щоб були перенесенні : Ручні котли : 1) TIS UNI 15-95 кВт(10) шт 2)TIS HARD 150-500 кВт(7) шт Пелетні котли: 1)TIS PELLET 15-95 кВт(10) шт 2)TIS… Парсинг даних ∙ 4 дні тому ∙ 35 ставок |
Потрібен розробник для парсингу каталогу та автоматизації імпорту данихПодробне ТЗ в прикріпленому документі прошу в відповіді вказати орієнтовну вартість і терміни реалізації чи є досвід роботи з парсингом великих каталогів які можливі складнощі або обмеження ви бачите в даному завданні Бази даних та SQL, Парсинг даних ∙ 4 дні 2 години тому ∙ 40 ставок |
Знайти товарний фід (Google Merchant XML) для сайту на OpenCart
700 UAH
Необхідно знайти пряме посилання на діючий товарний фід (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Знайти оригінальний фідВимоги до результату: Робоче посилання на XML-файл Python, Парсинг даних ∙ 4 дні 8 годин тому ∙ 25 ставок |