Парсинг данных
4671 UAHНастроить индивидуально А-parser, Content Downloader, X-parser или любой другой парсер для парсинга по списку URl's одного блога-статейника
Входные данные:
- URL-адреса страниц инфо блога
Данные на выходе:
- текста с html разметкой в формате файл.txt (1 файл = 1 текст, см.пример)
- сохраненные картинки в отдельной папке /images/ которая лежит внутри папки с текстовыми файлами txt
Параметры:
- сохранять только текст, картинки и заголовки (интересует только тело статьи+метатеги). не брать: содержание в начале, автора, коммерческие и рекламные вставки
- брать только одну первую картинку слайдера
- сохранять теги: title, description, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
- текст Description сохраняем в начале в теге {desc}текст{/desc}
- сохранять текстовые гиперссылки внутри текста на внешние источники
- сохранять ссылки на самих себя в относительном виде, но без всего что идет перед слешем(включая сам слеш), т.е. когда сайр.ру/рубрика/урл/ - чтобы выглядело так: <a href="gripp/">анкор</a> где "gripp/" это урл. (сайт.ру/рубрика/ - в начале урла не нужны, нужен только хвост урла)
- т.к. мы сохраняем относительные ссылки нам нужно и сохранять хвосты URL’s самих страниц, например сканируем страницу: https://site.ru/rubrika/rubcy/ значит внутри текста например первой строкой сделать тег с хвостом урла [url]rubcy[/url] (берем только хвост урла без слешей)
- не сохранять ссылки с якорями, лишние символы типа фигурных и квадратных скобок в конце предложения [1], авторов, рекламу
- разделять строки кода на абзацы, чтобы весь спаршенный код не был одной строкой.
- нужно сделать подобные выделенные текста в виде тега <blockquote> он же цитата у WordPress
- последнее в статье что берем - это источник и частые впоросы.
- для сохранения рубрик в тегах:
[category]мат.рубрика[/category]
[category]рубрика[/category]
берем только первую(материнскую) и последнюю(обычную) рубрику
Пример готового текста: https://share.cleanshot.com/w40l2mwj
Актуальные фриланс-проекты в категории Парсинг данных
База сайтов на woocommerceНеобходимо собрать базу украинских сайтов интернет-магазинов на woocommerce с контактами, которые указаны на сайтах. Только работающие сайты (индикатор: обновление каталога/контента, рабочий домен) Формат таблицы - адрес сайта, номер телефона, e-mail. Парсинг данных ∙ 2 дня 7 часов назад ∙ 21 ставка |
Создать дашборд в https://airtable.com/ по результативности рекламных креативов из facebook adsПолноценное ТЗ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Базы данных и SQL, Парсинг данных ∙ 3 дня 21 час назад ∙ 18 ставок |
Создание файла Exel для загрузки товаров на сайты других партнеров.Меня интересует, чтобы сделать таблицу Excel со всеми параметрами. Вот сайт - https://heiztechnik.com.ua/ И позиции, которые интересуют, чтобы были перенесены : Ручные котлы : 1) TIS UNI 15-95 кВт (10) шт 2)TIS HARD 150-500 кВт (7) шт Пеллетные котлы: 1)TIS PELLET 15-95 кВт… Парсинг данных ∙ 4 дня 1 час назад ∙ 35 ставок |
Требуется разработчик для парсинга каталога и автоматизации импорта данныхПодробное ТЗ в прикрепленном документе прошу в отклике указать ориентировочную стоимость и сроки реализации есть ли опыт работы с парсингом крупных каталогов какие возможные сложности или ограничения вы видите в данной задаче Базы данных и SQL, Парсинг данных ∙ 4 дня 4 часа назад ∙ 41 ставка |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 4 дня 9 часов назад ∙ 25 ставок |