Analiza danych

Parsowanie danych — podano nieprawidłowe kategorie?

389 PLN

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Dostosuj indywidualnie A-parser, Content Downloader, X-parser lub inny parser do parsowania listy adresów URL jednego bloga-artykułów

Dane wejściowe:

- Adresy URL stron bloga informacyjnego

Dane wyjściowe:

- tekst z formatowaniem html w formacie pliku.txt (1 plik = 1 tekst, patrz przykład)

- zapisane obrazy w osobnym folderze /images/ znajdującym się wewnątrz folderu z plikami tekstowymi txt

Parametry:

zachować tylko tekst, obrazy i nagłówki (interesuje tylko treść artykułu + meta tagi). nie brać: treści na początku, autora, wstawki komercyjne i reklamowe wstawki
brać tylko pierwszy obraz z suwaka
zachować tagi: tytuł, opis, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
tekst Description zachowujemy na początku w tagu {desc}tekst{/desc}
zachować tekstowe hiperłącza wewnątrz tekstu do zewnętrznych źródeł
zachować linki do siebie w formie względnej, ale bez wszystkiego co znajduje się przed ukośnikiem (włącznie z samym ukośnikiem), czyli gdy site.ru/rubrika/url/ - powinno wyglądać tak: <a href="gripp/">anchor</a> gdzie "gripp/" to url. (site.ru/rubrika/ - na początku url nie jest potrzebny, potrzebny jest tylko ogon url)
ponieważ zachowujemy względne linki, musimy również zachować ogony URLi samych stron, na przykład skanujemy stronę: https://site.ru/rubrika/rubcy/ oznacza to, że w tekście na przykład pierwszą linią zrobić tag z ogonem urla [url]rubcy[/url] (bierzemy tylko ogon urla bez ukośników)
nie zachowywać linków z kotwicami, zbędne symbole typu nawiasów klamrowych i kwadratowych na końcu zdania [1], autorów, reklam
rozdzielać wiersze kodu na akapity, aby cały sparsowany kod nie był jednym wierszem.
należy zrobić podobne zaznaczone teksty w postaci tagu <blockquote> czyli cytaty w WordPress
ostatnią rzeczą w artykule, którą bierzemy, jest źródło i częste pytania.
dla zachowania kategorii w tagach:

[category]mat. kategoria[/category]

[category]kategoria[/category]

bierzemy tylko pierwszą(matczyną) i ostatnią(zwykłą) kategorię

Przykład gotowego tekstu: https://share.cleanshot.com/w40l2mwj

Oferty

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych

Parsowanie danych

48 ofert 15:18

Nie podano
API Reddit

Programowanie stron internetowych 27 ofert 30 lipca

Nie podano
Parsowanie strony, obejście ochrony Akamai

Python 42 oferty 30 lipca

Nie podano
Парсинг маркетплейсу

Tworzenie chatbota 33 oferty 30 lipca

144 PLN
Automatyczny import cen z cenników dostawców w formacie Google Sheets CSV na HOSZOP

Programowanie stron internetowych 68 ofert 29 lipca

424 PLN