Analiza danych
Dostosuj indywidualnie A-parser, Content Downloader, X-parser lub inny parser do parsowania listy adresów URL jednego bloga-artykułów
Dane wejściowe:
- Adresy URL stron bloga informacyjnego
Dane wyjściowe:
- tekst z formatowaniem html w formacie pliku.txt (1 plik = 1 tekst, patrz przykład)
- zapisane obrazy w osobnym folderze /images/ znajdującym się wewnątrz folderu z plikami tekstowymi txt
Parametry:
- zachować tylko tekst, obrazy i nagłówki (interesuje tylko treść artykułu + meta tagi). nie brać: treści na początku, autora, wstawki komercyjne i reklamowe wstawki
- brać tylko pierwszy obraz z suwaka
- zachować tagi: tytuł, opis, h1 - h6, i, p, blockquote, ol, ul, alt, strong, b
- tekst Description zachowujemy na początku w tagu {desc}tekst{/desc}
- zachować tekstowe hiperłącza wewnątrz tekstu do zewnętrznych źródeł
- zachować linki do siebie w formie względnej, ale bez wszystkiego co znajduje się przed ukośnikiem (włącznie z samym ukośnikiem), czyli gdy site.ru/rubrika/url/ - powinno wyglądać tak: <a href="gripp/">anchor</a> gdzie "gripp/" to url. (site.ru/rubrika/ - na początku url nie jest potrzebny, potrzebny jest tylko ogon url)
- ponieważ zachowujemy względne linki, musimy również zachować ogony URLi samych stron, na przykład skanujemy stronę: https://site.ru/rubrika/rubcy/ oznacza to, że w tekście na przykład pierwszą linią zrobić tag z ogonem urla [url]rubcy[/url] (bierzemy tylko ogon urla bez ukośników)
- nie zachowywać linków z kotwicami, zbędne symbole typu nawiasów klamrowych i kwadratowych na końcu zdania [1], autorów, reklam
- rozdzielać wiersze kodu na akapity, aby cały sparsowany kod nie był jednym wierszem.
- należy zrobić podobne zaznaczone teksty w postaci tagu <blockquote> czyli cytaty w WordPress
- ostatnią rzeczą w artykule, którą bierzemy, jest źródło i częste pytania.
- dla zachowania kategorii w tagach:
[category]mat. kategoria[/category]
[category]kategoria[/category]
bierzemy tylko pierwszą(matczyną) i ostatnią(zwykłą) kategorię
Przykład gotowego tekstu: https://share.cleanshot.com/w40l2mwj
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Baza stron na woocommercePotrzebna jest baza ukraińskich stron internetowych sklepów internetowych na woocommerce z kontaktami, które są podane na stronach. Tylko działające strony (wskaźnik: aktualizacja katalogu/treści, działająca domena) Format tabeli - adres strony, numer telefonu, e-mail. Parsowanie danych ∙ 2 dni 7 godzin temu ∙ 21 ofert |
Stworzyć dashboard w https://airtable.com/ dotyczący efektywności reklamowych kreacji z facebook adsPełnoprawne TZ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Bazy danych i SQL, Parsowanie danych ∙ 3 dni 21 godzin temu ∙ 18 ofert |
Stworzenie pliku Exel do załadowania towarów na strony innych partnerów.Interesuje mnie, aby stworzyć tabelę Excel ze wszystkimi parametrami. Oto strona - https://heiztechnik.com.ua/ A pozycje, które mnie interesują, powinny być przeniesione: Kotły ręczne: 1) TIS UNI 15-95 kW (10) szt 2)TIS HARD 150-500 kW (7) szt Kotły na pelety: 1)TIS PELLET… Parsowanie danych ∙ 4 dni 1 godzina temu ∙ 35 ofert |
Wymagany programista do parsowania katalogu i automatyzacji importu danychSzczegółowe TZ w załączonym dokumencie proszę w odpowiedzi podać orientacyjną cenę i terminy realizacji czy masz doświadczenie w parsowaniu dużych katalogów jakie możliwe trudności lub ograniczenia widzisz w tym zadaniu Bazy danych i SQL, Parsowanie danych ∙ 4 dni 4 godziny temu ∙ 41 ofert |
Znaleźć feed produktowy (Google Merchant XML) dla strony na OpenCart
57 PLN
Konieczne jest znalezienie bezpośredniego linku do działającego pliku z danymi produktowymi (XML) konkurenta dla Google Merchant Center Platforma (CMS): OpenCart / ocStore Znajdź oryginalny plik z danymiWymagania dotyczące wyniku: Roboczy link do pliku XML Python, Parsowanie danych ∙ 4 dni 9 godzin temu ∙ 25 ofert |