Parsowanie lub dowolna metoda zbierania prostej informacji
Witaj. Zadanie polega na pozyskiwaniu informacji (tekstu) artykułów z różnych stron internetowych. Jak to robię ja. Otwieram artykuł na blogu, kopiuję cały artykuł. Otwieram swój edytor WordPress i wklejam. I całe formatowanie tekstu zostaje zachowane. Innymi słowy, można od razu publikować. Taka metoda zajmuje czas. 15-20 sek. No jeszcze 1 min na posprzątanie reszty niepotrzebnych informacji.
Wiem, że są parsery. Mam Screaming Frog. Fajny program. Ale co mi się nie podoba w parserach. One są związane z różnymi danymi. Xpath, CSS i tak dalej. Muszą być stawiane warunki. A w czym wtedy problem. Jeśli parsujesz z jednej strony, wtedy wszystko jest bardzo dobrze i tak pasuje. I oszczędza czas. A jeśli z różnych stron, wtedy trzeba wchodzić i zmieniać warunki dla każdej strony innej witryny. Wtedy to zajmie czas. I łatwiej ręcznie skopiować tekst z przeglądarki od razu. I chcę zauważyć, że kopiowany jest ze wszystkimi stylami. I od razu go zapisuję w edytorze WordPress. A parser wyciągnie niepotrzebne dane kodu. Jeśli nie postawi się warunków.
Jak stworzycie coś takiego, co jest podobne do tego, co robimy ręcznie. Kiedy kopiujemy z przeglądarki. Po prostu moja metoda to kopiowanie, i do schowka idą jakieś dane z przeglądarki. Przy zbieraniu informacji nie potrzebuję czystego tekstu. A cały jego kod. Żebym po prostu wkleił go do edytora WordPress i już. Nie wiem jak to jeszcze wyjaśnić. Po prostu jest coś analogicznego do kopiowania z przeglądarki do schowka. Potrzebuję nagłówków, one są wszędzie takie same h1, h2 i inne. I tekst. On jest wszędzie taki <p>tekst</p>. Ustawić tylko jedne warunki, które są wszędzie takie same. Żeby ignorował całą zawartość w menu i w stopce.
Możliwe, że jakoś obejść warunki. Żeby jeśli zrobić parser. To żeby działał pod wszystkie strony. Znajdował tagi i parsował cały kod strony z tagami. A potem wyciągał to w jednym pliku Xml.
Możliwe, że są jakieś inne programy, które nie są parserami. Które mogą kopiować samą zawartość ze wszystkimi jego stylami i formatowaniem bez żadnych warunków. Dla mnie łatwiej posprzątać niepotrzebne. Niż stawiać różne warunki dla każdej strony, z której biorę informacje. Chcę wszystko sprowadzić do automatyzmu. Można to jeszcze wyjaśnić tak. Otwieram źródłowy kod strony w przeglądarce. I kopiuję kod, w którym jest tekst. To zajmuje 1 sekundę. Czyż parser nie może tak samo. Bez żadnych warunków. Nawet jeśli tylko według przybliżonych warunkowych wartości parsować typy h1, <p> i tak dalej. Krótko mówiąc, z imitacją tego, co robię, kiedy kopiuję ręcznie.
Вітаю. Задача діставати інформацію (текст) статті з різних сайтів. Як це роблю я. Відкрив статтю блога, копірнув всю статтю. Відкрив свій редактор Wordpres і вставив. І все форматування тексту зберіглось. Іншими словами хоч бери та публікуй відразу. Такий метод займає час. 15-20 сек. Ну ще 1 хв підчистити решту не потрібної інформації.
Знаю що є парсери. Маю Screaming Frog. Крута прога. Але чим мені не подобаються парсери. Вони прив'язуються до різних даних. Xpath, CSS і так далі. Їм потрібно умови ставити. А в чому тоді проблема. Як що з одного сайту парсити, тоді все дуже добре і так підходить. І економить час. А як що з різних сайтів тоді прийдеться заходити міняти умови для кожної сторінки іншого сайту. Тоді це займе час. І проще руками скопіювати з браузера відразу текст. І хочу зауважити він копіюється зі всіма стилями. І я відразу його зберігаю у вопдпрес редакторі. А парсер потягне ліві дані кода. Як що умови не поставити.
Як створите щось таке, що похоже до того що ми робимо вручну. Коли копіюємо з браузера. Просто мій метод, це копіювання, і в буфер йдуть якісь дані з браузера. При зборі інфи мені не потрібен чистий текст. А весь його код. Щоб я просто вставив його у редактор Wordpres і все. Не знаю як це ще пояснити. Просто є щось аналогічне до копіювання з браузера в буфер обміну. Мені потрібно заголовки вони ж у всіх однакові h1, h2 і другі. І текст. Він у всіх такий <p>текст</p>. Задати одні тільки умови які у всіх однакові. Щоб ігнорував весь контент у меню, і у футері.
Можливо якось обійти умови. Щоб як що зробити парсер. То щоб він працював під всі сайти. Находив теги й парсив весь код сторінки з тегами. І потом вигружав це в одну в Xml.
Можливо є якісь не парсери а інші програми. Які можуть копіювати сам контент зі всіма його стилями та форматуванням без жодних умов. Мені ж легше підчистити не потрібне. Чим задавати різні умови для кожного сайту де я беру інформацію. Я хочу все звести до автоматизму. Ще можна пояснити так. Я відкриваю ісходний код сторінки в браузері. І копіюю код в якому текст. Це займає 1 секунду. Невже парсер не можу так само. Без жодних умов. Навіть хоч по приблизних умовних значеннях парсити типу h1, <p> і так далі. Короче з імітацією до того що я роблю, коли копіюю вручну.
-
Cześć, Ołeksandrze!
Mogę stworzyć parser, który imituje ręczne kopiowanie tekstu z przeglądarki, zachowując wszystkie style i formatowanie. Zapewnię automatyczne zbieranie danych bez skomplikowanych warunków, koncentrując się na nagłówkach i głównym kontencie. To znacznie skróci Twój czas na przygotowanie materiałów do WordPressa. Sprawmy, aby Twój proces zbierania informacji był szybki i efektywny! Z niecierpliwością czekam na współpracę!
Cena i termin zależą od potrzebnej ilości!
Привіт, Олександр!
Я можу створити парсер, який імітує ручне копіювання тексту з браузера, зберігаючи усі стилі та форматування. Забезпечу автоматичний збір даних без складних умов, фокусуючись на заголовках та основному контенті. Це значно скоротить ваш час на підготовку матеріалів для WordPress. Давайте зробимо ваш процес збору інформації швидким та ефективним! З нетерпінням чекаю на співпрацю!
Ціна та термін залежать від необхідної кількості!
Podobny wykonany projekt: Парсинг данних
-
553 4 1 Dzień dobry! Przeczytałem do końca. Myślę, że można znaleźć kilka wariantów automatyzacji opisanego przez Pana procesu. Jestem gotów omówić akceptowalne rozwiązanie, jego cenę i terminy.
Доброго дня! Дочитав до кінця. Думаю можна намацати кілька варіантів автоматизації описаного Вами процесу. Готовий обговорити прийнятне рішення, його ціну та терміни.
-
502 15 1 Witam, oferuję usługi menedżera treści, pracuję w tej dziedzinie od ponad 8 lat. Dodaję artykuły do platformy WordPress, zrozumiałam zadanie. Będę zadowolona ze współpracy. Piszcie.
Вітаю, пропоную послуги контент-менеджера, првцюю давно в цій сфері понад 8 років. Додаю статті до Ваордпресс платформи, зрозуміла завдання. Буду рада співпраці. Пишіть.
-
2601 39 0 Dzień dobry. Nie chcę Pana rozczarować, jednak uniwersalne parsery nie istnieją. Pod każdą stronę potrzebny jest swój unikalny kod. Będę zadowolony, mogąc Panu pomóc. Ostateczna cena zależy od liczby stron i danych, które trzeba zbierać. Podana cena i termin są minimalne za 1 stronę. Będę zadowolony ze współpracy.
Доброго дня. Не хочу Вас розчаровувати, проте універсальних парсерів не існує. Під кожен сайт потрібен свій унікальний код. Буду радий Вам допомогти. Фінальна ціна залежить від кількості сайтів і даних, які потрібно збирати. Вказана ціна та термін є мінімальними за 1 сайт. Буду радий співпраці
-
718 7 1 Cześć! Zapoznałem się z twoim projektem i jestem gotów rozpocząć pracę. Gwarantuję wysoką jakość i szybkie wykonanie.
Здравствуйте! Я ознакомился с вашим проектом и готов начать работу. Гарантирую высокое качество и оперативное выполнение.
-
А ви думаєте якщо "парсер", то буде універсальний? Його так само потрібно налаштувати під конкретний сайт. І парсер може зламатися, якщо на сайті-доннорі щось зміниться.
-
Автоматичне визначення сайту: Ви надаєте мені список сайтів, з яких потрібно збирати інформацію. Я створюю спеціальний скрипт, який автоматично визначає, на якому сайті ви перебуваєте, і застосовує відповідний алгоритм для збору даних. Вам потрібно лише вказати URL сторінки, яку потрібно обробити, і скрипт сам все зробить.
Переваги:
- Висока точність
- Не потребує корегувань після налаштування
Недоліки:
- Може не працювати коректно, якщо зміниться структура сайту
- Може використовуватися тільки для сайтів, зазначених у технічному завданні (ТЗ)
Скрипт з універсальним підходом: Можна створити універсальний скрипт, який буде витягувати дані зі сторінок, ігноруючи меню та футер, і зберігати текст разом із форматуванням. Це дозволить автоматично збирати інформацію без необхідності налаштовувати окремі умови для кожного сайту.
Переваги:
- Універсальність
Недоліки:
- Можливі помилки у витяганні даних через різні структури сайтів
- Потребує постійної донастройки для уникнення помилок
Вибір між цими варіантами залежить від ваших потреб і зручності. Якщо ви хочете більш точне рішення для кожного сайту, перший варіант буде кращим. Якщо ж вам потрібен загальний інструмент, який можна використовувати для різних сайтів без додаткових налаштувань, другий варіант буде простіший.
-
Сайти настільки по різному зроблені, що врахувати всі нюанси неможливо. То там, то сям буде вилізати непотрібний кусок контенту.
-
Aktualne projekty freelancerskie w kategorii Javascript &Typescript
Tworzenie kursu wideo po JavaScript (Junior, Middle, Advanced)Poszukujemy doświadczonego programisty JavaScript do stworzenia kursu wideo na temat programowania w JavaScript dla wszystkich poziomów: Junior, Middle i Advanced. Twoim zadaniem będzie nagranie wykładów wideo o łącznym czasie trwania niezbędnym do pełnego opanowania tematów,… Javascript &Typescript ∙ 1 dzień 3 godziny temu ∙ 1 oferta |
Aplikacja Facebook do autoryzacji.
93 PLN
Koleżanki i koledzy, cześć! Nie jestem pewien, czy można to tutaj napisać, ale przepraszam, jeśli usunę to ogłoszenie. Obecnie wystąpił mały problem techniczny z jednym z serwisów klienta. Szukam kogoś, kto ma konto i zweryfikowaną firmę na https://developers.facebook.com/,… Javascript &Typescript, Programowanie stron internetowych ∙ 1 dzień 4 godziny temu ∙ 1 oferta |
Aplikacja internetowa TelegramZbieramy zespół do napisania aplikacji webowej telegram, czas realizacji 1,5 miesiąca, potrzebny zespół składający się z 3 frontendowych programistów i jednego backendowego programisty Javascript &Typescript ∙ 1 dzień 5 godzin temu ∙ 18 ofert |
Projekt D3.js
1920 PLN
Szukamy starszego dewelopera JavaScript, który zna D3.js. Kandydat powinien mieć ponad 5-letnie doświadczenie w pracy z JavaScript i musi być mocny w strukturach danych i algorytmach. Układ HTML i CSS, Javascript &Typescript ∙ 1 dzień 6 godzin temu ∙ 7 ofert |
Poprawa błędów na stronie-kryptolistingu - React/Lavarel/Node.Js
279 PLN
Poszukujemy na stałe programisty do kryptolistingów - React/Laravel/Node.Js/Tailwind. Płatność po wykonanej pracy. Poprawki, dodawanie nowych funkcji - będą się odbywać na bieżąco, dlatego szukamy odpowiedzialnego programisty, który szybko będzie realizował postawione zadania.… Układ HTML i CSS, Javascript &Typescript ∙ 1 dzień 8 godzin temu ∙ 8 ofert |