Парсинг или любой метод сбора простой информации
Здравствуйте. Задача извлекать информацию (текст) статей с различных сайтов. Как это делаю я. Открываю статью блога, копирую всю статью. Открываю свой редактор WordPress и вставляю. И все форматирование текста сохраняется. Другими словами, можно просто взять и опубликовать сразу. Такой метод занимает время. 15-20 секунд. Ну еще 1 минуту, чтобы подправить остальную ненужную информацию.
Знаю, что есть парсеры. У меня есть Screaming Frog. Классная программа. Но чем мне не нравятся парсеры. Они привязываются к различным данным. Xpath, CSS и так далее. Им нужно задавать условия. А в чем тогда проблема. Если парсить с одного сайта, тогда все очень хорошо и так подходит. И экономит время. А если с различных сайтов, тогда придется заходить и менять условия для каждой страницы другого сайта. Тогда это займет время. И проще руками скопировать текст из браузера сразу. И хочу заметить, он копируется со всеми стилями. И я сразу его сохраняю в редакторе WordPress. А парсер потянет лишние данные кода. Если условия не задать.
Как создадите что-то такое, что похоже на то, что мы делаем вручную. Когда копируем из браузера. Просто мой метод — это копирование, и в буфер идут какие-то данные из браузера. При сборе информации мне не нужен чистый текст. А весь его код. Чтобы я просто вставил его в редактор WordPress и все. Не знаю, как это еще объяснить. Просто есть что-то аналогичное копированию из браузера в буфер обмена. Мне нужны заголовки, они же у всех одинаковые h1, h2 и другие. И текст. Он у всех такой <p>текст</p>. Задать одни только условия, которые у всех одинаковые. Чтобы игнорировал весь контент в меню и в футере.
Возможно, как-то обойти условия. Чтобы, если сделать парсер, то чтобы он работал под все сайты. Находил теги и парсил весь код страницы с тегами. И потом выгружал это в одну в Xml.
Возможно, есть какие-то не парсеры, а другие программы. Которые могут копировать сам контент со всеми его стилями и форматированием без каких-либо условий. Мне же легче подправить ненужное, чем задавать разные условия для каждого сайта, откуда я беру информацию. Я хочу все свести к автоматизму. Еще можно объяснить так. Я открываю исходный код страницы в браузере. И копирую код, в котором текст. Это занимает 1 секунду. Неужели парсер не может так же. Без каких-либо условий. Даже хотя бы по приблизительным условным значениям парсить типа h1, <p> и так далее. Короче, с имитацией того, что я делаю, когда копирую вручную.
Вітаю. Задача діставати інформацію (текст) статті з різних сайтів. Як це роблю я. Відкрив статтю блога, копірнув всю статтю. Відкрив свій редактор Wordpres і вставив. І все форматування тексту зберіглось. Іншими словами хоч бери та публікуй відразу. Такий метод займає час. 15-20 сек. Ну ще 1 хв підчистити решту не потрібної інформації.
Знаю що є парсери. Маю Screaming Frog. Крута прога. Але чим мені не подобаються парсери. Вони прив'язуються до різних даних. Xpath, CSS і так далі. Їм потрібно умови ставити. А в чому тоді проблема. Як що з одного сайту парсити, тоді все дуже добре і так підходить. І економить час. А як що з різних сайтів тоді прийдеться заходити міняти умови для кожної сторінки іншого сайту. Тоді це займе час. І проще руками скопіювати з браузера відразу текст. І хочу зауважити він копіюється зі всіма стилями. І я відразу його зберігаю у вопдпрес редакторі. А парсер потягне ліві дані кода. Як що умови не поставити.
Як створите щось таке, що похоже до того що ми робимо вручну. Коли копіюємо з браузера. Просто мій метод, це копіювання, і в буфер йдуть якісь дані з браузера. При зборі інфи мені не потрібен чистий текст. А весь його код. Щоб я просто вставив його у редактор Wordpres і все. Не знаю як це ще пояснити. Просто є щось аналогічне до копіювання з браузера в буфер обміну. Мені потрібно заголовки вони ж у всіх однакові h1, h2 і другі. І текст. Він у всіх такий <p>текст</p>. Задати одні тільки умови які у всіх однакові. Щоб ігнорував весь контент у меню, і у футері.
Можливо якось обійти умови. Щоб як що зробити парсер. То щоб він працював під всі сайти. Находив теги й парсив весь код сторінки з тегами. І потом вигружав це в одну в Xml.
Можливо є якісь не парсери а інші програми. Які можуть копіювати сам контент зі всіма його стилями та форматуванням без жодних умов. Мені ж легше підчистити не потрібне. Чим задавати різні умови для кожного сайту де я беру інформацію. Я хочу все звести до автоматизму. Ще можна пояснити так. Я відкриваю ісходний код сторінки в браузері. І копіюю код в якому текст. Це займає 1 секунду. Невже парсер не можу так само. Без жодних умов. Навіть хоч по приблизних умовних значеннях парсити типу h1, <p> і так далі. Короче з імітацією до того що я роблю, коли копіюю вручну.
-
553 4 1 Добрый день! Дочитал до конца. Думаю, можно нащупать несколько вариантов автоматизации описанного Вами процесса. Готов обсудить приемлемое решение, его цену и сроки.
Доброго дня! Дочитав до кінця. Думаю можна намацати кілька варіантів автоматизації описаного Вами процесу. Готовий обговорити прийнятне рішення, його ціну та терміни.
-
502 15 1 Здравствуйте, предлагаю услуги контент-менеджера, работаю давно в этой сфере более 8 лет. Добавляю статьи на платформу Вордпресс, поняла задание. Буду рада сотрудничеству. Пишите.
Вітаю, пропоную послуги контент-менеджера, првцюю давно в цій сфері понад 8 років. Додаю статті до Ваордпресс платформи, зрозуміла завдання. Буду рада співпраці. Пишіть.
-
1595 19 0 Привет, Александр!
Я могу создать парсер, который имитирует ручное копирование текста из браузера, сохраняя все стили и форматирование. Обеспечу автоматический сбор данных без сложных условий, фокусируясь на заголовках и основном контенте. Это значительно сократит ваше время на подготовку материалов для WordPress. Давайте сделаем ваш процесс сбора информации быстрым и эффективным! С нетерпением жду сотрудничества!
Цена и срок зависят от необходимого количества!
Привіт, Олександр!
Я можу створити парсер, який імітує ручне копіювання тексту з браузера, зберігаючи усі стилі та форматування. Забезпечу автоматичний збір даних без складних умов, фокусуючись на заголовках та основному контенті. Це значно скоротить ваш час на підготовку матеріалів для WordPress. Давайте зробимо ваш процес збору інформації швидким та ефективним! З нетерпінням чекаю на співпрацю!
Ціна та термін залежать від необхідної кількості!
-
2601 39 0 Добрый день. Не хочу Вас разочаровывать, однако универсальных парсеров не существует. Под каждый сайт нужен свой уникальный код. Буду рад Вам помочь. Финальная цена зависит от количества сайтов и данных, которые нужно собирать. Указанная цена и срок являются минимальными за 1 сайт. Буду рад сотрудничеству.
Доброго дня. Не хочу Вас розчаровувати, проте універсальних парсерів не існує. Під кожен сайт потрібен свій унікальний код. Буду радий Вам допомогти. Фінальна ціна залежить від кількості сайтів і даних, які потрібно збирати. Вказана ціна та термін є мінімальними за 1 сайт. Буду радий співпраці
-
732 7 1 Здравствуйте! Я ознакомился с вашим проектом и готов начать работу. Гарантирую высокое качество и оперативное выполнение.
-
А ви думаєте якщо "парсер", то буде універсальний? Його так само потрібно налаштувати під конкретний сайт. І парсер може зламатися, якщо на сайті-доннорі щось зміниться.
-
Автоматичне визначення сайту: Ви надаєте мені список сайтів, з яких потрібно збирати інформацію. Я створюю спеціальний скрипт, який автоматично визначає, на якому сайті ви перебуваєте, і застосовує відповідний алгоритм для збору даних. Вам потрібно лише вказати URL сторінки, яку потрібно обробити, і скрипт сам все зробить.
Переваги:
- Висока точність
- Не потребує корегувань після налаштування
Недоліки:
- Може не працювати коректно, якщо зміниться структура сайту
- Може використовуватися тільки для сайтів, зазначених у технічному завданні (ТЗ)
Скрипт з універсальним підходом: Можна створити універсальний скрипт, який буде витягувати дані зі сторінок, ігноруючи меню та футер, і зберігати текст разом із форматуванням. Це дозволить автоматично збирати інформацію без необхідності налаштовувати окремі умови для кожного сайту.
Переваги:
- Універсальність
Недоліки:
- Можливі помилки у витяганні даних через різні структури сайтів
- Потребує постійної донастройки для уникнення помилок
Вибір між цими варіантами залежить від ваших потреб і зручності. Якщо ви хочете більш точне рішення для кожного сайту, перший варіант буде кращим. Якщо ж вам потрібен загальний інструмент, який можна використовувати для різних сайтів без додаткових налаштувань, другий варіант буде простіший.
-
Сайти настільки по різному зроблені, що врахувати всі нюанси неможливо. То там, то сям буде вилізати непотрібний кусок контенту.
-
Актуальные фриланс-проекты в категории Javascript и Typescript
Калькулятор Зеленой карты по API с EWA с оформлением полиса
3000 UAH
Доброго дня!сайт на wordpressі Потрібно розробити калькулятор Зелена карта з оформленням і оплатою полісу з інтеграцією з платформою страхування EWA по API Документація тут як має бути: раздватритобто має бути калькулятор і видача пропозицій з лого компанії, назвою і описом… HTML и CSS верстка, Javascript и Typescript ∙ 12 минут назад |
GPU-ускоренное вычисление точек на эллиптической кривой secp256k1 с помощью OpenCLНужно запустить с помощью GPU умножение точки G на скалярное выражение n. n - это индекс или номер потока на GPU На выходе я хочу получить массив результатов умножения точки G На гите нашел возможно рабочий код для работы с secp256k1 на openCL, но судя п поиску уже есть… C и C++, Javascript и Typescript ∙ 24 минуты назад |
Необходимо подключить апи для генерации ответа от чата GPT
5000 UAH
Необходимо подключить апи для генерации ответа от чата GPT в существующий проект. Проект написан на технологии .NET Framework 4.7 C#, Javascript и Typescript ∙ 18 часов 55 минут назад ∙ 6 ставок |
Написание PHP скриптовНеобходимо написать несколько PHP скриптов, которые должны обращаться по API к бєкенду, сохранять данные, перезаписывать данные, отвечать по запросам извне. Подробное ТЗ вышлю заинтересовавшимся. Javascript и Typescript, PHP ∙ 19 часов 20 минут назад ∙ 10 ставок |
Человек со знанием React и Jupyter NotebookДля реализации проекта на React(TS) с использованием jupyter-ui нужен человек знакомый с Jupyter Notebook. Для начала нужно отобразить нужный notebook и написать методы для проброски данных из него и в него. Javascript и Typescript, Веб-программирование ∙ 1 день 8 часов назад ∙ 6 ставок |