Parsing or any method of collecting simple information
Hello. The task is to extract information (text) from articles on various websites. Here’s how I do it. I open a blog article, copy the entire article. I open my WordPress editor and paste it. And all the text formatting is preserved. In other words, you can just take it and publish it immediately. This method takes time. 15-20 seconds. Well, another minute to clean up the unnecessary information.
I know there are parsers. I have Screaming Frog. Great program. But what I don’t like about parsers is that they are tied to different data. Xpath, CSS, and so on. They need conditions to be set. So what’s the problem? If you are parsing from one site, then everything is very good and fits well. And it saves time. But if it’s from different sites, then you have to go in and change the conditions for each page of another site. Then it will take time. And it’s easier to copy the text directly from the browser by hand. And I want to note that it copies with all the styles. And I immediately save it in the WordPress editor. But the parser will pull in extraneous code data if conditions are not set.
If you create something similar to what we do manually when copying from the browser. Just my method is copying, and some data goes to the clipboard from the browser. When collecting info, I don’t need plain text. I need all its code. So that I can just paste it into the WordPress editor and that’s it. I don’t know how else to explain it. There should be something analogous to copying from the browser to the clipboard. I need the headings, which are all the same h1, h2, and others. And the text. It’s all like <p>text</p>. Set only the same conditions that are the same for everyone. To ignore all content in the menu and in the footer.
Maybe there’s a way to bypass the conditions. So that if a parser is made, it works for all sites. Finds tags and parses the entire page code with tags. And then exports it all into one XML.
Maybe there are some other programs that are not parsers. That can copy the content itself with all its styles and formatting without any conditions. It’s easier for me to clean up the unnecessary than to set different conditions for each site where I get information. I want to automate everything. It can also be explained like this. I open the source code of the page in the browser. And I copy the code in which the text is. This takes 1 second. Can’t a parser do the same? Without any conditions. Even if it parses based on approximate conditional values like h1, <p> and so on. In short, with imitation of what I do when I copy manually.
Вітаю. Задача діставати інформацію (текст) статті з різних сайтів. Як це роблю я. Відкрив статтю блога, копірнув всю статтю. Відкрив свій редактор Wordpres і вставив. І все форматування тексту зберіглось. Іншими словами хоч бери та публікуй відразу. Такий метод займає час. 15-20 сек. Ну ще 1 хв підчистити решту не потрібної інформації.
Знаю що є парсери. Маю Screaming Frog. Крута прога. Але чим мені не подобаються парсери. Вони прив'язуються до різних даних. Xpath, CSS і так далі. Їм потрібно умови ставити. А в чому тоді проблема. Як що з одного сайту парсити, тоді все дуже добре і так підходить. І економить час. А як що з різних сайтів тоді прийдеться заходити міняти умови для кожної сторінки іншого сайту. Тоді це займе час. І проще руками скопіювати з браузера відразу текст. І хочу зауважити він копіюється зі всіма стилями. І я відразу його зберігаю у вопдпрес редакторі. А парсер потягне ліві дані кода. Як що умови не поставити.
Як створите щось таке, що похоже до того що ми робимо вручну. Коли копіюємо з браузера. Просто мій метод, це копіювання, і в буфер йдуть якісь дані з браузера. При зборі інфи мені не потрібен чистий текст. А весь його код. Щоб я просто вставив його у редактор Wordpres і все. Не знаю як це ще пояснити. Просто є щось аналогічне до копіювання з браузера в буфер обміну. Мені потрібно заголовки вони ж у всіх однакові h1, h2 і другі. І текст. Він у всіх такий <p>текст</p>. Задати одні тільки умови які у всіх однакові. Щоб ігнорував весь контент у меню, і у футері.
Можливо якось обійти умови. Щоб як що зробити парсер. То щоб він працював під всі сайти. Находив теги й парсив весь код сторінки з тегами. І потом вигружав це в одну в Xml.
Можливо є якісь не парсери а інші програми. Які можуть копіювати сам контент зі всіма його стилями та форматуванням без жодних умов. Мені ж легше підчистити не потрібне. Чим задавати різні умови для кожного сайту де я беру інформацію. Я хочу все звести до автоматизму. Ще можна пояснити так. Я відкриваю ісходний код сторінки в браузері. І копіюю код в якому текст. Це займає 1 секунду. Невже парсер не можу так само. Без жодних умов. Навіть хоч по приблизних умовних значеннях парсити типу h1, <p> і так далі. Короче з імітацією до того що я роблю, коли копіюю вручну.
-
Hello, Oleksandr!
I can create a parser that mimics manual text copying from a browser, preserving all styles and formatting. I will ensure automatic data collection without complex conditions, focusing on headings and main content. This will significantly reduce your time in preparing materials for WordPress. Let's make your information gathering process quick and efficient! I look forward to collaborating! The price and timeline depend on the required quantity!
Привіт, Олександр!
Я можу створити парсер, який імітує ручне копіювання тексту з браузера, зберігаючи усі стилі та форматування. Забезпечу автоматичний збір даних без складних умов, фокусуючись на заголовках та основному контенті. Це значно скоротить ваш час на підготовку матеріалів для WordPress. Давайте зробимо ваш процес збору інформації швидким та ефективним! З нетерпінням чекаю на співпрацю!
Ціна та термін залежать від необхідної кількості!
Similar completed project: Парсинг данних
-
553 4 1 Good day! I have read to the end. I think we can outline a few options for automating the process you described. I am ready to discuss an acceptable solution, its price, and deadlines.
Доброго дня! Дочитав до кінця. Думаю можна намацати кілька варіантів автоматизації описаного Вами процесу. Готовий обговорити прийнятне рішення, його ціну та терміни.
-
502 15 1 Hello, I offer content management services, I have been working in this field for over 8 years. I add articles to WordPress platforms, I understand the task. I would be happy to collaborate. Write to me.
Вітаю, пропоную послуги контент-менеджера, првцюю давно в цій сфері понад 8 років. Додаю статті до Ваордпресс платформи, зрозуміла завдання. Буду рада співпраці. Пишіть.
-
2601 39 0 Good day. I don't want to disappoint you, but universal parsers do not exist. Each website requires its own unique code. I will be happy to help you. The final price depends on the number of websites and the data that needs to be collected. The indicated price and term are the minimum for 1 website. I will be happy to collaborate.
Доброго дня. Не хочу Вас розчаровувати, проте універсальних парсерів не існує. Під кожен сайт потрібен свій унікальний код. Буду радий Вам допомогти. Фінальна ціна залежить від кількості сайтів і даних, які потрібно збирати. Вказана ціна та термін є мінімальними за 1 сайт. Буду радий співпраці
-
718 7 1 Hello! I have reviewed your project and am ready to start working. I guarantee high quality and prompt execution.
Здравствуйте! Я ознакомился с вашим проектом и готов начать работу. Гарантирую высокое качество и оперативное выполнение.
-
А ви думаєте якщо "парсер", то буде універсальний? Його так само потрібно налаштувати під конкретний сайт. І парсер може зламатися, якщо на сайті-доннорі щось зміниться.
-
Автоматичне визначення сайту: Ви надаєте мені список сайтів, з яких потрібно збирати інформацію. Я створюю спеціальний скрипт, який автоматично визначає, на якому сайті ви перебуваєте, і застосовує відповідний алгоритм для збору даних. Вам потрібно лише вказати URL сторінки, яку потрібно обробити, і скрипт сам все зробить.
Переваги:
- Висока точність
- Не потребує корегувань після налаштування
Недоліки:
- Може не працювати коректно, якщо зміниться структура сайту
- Може використовуватися тільки для сайтів, зазначених у технічному завданні (ТЗ)
Скрипт з універсальним підходом: Можна створити універсальний скрипт, який буде витягувати дані зі сторінок, ігноруючи меню та футер, і зберігати текст разом із форматуванням. Це дозволить автоматично збирати інформацію без необхідності налаштовувати окремі умови для кожного сайту.
Переваги:
- Універсальність
Недоліки:
- Можливі помилки у витяганні даних через різні структури сайтів
- Потребує постійної донастройки для уникнення помилок
Вибір між цими варіантами залежить від ваших потреб і зручності. Якщо ви хочете більш точне рішення для кожного сайту, перший варіант буде кращим. Якщо ж вам потрібен загальний інструмент, який можна використовувати для різних сайтів без додаткових налаштувань, другий варіант буде простіший.
-
Сайти настільки по різному зроблені, що врахувати всі нюанси неможливо. То там, то сям буде вилізати непотрібний кусок контенту.
-
Current freelance projects in the category Data Parsing
Parse the group participantsExtract participants of the Viber group (799 participants) and additionally send a newsletter to these users. Separately Data Parsing ∙ 1 hour 56 minutes ago ∙ 6 proposals |
It is necessary to create a script for downloading files from Telegram.A script is required to download apk, exe, docx files from several Telegram channels and save the log in postgresql What the script should do: We save to the database - id | channel | name_file | sha256 | date_download We save all unique files to disk, without duplicates… Databases & SQL, Data Parsing ∙ 1 hour 59 minutes ago ∙ 3 proposals |
Parser for Prom.ua
30 USD
Greetings! I am interested in the development/purchase of a parser for Prom.ua The goal of the parser: to extract contact information of stores in specific categories. The cost mentioned is approximate, so please suggest your options. Data Parsing ∙ 6 hours 13 minutes ago ∙ 12 proposals |
Find matches of identical tokens across different existing Solana wallets.
12 USD
Create an automatic parsing, scraping, something on Phytone, or just a Telegram bot, in principle, it is not so important, something simple can be done, in which it will be possible to insert 100-200 cryptocurrency wallets on the Solana blockchain, where it will automatically… Cryptocurrency & Blockchain, Data Parsing ∙ 22 hours 46 minutes ago ∙ 5 proposals |
Bot for monitoring new listings on OLXA group is needed in Telegram, where new announcements will be received from these 2 links: https://www.olx.ua/nedvizhimost/kvartiry/prodazha-kvartir/cherkassy/?currency=USD&search%5Bprivate_business%5D=private… Data Parsing ∙ 1 day ago ∙ 14 proposals |