Преобразовать mht в чистый html БЕЗ мусора
Всем привет!
Есть задача. Мы имеем 10 000 файлов формата mht
Все это нужно обработать и получить чистый html
Задача не совсем простая, при кажущейся простоте)
Каждая инструкция содержит набор определенных заголовков, всего их чуть больше, но якорных 21 заголовок.
Мне нужно на выходе получить ЧИСТЫЙ html код, без мусора в виде:
Если просто копирую из word и вставляю в визуальный редактор то получаю:
<p><span style="background-color:white"><span style="color:black">Пептична виразка асоціюється з </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em><span style="color:black">, </span></em><span style="color:black">включаючи виразку дванадцятипалої кишки та виразку шлунка. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">розглядається як головний вирішальний фактор у розвитку гастриту. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">разом з кислотою шлункового соку є головними факторами у розвитку пептичної виразкової хвороби. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">є основним фактором у розвитку атрофічного гастриту, який асоціюється з підвищеним ризиком розвитку раку шлунка.</span></span></p>
Если код прогнать через блокнот, то мусор пропадает, вместе с форматированием (курсив, жирный, подчеркивание)
А хочу получать код на выходе:
<p>Пептична виразка асоціюється з <em>H. pylori</em>, включаючи виразку дванадцятипалої кишки та виразку шлунка. <em>H. pylori</em> розглядається як головний вирішальний фактор у розвитку гастриту. <em>H. pylori</em> разом з кислотою шлункового соку є головними факторами у розвитку пептичної виразкової хвороби. <em>H. pylori</em> є основним фактором у розвитку атрофічного гастриту, який асоціюється з підвищеним ризиком розвитку раку шлунка.</p>
Смотрите, есть 21 заголовок
Наша задача загонять в обработчик файл, а на выходе получать 21 заголовок обернутый в h2 и h3
Получается нужно html документ разбить на 21 блок. То, что между этих блоков очистить от мусора и вывести так, как я показал ниже.
Например: первые 2 заголовка инструкции
<h2>Склад</h2>
<p><em>діюча речовина omeprazole</em></p>
<p>1 капсула містить омепразолу 20 мг;</p>
<p><em>допоміжні речовини:</em> маніт (Е 421); лактоза, моногідрат; натрію лаурилсульфат; динатрію гідрофосфат; цукроза; гіпромелоза; метакрилатний сополімер (тип С); натрію гідроксид; макрогол; тальк; титану діоксид (Е 171);</p>
<p><em>склад капсули</em>: желатин, метилпарагідроксибензоат (Е 218), пропілпарагідроксибензоат (Е 216), кармоїзин (Е 122).</p>
<h2>Лікарська форма</h2>
<p>Капсули.</p>
<p><em>Основні фізико-хімічні властивості</em>: тверді желатинові прозорі капсули розміром 2, з маркуванням OMEZ, із безколірним корпусом і рожевим ковпачком. Вміст капсул – білі або майже білі пелети.</p>
В html коде допускается только курсив, жирный, подчеркивание и <p>
Также допускается все, что касается таблиц <table><tr><td>
Не смотря на то, что курсив разрешен, очень часто в коде буквально каждая буква или пробел обернуты отдельными кодами, вот как показано ниже.
<em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em>
Вообще в этих файлах встречаются просто огромные кучи мусора и нужно как-то научиться с ним бороться.
Встречаются десятки пробелов и другие вещи.
Если вы можете мне помочь обработать 10 000 файлов и на выходе получить чистенький код, как я написал, то пишите стоимость и сроки,
Спасибо
Пример файла можно скачать с реестра лекарств http://www.drlz.com.ua/ibp/lz_www.nsf/id/C35037B6ED614674C225851300290997/$file/UA11530101_0962.mht
Current freelance projects in the category AI & Machine Learning
Automatic posting of stories on InstagramGood day, I need help with setting up automatic posting of stories on Instagram. There are already stories in the Instagram archive that have been published, and they need to be reposted. AI & Machine Learning, Bot Development ∙ 19 hours 57 minutes back ∙ 23 proposals |
Creation of an AI assistant for communication with ClientsIt is necessary to create an AI assistant for communication with Clients. The chat window will be located on our website, followed by communication with the bot. Questions about products, settings, capabilities, etc. In cases where the information is unknown or the request can… AI & Machine Learning, AI Consulting ∙ 1 day 15 hours back ∙ 33 proposals |
I am looking for a video editor who creates AI videos.Creation of AI videos for dentists and other experts Objective: To create short vertical videos for Instagram Reels, Facebook Reels, TikTok, and YouTube Shorts that explain complex topics in simple language and hold the viewer's attention through a combination of AI animation… AI & Machine Learning ∙ 1 day 22 hours back ∙ 2 proposals |
I am looking for a mentor/teacher for ComfyUI for online learning (working through RunPod)
16 USD
Hello. I am looking for a practicing specialist and mentor who can help me master working with ComfyUI. The main feature of my request is that the work will be done entirely in the cloud, without downloading the program to a local computer. I plan to rent a graphics card through… AI & Machine Learning ∙ 2 days 9 hours back ∙ 1 proposal |
AI agent of sports nutrition technologistThe agent helps develop formulations for new sports nutrition products — protein bars, proteins, pre-workouts, isotonic drinks, bars, etc. The main feature: the agent knows the legislation of different countries and automatically takes it into account when creating the… AI & Machine Learning, Web Programming ∙ 2 days 9 hours back ∙ 62 proposals |