Преобразовать mht в чистый html БЕЗ мусора
Всем привет!
Есть задача. Мы имеем 10 000 файлов формата mht
Все это нужно обработать и получить чистый html
Задача не совсем простая, при кажущейся простоте)
Каждая инструкция содержит набор определенных заголовков, всего их чуть больше, но якорных 21 заголовок.
Мне нужно на выходе получить ЧИСТЫЙ html код, без мусора в виде:
Если просто копирую из word и вставляю в визуальный редактор то получаю:
<p><span style="background-color:white"><span style="color:black">Пептична виразка асоціюється з </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em><span style="color:black">, </span></em><span style="color:black">включаючи виразку дванадцятипалої кишки та виразку шлунка. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">розглядається як головний вирішальний фактор у розвитку гастриту. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">разом з кислотою шлункового соку є головними факторами у розвитку пептичної виразкової хвороби. </span><em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em><span style="color:black">є основним фактором у розвитку атрофічного гастриту, який асоціюється з підвищеним ризиком розвитку раку шлунка.</span></span></p>
Если код прогнать через блокнот, то мусор пропадает, вместе с форматированием (курсив, жирный, подчеркивание)
А хочу получать код на выходе:
<p>Пептична виразка асоціюється з <em>H. pylori</em>, включаючи виразку дванадцятипалої кишки та виразку шлунка. <em>H. pylori</em> розглядається як головний вирішальний фактор у розвитку гастриту. <em>H. pylori</em> разом з кислотою шлункового соку є головними факторами у розвитку пептичної виразкової хвороби. <em>H. pylori</em> є основним фактором у розвитку атрофічного гастриту, який асоціюється з підвищеним ризиком розвитку раку шлунка.</p>
Смотрите, есть 21 заголовок
Наша задача загонять в обработчик файл, а на выходе получать 21 заголовок обернутый в h2 и h3
Получается нужно html документ разбить на 21 блок. То, что между этих блоков очистить от мусора и вывести так, как я показал ниже.
Например: первые 2 заголовка инструкции
<h2>Склад</h2>
<p><em>діюча речовина omeprazole</em></p>
<p>1 капсула містить омепразолу 20 мг;</p>
<p><em>допоміжні речовини:</em> маніт (Е 421); лактоза, моногідрат; натрію лаурилсульфат; динатрію гідрофосфат; цукроза; гіпромелоза; метакрилатний сополімер (тип С); натрію гідроксид; макрогол; тальк; титану діоксид (Е 171);</p>
<p><em>склад капсули</em>: желатин, метилпарагідроксибензоат (Е 218), пропілпарагідроксибензоат (Е 216), кармоїзин (Е 122).</p>
<h2>Лікарська форма</h2>
<p>Капсули.</p>
<p><em>Основні фізико-хімічні властивості</em>: тверді желатинові прозорі капсули розміром 2, з маркуванням OMEZ, із безколірним корпусом і рожевим ковпачком. Вміст капсул – білі або майже білі пелети.</p>
В html коде допускается только курсив, жирный, подчеркивание и <p>
Также допускается все, что касается таблиц <table><tr><td>
Не смотря на то, что курсив разрешен, очень часто в коде буквально каждая буква или пробел обернуты отдельными кодами, вот как показано ниже.
<em><span style="color:black">H</span></em><em><span style="color:black">. </span></em><em><span style="color:black">pylori</span></em><em> </em>
Вообще в этих файлах встречаются просто огромные кучи мусора и нужно как-то научиться с ним бороться.
Встречаются десятки пробелов и другие вещи.
Если вы можете мне помочь обработать 10 000 файлов и на выходе получить чистенький код, как я написал, то пишите стоимость и сроки,
Спасибо
Пример файла можно скачать с реестра лекарств http://www.drlz.com.ua/ibp/lz_www.nsf/id/C35037B6ED614674C225851300290997/$file/UA11530101_0962.mht
Актуальные фриланс-проекты в категории AI и машинное обучение
Интеграция системы аналитики с Базой данных в Таблицах
5000 UAH
Необходимо довести текущую систему аналитики до стабильного рабочего состояния. Сейчас данные из CRM, телефонии и рекламных кабинетов подтягиваются через Supabase через МСП, затем в гугл таблицы, но часть процессов еще приходится контролировать вручную. Это нужно убрать.1.… AI и машинное обучение, Разработка ботов ∙ 3 часа 44 минуты назад ∙ 12 ставок |
Bls contact
22 409 UAH
جميع الحقوق محفوظة. تومئ الى اسبانيا (BLS/VFS). لعدة أيام إشعار فوري كل نفس. التحقق العالمي (CAPTCHA)، وبرنامج السيلينيوم أو الكاتب المسرحي. AI и машинное обучение, HTML и CSS верстка ∙ 6 часов 33 минуты назад ∙ 5 ставок |
Прописать мета данные АЛЬТ при помощи ИИСайт на Laravel , на сайте много изображений, для которых нужно прописать корректные по семантики и релевантные для странице АЛЬТ описание изображения в автоматическом режиме, с возможностью проверки AI и машинное обучение, PHP ∙ 9 часов 43 минуты назад ∙ 19 ставок |
N8n - автоматизация обработки запросов интернет-магазина на Shopify
2000 UAH
Ищу специалиста по n8n для построения рабочего процесса, который автоматически обрабатывает входящие запросы клиентов нашего Shopify-магазина: классифицирует их, подтягивает данные заказа из Shopify и маршрутизирует на правильное действие (автоответ, тикет, уведомление… AI и машинное обучение ∙ 1 день 8 часов назад ∙ 21 ставка |
Необходимо создать бота в телеграм с AI ассистентомНеобходимо создать бота, который будет делать дипфейки через подключенный через API сервис для дипфейков (изменение лица или фото) AI и машинное обучение, Консультирование по AI ∙ 1 день 11 часов назад ∙ 26 ставок |