[Delphi] Доработка библиотеки HTMLp (библиотека для парсинга)

Десктопні додатки — неправильно зазначені категорії?

Необходима доработка библиотеки HTMLp (форк) для парсинга HTML.

Задача:

Добавить обработку тегов script, code, template и других подобных.

Необходимость выполнения:

В текущий момент если парсить страницу в которой присутствует например тег script в котором имеется html содержимое с другими тегами (в переменной или еще где + часто не закрытыми или экранированными) - возникают утечки.

Что при массовой работе приводит к крашам и другим ошибкам.

Суть задачи:

Для указанных тегов исключить парсинг содержимого (других тегов в них).

Но сам тег и его содержимое должно оставаться для дальнейшего получения (то-есть сохранить как один тег со всем содержимым).

Кот в итоге уйдёт в репозиторий.

Для исполнителей:

Пишите о том ознакомились ли, стоимость и мысли по решению данной проблемы.

Авто-ответы игнорируются, за подробностями если нет конкретных мыслей - не пишу.

Заранее спасибо.

Ставки Відкликані 1 Відхилені 2 Обговорення 3

Віталій Янішевський 29 січня 2020

Яка знайома проблема, аж скупа чоловіча сльоза на ясні очі навернулась.
Значить, рішень у вас рівно два:
- визначаєте тег, вміст якого вважаєте "шлаком", і ніяк не парсите, просто шукаєте закриваючий тег вліво.
- парсите ВСЕ до перемоги.
В обох випадках маєте "прелесті" із спотиканнями парсера ранійше ніж потрібно (перший випадок) і шлак на вихлопі, або пізнійше ніж потрібно (другий випадок, за умови порушення консистентності тегів) із забитим стеком, витоками пам'яті, незакритими розгалуженнями при додавання чайлдів і т.д. і т.п.

Як вихід бачу попередню валідацію консистенстності за стратегією "парсим ВСЕ" (включаючи script та ін, вважаючи їх так само деревовидними), і у випадку спотикання ігнорим ВСЕ, тикаючи вказівник де відбулась неконсистентність.

Якщо незрозуміло висловився - питайте в ПП.

Владимир Б.

29 січня 2020

Добрый вечер.
Это мысли относительно внесения изменений именно в данную библиотеку, или о решении проблемы в общем?

Віталій Янішевський 30 січня 2020

І те і друге одночасно. Справа в тому, що якщо ви збираєтесь ігнорувать вміст якоїсь ноди, ви всеодно мусите її розпарсить, інакше не отримаєте що саме ігнорувати. Якщо парсер розбирає текст нормально, проблем немає (хіба затрати часу), якщо текст нормально НЕ розбирається, то його і НЕ слід розбирати на складові, бо інформація про структуру в ньому ВТРАЧЕНА. Дана реалізація не стійка, тому що сходу намагається розбирати на іерархію, і щось йде не так.
Вихід: розбить на два етапи - розібрать структуру, і тільки потім, якщо не було проблем, розбирать на токени.

Додати коментар

Владимир Б.
Україна

Проєктів 2
Оцінка -
Рейтинг 139

[Delphi] Доработка библиотеки HTMLp (библиотека для парсинга)

Ставки поки відсутні

Ставки поки відсутні

Ставки приховані

Ставки приховані

Актуальні фриланс-проєкти в категорії Десктопні додатки

Linux ментор

Microsoft Power Platform/Power App