Pdf_table_Parsing
Небольшой проект на Python для обработки текстовых PDF-документов с таблицами.
Функционал:
Проект умеет парсить PDF, в которых таблицы могут находиться в разных местах документа (в начале или в конце), но всегда определяются по характерным "опорным" надписям.
Реализована обработка двух основных таблиц: ECU SUMMARY INFO и ECU SUMMARY INFO (CONT...). Эти таблицы автоматически объединяются в одну общую.
После основных таблиц извлекаются дополнительные таблицы ECU DETAILS, которые содержат детализированные параметры в формате NAME=VALUE для каждой записи из основной таблицы.
Все данные приводятся к единой динамической структуре (например, в виде словарей или вложенных объектов Python), что позволяет удобно работать с ними в дальнейшем.
Учтена поддержка таблиц с разным количеством записей.
Функционал:
Проект умеет парсить PDF, в которых таблицы могут находиться в разных местах документа (в начале или в конце), но всегда определяются по характерным "опорным" надписям.
Реализована обработка двух основных таблиц: ECU SUMMARY INFO и ECU SUMMARY INFO (CONT...). Эти таблицы автоматически объединяются в одну общую.
После основных таблиц извлекаются дополнительные таблицы ECU DETAILS, которые содержат детализированные параметры в формате NAME=VALUE для каждой записи из основной таблицы.
Все данные приводятся к единой динамической структуре (например, в виде словарей или вложенных объектов Python), что позволяет удобно работать с ними в дальнейшем.
Учтена поддержка таблиц с разным количеством записей.