Pdf_таблиця_Парсинг
Невеликий проект на Python для обробки текстових PDF-документів з таблицями.
Функціонал:
Проект вміє парсити PDF, в яких таблиці можуть знаходитися в різних місцях документа (на початку або в кінці), але завжди визначаються за характерними "опорними" написами.
Реалізована обробка двох основних таблиць: ECU SUMMARY INFO та ECU SUMMARY INFO (CONT...). Ці таблиці автоматично об'єднуються в одну загальну.
Після основних таблиць витягуються додаткові таблиці ECU DETAILS, які містять деталізовані параметри у форматі NAME=VALUE для кожного запису з основної таблиці.
Усі дані приводяться до єдиної динамічної структури (наприклад, у вигляді словників або вкладених об'єктів Python), що дозволяє зручно працювати з ними в подальшому.
Врахована підтримка таблиць з різною кількістю записів.
Функціонал:
Проект вміє парсити PDF, в яких таблиці можуть знаходитися в різних місцях документа (на початку або в кінці), але завжди визначаються за характерними "опорними" написами.
Реалізована обробка двох основних таблиць: ECU SUMMARY INFO та ECU SUMMARY INFO (CONT...). Ці таблиці автоматично об'єднуються в одну загальну.
Після основних таблиць витягуються додаткові таблиці ECU DETAILS, які містять деталізовані параметри у форматі NAME=VALUE для кожного запису з основної таблиці.
Усі дані приводяться до єдиної динамічної структури (наприклад, у вигляді словників або вкладених об'єктів Python), що дозволяє зручно працювати з ними в подальшому.
Врахована підтримка таблиць з різною кількістю записів.