Парсинг текстовых PDF с таблицами
6094 UAHНеобходимо парсить текстовые PDF с таблицами и создать динамический объект со всеми данными что есть в документе. Таблицы могут быть разные по количеству записей, это нужно учитывать. Да и таблицы могут быть как в начале документа, так и в конце, однако, они находятся без проблем по "опорным" надписям.
В нем находится 2 таблицы основные которые можно "склеить" в одну и потом для каждой записи из этой таблицы - по таблице детальной информации чуть ниже после основных таблиц. Первая таблица ECU SUMMARY INFO и вторая таблица ECU SUMMARY INFO (CONT...). Потом после таблиц идет ECU DETAILS, это уже более детальные таблицы каждого ECU, так называемые параметры формата NAME=VALUE.
По хорошему чтобы я мог потом с этими данными работать через Python
Заранее спасибо
Приложения 1
-
1 день6094 UAH1 день6094 UAH
Добрый день. Мы уже обсуждали с Вами этот проект. Готов выполнить. Буду рад сотрудничеству.
-
3 дня6094 UAH
100 3 дня6094 UAHЗдравствуйте Артем могу помочь вам в вашей задаче с выводом данных в нужно формате для дальнейшей обработки. Буду ждать вашего сообшения.
-
2 дня6094 UAH
571 6 1 1 2 дня6094 UAHДобрый день, Артем. Есть готовое решение с веб интерфейсом позволяющее загрузить таблицы в пдф формате и спарсить их. Программа отлично работает на вашем примере, после парсинга с данными можно удобно работать на Python
-
4 дня6094 UAH
204 4 дня6094 UAHДобрый день!
Просмотрела ваш образец PDF. Предлагаю такой подход:
Экстракция таблиц
Основной инструмент: pdfplumber (стабильный текстовый извлечение).
Fallback для сложных сеток: camelot/tabula-py в режиме lattice/stream.
… Автоматический поиск маркеров секций: “ECU SUMMARY INFO”, “ECU DETAILS” (работает на разных страницах/позициях).
Нормализация
Объединение разбитых строк, удаление переносов и лишних пробелов.
Корректное слияние многострочных ячеек и столбцов.
Выравнивание названий параметров NAME=VALUE в ECU DETAILS.
Единая модель данных
{
"vin": "...",
"publication_date": "...",
"summary": [
{"ecu":"ABS","name":"Антиблокировочная система тормозов","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
...
],
"details": [
{"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
...
]
}
Экспорт в CSV/Excel (отдельные листы Summary / Details) и/или SQLite.
Контроль качества
Валидации (обязательные колонки, количество строк, уникальные ECU).
Логи и небольшие unit-тесты, чтобы легко поддерживать процесс.
Результат: воспроизводимый скрипт + инструкция по запуску, готовые файлы (JSON/CSV/Excel/SQLite).
Готова выполнить за 3–4 дня. Стоимость — согласуем после уточнения формата финальной выгрузки и возможных нюансов разметки других PDF.
Спасибо!
Алла
-
4 дня6094 UAH
124 4 дня6094 UAHПредлагаемый технический подход
1. Инструменты и библиотеки:
PyMuPDF (fitz) или pdfplumber для извлечения текста из PDF
pandas для структурирования табличных данных
re (regex) для идентификации шаблонов и парсинга форматов NAME=VALUE
Пользовательские функции для объединения и нормализации данных
2. Архитектура решения:
…
Функция, идентифицирующая секции на основе "упорных" надписей
Парсер для основных таблиц с автоматическим определением количества записей
Модуль, объединяющий данные из обеих основных таблиц
Парсер для секции ECU DETAILS с гибким форматом NAME=VALUE
Генератор динамического объекта (словарь/DataFrame) с полной структурой данных
3. Функциональности:
Поддержка различного количества записей в таблицах
Гибкое позиционирование таблиц в документе
Валидация и очистка данных
Экспорт в форматы, упрощающие дальнейшую работу (JSON, CSV, pickle)
Мой опыт
У меня есть опыт в:
Обработке PDF-документов с использованием Python
Парсинге и структурировании данных из различных форматов
Работе с библиотеками pandas, numpy и инструментами для анализа данных
Создании масштабируемых решений для автоматизации обработки документов
Я предлагаю:
✅ Полное решение - готовый скрипт Python с документацией
✅ Гибкость - код, адаптирующийся к различным структурам документов
✅ Качество кода - читаемый, комментируемый код с обработкой ошибок
✅ Тесты - примеры использования и валидация на предоставленных файлах
✅ Поддержка - помощь при внедрении и возможные модификации
Я готов начать работу немедленно.
-
2 дня6094 UAH
834 8 0 2 дня6094 UAHЕсли нужно потом легко работать на Python, в идеале парсить в БД, например, SQL Lite. Если хотите, могу спарсить в формат xlsx для Excel. Напишите мне для обсуждения, могу выполнить данный функционал.
-
2 дня6094 UAH
316 2 дня6094 UAHЗдравствуйте!
Я подготовил полностью рабочее решение для вашей задачи.
🔹 Скрипт **parse\_ecu\_pdf.py** написан на Python и делает именно то, что вы описали:
* Читает PDF (как локальный, так и по ссылке) через PyMuPDF.
* Находит таблицы **ECU SUMMARY INFO** и **ECU SUMMARY INFO (CONT...)**, парсит их построчно.
* Находит блоки **ECU DETAILS** и собирает пары `NAME=VALUE`.
* Объединяет всё в динамический объект: каждая строка summary автоматически дополняется словарём `details`.
…
🔹 На выходе получается готовая JSON-структура, с которой удобно работать в Python.
📌 Использование:
```bash
python parse_ecu_pdf.py path/to/your_ecu_report.pdf
```
На экран выводится JSON с данными по каждому ECU.
Скрипт универсален — количество строк в таблицах может быть любым, а расположение таблиц (в начале или в конце PDF) не имеет значения.
Готов подключиться и помочь вам с запуском, тестами на вашем PDF и любыми доработками.
-
3 дня6082 UAH
656 9 0 3 дня6082 UAHДобрый день, Artem!
В целом задача ясна, для точного ответа по срокам и цене, хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашей задачи.
Пишите в приватные сообщения — обсудим детали и ваши пожелания.
P.S Ориентируюсь на ваш бюджет, но думаю, что смогу вписаться в меньшую суму — после уточнения деталей предложу точную цифру.
-
1 день6094 UAH
309 1 день6094 UAHЗдравствуйте готов выполнить ваше задание как практику по обучению , пишите в личку проговорим все детали все детали
-
2 дня7313 UAH
1117 4 0 2 дня7313 UAHПривет!
Я могу создать инструмент на Python, который читает ваши PDF-файлы, находит таблицы ECU SUMMARY независимо от их расположения в файле и объединяет их в один полный набор данных. Сразу после этого скрипт также соберёт таблицы ECU DETAILS и свяжет каждый набор параметров NAME=VALUE с нужной записью ECU. Таким образом, вы получите один чистый объект, объединяющий всю информацию и который можно использовать непосредственно в Python или преобразовать в DataFrame для анализа.
Я не буду зависеть от номеров страниц или фиксированных позиций. Вместо этого скрипт будет искать справочные метки и названия разделов, поэтому он будет работать даже при изменении макета или количестве записей. Итоговая структура будет гибкой, простой для запросов и экспорта в JSON или CSV для последующего использования.
Спасибо!
-
1 день6094 UAH
232 1 0 1 день6094 UAHПривет, Артем!
Я - Python разработчик, имею большой опыт работы с PDF.
В каком формате вам будет удобно работать на выходе?
Пишите, обсудим ваш проект!
С уважением,
Андрей
-
2 дня6094 UAH
1328 35 1 2 дня6094 UAHДобрый вечер. Работал с пдф, и делал подобную задачу. Но на пхп, под впс на Линукс. Там есть нюансы, не знаю как у вас, но иногда таблицы не идёт последовательно, и тогда это будет не просто. Надо пробовать.
-
1 день6094 UAH
2248 18 3 1 день6094 UAHДобрый вечер, Артем. Занимаюсь автоматизацией на Python. Могу разработать для Вас парсер с необходимым функционалом, как один из вариантов, после обработки функция будет возвращать список словарей []{} с которыми Вы сможете работать дальше в коде. Если заинтересовало - пишите, с радостью обсужу детали.
-
3 дня6094 UAH
3318 70 1 3 дня6094 UAHЗдравствуйте.
Есть опыт автоматического извлечения данных из pdf
Можем обсудить
-
1 день6094 UAH
200 1 0 1 день6094 UAHДобрый день! 👋
Я внимательно ознакомился с вашим заданием.
Могу выполнить быстро и полностью под ваши требования.
Есть несколько моментов, которые хотел бы уточнить.
Готов начать сразу после согласования деталей.
-
1 день7313 UAH
1562 7 0 1 день7313 UAHДобрый день!
Меня зовут Роман, и я вхожу в топ-6 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~1600 специалистов на платформе.
Гарантирую:
- Быстрое и качественное выполнение задания
- Четкое соблюдение дедлайнов
- Регулярная связь на протяжении всего процесса
Буду рад обсудить детали вашего проекта в личных сообщениях.
-
1 день6094 UAH
267 1 день6094 UAHЯ уже выполнил ваше задание — я могу это продемонстрировать.
Актуальные фриланс-проекты в категории Python
Python программист
5000 UAH
Приветствую, требуется программист на python для некоторой научной работы, связанной с генерацией звуковых сигналов и их распознаванию. Проект больше для энтузиастов, много денег не заработаете, на данном этапе по крайней мере. Работать над проектом можно по вечерам. Все детали… Python ∙ 7 минут назад ∙ 3 ставки |
Нужен телеграм бот. Язык программирования Python, бот должен иметь админ панель для обработки заявок.
1100 UAH
Это детальное описание проекта После нажатия кнопки /start Бот отправляет текст с правилами и условиями использования (под текстом кнопка ознакомлен) После этого идет небольшое заполнение анкеты: Ваш возраст? ... Откуда узнали о нас? ... Был ли опыт до этого? ... Сколько… Python, Разработка ботов ∙ 24 минуты назад ∙ 12 ставок |
Разработка веб-сервиса с платным доступом к онлайн-чатуДобрый день, необходимо разработать веб-сервис, который включает: * персональные ссылки для пользователей; * страницу с описанием услуги; * оплату через PayPal; * онлайн-чат в реальном времени; * отображение видео на странице пользователя; * учет оплаченного времени и… Python, Веб-программирование ∙ 1 час 37 минут назад ∙ 35 ставок |
Создание приложенияЖелаю создать мобильное приложение для общения, в приложении должны быть аудио, видео звонок, создание групповых чатов, возможность синхронизировать с контактами телефона, настройками аккаунта: привязка по email, 2fa, номеру телефона, возможность настраивать уведомления… Java, Python ∙ 23 часа 29 минут назад ∙ 32 ставки |
Настройка двусторонней интеграции WhatsApp с Odoo CRMЗдравствуйте! Ищем специалиста для реализации технического задания по настройке двусторонней интеграции мессенджера WhatsApp с CRM-системой Odoo. ⚠️ Важное техническое уточнение: Официальный WhatsApp Business API (WABA) не рассматривается. Необходимо внедрить стабильное «серое»… Python, Веб-программирование ∙ 1 день 9 часов назад ∙ 23 ставки |