Фриланс-проекты

Фриланс-проекты

Парсинг текстовых PDF с таблицами

Python, Парсинг данных — неверно указаны категории?

5903 UAH

Необходимо парсить текстовые PDF с таблицами и создать динамический объект со всеми данными что есть в документе. Таблицы могут быть разные по количеству записей, это нужно учитывать. Да и таблицы могут быть как в начале документа, так и в конце, однако, они находятся без проблем по "опорным" надписям.

В нем находится 2 таблицы основные которые можно "склеить" в одну и потом для каждой записи из этой таблицы - по таблице детальной информации чуть ниже после основных таблиц. Первая таблица ECU SUMMARY INFO и вторая таблица ECU SUMMARY INFO (CONT...). Потом после таблиц идет ECU DETAILS, это уже более детальные таблицы каждого ECU, так называемые параметры формата NAME=VALUE.

По хорошему чтобы я мог потом с этими данными работать через Python

Заранее спасибо

Ставки 20

Артем Плаха

150 0

Проекты 151
Оценка 4.9
Рейтинг 10 880

Бюджет: 500 PLN Срок: 1 день

Добрый день. Мы уже обсуждали с Вами этот проект. Готов выполнить. Буду рад сотрудничеству.

Буду рад сотрудничеству!

Karlen Abelyan

0 0

Проекты -
Оценка -
Рейтинг 100

Бюджет: 500 PLN Срок: 3 дня

Здравствуйте Артем могу помочь вам в вашей задаче с выводом данных в нужно формате для дальнейшей обработки. Буду ждать вашего сообшения.

Богдан Коваленко

6 1

Проекты 6
Оценка -
Рейтинг 547

Бюджет: 500 PLN Срок: 2 дня

Добрый день, Артем. Есть готовое решение с веб интерфейсом позволяющее загрузить таблицы в пдф формате и спарсить их. Программа отлично работает на вашем примере, после парсинга с данными можно удобно работать на Python

Алла Паньковська

0 0

Проекты -
Оценка -
Рейтинг 204

Бюджет: 500 PLN Срок: 4 дня

Добрый день!
Просмотрела ваш образец PDF. Предлагаю такой подход:

Экстракция таблиц

Основной инструмент: pdfplumber (стабильный текстовый извлечение).

Fallback для сложных сеток: camelot/tabula-py в режиме lattice/stream.

Автоматический поиск маркеров секций: “ECU SUMMARY INFO”, “ECU DETAILS” (работает на разных страницах/позициях).

Нормализация

Объединение разбитых строк, удаление переносов и лишних пробелов.

Корректное слияние многострочных ячеек и столбцов.

Выравнивание названий параметров NAME=VALUE в ECU DETAILS.

Единая модель данных

{
"vin": "...",
"publication_date": "...",
"summary": [
{"ecu":"ABS","name":"Антиблокировочная система тормозов","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
...
],
"details": [
{"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
...
]
}

Экспорт в CSV/Excel (отдельные листы Summary / Details) и/или SQLite.

Контроль качества

Валидации (обязательные колонки, количество строк, уникальные ECU).

Логи и небольшие unit-тесты, чтобы легко поддерживать процесс.

Результат: воспроизводимый скрипт + инструкция по запуску, готовые файлы (JSON/CSV/Excel/SQLite).
Готова выполнить за 3–4 дня. Стоимость — согласуем после уточнения формата финальной выгрузки и возможных нюансов разметки других PDF.

Спасибо!
Алла

Marcin Grzechnik

0 0

Проекты -
Оценка -
Рейтинг 124

Бюджет: 500 PLN Срок: 4 дня

Предлагаемый технический подход
1. Инструменты и библиотеки:

PyMuPDF (fitz) или pdfplumber для извлечения текста из PDF
pandas для структурирования табличных данных
re (regex) для идентификации шаблонов и парсинга форматов NAME=VALUE
Пользовательские функции для объединения и нормализации данных

2. Архитектура решения:

Функция, идентифицирующая секции на основе "упорных" надписей
Парсер для основных таблиц с автоматическим определением количества записей
Модуль, объединяющий данные из обеих основных таблиц
Парсер для секции ECU DETAILS с гибким форматом NAME=VALUE
Генератор динамического объекта (словарь/DataFrame) с полной структурой данных

3. Функциональности:

Поддержка различного количества записей в таблицах
Гибкое позиционирование таблиц в документе
Валидация и очистка данных
Экспорт в форматы, упрощающие дальнейшую работу (JSON, CSV, pickle)

Мой опыт
У меня есть опыт в:

Обработке PDF-документов с использованием Python
Парсинге и структурировании данных из различных форматов
Работе с библиотеками pandas, numpy и инструментами для анализа данных
Создании масштабируемых решений для автоматизации обработки документов

Я предлагаю:
✅ Полное решение - готовый скрипт Python с документацией
✅ Гибкость - код, адаптирующийся к различным структурам документов
✅ Качество кода - читаемый, комментируемый код с обработкой ошибок
✅ Тесты - примеры использования и валидация на предоставленных файлах
✅ Поддержка - помощь при внедрении и возможные модификации

Я готов начать работу немедленно.

Юрій Штибель

8 0

Проекты 8
Оценка 5.0
Рейтинг 834

Бюджет: 500 PLN Срок: 2 дня

Если нужно потом легко работать на Python, в идеале парсить в БД, например, SQL Lite. Если хотите, могу спарсить в формат xlsx для Excel. Напишите мне для обсуждения, могу выполнить данный функционал.

Iryna Lytvyn

0 0

Проекты -
Оценка -
Рейтинг 328

Бюджет: 500 PLN Срок: 2 дня

Здравствуйте!
Я подготовил полностью рабочее решение для вашей задачи.

🔹 Скрипт **parse\_ecu\_pdf.py** написан на Python и делает именно то, что вы описали:

* Читает PDF (как локальный, так и по ссылке) через PyMuPDF.
* Находит таблицы **ECU SUMMARY INFO** и **ECU SUMMARY INFO (CONT...)**, парсит их построчно.
* Находит блоки **ECU DETAILS** и собирает пары `NAME=VALUE`.
* Объединяет всё в динамический объект: каждая строка summary автоматически дополняется словарём `details`.

🔹 На выходе получается готовая JSON-структура, с которой удобно работать в Python.

📌 Использование:

```bash
python parse_ecu_pdf.py path/to/your_ecu_report.pdf
```

На экран выводится JSON с данными по каждому ECU.

Скрипт универсален — количество строк в таблицах может быть любым, а расположение таблиц (в начале или в конце PDF) не имеет значения.

Готов подключиться и помочь вам с запуском, тестами на вашем PDF и любыми доработками.

Ігор Доронін

9 0

Проекты 9
Оценка 5.0
Рейтинг 656

Бюджет: 499 PLN Срок: 3 дня

Добрый день, Artem!
В целом задача ясна, для точного ответа по срокам и цене, хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашей задачи.
Пишите в приватные сообщения — обсудим детали и ваши пожелания.
P.S Ориентируюсь на ваш бюджет, но думаю, что смогу вписаться в меньшую суму — после уточнения деталей предложу точную цифру.

Denys Ternopolskyi

0 0

Проекты -
Оценка -
Рейтинг 309

Бюджет: 500 PLN Срок: 1 день

Здравствуйте готов выполнить ваше задание как практику по обучению , пишите в личку проговорим все детали все детали

Tamara Ibrahim Sule A.

4 0

Проекты 4
Оценка 5.0
Рейтинг 1 117

Бюджет: 600 PLN Срок: 2 дня

Привет!

Я могу создать инструмент на Python, который читает ваши PDF-файлы, находит таблицы ECU SUMMARY независимо от их расположения в файле и объединяет их в один полный набор данных. Сразу после этого скрипт также соберёт таблицы ECU DETAILS и свяжет каждый набор параметров NAME=VALUE с нужной записью ECU. Таким образом, вы получите один чистый объект, объединяющий всю информацию и который можно использовать непосредственно в Python или преобразовать в DataFrame для анализа.

Я не буду зависеть от номеров страниц или фиксированных позиций. Вместо этого скрипт будет искать справочные метки и названия разделов, поэтому он будет работать даже при изменении макета или количестве записей. Итоговая структура будет гибкой, простой для запросов и экспорта в JSON или CSV для последующего использования.

Спасибо!

Андрій-Сергій Павленко

1 0

Проекты -
Оценка -
Рейтинг 232

Бюджет: 500 PLN Срок: 1 день

Привет, Артем!

Я - Python разработчик, имею большой опыт работы с PDF.
В каком формате вам будет удобно работать на выходе?

Пишите, обсудим ваш проект!

С уважением,
Андрей

Vladimir B

35 1

Проекты 35
Оценка 5.0
Рейтинг 1 315

Бюджет: 500 PLN Срок: 2 дня

Добрый вечер. Работал с пдф, и делал подобную задачу. Но на пхп, под впс на Линукс. Там есть нюансы, не знаю как у вас, но иногда таблицы не идёт последовательно, и тогда это будет не просто. Надо пробовать.

Віктор Півень

18 3

Проекты 18
Оценка 4.4
Рейтинг 2 160

Бюджет: 500 PLN Срок: 1 день

Добрый вечер, Артем. Занимаюсь автоматизацией на Python. Могу разработать для Вас парсер с необходимым функционалом, как один из вариантов, после обработки функция будет возвращать список словарей []{} с которыми Вы сможете работать дальше в коде. Если заинтересовало - пишите, с радостью обсужу детали.

Олександр Д.

70 1

Проекты 71
Оценка 5.0
Рейтинг 3 286

Бюджет: 500 PLN Срок: 3 дня

Здравствуйте.
Есть опыт автоматического извлечения данных из pdf
Можем обсудить

Назар Потурайко

1 0

Проекты -
Оценка -
Рейтинг 176

Бюджет: 500 PLN Срок: 1 день

Добрый день! 👋

Я внимательно ознакомился с вашим заданием.
Могу выполнить быстро и полностью под ваши требования.
Есть несколько моментов, которые хотел бы уточнить.

Готов начать сразу после согласования деталей.

Roman Z.

7 0

Проекты 7
Оценка 5.0
Рейтинг 1 562

Бюджет: 600 PLN Срок: 1 день

Добрый день!
Меня зовут Роман, и я вхожу в топ-6 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~1600 специалистов на платформе.
Гарантирую:
- Быстрое и качественное выполнение задания
- Четкое соблюдение дедлайнов
- Регулярная связь на протяжении всего процесса
Буду рад обсудить детали вашего проекта в личных сообщениях.

Gustavo Gaviria Ivanov

0 0

Проекты -
Оценка -
Рейтинг 219

Бюджет: 500 PLN Срок: 1 день

Я уже выполнил ваше задание — я могу это продемонстрировать.

Artem Ro
Польша

Проектов 1
Оценка -
Рейтинг 128

Парсинг текстовых PDF с таблицами

Артем Плаха

Karlen Abelyan

Богдан Коваленко

Алла Паньковська

Marcin Grzechnik

Юрій Штибель

Iryna Lytvyn

Ігор Доронін

Denys Ternopolskyi

Tamara Ibrahim Sule A.

Андрій-Сергій Павленко

Vladimir B

Віктор Півень

Олександр Д.

Назар Потурайко

Roman Z.

Gustavo Gaviria Ivanov

Ставки скрыты

Ставки пока отсутствуют

Актуальные фриланс-проекты в категории Python

Глубокая проверка 3 PDF-файлов на достоверность

Индикатор для Tradingview

Разработка Python-бота для автоматического мониторинга и приема заказов на сайте

Необходимо реализовать проект по сбору и структурированию большого массива изображений.

Aspect