Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Парсинг текстовых PDF с таблицами

6094 UAH

Приложения 1

Просмотр приложений доступен только зарегистрированным пользователям.
  1. 10389
     148  0

    1 день6094 UAH

    Добрый день. Мы уже обсуждали с Вами этот проект. Готов выполнить. Буду рад сотрудничеству.

  2. 100  
    3 дня6094 UAH

    Здравствуйте Артем могу помочь вам в вашей задаче с выводом данных в нужно формате для дальнейшей обработки. Буду ждать вашего сообшения.

  3. 571    6  1   1
    2 дня6094 UAH

    Добрый день, Артем. Есть готовое решение с веб интерфейсом позволяющее загрузить таблицы в пдф формате и спарсить их. Программа отлично работает на вашем примере, после парсинга с данными можно удобно работать на Python

  4. 204  
    4 дня6094 UAH

    Добрый день!
    Просмотрела ваш образец PDF. Предлагаю такой подход:

    Экстракция таблиц

    Основной инструмент: pdfplumber (стабильный текстовый извлечение).

    Fallback для сложных сеток: camelot/tabula-py в режиме lattice/stream.

    Автоматический поиск маркеров секций: “ECU SUMMARY INFO”, “ECU DETAILS” (работает на разных страницах/позициях).

    Нормализация

    Объединение разбитых строк, удаление переносов и лишних пробелов.

    Корректное слияние многострочных ячеек и столбцов.

    Выравнивание названий параметров NAME=VALUE в ECU DETAILS.

    Единая модель данных

    {
    "vin": "...",
    "publication_date": "...",
    "summary": [
    {"ecu":"ABS","name":"Антиблокировочная система тормозов","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
    ...
    ],
    "details": [
    {"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
    ...
    ]
    }


    Экспорт в CSV/Excel (отдельные листы Summary / Details) и/или SQLite.

    Контроль качества

    Валидации (обязательные колонки, количество строк, уникальные ECU).

    Логи и небольшие unit-тесты, чтобы легко поддерживать процесс.

    Результат: воспроизводимый скрипт + инструкция по запуску, готовые файлы (JSON/CSV/Excel/SQLite).
    Готова выполнить за 3–4 дня. Стоимость — согласуем после уточнения формата финальной выгрузки и возможных нюансов разметки других PDF.



    Спасибо!
    Алла

  5. 124  
    4 дня6094 UAH

    Предлагаемый технический подход
    1. Инструменты и библиотеки:

    PyMuPDF (fitz) или pdfplumber для извлечения текста из PDF
    pandas для структурирования табличных данных
    re (regex) для идентификации шаблонов и парсинга форматов NAME=VALUE
    Пользовательские функции для объединения и нормализации данных

    2. Архитектура решения:

    Функция, идентифицирующая секции на основе "упорных" надписей
    Парсер для основных таблиц с автоматическим определением количества записей
    Модуль, объединяющий данные из обеих основных таблиц
    Парсер для секции ECU DETAILS с гибким форматом NAME=VALUE
    Генератор динамического объекта (словарь/DataFrame) с полной структурой данных

    3. Функциональности:

    Поддержка различного количества записей в таблицах
    Гибкое позиционирование таблиц в документе
    Валидация и очистка данных
    Экспорт в форматы, упрощающие дальнейшую работу (JSON, CSV, pickle)

    Мой опыт
    У меня есть опыт в:

    Обработке PDF-документов с использованием Python
    Парсинге и структурировании данных из различных форматов
    Работе с библиотеками pandas, numpy и инструментами для анализа данных
    Создании масштабируемых решений для автоматизации обработки документов

    Я предлагаю:
    ✅ Полное решение - готовый скрипт Python с документацией
    ✅ Гибкость - код, адаптирующийся к различным структурам документов
    ✅ Качество кода - читаемый, комментируемый код с обработкой ошибок
    ✅ Тесты - примеры использования и валидация на предоставленных файлах
    ✅ Поддержка - помощь при внедрении и возможные модификации

    Я готов начать работу немедленно.

  6. 834    8  0
    2 дня6094 UAH

    Если нужно потом легко работать на Python, в идеале парсить в БД, например, SQL Lite. Если хотите, могу спарсить в формат xlsx для Excel. Напишите мне для обсуждения, могу выполнить данный функционал.

  7. 316  
    2 дня6094 UAH

    Здравствуйте!
    Я подготовил полностью рабочее решение для вашей задачи.

    🔹 Скрипт **parse\_ecu\_pdf.py** написан на Python и делает именно то, что вы описали:

    * Читает PDF (как локальный, так и по ссылке) через PyMuPDF.
    * Находит таблицы **ECU SUMMARY INFO** и **ECU SUMMARY INFO (CONT...)**, парсит их построчно.
    * Находит блоки **ECU DETAILS** и собирает пары `NAME=VALUE`.
    * Объединяет всё в динамический объект: каждая строка summary автоматически дополняется словарём `details`.

    🔹 На выходе получается готовая JSON-структура, с которой удобно работать в Python.

    📌 Использование:

    ```bash
    python parse_ecu_pdf.py path/to/your_ecu_report.pdf
    ```

    На экран выводится JSON с данными по каждому ECU.

    Скрипт универсален — количество строк в таблицах может быть любым, а расположение таблиц (в начале или в конце PDF) не имеет значения.

    Готов подключиться и помочь вам с запуском, тестами на вашем PDF и любыми доработками.

  8. 656    9  0
    3 дня6082 UAH

    Добрый день, Artem!
    В целом задача ясна, для точного ответа по срокам и цене, хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашей задачи.
    Пишите в приватные сообщения — обсудим детали и ваши пожелания.
    P.S Ориентируюсь на ваш бюджет, но думаю, что смогу вписаться в меньшую суму — после уточнения деталей предложу точную цифру.

  9. 309  
    1 день6094 UAH

    Здравствуйте готов выполнить ваше задание как практику по обучению , пишите в личку проговорим все детали все детали

  10. 1117    4  0
    2 дня7313 UAH

    Привет!

    Я могу создать инструмент на Python, который читает ваши PDF-файлы, находит таблицы ECU SUMMARY независимо от их расположения в файле и объединяет их в один полный набор данных. Сразу после этого скрипт также соберёт таблицы ECU DETAILS и свяжет каждый набор параметров NAME=VALUE с нужной записью ECU. Таким образом, вы получите один чистый объект, объединяющий всю информацию и который можно использовать непосредственно в Python или преобразовать в DataFrame для анализа.

    Я не буду зависеть от номеров страниц или фиксированных позиций. Вместо этого скрипт будет искать справочные метки и названия разделов, поэтому он будет работать даже при изменении макета или количестве записей. Итоговая структура будет гибкой, простой для запросов и экспорта в JSON или CSV для последующего использования.

    Спасибо!

  11. 232    1  0
    1 день6094 UAH

    Привет, Артем!

    Я - Python разработчик, имею большой опыт работы с PDF.
    В каком формате вам будет удобно работать на выходе?

    Пишите, обсудим ваш проект!

    С уважением,
    Андрей

  12. 1328    35  1
    2 дня6094 UAH

    Добрый вечер. Работал с пдф, и делал подобную задачу. Но на пхп, под впс на Линукс. Там есть нюансы, не знаю как у вас, но иногда таблицы не идёт последовательно, и тогда это будет не просто. Надо пробовать.

  13. 2248    18  3
    1 день6094 UAH

    Добрый вечер, Артем. Занимаюсь автоматизацией на Python. Могу разработать для Вас парсер с необходимым функционалом, как один из вариантов, после обработки функция будет возвращать список словарей []{} с которыми Вы сможете работать дальше в коде. Если заинтересовало - пишите, с радостью обсужу детали.

  14. 3318    70  1
    3 дня6094 UAH

    Здравствуйте.
    Есть опыт автоматического извлечения данных из pdf
    Можем обсудить

  15. 200    1  0
    1 день6094 UAH

    Добрый день! 👋

    Я внимательно ознакомился с вашим заданием.
    Могу выполнить быстро и полностью под ваши требования.
    Есть несколько моментов, которые хотел бы уточнить.

    Готов начать сразу после согласования деталей.

  16. 1562    7  0
    1 день7313 UAH

    Добрый день!
    Меня зовут Роман, и я вхожу в топ-6 разработчиков в категории «Искусственный интеллект и машинное обучение» среди ~1600 специалистов на платформе.
    Гарантирую:
    - Быстрое и качественное выполнение задания
    - Четкое соблюдение дедлайнов
    - Регулярная связь на протяжении всего процесса
    Буду рад обсудить детали вашего проекта в личных сообщениях.

  17. 267  
    1 день6094 UAH

    Я уже выполнил ваше задание — я могу это продемонстрировать.

  18. Еще 3 ставки скрыты

Актуальные фриланс-проекты в категории Python

Разработка веб-сервиса с платным доступом к онлайн-чату

Добрый день, необходимо разработать веб-сервис, который включает: * персональные ссылки для пользователей; * страницу с описанием услуги; * оплату через PayPal; * онлайн-чат в реальном времени; * отображение видео на странице пользователя; * учет оплаченного времени и…

PythonВеб-программирование ∙ 52 минуты назад ∙ 23 ставки

Создание приложения

Желаю создать мобильное приложение для общения, в приложении должны быть аудио, видео звонок, создание групповых чатов, возможность синхронизировать с контактами телефона, настройками аккаунта: привязка по email, 2fa, номеру телефона, возможность настраивать уведомления…

JavaPython ∙ 22 часа 44 минуты назад ∙ 32 ставки

Настройка двусторонней интеграции WhatsApp с Odoo CRM

Здравствуйте! Ищем специалиста для реализации технического задания по настройке двусторонней интеграции мессенджера WhatsApp с CRM-системой Odoo. ⚠️ Важное техническое уточнение: Официальный WhatsApp Business API (WABA) не рассматривается. Необходимо внедрить стабильное «серое»…

PythonВеб-программирование ∙ 1 день 8 часов назад ∙ 23 ставки

Парсинг данных через мобильное API

Ищу человека с опытом парсинга данных через мобильное API, для парсинга e-commerce, rozetka и аналоги Задачи: 1. Перехват трафика мобильного приложения (Android) настройка прокси, анализ запросов 2. Определение нужных API endpoints куда идут запросы, какие headers…

PythonПарсинг данных ∙ 3 дня 5 часов назад ∙ 31 ставка

Найти товарный фид (Google Merchant XML) для сайта на OpenCart

700 UAH

Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл

PythonПарсинг данных ∙ 8 дней 14 часов назад ∙ 29 ставок

Заказчик
Artem Ro
Польша Польша  1  0
Проект опубликован
9 месяцев 10 дней назад
263 просмотра
Метки
  • python
  • PDF
  • Парсинг
  • Динамические объекты