Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Разместите свой проект бесплатно и начните получать предложения от фрилансеров-исполнителей уже спустя минуты после публикации!

Парсер PDF-книг (текст + изображения)


  1. 596
     2  0
    Пример работы:
    Сервис аренды автомобилей
    1 день10 000 UAH

    ✋ Здравствуйте! Мы IT-компания dZENcode.

    Мы реализуем Python‑сервис парсинга PDF с координатным разбором вёрстки, извлечением текста и изображений, классификацией разделов, валидацией через Claude API и веб‑админкой, опираясь на опыт команды, лучшие практики и собственные наработки.

    Какая структура разделов и правила тематической классификации?
    Будут координаты текстовых блоков после OCR?

    Подробную информацию о наших услугах и ставках вы найдёте на сайте: Freelancehunt
    Посмотрите – дальше обсудим детали работы, пишите, как будете готовы.

    Финальная стоимость формируется только после уточнения объёма и требований.

    ___________________
    С уважением,
    Менеджер dZENcode

    Наши сильные стороны:
    💎 10+ лет оказываем IT-услуги: Аутсорс, Аутстаф
    🔥 90+ штатных специалистов
    🚀 Проекты «с нуля» и на поддержку
    ⚙️ SLA и постпродакшн-сопровождение
    ✅ Договор c компанией, гарантированный результат!
    🔥 250+ публичных отзывов с 2015 года.

  2. 271  
    2 дня2000 UAH

    Добрый день! Готов выполнить вашу задачу за умеренную цену в обмен на хорошую оценку работы.

  3. 2973    14  0
    10 дней15 000 UAH

    Добрый день.
    Для задачи с трехколоночной версткой и извлечением блоков текста вместе с картинками можно написать кастомный координатный парсер, но как более надежную альтернативу предлагаю рассмотреть специализированные API вроде AWS Textract или Google Document AI. Они нативно распознают сложный многоколоночный лейаут и отдают готовую структуру, что значительно снизит количество ошибок перед отправкой текста на проверку.

    Всю серверную логику с маршрутизацией, валидацией через Claude API в три попытки и сохранением результатов реализую на Node.js с Typescript. Интерфейс администратора для управления очередью книг, вывода статистики и просмотра логов по проблемным разделам соберем на Next.js.

    В личных сообщениях покажу примеры скриптов извлечения данных из документов со сложной структурой и интеграции с LLM API. Буду рад изучить расширенное техническое задание.

  4. 1390    12  0
    7 дней15 000 UAH

    Здравствуйте,
    У меня есть опыт работы с библиотекой Tesseract и с блоками в частности. Реализую сервер с функционалом на Node.js/Python/Go (в зависимости от ваших предпочтений), фронт-энд на Vue или React. С LLM тоже работал, могу сделать универсальный интерфейс для замены агентов по необходимости.

    Буду рад сотрудничеству!

  5. 1580    3  0
    1 день1000 UAH

    Здравствуйте, у меня есть опыт в создании систем и сервисов для парсинга данных. Готов быстро и качественно разработать для вас парсер с учетом всех требований. Предлагаю обсудить детали в личных сообщениях.

  6. 358    1  0
    7 дней3999 UAH

    Добрый день!

    Задача понятна. Есть релевантный опыт: разрабатывал систему автоматической загрузки и обработки PDF-счетов через API (проект есть на GitHub). Система включала GUI-интерфейс, выбор диапазона дат, автозагрузку и автообработку файлов.

    По вашему проекту реализую:
    PDF парсинг с работой по координатам блоков (pymupdf/pdfplumber) для корректного чтения трёхколоночной вёрстки
    Pроверка качества через Claude API с автоперепарсингом
    Celery + Redis для очереди задач (30 000 страниц — нужна стабильная очередь)
    Админпанель с дашбордом и логами
    PostgreSQL для хранения разделов + PNG
    https://github.com/NazarShubeliak
    Готов к обсуждению детального ТЗ.

  7. 7123    53  0
    1 день4000 UAH

    Понимаю задачу по разработке надежного решения для парсинга PDF-руководств по ремонту автомобилей, с извлечением текста и изображений из большого объема типографских источников. Имею глубокий опыт создания сложных систем для извлечения структурированных данных из неструктурированных источников, включая техническую документацию и масштабные библиотеки документов. Для такого объема и специфики данных критична архитектура, обеспечивающая точность извлечения, обработку ошибок и дальнейшее масштабирование для аналитики или отображения. Уточните, пожалуйста, какова конечная цель использования извлеченных данных: для формирования поисковой базы, интерактивной документации или чего-то еще? Буду рад обсудить это детально, чтобы предложить оптимальное решение и оценить сроки с бюджетом.

  8. 1495    13  0
    1 день2000 UAH

    Здравствуйте! Смогу реализовать. Напишите в личку, чтобы обсудить все детали. Буду рад сотрудничеству!

  9. 387    1  0
    2 дня10 000 UAH

    Здравствуйте.

    В вашем ТЗ ключевая сложность — не OCR, а корректная реконструкция структуры: 3-колоночная верстка + смешанный текст/изображения. Если читать PDF “как есть”, получите перемешанный текст и потерю логики разделов.

    Я предлагаю другой подход:

    1. Парсинг через координаты (layout-aware)
    Разбиваю страницу на блоки → кластеризую колонки → восстанавливаю порядок чтения. Это убирает смешивание текста между колонками.

    2. Привязка контента
    Изображения и таблицы привязываются к ближайшим текстовым блокам (по координатам и контексту), чтобы в БД сохранялся связь, а не просто “набор файлов”.

    3. Claude как quality gate, а не “костыль”
    После парсинга каждый раздел проходит проверку:
    — не слиплись ли колонки
    — не нарушена ли логика текста
    — нет ли разрывов
    При ошибках — автоматический retry с другими параметрами.

    4. Масштабирование под ваш объем
    100 книг / ~30k страниц → делаю батчинг + очереди + логирование, чтобы система работала стабильно, а не падала на середине.

    5. Админка, которая реально помогает
    Покажу не просто “статус”, а проблемные места: какие страницы/разделы не прошли валидацию и почему.

    Чтобы не тратить ваше время — предлагаю:
    сделаю прототип на 1 книге (полный цикл: парсинг → Claude → структура в БД). Вы сразу увидите, соответствует ли это тому уровню качества, который вам нужен.

    Если подходит — масштабируем без изменения архитектуры.

    Готова начать сразу после получения примера PDF.

  10. 139  
    10 дней15 000 UAH

    Владимир, здравствуйте!

    Отличная и нетривиальная задача. Парсинг многоколоночных PDF — это всегда боль, но ваш подход с валидацией смысловых разрывов через Claude API делает систему очень умной и отказоустойчивой.

    Плюс, тема мануалов мне лично очень близка: сам обслуживаю свои автомобили (от ВАЗ 2105 до Mercedes), поэтому прекрасно понимаю специфику ремонтных руководств. Я сразу увижу на тестах, если парсер перепутает порядок сборки узла из соседних колонок.

    Как я предлагаю технически реализовать пайплайн:

    Парсер (Координаты): Использовать библиотеку PyMuPDF (fitz) или pdfplumber. Они позволяют вытягивать bounding boxes (точные координаты x,y). Мы напишем эвристику, которая будет читать блоки строго по колонкам (сверху-вниз, слева-направо), вырезать колонтитулы и отдельно сохранять PNG-схемы с привязкой к абзацу.

    Claude API: Напишем скрипт-валидатор с системным промптом, который будет анализировать текст раздела на логическую связность. При ошибке — триггер на повторный проход с измененными параметрами отступов.

    Веб-интерфейс: Чтобы сэкономить время и сделать удобный дашборд, подниму админку на Streamlit или FastAPI + Jinja2. Там будет удобная загрузка книг, логи ошибок от Claude и ручное управление зависшими разделами.

    Готов посмотреть пару страниц ваших мануалов в качестве тестового образца и показать логику извлечения блоков. Жду расширенное ТЗ в личных сообщениях!

  11. 172    1  1
    1 день4000 UAH

    Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений

  12. 3700    17  0
    14 дней15 000 UAH

    Добрый день.

    Готов реализовать такую систему под ключ: парсинг PDF с координатным разбором многоколонной верстки, тематическая классификация разделов, сохранение в БД и веб-админка для управления очередью, логами и проблемными кейсами.

    Используемый стек:

    Backend: Python, FastAPI / Django, Celery, PostgreSQL
    Интеграции: PyMuPDF / pdfplumber, Claude API, OCR pipeline
    Frontend: Django Admin или отдельная web-admin панель
    Инфраструктура: Docker, Redis

    Есть опыт работы с координатным извлечением текста из PDF, многоколонной версткой и интеграцией LLM API для валидации и классификации контента.

    Готов ознакомиться с расширенным ТЗ и предоставить оценку по этапам, срокам и стоимости.

    С уважением,
    Андрий

  13. 94028    1269  1   10
    7 дней27 000 UAH

    Здравствуйте. Работаю с React/Node.js более 8 лет. Готов к сотрудничеству. Обращайтесь.

  14. 807    2  0
    10 дней10 000 UAH

    Добрый день!

    Задача понятна. Проблему с многоколонной версткой решаю через координатное извлечение (PyMuPDF): алгоритм считывает X/Y координаты блоков и собирает текст с картинками строго вертикально внутри каждой зоны, а не слева направо. Валидация через Claude API — отличное решение.

    Для управления всем конвейером подниму отдельный веб-сервер (FastAPI или Flask). Сделаю удобную админку в браузере, где вы сможете загружать новые PDF, видеть дашборд с логами Claude и разбирать отклоненные разделы.

    Жду расширенное ТЗ, готов обсудить детали.

  15. 692    21  0
    10 дней10 000 UAH

    Здравствуйте. Могу сделать ваш проект. Опыт есть. Пишите договоримся.

  16. 332    1  0
    9 дней7000 UAH

    Добрый день Владимир. Есть опыт работы с парсерами pdf вытаскивают даже кривые сканы. Также есть опыт работы с api нейросетей и их интеграцией в боты. Если проект ещё актуален. Предлагаю обсудить детали сотрудничества.

  17. Nick Osipov Web4Business
    5011    41  4   1
    3 дня1000 UAH

    Добрый день!

    Готов разработать систему для парсинга и классификации разделов из ваших PDF-книг. Имею обширный опыт работы с координатным извлечением текста из PDF и многоколоночной вёрсткой, а также интеграцией LLM API для контроля качества и тематической классификации.

    Напишите мне для обсуждения деталей и получения расширенного ТЗ.

  18. 3012    73  4   2
    2 дня6000 UAH

    Добрый день! Могу реализовать такую систему в виде веб-приложения!!! Обращайтесь!!!

  19. 2426    20  0
    5 дней15 000 UAH

    Добрый день, готов выполнить ваше задание быстро и качественн, имею большой опыт в разработке различных парсеров. Напишите в личные сообщения обсудим детали. С радостью помогу)

  20. 9351    20  0   1
    3 дня10 000 UAH

    Добрый день. Оглянув задачу, могу реализовать координатный парсинг PDF, проверку качества через Claude API, повторные попытки парсинга и веб-интерфейс для управления книгами, логами и проблемными разделами.

    Есть опыт работы с парсингом PDF и проверкой данных (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), также работал с Azure OCR, поэтому понимаю нюансы сложной верстки и многоколонного текста.

    Хотел бы посмотреть примеры книг, особенно сложные по структуре, чтобы точнее оценить подход и сроки. Также интересно, есть ли требования по скорости обработки.

    Готов обсудить детали.

  21. 1328    35  1
    3 дня5000 UAH

    Здравствуйте. Есть опыт работы с пдф, понимаю о чем идёт речь и понимаю сложности. Обращайтесь, обсудим детали и бюджет.

  22. 414  
    5 дней5000 UAH

    Добрый день! 👋

    Задача понятна — это не просто парсинг PDF, а построение полноценного пайплайна обработки данных с контролем качества через LLM. Как раз имею релевантный опыт в таких системах.

    Опыт в подобных проектах

    Работал над:

    — парсингом сложных PDF (многостолбцовые, таблицы, смешанные блоки)
    — извлечением текста через координаты (pdfplumber / PyMuPDF)
    — построением пайплайнов: парсинг → очистка → валидация → БД
    — интеграцией с LLM (Claude / GPT) для проверки и классификации
    — системами с логикой повторных попыток и контролем качества данных

    Как вижу реализацию
    1. Парсер PDF (ключевой этап)

    — использование PyMuPDF / pdfplumber
    — извлечение блоков по координатам (а не построчно)
    — восстановление правильной структуры:
    — определение колонок
    — сортировка блоков (слева → вправо, сверху → вниз)
    — отдельный парсинг:
    — текста
    — изображений (PNG с координатной привязкой)
    — таблиц

    👉 Это позволяет избежать “перемешанного” текста — основная проблема таких PDF.

    2. Обработка + классификация

    — сегментация на разделы (по заголовкам / структуре)
    — нормализация текста
    — подготовка к отправке в Claude

    3. Интеграция с Claude API

    — проверка качества текста
    — выявление проблем (смешанные колонки, разрывы)
    — логика повторных попыток (до 3 попыток)
    — логирование причин отказа

    👉 Это фактически “self-healing” пайплайн.

    4. Backend (приоритет Python)

    — FastAPI
    — очередь задач (Celery / asyncio workers)
    — обработка книг в фоновом режиме
    — API для админки

    5. База данных

    — PostgreSQL
    — структура:
    — книги
    — разделы
    — медиа (изображения)
    — статусы / логи

    6. Админ-панель

    — простой веб-интерфейс:
    — загрузка книг
    — запуск парсинга
    — статусы / прогресс
    — ошибки и повторные попытки
    — можно реализовать на:
    — React или проще (FastAPI + Jinja / админ панель)

    Как будет выглядеть результат

    — запускаете обработку книги
    — система автоматически:
    — парсит
    — проверяет через Claude
    — сохраняет в БД
    — в базе:
    — чистый структурированный текст
    — привязанные изображения
    — есть интерфейс для контроля

    Технологии

    — Python (FastAPI, asyncio)
    — PyMuPDF / pdfplumber
    — PostgreSQL
    — Claude API
    — Docker

    Я уже работал с многостолбцовыми PDF и знаю основные “подводные камни” — это как раз тот случай, где стандартные решения не работают и нужно строить кастомную логику.

    Готов посмотреть пример ваших PDF и предложить точную архитектуру и план реализации.

  23. 6296    144  6   4
    10 дней10 000 UAH

    Добрый
    Есть опыт и наработки по парсингу сложных PDF, содержащих таблицы, графики и диаграммы. Предлагаю использовать подход с несколькими инструментами. OCR с вашей стороны под вопросом, скорее всего будет удобнее его реализовать вместе с остальным функционалом, тем более, то вряд ли вы будете использовать какие-то уникальные инструменты, о которых я не знаю.
    Для проверки качества есть еще пару вариантов vl моделей, надо будет протестировать.
    Нужны образцы книг, желательно самых сложных по структуре, для тестов.
    Еще вопрос по скорости парсинга - какие минимальные-макс требования, если таковые есть.

  24. Еще 9 ставок скрыто

Актуальные фриланс-проекты в категории Python

Бот или приложение для рассылки в телеграм

1000 UAH

Задача простая - нужен мультикабинет с аккаунтами,все в одном месте. Рассылка по группам которые на каждом аккаунте. Добавление сообщения на рассылку , выставление времени когда автоматически оно отправляется. Установка на сервер . Под ключ

PythonРазработка ботов ∙ 3 часа 14 минут назад ∙ 8 ставок

Создание многофункционального бота в Телеграм

1000 UAH

(Все материалы предоставлю в приватные сообщения) Вот детальное описание проекта: После нажатия кнопки /start Бот присылает текст с правилами и условиями пользования (под текстом, кнопка ‘ознакомлен’) После нажатия на кнопку, следующее сообщение ‘проверка на подписку’ Три…

PythonРазработка ботов ∙ 2 дня 10 часов назад ∙ 93 ставки

Найти товарный фид (Google Merchant XML) для сайта на OpenCart

700 UAH

Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл

PythonПарсинг данных ∙ 4 дня 23 часа назад ∙ 27 ставок

Розработка Тик-Ток фермы (контент-завод)

Необзодимо разработать систему для централизованного управления несколькими TikTok-аккаунтами с автоматической публикацией контента, использованием индивидуальных прокси и имитацией естественной активности аккаунтов. Функциональные требования1. Управление аккаунтами Добавление…

PythonРазработка ботов ∙ 5 дней 11 часов назад ∙ 20 ставок

Улучшить работу Claude Code и работа с написанием софта

Сейчас разрабатываю СРМ и Аналитику, софт. Делаю через Клод Код, но понимаю что результаты не лучшие в плане изменений. Есть 2 задачи - Нужно помочь сделать пресет по навыкам, мд и так далее чтобы улучшить качество. Взять проверенные с которыми работали, а не с интернета…

AI и машинное обучениеPython ∙ 5 дней 17 часов назад ∙ 26 ставок

Заказчик
Проект опубликован
2 месяца 20 дней назад
366 просмотров
Метки
  • OCR
  • Web Interface
  • Claude API
  • PDF Parser