Парсер PDF-книг (текст + изображения)
ЗАДАЧА:
Есть библиотека из PDF-книг, которые содержат руководства по ремонту автомобилей. Качество источников «типографское» (это не постраничное ручное сканирование с бумажных мануалов). Общий объем до 100 книг / суммарно около 30 000 страниц.
На нашей стороне будет проведена OCR-обработка всех PDF-книг по согласованию и требованиям подрядчика по данной задаче.
Нужно написать систему, которая автоматически вытащит (распарсит) из этих книг все разделы, проведет их тематическую классификацию и адресно разложит их в базу данных.
ИЗ ЧЕГО СОСТОИТ РАБОТА СИСТЕМЫ:
1. Парсер PDF
Читает книгу, находит все разделы, извлекает текст в правильном порядке и вытаскивает все изображения и таблицы. Главная сложность — каждая страница сверстана в три колонки, текст и картинки перемешаны. Стандартное построчное чтение PDF даст мусор, нужна работа с координатами блоков.
2. Проверка качества через Claude API
После парсинга каждый раздел отправляется в Claude API. Claude читает текст и выносит вердикт: всё ок — раздел уходит в базу; есть проблемы (текст смешался из двух колонок, смысловой разрыв по тексту и т.д.) — раздел автоматически перепарсируется ещё раз, до трёх попыток. В случае неудачи Claude указывает причины остановки.
3. Интерфейс администратора
Простой интерфейс для управления системой: добавить новую книгу, запустить парсинг, посмотреть статистику, разобраться с разделами, которые так и не смогли распарситься после трёх попыток, и посмотреть логи ошибок. Платформа — веб-браузер.
ЧТО ДОЛЖНО ПОЛУЧИТЬСЯ В ИТОГЕ:
Запускаешь команду с указанием книги — система сама всё парсит, проверяет через Claude и раскладывает по базе.
Каждый раздел в базе: чистый текст + привязанные к тексту фотографии (PNG)
Рабочий интерфейс администратора с дашбордом, логами и управлением очередью
README на русском
Важно перед откликом! Покажите примеры работы с координатным извлечением текста из PDF или работой с многоколоночной вёрсткой. Приветствуется опыт с LLM API. Расренное ТЗ вышлем после первого контакта.
-
✋ Здравствуйте! Мы IT-компания dZENcode.
Мы реализуем Python‑сервис парсинга PDF с координатным разбором вёрстки, извлечением текста и изображений, классификацией разделов, валидацией через Claude API и веб‑админкой, опираясь на опыт команды, лучшие практики и собственные наработки.
Какая структура разделов и правила тематической классификации?
Будут координаты текстовых блоков после OCR?
Подробную информацию о наших услугах и ставках вы найдёте на сайте:Freelancehunt
Посмотрите – дальше обсудим детали работы, пишите, как будете готовы.
…
Финальная стоимость формируется только после уточнения объёма и требований.
___________________
С уважением,
Менеджер dZENcode
Наши сильные стороны:
💎 10+ лет оказываем IT-услуги: Аутсорс, Аутстаф
🔥 90+ штатных специалистов
🚀 Проекты «с нуля» и на поддержку
⚙️ SLA и постпродакшн-сопровождение
✅ Договор c компанией, гарантированный результат!
🔥 250+ публичных отзывов с 2015 года.
-
271 Добрый день! Готов выполнить вашу задачу за умеренную цену в обмен на хорошую оценку работы.
-
2973 14 0 Добрый день.
Для задачи с трехколоночной версткой и извлечением блоков текста вместе с картинками можно написать кастомный координатный парсер, но как более надежную альтернативу предлагаю рассмотреть специализированные API вроде AWS Textract или Google Document AI. Они нативно распознают сложный многоколоночный лейаут и отдают готовую структуру, что значительно снизит количество ошибок перед отправкой текста на проверку.
Всю серверную логику с маршрутизацией, валидацией через Claude API в три попытки и сохранением результатов реализую на Node.js с Typescript. Интерфейс администратора для управления очередью книг, вывода статистики и просмотра логов по проблемным разделам соберем на Next.js.
В личных сообщениях покажу примеры скриптов извлечения данных из документов со сложной структурой и интеграции с LLM API. Буду рад изучить расширенное техническое задание.
-
1390 12 0 Здравствуйте,
У меня есть опыт работы с библиотекой Tesseract и с блоками в частности. Реализую сервер с функционалом на Node.js/Python/Go (в зависимости от ваших предпочтений), фронт-энд на Vue или React. С LLM тоже работал, могу сделать универсальный интерфейс для замены агентов по необходимости.
Буду рад сотрудничеству!
-
1580 3 0 Здравствуйте, у меня есть опыт в создании систем и сервисов для парсинга данных. Готов быстро и качественно разработать для вас парсер с учетом всех требований. Предлагаю обсудить детали в личных сообщениях.
-
358 1 0 Добрый день!
Задача понятна. Есть релевантный опыт: разрабатывал систему автоматической загрузки и обработки PDF-счетов через API (проект есть на GitHub). Система включала GUI-интерфейс, выбор диапазона дат, автозагрузку и автообработку файлов.
По вашему проекту реализую:
PDF парсинг с работой по координатам блоков (pymupdf/pdfplumber) для корректного чтения трёхколоночной вёрстки
Pроверка качества через Claude API с автоперепарсингом
Celery + Redis для очереди задач (30 000 страниц — нужна стабильная очередь)
Админпанель с дашбордом и логами
… PostgreSQL для хранения разделов + PNG
https://github.com/NazarShubeliak
Готов к обсуждению детального ТЗ.
-
7123 53 0 Понимаю задачу по разработке надежного решения для парсинга PDF-руководств по ремонту автомобилей, с извлечением текста и изображений из большого объема типографских источников. Имею глубокий опыт создания сложных систем для извлечения структурированных данных из неструктурированных источников, включая техническую документацию и масштабные библиотеки документов. Для такого объема и специфики данных критична архитектура, обеспечивающая точность извлечения, обработку ошибок и дальнейшее масштабирование для аналитики или отображения. Уточните, пожалуйста, какова конечная цель использования извлеченных данных: для формирования поисковой базы, интерактивной документации или чего-то еще? Буду рад обсудить это детально, чтобы предложить оптимальное решение и оценить сроки с бюджетом.
-
1495 13 0 Здравствуйте! Смогу реализовать. Напишите в личку, чтобы обсудить все детали. Буду рад сотрудничеству!
-
387 1 0 Здравствуйте.
В вашем ТЗ ключевая сложность — не OCR, а корректная реконструкция структуры: 3-колоночная верстка + смешанный текст/изображения. Если читать PDF “как есть”, получите перемешанный текст и потерю логики разделов.
Я предлагаю другой подход:
1. Парсинг через координаты (layout-aware)
Разбиваю страницу на блоки → кластеризую колонки → восстанавливаю порядок чтения. Это убирает смешивание текста между колонками.
… 2. Привязка контента
Изображения и таблицы привязываются к ближайшим текстовым блокам (по координатам и контексту), чтобы в БД сохранялся связь, а не просто “набор файлов”.
3. Claude как quality gate, а не “костыль”
После парсинга каждый раздел проходит проверку:
— не слиплись ли колонки
— не нарушена ли логика текста
— нет ли разрывов
При ошибках — автоматический retry с другими параметрами.
4. Масштабирование под ваш объем
100 книг / ~30k страниц → делаю батчинг + очереди + логирование, чтобы система работала стабильно, а не падала на середине.
5. Админка, которая реально помогает
Покажу не просто “статус”, а проблемные места: какие страницы/разделы не прошли валидацию и почему.
Чтобы не тратить ваше время — предлагаю:
сделаю прототип на 1 книге (полный цикл: парсинг → Claude → структура в БД). Вы сразу увидите, соответствует ли это тому уровню качества, который вам нужен.
Если подходит — масштабируем без изменения архитектуры.
Готова начать сразу после получения примера PDF.
-
139 Владимир, здравствуйте!
Отличная и нетривиальная задача. Парсинг многоколоночных PDF — это всегда боль, но ваш подход с валидацией смысловых разрывов через Claude API делает систему очень умной и отказоустойчивой.
Плюс, тема мануалов мне лично очень близка: сам обслуживаю свои автомобили (от ВАЗ 2105 до Mercedes), поэтому прекрасно понимаю специфику ремонтных руководств. Я сразу увижу на тестах, если парсер перепутает порядок сборки узла из соседних колонок.
Как я предлагаю технически реализовать пайплайн:
Парсер (Координаты): Использовать библиотеку PyMuPDF (fitz) или pdfplumber. Они позволяют вытягивать bounding boxes (точные координаты x,y). Мы напишем эвристику, которая будет читать блоки строго по колонкам (сверху-вниз, слева-направо), вырезать колонтитулы и отдельно сохранять PNG-схемы с привязкой к абзацу.
…
Claude API: Напишем скрипт-валидатор с системным промптом, который будет анализировать текст раздела на логическую связность. При ошибке — триггер на повторный проход с измененными параметрами отступов.
Веб-интерфейс: Чтобы сэкономить время и сделать удобный дашборд, подниму админку на Streamlit или FastAPI + Jinja2. Там будет удобная загрузка книг, логи ошибок от Claude и ручное управление зависшими разделами.
Готов посмотреть пару страниц ваших мануалов в качестве тестового образца и показать логику извлечения блоков. Жду расширенное ТЗ в личных сообщениях!
-
172 1 1 Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений
-
3700 17 0 Добрый день.
Готов реализовать такую систему под ключ: парсинг PDF с координатным разбором многоколонной верстки, тематическая классификация разделов, сохранение в БД и веб-админка для управления очередью, логами и проблемными кейсами.
Используемый стек:
Backend: Python, FastAPI / Django, Celery, PostgreSQL
Интеграции: PyMuPDF / pdfplumber, Claude API, OCR pipeline
Frontend: Django Admin или отдельная web-admin панель
… Инфраструктура: Docker, Redis
Есть опыт работы с координатным извлечением текста из PDF, многоколонной версткой и интеграцией LLM API для валидации и классификации контента.
Готов ознакомиться с расширенным ТЗ и предоставить оценку по этапам, срокам и стоимости.
С уважением,
Андрий
-
94346 1269 1 10 Здравствуйте. Работаю с React/Node.js более 8 лет. Готов к сотрудничеству. Обращайтесь.
-
807 2 0 Добрый день!
Задача понятна. Проблему с многоколонной версткой решаю через координатное извлечение (PyMuPDF): алгоритм считывает X/Y координаты блоков и собирает текст с картинками строго вертикально внутри каждой зоны, а не слева направо. Валидация через Claude API — отличное решение.
Для управления всем конвейером подниму отдельный веб-сервер (FastAPI или Flask). Сделаю удобную админку в браузере, где вы сможете загружать новые PDF, видеть дашборд с логами Claude и разбирать отклоненные разделы.
Жду расширенное ТЗ, готов обсудить детали.
-
692 21 0 Здравствуйте. Могу сделать ваш проект. Опыт есть. Пишите договоримся.
-
332 1 0 Добрый день Владимир. Есть опыт работы с парсерами pdf вытаскивают даже кривые сканы. Также есть опыт работы с api нейросетей и их интеграцией в боты. Если проект ещё актуален. Предлагаю обсудить детали сотрудничества.
-
5011 41 4 1 Добрый день!
Готов разработать систему для парсинга и классификации разделов из ваших PDF-книг. Имею обширный опыт работы с координатным извлечением текста из PDF и многоколоночной вёрсткой, а также интеграцией LLM API для контроля качества и тематической классификации.
Напишите мне для обсуждения деталей и получения расширенного ТЗ.
-
3012 73 4 2 Добрый день! Могу реализовать такую систему в виде веб-приложения!!! Обращайтесь!!!
-
2426 20 0 Добрый день, готов выполнить ваше задание быстро и качественн, имею большой опыт в разработке различных парсеров. Напишите в личные сообщения обсудим детали. С радостью помогу)
-
9351 20 0 1 Добрый день. Оглянув задачу, могу реализовать координатный парсинг PDF, проверку качества через Claude API, повторные попытки парсинга и веб-интерфейс для управления книгами, логами и проблемными разделами.
Есть опыт работы с парсингом PDF и проверкой данных (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), также работал с Azure OCR, поэтому понимаю нюансы сложной верстки и многоколонного текста.
Хотел бы посмотреть примеры книг, особенно сложные по структуре, чтобы точнее оценить подход и сроки. Также интересно, есть ли требования по скорости обработки.
Готов обсудить детали.
-
1328 35 1 Здравствуйте. Есть опыт работы с пдф, понимаю о чем идёт речь и понимаю сложности. Обращайтесь, обсудим детали и бюджет.
-
414 Добрый день! 👋
Задача понятна — это не просто парсинг PDF, а построение полноценного пайплайна обработки данных с контролем качества через LLM. Как раз имею релевантный опыт в таких системах.
Опыт в подобных проектах
Работал над:
— парсингом сложных PDF (многостолбцовые, таблицы, смешанные блоки)
… — извлечением текста через координаты (pdfplumber / PyMuPDF)
— построением пайплайнов: парсинг → очистка → валидация → БД
— интеграцией с LLM (Claude / GPT) для проверки и классификации
— системами с логикой повторных попыток и контролем качества данных
Как вижу реализацию
1. Парсер PDF (ключевой этап)
— использование PyMuPDF / pdfplumber
— извлечение блоков по координатам (а не построчно)
— восстановление правильной структуры:
— определение колонок
— сортировка блоков (слева → вправо, сверху → вниз)
— отдельный парсинг:
— текста
— изображений (PNG с координатной привязкой)
— таблиц
👉 Это позволяет избежать “перемешанного” текста — основная проблема таких PDF.
2. Обработка + классификация
— сегментация на разделы (по заголовкам / структуре)
— нормализация текста
— подготовка к отправке в Claude
3. Интеграция с Claude API
— проверка качества текста
— выявление проблем (смешанные колонки, разрывы)
— логика повторных попыток (до 3 попыток)
— логирование причин отказа
👉 Это фактически “self-healing” пайплайн.
4. Backend (приоритет Python)
— FastAPI
— очередь задач (Celery / asyncio workers)
— обработка книг в фоновом режиме
— API для админки
5. База данных
— PostgreSQL
— структура:
— книги
— разделы
— медиа (изображения)
— статусы / логи
6. Админ-панель
— простой веб-интерфейс:
— загрузка книг
— запуск парсинга
— статусы / прогресс
— ошибки и повторные попытки
— можно реализовать на:
— React или проще (FastAPI + Jinja / админ панель)
Как будет выглядеть результат
— запускаете обработку книги
— система автоматически:
— парсит
— проверяет через Claude
— сохраняет в БД
— в базе:
— чистый структурированный текст
— привязанные изображения
— есть интерфейс для контроля
Технологии
— Python (FastAPI, asyncio)
— PyMuPDF / pdfplumber
— PostgreSQL
— Claude API
— Docker
Я уже работал с многостолбцовыми PDF и знаю основные “подводные камни” — это как раз тот случай, где стандартные решения не работают и нужно строить кастомную логику.
Готов посмотреть пример ваших PDF и предложить точную архитектуру и план реализации.
-
6296 144 6 4 Добрый
Есть опыт и наработки по парсингу сложных PDF, содержащих таблицы, графики и диаграммы. Предлагаю использовать подход с несколькими инструментами. OCR с вашей стороны под вопросом, скорее всего будет удобнее его реализовать вместе с остальным функционалом, тем более, то вряд ли вы будете использовать какие-то уникальные инструменты, о которых я не знаю.
Для проверки качества есть еще пару вариантов vl моделей, надо будет протестировать.
Нужны образцы книг, желательно самых сложных по структуре, для тестов.
Еще вопрос по скорости парсинга - какие минимальные-макс требования, если таковые есть.
Актуальные фриланс-проекты в категории Python
Бот или приложение для рассылки в телеграм
1000 UAH
Задача простая - нужен мультикабинет с аккаунтами,все в одном месте. Рассылка по группам которые на каждом аккаунте. Добавление сообщения на рассылку , выставление времени когда автоматически оно отправляется. Установка на сервер . Под ключ Python, Разработка ботов ∙ 4 часа 36 минут назад ∙ 13 ставок |
Создание многофункционального бота в Телеграм
1000 UAH
(Все материалы предоставлю в приватные сообщения) Вот детальное описание проекта: После нажатия кнопки /start Бот присылает текст с правилами и условиями пользования (под текстом, кнопка ‘ознакомлен’) После нажатия на кнопку, следующее сообщение ‘проверка на подписку’ Три… Python, Разработка ботов ∙ 2 дня 11 часов назад ∙ 93 ставки |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 5 дней 1 час назад ∙ 27 ставок |
Розработка Тик-Ток фермы (контент-завод)Необзодимо разработать систему для централизованного управления несколькими TikTok-аккаунтами с автоматической публикацией контента, использованием индивидуальных прокси и имитацией естественной активности аккаунтов. Функциональные требования1. Управление аккаунтами Добавление… Python, Разработка ботов ∙ 5 дней 12 часов назад ∙ 20 ставок |
Улучшить работу Claude Code и работа с написанием софтаСейчас разрабатываю СРМ и Аналитику, софт. Делаю через Клод Код, но понимаю что результаты не лучшие в плане изменений. Есть 2 задачи - Нужно помочь сделать пресет по навыкам, мд и так далее чтобы улучшить качество. Взять проверенные с которыми работали, а не с интернета… AI и машинное обучение, Python ∙ 5 дней 19 часов назад ∙ 26 ставок |