Фриланс-проекты

Фриланс-проекты

Парсер PDF-книг (текст + изображения)

Python, Парсинг данных — неверно указаны категории?

ЗАДАЧА:

Есть библиотека из PDF-книг, которые содержат руководства по ремонту автомобилей. Качество источников «типографское» (это не постраничное ручное сканирование с бумажных мануалов). Общий объем до 100 книг / суммарно около 30 000 страниц.

На нашей стороне будет проведена OCR-обработка всех PDF-книг по согласованию и требованиям подрядчика по данной задаче.

Нужно написать систему, которая автоматически вытащит (распарсит) из этих книг все разделы, проведет их тематическую классификацию и адресно разложит их в базу данных.

ИЗ ЧЕГО СОСТОИТ РАБОТА СИСТЕМЫ:

1. Парсер PDF

Читает книгу, находит все разделы, извлекает текст в правильном порядке и вытаскивает все изображения и таблицы. Главная сложность — каждая страница сверстана в три колонки, текст и картинки перемешаны. Стандартное построчное чтение PDF даст мусор, нужна работа с координатами блоков.

2. Проверка качества через Claude API

После парсинга каждый раздел отправляется в Claude API. Claude читает текст и выносит вердикт: всё ок — раздел уходит в базу; есть проблемы (текст смешался из двух колонок, смысловой разрыв по тексту и т.д.) — раздел автоматически перепарсируется ещё раз, до трёх попыток. В случае неудачи Claude указывает причины остановки.

3. Интерфейс администратора

Простой интерфейс для управления системой: добавить новую книгу, запустить парсинг, посмотреть статистику, разобраться с разделами, которые так и не смогли распарситься после трёх попыток, и посмотреть логи ошибок. Платформа — веб-браузер.

ЧТО ДОЛЖНО ПОЛУЧИТЬСЯ В ИТОГЕ:

Запускаешь команду с указанием книги — система сама всё парсит, проверяет через Claude и раскладывает по базе.

Каждый раздел в базе: чистый текст + привязанные к тексту фотографии (PNG)

Рабочий интерфейс администратора с дашбордом, логами и управлением очередью

README на русском

Важно перед откликом! Покажите примеры работы с координатным извлечением текста из PDF или работой с многоколоночной вёрсткой. Приветствуется опыт с LLM API. Расренное ТЗ вышлем после первого контакта.

Ставки 32

Dmytro Derev'iankin

2 0

Проекты -
Оценка -
Рейтинг 596

Бюджет: 10000 UAH Срок: 1 день

✋ Здравствуйте! Мы IT-компания dZENcode.

Мы реализуем Python‑сервис парсинга PDF с координатным разбором вёрстки, извлечением текста и изображений, классификацией разделов, валидацией через Claude API и веб‑админкой, опираясь на опыт команды, лучшие практики и собственные наработки.

Какая структура разделов и правила тематической классификации?
Будут координаты текстовых блоков после OCR?

Подробную информацию о наших услугах и ставках вы найдёте на сайте: Freelancehunt
Посмотрите – дальше обсудим детали работы, пишите, как будете готовы.

Финальная стоимость формируется только после уточнения объёма и требований.

___________________
С уважением,
Менеджер dZENcode

Наши сильные стороны:
💎 10+ лет оказываем IT-услуги: Аутсорс, Аутстаф
🔥 90+ штатных специалистов
🚀 Проекты «с нуля» и на поддержку
⚙️ SLA и постпродакшн-сопровождение
✅ Договор c компанией, гарантированный результат!
🔥 250+ публичных отзывов с 2015 года.

Andriy P.

0 0

Проекты -
Оценка -
Рейтинг 247

Бюджет: 2000 UAH Срок: 2 дня

Добрый день! Готов выполнить вашу задачу за умеренную цену в обмен на хорошую оценку работы.

Данило Мануляк

15 0

Проекты 15
Оценка 5.0
Рейтинг 3 122

Бюджет: 15000 UAH Срок: 10 дней

Добрый день.
Для задачи с трехколоночной версткой и извлечением блоков текста вместе с картинками можно написать кастомный координатный парсер, но как более надежную альтернативу предлагаю рассмотреть специализированные API вроде AWS Textract или Google Document AI. Они нативно распознают сложный многоколоночный лейаут и отдают готовую структуру, что значительно снизит количество ошибок перед отправкой текста на проверку.

Всю серверную логику с маршрутизацией, валидацией через Claude API в три попытки и сохранением результатов реализую на Node.js с Typescript. Интерфейс администратора для управления очередью книг, вывода статистики и просмотра логов по проблемным разделам соберем на Next.js.

В личных сообщениях покажу примеры скриптов извлечения данных из документов со сложной структурой и интеграции с LLM API. Буду рад изучить расширенное техническое задание.

Дмитро М.

12 0

Проекты 12
Оценка 5.0
Рейтинг 1 390

Бюджет: 15000 UAH Срок: 7 дней

Здравствуйте,
У меня есть опыт работы с библиотекой Tesseract и с блоками в частности. Реализую сервер с функционалом на Node.js/Python/Go (в зависимости от ваших предпочтений), фронт-энд на Vue или React. С LLM тоже работал, могу сделать универсальный интерфейс для замены агентов по необходимости.

Буду рад сотрудничеству!

Тарас О.

4 0

Проекты 4
Оценка 5.0
Рейтинг 2 025

Бюджет: 1000 UAH Срок: 1 день

Здравствуйте, у меня есть опыт в создании систем и сервисов для парсинга данных. Готов быстро и качественно разработать для вас парсер с учетом всех требований. Предлагаю обсудить детали в личных сообщениях.

Назар Шубеляк

1 0

Проекты -
Оценка -
Рейтинг 358

Бюджет: 3999 UAH Срок: 7 дней

Добрый день!

Задача понятна. Есть релевантный опыт: разрабатывал систему автоматической загрузки и обработки PDF-счетов через API (проект есть на GitHub). Система включала GUI-интерфейс, выбор диапазона дат, автозагрузку и автообработку файлов.

По вашему проекту реализую:
PDF парсинг с работой по координатам блоков (pymupdf/pdfplumber) для корректного чтения трёхколоночной вёрстки
Pроверка качества через Claude API с автоперепарсингом
Celery + Redis для очереди задач (30 000 страниц — нужна стабильная очередь)
Админпанель с дашбордом и логами
PostgreSQL для хранения разделов + PNG
https://github.com/NazarShubeliak
Готов к обсуждению детального ТЗ.

Андрій Тюпа

53 0

Проекты 53
Оценка 5.0
Рейтинг 7 090

Бюджет: 4000 UAH Срок: 1 день

Понимаю задачу по разработке надежного решения для парсинга PDF-руководств по ремонту автомобилей, с извлечением текста и изображений из большого объема типографских источников. Имею глубокий опыт создания сложных систем для извлечения структурированных данных из неструктурированных источников, включая техническую документацию и масштабные библиотеки документов. Для такого объема и специфики данных критична архитектура, обеспечивающая точность извлечения, обработку ошибок и дальнейшее масштабирование для аналитики или отображения. Уточните, пожалуйста, какова конечная цель использования извлеченных данных: для формирования поисковой базы, интерактивной документации или чего-то еще? Буду рад обсудить это детально, чтобы предложить оптимальное решение и оценить сроки с бюджетом.

Олександр З.

14 0

Проекты 14
Оценка 5.0
Рейтинг 1 512

Бюджет: 2000 UAH Срок: 1 день

Здравствуйте! Смогу реализовать. Напишите в личку, чтобы обсудить все детали. Буду рад сотрудничеству!

Алиса С.

1 0

Проекты -
Оценка -
Рейтинг 387

Бюджет: 10000 UAH Срок: 2 дня

Здравствуйте.

В вашем ТЗ ключевая сложность — не OCR, а корректная реконструкция структуры: 3-колоночная верстка + смешанный текст/изображения. Если читать PDF “как есть”, получите перемешанный текст и потерю логики разделов.

Я предлагаю другой подход:

1. Парсинг через координаты (layout-aware)
Разбиваю страницу на блоки → кластеризую колонки → восстанавливаю порядок чтения. Это убирает смешивание текста между колонками.

2. Привязка контента
Изображения и таблицы привязываются к ближайшим текстовым блокам (по координатам и контексту), чтобы в БД сохранялся связь, а не просто “набор файлов”.

3. Claude как quality gate, а не “костыль”
После парсинга каждый раздел проходит проверку:
— не слиплись ли колонки
— не нарушена ли логика текста
— нет ли разрывов
При ошибках — автоматический retry с другими параметрами.

4. Масштабирование под ваш объем
100 книг / ~30k страниц → делаю батчинг + очереди + логирование, чтобы система работала стабильно, а не падала на середине.

5. Админка, которая реально помогает
Покажу не просто “статус”, а проблемные места: какие страницы/разделы не прошли валидацию и почему.

Чтобы не тратить ваше время — предлагаю:
сделаю прототип на 1 книге (полный цикл: парсинг → Claude → структура в БД). Вы сразу увидите, соответствует ли это тому уровню качества, который вам нужен.

Если подходит — масштабируем без изменения архитектуры.

Готова начать сразу после получения примера PDF.

Taras Hranychka

0 0

Проекты -
Оценка -
Рейтинг 163

Бюджет: 15000 UAH Срок: 10 дней

Владимир, здравствуйте!

Отличная и нетривиальная задача. Парсинг многоколоночных PDF — это всегда боль, но ваш подход с валидацией смысловых разрывов через Claude API делает систему очень умной и отказоустойчивой.

Плюс, тема мануалов мне лично очень близка: сам обслуживаю свои автомобили (от ВАЗ 2105 до Mercedes), поэтому прекрасно понимаю специфику ремонтных руководств. Я сразу увижу на тестах, если парсер перепутает порядок сборки узла из соседних колонок.

Как я предлагаю технически реализовать пайплайн:

Парсер (Координаты): Использовать библиотеку PyMuPDF (fitz) или pdfplumber. Они позволяют вытягивать bounding boxes (точные координаты x,y). Мы напишем эвристику, которая будет читать блоки строго по колонкам (сверху-вниз, слева-направо), вырезать колонтитулы и отдельно сохранять PNG-схемы с привязкой к абзацу.

Claude API: Напишем скрипт-валидатор с системным промптом, который будет анализировать текст раздела на логическую связность. При ошибке — триггер на повторный проход с измененными параметрами отступов.

Веб-интерфейс: Чтобы сэкономить время и сделать удобный дашборд, подниму админку на Streamlit или FastAPI + Jinja2. Там будет удобная загрузка книг, логи ошибок от Claude и ручное управление зависшими разделами.

Готов посмотреть пару страниц ваших мануалов в качестве тестового образца и показать логику извлечения блоков. Жду расширенное ТЗ в личных сообщениях!

Dmytro Zmenkov

1 1

Проекты -
Оценка -
Рейтинг 121

Бюджет: 4000 UAH Срок: 1 день

Здравствуйте! Готов выполнить данный проект есть большой опыт разработки различных приложений

Andrii Domashchenko

17 0

Проекты 17
Оценка 5.0
Рейтинг 3 574

Бюджет: 15000 UAH Срок: 14 дней

Добрый день.

Готов реализовать такую систему под ключ: парсинг PDF с координатным разбором многоколонной верстки, тематическая классификация разделов, сохранение в БД и веб-админка для управления очередью, логами и проблемными кейсами.

Используемый стек:

Backend: Python, FastAPI / Django, Celery, PostgreSQL
Интеграции: PyMuPDF / pdfplumber, Claude API, OCR pipeline
Frontend: Django Admin или отдельная web-admin панель
Инфраструктура: Docker, Redis

Есть опыт работы с координатным извлечением текста из PDF, многоколонной версткой и интеграцией LLM API для валидации и классификации контента.

Готов ознакомиться с расширенным ТЗ и предоставить оценку по этапам, срокам и стоимости.

С уважением,
Андрий

Андрей К.

1 285 1

Проекты 1 289
Оценка 5.0
Рейтинг 98 631

Бюджет: 27000 UAH Срок: 7 дней

Здравствуйте. Работаю с React/Node.js более 8 лет. Готов к сотрудничеству. Обращайтесь.

Віктор Гайоха

2 0

Проекты -
Оценка -
Рейтинг 816

Бюджет: 10000 UAH Срок: 10 дней

Добрый день!

Задача понятна. Проблему с многоколонной версткой решаю через координатное извлечение (PyMuPDF): алгоритм считывает X/Y координаты блоков и собирает текст с картинками строго вертикально внутри каждой зоны, а не слева направо. Валидация через Claude API — отличное решение.

Для управления всем конвейером подниму отдельный веб-сервер (FastAPI или Flask). Сделаю удобную админку в браузере, где вы сможете загружать новые PDF, видеть дашборд с логами Claude и разбирать отклоненные разделы.

Жду расширенное ТЗ, готов обсудить детали.

Олег Патрушев

21 0

Проекты 21
Оценка -
Рейтинг 612

Бюджет: 10000 UAH Срок: 10 дней

Здравствуйте. Могу сделать ваш проект. Опыт есть. Пишите договоримся.

Oleksandr Mikhov

1 0

Проекты -
Оценка -
Рейтинг 332

Бюджет: 7000 UAH Срок: 9 дней

Добрый день Владимир. Есть опыт работы с парсерами pdf вытаскивают даже кривые сканы. Также есть опыт работы с api нейросетей и их интеграцией в боты. Если проект ещё актуален. Предлагаю обсудить детали сотрудничества.

Nick Osipov

41 4

Проекты 43
Оценка 4.6
Рейтинг 4 975

Бюджет: 1000 UAH Срок: 3 дня

Добрый день!

Готов разработать систему для парсинга и классификации разделов из ваших PDF-книг. Имею обширный опыт работы с координатным извлечением текста из PDF и многоколоночной вёрсткой, а также интеграцией LLM API для контроля качества и тематической классификации.

Напишите мне для обсуждения деталей и получения расширенного ТЗ.

Тетяна Шумейко

73 4

Проекты 77
Оценка 4.8
Рейтинг 2 900

Бюджет: 6000 UAH Срок: 2 дня

Добрый день! Могу реализовать такую систему в виде веб-приложения!!! Обращайтесь!!!

Dmytro Parkhomenko

20 0

Проекты 20
Оценка 5.0
Рейтинг 2 467

Бюджет: 15000 UAH Срок: 5 дней

Добрый день, готов выполнить ваше задание быстро и качественн, имею большой опыт в разработке различных парсеров. Напишите в личные сообщения обсудим детали. С радостью помогу)

Іван Данилейко

20 0

Проекты 20
Оценка 5.0
Рейтинг 9 264

Бюджет: 10000 UAH Срок: 3 дня

Добрый день. Оглянув задачу, могу реализовать координатный парсинг PDF, проверку качества через Claude API, повторные попытки парсинга и веб-интерфейс для управления книгами, логами и проблемными разделами.

Есть опыт работы с парсингом PDF и проверкой данных (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), также работал с Azure OCR, поэтому понимаю нюансы сложной верстки и многоколонного текста.

Хотел бы посмотреть примеры книг, особенно сложные по структуре, чтобы точнее оценить подход и сроки. Также интересно, есть ли требования по скорости обработки.

Готов обсудить детали.

Vladimir B

35 1

Проекты 35
Оценка 5.0
Рейтинг 1 315

Бюджет: 5000 UAH Срок: 3 дня

Здравствуйте. Есть опыт работы с пдф, понимаю о чем идёт речь и понимаю сложности. Обращайтесь, обсудим детали и бюджет.

Володимир Магдик

0 0

Проекты -
Оценка -
Рейтинг 390

Бюджет: 5000 UAH Срок: 5 дней

Добрый день! 👋

Задача понятна — это не просто парсинг PDF, а построение полноценного пайплайна обработки данных с контролем качества через LLM. Как раз имею релевантный опыт в таких системах.

Опыт в подобных проектах

Работал над:

— парсингом сложных PDF (многостолбцовые, таблицы, смешанные блоки)
— извлечением текста через координаты (pdfplumber / PyMuPDF)
— построением пайплайнов: парсинг → очистка → валидация → БД
— интеграцией с LLM (Claude / GPT) для проверки и классификации
— системами с логикой повторных попыток и контролем качества данных

Как вижу реализацию
1. Парсер PDF (ключевой этап)

— использование PyMuPDF / pdfplumber
— извлечение блоков по координатам (а не построчно)
— восстановление правильной структуры:
— определение колонок
— сортировка блоков (слева → вправо, сверху → вниз)
— отдельный парсинг:
— текста
— изображений (PNG с координатной привязкой)
— таблиц

👉 Это позволяет избежать “перемешанного” текста — основная проблема таких PDF.

2. Обработка + классификация

— сегментация на разделы (по заголовкам / структуре)
— нормализация текста
— подготовка к отправке в Claude

3. Интеграция с Claude API

— проверка качества текста
— выявление проблем (смешанные колонки, разрывы)
— логика повторных попыток (до 3 попыток)
— логирование причин отказа

👉 Это фактически “self-healing” пайплайн.

4. Backend (приоритет Python)

— FastAPI
— очередь задач (Celery / asyncio workers)
— обработка книг в фоновом режиме
— API для админки

5. База данных

— PostgreSQL
— структура:
— книги
— разделы
— медиа (изображения)
— статусы / логи

6. Админ-панель

— простой веб-интерфейс:
— загрузка книг
— запуск парсинга
— статусы / прогресс
— ошибки и повторные попытки
— можно реализовать на:
— React или проще (FastAPI + Jinja / админ панель)

Как будет выглядеть результат

— запускаете обработку книги
— система автоматически:
— парсит
— проверяет через Claude
— сохраняет в БД
— в базе:
— чистый структурированный текст
— привязанные изображения
— есть интерфейс для контроля

Технологии

— Python (FastAPI, asyncio)
— PyMuPDF / pdfplumber
— PostgreSQL
— Claude API
— Docker

Я уже работал с многостолбцовыми PDF и знаю основные “подводные камни” — это как раз тот случай, где стандартные решения не работают и нужно строить кастомную логику.

Готов посмотреть пример ваших PDF и предложить точную архитектуру и план реализации.

Sergey Mironov

144 6

Проекты 146
Оценка 5.0
Рейтинг 6 187

Бюджет: 10000 UAH Срок: 10 дней

Добрый
Есть опыт и наработки по парсингу сложных PDF, содержащих таблицы, графики и диаграммы. Предлагаю использовать подход с несколькими инструментами. OCR с вашей стороны под вопросом, скорее всего будет удобнее его реализовать вместе с остальным функционалом, тем более, то вряд ли вы будете использовать какие-то уникальные инструменты, о которых я не знаю.
Для проверки качества есть еще пару вариантов vl моделей, надо будет протестировать.
Нужны образцы книг, желательно самых сложных по структуре, для тестов.
Еще вопрос по скорости парсинга - какие минимальные-макс требования, если таковые есть.

Владимир Новиков
Киев, Украина

Проектов 5
Оценка -
Рейтинг 543

Парсер PDF-книг (текст + изображения)

Dmytro Derev'iankin

Andriy P.

Данило Мануляк

Дмитро М.

Тарас О.

Назар Шубеляк

Андрій Тюпа

Олександр З.

Алиса С.

Taras Hranychka

Dmytro Zmenkov

Andrii Domashchenko

Андрей К.

Віктор Гайоха

Олег Патрушев

Oleksandr Mikhov

Nick Osipov

Тетяна Шумейко

Dmytro Parkhomenko

Іван Данилейко

Vladimir B

Володимир Магдик

Sergey Mironov

Ставки скрыты

Ставки пока отсутствуют

Актуальные фриланс-проекты в категории Python

Глубокая проверка 3 PDF-файлов на достоверность

Индикатор для Tradingview

Разработка Python-бота для автоматического мониторинга и приема заказов на сайте

Необходимо реализовать проект по сбору и структурированию большого массива изображений.

Разработка программы (pipeline) для автоматизированной подготовки видеодатасета