Парсер PDF-книг (текст + зображення)
ЗАДАЧА:
Є бібліотека з PDF-книг, які містять посібники з ремонту автомобілів. Якість джерел «типографське» (це не посторінкове ручне сканування з паперових мануалів). Загальний обсяг до 100 книг / сумарно близько 30 000 сторінок.
На нашій стороні буде проведена OCR-обробка всіх PDF-книг за погодженням і вимогами підрядника по даній задачі.
Потрібно написати систему, яка автоматично витягне (розпарсить) з цих книг всі розділи, проведе їх тематичну класифікацію і адресно розкладе їх у базу даних.
ІЗ ЧОГО СКЛАДАЄТЬСЯ РОБОТА СИСТЕМИ:
1. Парсер PDF
Читає книгу, знаходить всі розділи, витягує текст у правильному порядку і витягує всі зображення і таблиці. Головна складність — кожна сторінка зведена в три колонки, текст і картинки перемішані. Стандартне построчне читання PDF дасть сміття, потрібна робота з координатами блоків.
2. Перевірка якості через Claude API
Після парсингу кожен розділ відправляється в Claude API. Claude читає текст і виносить вердикт: все ок — розділ йде в базу; є проблеми (текст змішався з двох колонок, смисловий розрив по тексту і т.д.) — розділ автоматично перепарситься ще раз, до трьох спроб. У разі невдачі Claude вказує причини зупинки.
3. Інтерфейс адміністратора
Простий інтерфейс для управління системою: додати нову книгу, запустити парсинг, подивитися статистику, розібратися з розділами, які так і не змогли розпарситися після трьох спроб, і подивитися логи помилок. Платформа — веб-браузер.
ЩО ПОВИННО ВИЙТИ В ІТОЗІ:
Запускаєш команду з вказівкою книги — система сама все парсить, перевіряє через Claude і розкладає по базі.
Кожен розділ у базі: чистий текст + прив'язані до тексту фотографії (PNG)
Робочий інтерфейс адміністратора з дашбордом, логами і управлінням чергою
README російською
Важливо перед відгуком! Покажіть приклади роботи з координатним витягуванням тексту з PDF або роботою з багатоколонковою версткою. Вітається досвід з LLM API. Розширене ТЗ надішлемо після першого контакту.
-
✋ Доброго дня! Ми IT-компанія dZENcode.
Ми реалізуємо Python-сервіс парсингу PDF з координатним розбором верстки, витягуванням тексту та зображень, класифікацією розділів, валідацією через Claude API та веб-адмінкою, спираючись на досвід команди, найкращі практики та власні напрацювання.
Яка структура розділів та правила тематичної класифікації?
Будуть координати текстових блоків після OCR?
Докладну інформацію про наші послуги та ставки ви знайдете на сайті:Freelancehunt
Подивіться – далі обговоримо деталі роботи, пишіть, як будете готові.
…
Фінальна вартість формується тільки після уточнення обсягу та вимог.
___________________
З повагою,
Менеджер dZENcode
Наші сильні сторони:
💎 10+ років надаємо IT-послуги: Аутсорс, Аутстаф
🔥 90+ штатних спеціалістів
🚀 Проекти «з нуля» та на підтримку
⚙️ SLA та постпродакшн-супровід
✅ Договір з компанією, гарантований результат!
🔥 250+ публічних відгуків з 2015 року.
-
271 Доброго дня! Готовий зробити вашу задачу за помірну ціну взамін на хорошу оцінку роботи
-
2964 14 0 Добрий день.
Для задачі з трьохколонковою версткою та витягуванням блоків тексту разом з картинками можна написати кастомний координатний парсер, але як більш надійну альтернативу пропоную розглянути спеціалізовані API, такі як AWS Textract або Google Document AI. Вони нативно розпізнають складний багатоколонковий лейаут і віддають готову структуру, що значно знизить кількість помилок перед відправкою тексту на перевірку.
Всю серверну логіку з маршрутизацією, валідацією через Claude API в три спроби та збереженням результатів реалізую на Node.js з Typescript. Інтерфейс адміністратора для управління чергою книг, виводу статистики та перегляду логів по проблемним розділам зберемо на Next.js.
В особистих повідомленнях покажу приклади скриптів витягування даних з документів зі складною структурою та інтеграції з LLM API. Буду радий вивчити розширене технічне завдання.
-
1390 12 0 Вітаю,
Маю досвід роботи з бібліотекою Tesseract та з блоками зокрема. Реалізую сервер з функціоналом на Node.js/Python/Go (залежно від ваших смаків), фронт-енд на Vue або React. З LLM теж працював, можу зробити універсальний інтерфейс для заміни агентів за потреби.
Буду радий співпраці!
-
1580 3 0 Вітаю, маю досвід в створенні систем та сервісів для парсингу даних. Готовий швидко та якісно розробити для Вас парсер з урахуванням усіх вимог. Пропоную обговорити деталі в особистих повідомленнях.
-
358 1 0 Доброго дня!
Задача зрозуміла. Є релевантний досвід: розробляв систему автоматичної завантаження та обробки PDF-рахунків через API (проект є на GitHub). Система включала GUI-інтерфейс, вибір діапазону дат, автозавантаження та автообробку файлів.
По вашому проекту реалізую:
PDF парсинг з роботою по координатах блоків (pymupdf/pdfplumber) для коректного читання трьохколонкової верстки
Перевірка якості через Claude API з автоперепарсингом
Celery + Redis для черги завдань (30 000 сторінок — потрібна стабільна черга)
Адмінпанель з дашбордом і логами
… PostgreSQL для зберігання розділів + PNG
https://github.com/NazarShubeliak
Готовий до обговорення детального ТЗ.
-
7123 53 0 Розумію завдання по розробці надійного рішення для парсингу PDF-інструкцій з ремонту автомобілів, з витягуванням тексту та зображень з великого обсягу типографських джерел. Маю глибокий досвід створення складних систем для витягування структурованих даних з неструктурованих джерел, включаючи технічну документацію та масштабні бібліотеки документів. Для такого обсягу і специфіки даних критична архітектура, що забезпечує точність витягування, обробку помилок та подальше масштабування для аналітики або відображення. Уточніть, будь ласка, яка кінцева мета використання витягнутих даних: для формування пошукової бази, інтерактивної документації чи чогось іншого? Буду радий обговорити це детально, щоб запропонувати оптимальне рішення та оцінити терміни з бюджетом.
-
1495 13 0 Вітаю! Зможу реалізувати. Відпишіть в приват щоб обговорити всі деталі. Буду рад співпраці!
-
387 1 0 Вітаю.
У вашому ТЗ ключова складність — не OCR, а коректна реконструкція структури: 3-колоночна верстка + змішаний текст/зображення. Якщо читати PDF “як є”, отримаєте перемішаний текст і втрату логіки розділів.
Я пропоную інший підхід:
1. Парсинг через координати (layout-aware)
Розбиваю сторінку на блоки → кластеризую колонки → відновлюю порядок читання. Це прибирає змішування тексту між колонками.
… 2. Прив’язка контенту
Зображення і таблиці прив’язуються до найближчих текстових блоків (по координатах і контексту), щоб у БД зберігався зв’язок, а не просто “набір файлів”.
3. Claude як quality gate, а не “костиль”
Після парсингу кожен розділ проходить перевірку:
— чи не злиплись колонки
— чи не порушена логіка тексту
— чи немає розривів
При помилках — автоматичний retry з іншими параметрами.
4. Масштабування під ваш об’єм
100 книг / ~30k сторінок → роблю батчинг + черги + логування, щоб система працювала стабільно, а не падала на середині.
5. Адмінка, яка реально допомагає
Покажу не просто “статус”, а проблемні місця: які сторінки/розділи не пройшли валідацію і чому.
Щоб не витрачати ваш час — пропоную:
зроблю прототип на 1 книзі (повний цикл: парсинг → Claude → структура в БД). Ви одразу побачите, чи це той рівень якості, який вам потрібен.
Якщо підходить — масштабуємо без зміни архітектури.
Готова почати одразу після отримання прикладу PDF.
-
139 Володимир, добрий день!
Чудове і нетривіальне завдання. Парсинг багатоколонкових PDF — це завжди проблема, але ваш підхід з валідацією смислових розривів через Claude API робить систему дуже розумною і відмовостійкою.
Плюс, тема мануалів мені особисто дуже близька: сам обслуговую свої автомобілі (від ВАЗ 2105 до Mercedes), тому прекрасно розумію специфіку ремонтних керівництв. Я відразу побачу на тестах, якщо парсер переплутає порядок зборки вузла з сусідніх колонок.
Як я пропоную технічно реалізувати пайплайн:
Парсер (Координати): Використовувати бібліотеку PyMuPDF (fitz) або pdfplumber. Вони дозволяють витягувати bounding boxes (точні координати x,y). Ми напишемо евристику, яка буде читати блоки строго по колонках (зверху-вниз, зліва-направо), вирізати колонтитули і окремо зберігати PNG-схеми з прив'язкою до абзацу.
…
Claude API: Напишемо скрипт-валідатор з системним промптом, який буде аналізувати текст розділу на логічну зв'язність. При помилці — тригер на повторний прохід з зміненими параметрами відступів.
Веб-інтерфейс: Щоб заощадити час і зробити зручну панель управління, підніму адмінку на Streamlit або FastAPI + Jinja2. Там буде зручне завантаження книг, логи помилок від Claude і ручне управління завислими розділами.
Готовий подивитися пару сторінок ваших мануалів в якості тестового зразка і показати логіку витягування блоків. Чекаю розширене ТЗ в особистих повідомленнях!
-
172 1 1 Привіт! Готовий виконати цей проект, маю великий досвід розробки різних додатків.
-
3700 17 0 Доброго дня.
Готовий реалізувати таку систему під ключ: парсинг PDF з координатним розбором багатоколонкової верстки, , тематична класифікація розділів, збереження в БД та веб-адмінка для керування чергою, логами й проблемними кейсами.
Використовуваний стек ):
Backend: Python, FastAPI / Django, Celery, PostgreSQL
Integrations: PyMuPDF / pdfplumber, Claude API, OCR pipeline
Frontend: Django Admin або окрема web-admin панель
… Infrastructure: Docker, Redis
Є досвід роботи з координатним витягом тексту з PDF, багатоколонковою версткою та інтеграцією LLM API для валідації й класифікації контенту.
Готовий ознайомитися з розширеним ТЗ та надати оцінку по етапах, строках і вартості.
З повагою,
Andrii
-
95478 1271 1 10 Вітаю.Працюю з React/Node.js понад 8+ років. Готовий до співпраці.Звертайтеся.
-
807 2 0 Добрий день!
Завдання зрозуміле. Проблему з багатоколонковою версткою вирішую через координатне витягування (PyMuPDF): алгоритм зчитує X/Y координати блоків і збирає текст із картинками строго вертикально всередині кожної зони, а не зліва направо. Валідація через Claude API — чудове рішення.
Для управління всім конвеєром підніму окремий веб-сервер (FastAPI або Flask). Зроблю зручну адмінку в браузері, де ви зможете закидати нові PDF, бачити дашборд із логами Claude та розбирати відхилені розділи.
Чекаю на розширене ТЗ, готовий обговорити деталі.
-
612 21 0 Доброго дня. Можу зробити ваш проект. Досвід є. Пишіть, домовимось.
-
332 1 0 Доброго дня, Володимире. Є досвід роботи з парсерами pdf, які витягують навіть криві скани. Також є досвід роботи з api нейромереж і їх інтеграцією в боти. Якщо проект ще актуальний, пропоную обговорити деталі співпраці.
-
5011 41 4 1 Доброго дня!
Готовий розробити систему для парсингу та класифікації розділів з ваших PDF-книг. Маю великий досвід роботи з координатним витягуванням тексту з PDF та багатоколонковою версткою, а також інтеграцією LLM API для контролю якості та тематичної класифікації.
Напишіть мені для обговорення деталей та отримання розширеного ТЗ.
-
3008 73 4 2 Доброго дня! Можу реалізувати таку систему у вигляді веб застосунку!!! Звертайтесь!!!
-
2426 20 0 Доброго дня, готовий виконати ваше завдання швидко та якісно, маю великий досвід у розробці різних парсерів. Напишіть у особисті повідомлення, обговоримо деталі. З радістю допоможу)
-
9340 20 0 1 Доброго дня. Оглянув задачу, можу реалізувати координатний парсинг PDF, перевірку якості через Claude API, повторні спроби парсингу і веб-інтерфейс для керування книгами, логами та проблемними розділами.
Є досвід роботи з парсингом PDF і перевіркою даних (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), також працював з Azure OCR, тому розумію нюанси складної верстки і багатоколонного тексту.
Хотів би подивитись приклади книг, особливо складні по структурі, щоб точніше оцінити підхід і строки. Також цікаво, чи є вимоги по швидкості обробки.
Готовий обговорити деталі.
-
1328 35 1 Доброго дня. Є досвід роботи з пдф, розумію, про що йдеться, і розумію складнощі. Звертайтеся, обговоримо деталі та бюджет.
-
414 Доброго дня! 👋
Задача зрозуміла — це не просто парсинг PDF, а побудова повноцінного пайплайну обробки даних з контролем якості через LLM. Якраз маю релевантний досвід у таких системах.
Досвід у подібних проєктах
Працював над:
— парсингом складних PDF (multi-column, таблиці, змішані блоки)
… — витягом тексту через координати (pdfplumber / PyMuPDF)
— побудовою пайплайнів: parsing → cleaning → validation → DB
— інтеграцією з LLM (Claude / GPT) для перевірки та класифікації
— системами з retry-логікою і контролем якості даних
Як бачу реалізацію
1. Парсер PDF (ключовий етап)
— використання PyMuPDF / pdfplumber
— витяг блоків по координатах (а не построчно)
— відновлення правильної структури:
— визначення колонок
— сортування блоків (зліва → вправо, зверху → вниз)
— окремий парсинг:
— тексту
— зображень (PNG з координатною прив’язкою)
— таблиць
👉 Це дозволяє уникнути “перемішаного” тексту — основна проблема таких PDF.
2. Обробка + класифікація
— сегментація на розділи (по заголовках / структурі)
— нормалізація тексту
— підготовка до відправки в Claude
3. Інтеграція з Claude API
— перевірка якості тексту
— виявлення проблем (змішані колонки, розриви)
— retry-логіка (до 3 спроб)
— логування причин відмови
👉 Це фактично “self-healing” pipeline.
4. Backend (пріоритет Python)
— FastAPI
— черга задач (Celery / asyncio workers)
— обробка книг у фоновому режимі
— API для адмінки
5. База даних
— PostgreSQL
— структура:
— книги
— розділи
— медіа (зображення)
— статуси / логи
6. Адмін-панель
— простий web-інтерфейс:
— завантаження книг
— запуск парсингу
— статуси / прогрес
— помилки і retry
— можна реалізувати на:
— React або простіше (FastAPI + Jinja / admin panel)
Як буде виглядати результат
— запускаєте обробку книги
— система автоматично:
— парсить
— перевіряє через Claude
— зберігає в БД
— у базі:
— чистий структурований текст
— прив’язані зображення
— є інтерфейс для контролю
Технології
— Python (FastAPI, asyncio)
— PyMuPDF / pdfplumber
— PostgreSQL
— Claude API
— Docker
Я вже працював з multi-column PDF і знаю основні “підводні камені” — це якраз той кейс, де стандартні рішення не працюють і потрібно будувати кастомну логіку.
Готовий подивитися приклад ваших PDF і запропонувати точну архітектуру та план реалізації
-
6276 144 6 4 Добрий
Є досвід і напрацювання по парсингу складних PDF, що містять таблиці, графіки та діаграми. Пропоную використовувати підхід з кількома інструментами. OCR з вашого боку під питанням, швидше за все, буде зручніше його реалізувати разом з іншим функціоналом, тим більше, що навряд чи ви будете використовувати якісь унікальні інструменти, про які я не знаю.
Для перевірки якості є ще кілька варіантів vl моделей, треба буде протестувати.
Потрібні зразки книг, бажано найскладніших за структурою, для тестів.
Ще питання по швидкості парсингу - які мінімальні-макс вимоги, якщо такі є.
Актуальні фриланс-проєкти в категорії Python
Python програміст
5000 UAH
Вітаю, потрібен програміст на python для деякої наукової роботи, пов'язаної з генерацією звукових сигналів та їх розпізнаванням. Проект більше для ентузіастів, багато грошей не заробите, на даному етапі принаймні. Працювати над проектом можна ввечері. Усі деталі проекту… Python ∙ 1 година 40 хвилин тому ∙ 12 ставок |
Потрібен телеграм бот. Мова програмування пайтон, бот має мати адмін панель для обробки заявок
1100 UAH
Ось детальний опис проєкту Псіля натискання кнопки /start Бот присилає текст з правилми та умови користування (під текстом, кнопка ознайомленний) Після, йде невеличке заповнення анкети: Ваший вік? ... звідки дізнались про нас? ... Чи був досвід до цього? ... Скільки часу… Python, Розробка ботів ∙ 1 година 58 хвилин тому ∙ 25 ставок |
Розробка веб-сервісу з платним доступом до онлайн-чатуДоброго дня, необхідно розробити веб-сервіс, який включає: * персональні посилання для користувачів; * сторінку з описом послуги; * оплату через PayPal; * онлайн-чат в реальному часі; * відображення відео на сторінці користувача; * облік оплаченного часу та автоматичне… Python, Веб-програмування ∙ 3 години 10 хвилин тому ∙ 36 ставок |
Створення додаткуБажаю створити мобільний додаток для спілкування, в застосунку має бути аудіо,відео дзвінок, створення групових чатів,можливість синхронізувати з контактами телефону, налаштуваннями акаунта: привязка по мейлу, 2фа, номеру телефону,можливість налаштовувати сповіщення… Java, Python ∙ 1 день 1 година тому ∙ 33 ставки |
Налаштування двосторонньої інтеграції WhatsApp з Odoo CRMВітаю! Шукаємо спеціаліста для реалізації технічного завдання з налаштування двосторонньої інтеграції месенджера WhatsApp з CRM-системою Odoo. ⚠️ Важливе технічне уточнення:Офіційний WhatsApp Business API (WABA) не розглядається. Необхідно впровадити стабільне «сіре» рішення… Python, Веб-програмування ∙ 1 день 10 годин тому ∙ 23 ставки |