Фриланс-проєкти

Фриланс-проєкти

Парсер PDF-книг (текст + зображення)

Python, Парсинг даних — неправильно зазначені категорії?

Проєкт перекладено автоматично. Увійдіть або зареєструйтесь, щоб побачити оригінал

ЗАДАЧА:

Є бібліотека з PDF-книг, які містять посібники з ремонту автомобілів. Якість джерел «типографське» (це не посторінкове ручне сканування з паперових мануалів). Загальний обсяг до 100 книг / сумарно близько 30 000 сторінок.

На нашій стороні буде проведена OCR-обробка всіх PDF-книг за погодженням і вимогами підрядника по даній задачі.

Потрібно написати систему, яка автоматично витягне (розпарсить) з цих книг всі розділи, проведе їх тематичну класифікацію і адресно розкладе їх у базу даних.

ІЗ ЧОГО СКЛАДАЄТЬСЯ РОБОТА СИСТЕМИ:

1. Парсер PDF

Читає книгу, знаходить всі розділи, витягує текст у правильному порядку і витягує всі зображення і таблиці. Головна складність — кожна сторінка зведена в три колонки, текст і картинки перемішані. Стандартне построчне читання PDF дасть сміття, потрібна робота з координатами блоків.

2. Перевірка якості через Claude API

Після парсингу кожен розділ відправляється в Claude API. Claude читає текст і виносить вердикт: все ок — розділ йде в базу; є проблеми (текст змішався з двох колонок, смисловий розрив по тексту і т.д.) — розділ автоматично перепарситься ще раз, до трьох спроб. У разі невдачі Claude вказує причини зупинки.

3. Інтерфейс адміністратора

Простий інтерфейс для управління системою: додати нову книгу, запустити парсинг, подивитися статистику, розібратися з розділами, які так і не змогли розпарситися після трьох спроб, і подивитися логи помилок. Платформа — веб-браузер.

ЩО ПОВИННО ВИЙТИ В ІТОЗІ:

Запускаєш команду з вказівкою книги — система сама все парсить, перевіряє через Claude і розкладає по базі.

Кожен розділ у базі: чистий текст + прив'язані до тексту фотографії (PNG)

Робочий інтерфейс адміністратора з дашбордом, логами і управлінням чергою

README російською

Важливо перед відгуком! Покажіть приклади роботи з координатним витягуванням тексту з PDF або роботою з багатоколонковою версткою. Вітається досвід з LLM API. Розширене ТЗ надішлемо після першого контакту.

Ставки 32

Dmytro Derev'iankin

2 0

Проєкти -
Оцінка -
Рейтинг 596

Бюджет: 10000 UAH Термін: 1 день

✋ Доброго дня! Ми IT-компанія dZENcode.

Ми реалізуємо Python-сервіс парсингу PDF з координатним розбором верстки, витягуванням тексту та зображень, класифікацією розділів, валідацією через Claude API та веб-адмінкою, спираючись на досвід команди, найкращі практики та власні напрацювання.

Яка структура розділів та правила тематичної класифікації?
Будуть координати текстових блоків після OCR?

Докладну інформацію про наші послуги та ставки ви знайдете на сайті: Freelancehunt
Подивіться – далі обговоримо деталі роботи, пишіть, як будете готові.

Фінальна вартість формується тільки після уточнення обсягу та вимог.

___________________
З повагою,
Менеджер dZENcode

Наші сильні сторони:
💎 10+ років надаємо IT-послуги: Аутсорс, Аутстаф
🔥 90+ штатних спеціалістів
🚀 Проекти «з нуля» та на підтримку
⚙️ SLA та постпродакшн-супровід
✅ Договір з компанією, гарантований результат!
🔥 250+ публічних відгуків з 2015 року.

Andriy P.

0 0

Проєкти -
Оцінка -
Рейтинг 247

Бюджет: 2000 UAH Термін: 2 дні

Доброго дня! Готовий зробити вашу задачу за помірну ціну взамін на хорошу оцінку роботи

Данило Мануляк

15 0

Проєкти 15
Оцінка 5.0
Рейтинг 3 122

Бюджет: 15000 UAH Термін: 10 днів

Добрий день.
Для задачі з трьохколонковою версткою та витягуванням блоків тексту разом з картинками можна написати кастомний координатний парсер, але як більш надійну альтернативу пропоную розглянути спеціалізовані API, такі як AWS Textract або Google Document AI. Вони нативно розпізнають складний багатоколонковий лейаут і віддають готову структуру, що значно знизить кількість помилок перед відправкою тексту на перевірку.

Всю серверну логіку з маршрутизацією, валідацією через Claude API в три спроби та збереженням результатів реалізую на Node.js з Typescript. Інтерфейс адміністратора для управління чергою книг, виводу статистики та перегляду логів по проблемним розділам зберемо на Next.js.

В особистих повідомленнях покажу приклади скриптів витягування даних з документів зі складною структурою та інтеграції з LLM API. Буду радий вивчити розширене технічне завдання.

Дмитро М.

12 0

Проєкти 12
Оцінка 5.0
Рейтинг 1 390

Бюджет: 15000 UAH Термін: 7 днів

Вітаю,
Маю досвід роботи з бібліотекою Tesseract та з блоками зокрема. Реалізую сервер з функціоналом на Node.js/Python/Go (залежно від ваших смаків), фронт-енд на Vue або React. З LLM теж працював, можу зробити універсальний інтерфейс для заміни агентів за потреби.

Буду радий співпраці!

Тарас О.

4 0

Проєкти 4
Оцінка 5.0
Рейтинг 2 025

Бюджет: 1000 UAH Термін: 1 день

Вітаю, маю досвід в створенні систем та сервісів для парсингу даних. Готовий швидко та якісно розробити для Вас парсер з урахуванням усіх вимог. Пропоную обговорити деталі в особистих повідомленнях.

Назар Шубеляк

1 0

Проєкти -
Оцінка -
Рейтинг 358

Бюджет: 3999 UAH Термін: 7 днів

Доброго дня!

Задача зрозуміла. Є релевантний досвід: розробляв систему автоматичної завантаження та обробки PDF-рахунків через API (проект є на GitHub). Система включала GUI-інтерфейс, вибір діапазону дат, автозавантаження та автообробку файлів.

По вашому проекту реалізую:
PDF парсинг з роботою по координатах блоків (pymupdf/pdfplumber) для коректного читання трьохколонкової верстки
Перевірка якості через Claude API з автоперепарсингом
Celery + Redis для черги завдань (30 000 сторінок — потрібна стабільна черга)
Адмінпанель з дашбордом і логами
PostgreSQL для зберігання розділів + PNG
https://github.com/NazarShubeliak
Готовий до обговорення детального ТЗ.

Андрій Тюпа

53 0

Проєкти 53
Оцінка 5.0
Рейтинг 7 090

Бюджет: 4000 UAH Термін: 1 день

Розумію завдання по розробці надійного рішення для парсингу PDF-інструкцій з ремонту автомобілів, з витягуванням тексту та зображень з великого обсягу типографських джерел. Маю глибокий досвід створення складних систем для витягування структурованих даних з неструктурованих джерел, включаючи технічну документацію та масштабні бібліотеки документів. Для такого обсягу і специфіки даних критична архітектура, що забезпечує точність витягування, обробку помилок та подальше масштабування для аналітики або відображення. Уточніть, будь ласка, яка кінцева мета використання витягнутих даних: для формування пошукової бази, інтерактивної документації чи чогось іншого? Буду радий обговорити це детально, щоб запропонувати оптимальне рішення та оцінити терміни з бюджетом.

Олександр З.

14 0

Проєкти 14
Оцінка 5.0
Рейтинг 1 512

Бюджет: 2000 UAH Термін: 1 день

Вітаю! Зможу реалізувати. Відпишіть в приват щоб обговорити всі деталі. Буду рад співпраці!

Алиса С.

1 0

Проєкти -
Оцінка -
Рейтинг 387

Бюджет: 10000 UAH Термін: 2 дні

Вітаю.

У вашому ТЗ ключова складність — не OCR, а коректна реконструкція структури: 3-колоночна верстка + змішаний текст/зображення. Якщо читати PDF “як є”, отримаєте перемішаний текст і втрату логіки розділів.

Я пропоную інший підхід:

1. Парсинг через координати (layout-aware)
Розбиваю сторінку на блоки → кластеризую колонки → відновлюю порядок читання. Це прибирає змішування тексту між колонками.

2. Прив’язка контенту
Зображення і таблиці прив’язуються до найближчих текстових блоків (по координатах і контексту), щоб у БД зберігався зв’язок, а не просто “набір файлів”.

3. Claude як quality gate, а не “костиль”
Після парсингу кожен розділ проходить перевірку:
— чи не злиплись колонки
— чи не порушена логіка тексту
— чи немає розривів
При помилках — автоматичний retry з іншими параметрами.

4. Масштабування під ваш об’єм
100 книг / ~30k сторінок → роблю батчинг + черги + логування, щоб система працювала стабільно, а не падала на середині.

5. Адмінка, яка реально допомагає
Покажу не просто “статус”, а проблемні місця: які сторінки/розділи не пройшли валідацію і чому.

Щоб не витрачати ваш час — пропоную:
зроблю прототип на 1 книзі (повний цикл: парсинг → Claude → структура в БД). Ви одразу побачите, чи це той рівень якості, який вам потрібен.

Якщо підходить — масштабуємо без зміни архітектури.

Готова почати одразу після отримання прикладу PDF.

Taras Hranychka

0 0

Проєкти -
Оцінка -
Рейтинг 163

Бюджет: 15000 UAH Термін: 10 днів

Володимир, добрий день!

Чудове і нетривіальне завдання. Парсинг багатоколонкових PDF — це завжди проблема, але ваш підхід з валідацією смислових розривів через Claude API робить систему дуже розумною і відмовостійкою.

Плюс, тема мануалів мені особисто дуже близька: сам обслуговую свої автомобілі (від ВАЗ 2105 до Mercedes), тому прекрасно розумію специфіку ремонтних керівництв. Я відразу побачу на тестах, якщо парсер переплутає порядок зборки вузла з сусідніх колонок.

Як я пропоную технічно реалізувати пайплайн:

Парсер (Координати): Використовувати бібліотеку PyMuPDF (fitz) або pdfplumber. Вони дозволяють витягувати bounding boxes (точні координати x,y). Ми напишемо евристику, яка буде читати блоки строго по колонках (зверху-вниз, зліва-направо), вирізати колонтитули і окремо зберігати PNG-схеми з прив'язкою до абзацу.

Claude API: Напишемо скрипт-валідатор з системним промптом, який буде аналізувати текст розділу на логічну зв'язність. При помилці — тригер на повторний прохід з зміненими параметрами відступів.

Веб-інтерфейс: Щоб заощадити час і зробити зручну панель управління, підніму адмінку на Streamlit або FastAPI + Jinja2. Там буде зручне завантаження книг, логи помилок від Claude і ручне управління завислими розділами.

Готовий подивитися пару сторінок ваших мануалів в якості тестового зразка і показати логіку витягування блоків. Чекаю розширене ТЗ в особистих повідомленнях!

Dmytro Zmenkov

1 1

Проєкти -
Оцінка -
Рейтинг 121

Бюджет: 4000 UAH Термін: 1 день

Привіт! Готовий виконати цей проект, маю великий досвід розробки різних додатків.

Andrii Domashchenko

17 0

Проєкти 17
Оцінка 5.0
Рейтинг 3 574

Бюджет: 15000 UAH Термін: 14 днів

Доброго дня.

Готовий реалізувати таку систему під ключ: парсинг PDF з координатним розбором багатоколонкової верстки, , тематична класифікація розділів, збереження в БД та веб-адмінка для керування чергою, логами й проблемними кейсами.

Використовуваний стек ):

Backend: Python, FastAPI / Django, Celery, PostgreSQL
Integrations: PyMuPDF / pdfplumber, Claude API, OCR pipeline
Frontend: Django Admin або окрема web-admin панель
Infrastructure: Docker, Redis

Є досвід роботи з координатним витягом тексту з PDF, багатоколонковою версткою та інтеграцією LLM API для валідації й класифікації контенту.

Готовий ознайомитися з розширеним ТЗ та надати оцінку по етапах, строках і вартості.

З повагою,
Andrii

Андрей К.

1 285 1

Проєкти 1 289
Оцінка 5.0
Рейтинг 98 631

Бюджет: 27000 UAH Термін: 7 днів

Вітаю.Працюю з React/Node.js понад 8+ років. Готовий до співпраці.Звертайтеся.

Віктор Гайоха

2 0

Проєкти -
Оцінка -
Рейтинг 816

Бюджет: 10000 UAH Термін: 10 днів

Добрий день!

Завдання зрозуміле. Проблему з багатоколонковою версткою вирішую через координатне витягування (PyMuPDF): алгоритм зчитує X/Y координати блоків і збирає текст із картинками строго вертикально всередині кожної зони, а не зліва направо. Валідація через Claude API — чудове рішення.

Для управління всім конвеєром підніму окремий веб-сервер (FastAPI або Flask). Зроблю зручну адмінку в браузері, де ви зможете закидати нові PDF, бачити дашборд із логами Claude та розбирати відхилені розділи.

Чекаю на розширене ТЗ, готовий обговорити деталі.

Олег Патрушев

21 0

Проєкти 21
Оцінка -
Рейтинг 612

Бюджет: 10000 UAH Термін: 10 днів

Доброго дня. Можу зробити ваш проект. Досвід є. Пишіть, домовимось.

Oleksandr Mikhov

1 0

Проєкти -
Оцінка -
Рейтинг 332

Бюджет: 7000 UAH Термін: 9 днів

Доброго дня, Володимире. Є досвід роботи з парсерами pdf, які витягують навіть криві скани. Також є досвід роботи з api нейромереж і їх інтеграцією в боти. Якщо проект ще актуальний, пропоную обговорити деталі співпраці.

Nick Osipov

41 4

Проєкти 43
Оцінка 4.6
Рейтинг 4 975

Бюджет: 1000 UAH Термін: 3 дні

Доброго дня!

Готовий розробити систему для парсингу та класифікації розділів з ваших PDF-книг. Маю великий досвід роботи з координатним витягуванням тексту з PDF та багатоколонковою версткою, а також інтеграцією LLM API для контролю якості та тематичної класифікації.

Напишіть мені для обговорення деталей та отримання розширеного ТЗ.

Тетяна Шумейко

73 4

Проєкти 77
Оцінка 4.8
Рейтинг 2 900

Бюджет: 6000 UAH Термін: 2 дні

Доброго дня! Можу реалізувати таку систему у вигляді веб застосунку!!! Звертайтесь!!!

Dmytro Parkhomenko

20 0

Проєкти 20
Оцінка 5.0
Рейтинг 2 467

Бюджет: 15000 UAH Термін: 5 днів

Доброго дня, готовий виконати ваше завдання швидко та якісно, маю великий досвід у розробці різних парсерів. Напишіть у особисті повідомлення, обговоримо деталі. З радістю допоможу)

Іван Данилейко

20 0

Проєкти 20
Оцінка 5.0
Рейтинг 9 264

Бюджет: 10000 UAH Термін: 3 дні

Доброго дня. Оглянув задачу, можу реалізувати координатний парсинг PDF, перевірку якості через Claude API, повторні спроби парсингу і веб-інтерфейс для керування книгами, логами та проблемними розділами.

Є досвід роботи з парсингом PDF і перевіркою даних (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), також працював з Azure OCR, тому розумію нюанси складної верстки і багатоколонного тексту.

Хотів би подивитись приклади книг, особливо складні по структурі, щоб точніше оцінити підхід і строки. Також цікаво, чи є вимоги по швидкості обробки.

Готовий обговорити деталі.

Vladimir B

35 1

Проєкти 35
Оцінка 5.0
Рейтинг 1 315

Бюджет: 5000 UAH Термін: 3 дні

Доброго дня. Є досвід роботи з пдф, розумію, про що йдеться, і розумію складнощі. Звертайтеся, обговоримо деталі та бюджет.

Володимир Магдик

0 0

Проєкти -
Оцінка -
Рейтинг 390

Бюджет: 5000 UAH Термін: 5 днів

Доброго дня! 👋

Задача зрозуміла — це не просто парсинг PDF, а побудова повноцінного пайплайну обробки даних з контролем якості через LLM. Якраз маю релевантний досвід у таких системах.

Досвід у подібних проєктах

Працював над:

— парсингом складних PDF (multi-column, таблиці, змішані блоки)
— витягом тексту через координати (pdfplumber / PyMuPDF)
— побудовою пайплайнів: parsing → cleaning → validation → DB
— інтеграцією з LLM (Claude / GPT) для перевірки та класифікації
— системами з retry-логікою і контролем якості даних

Як бачу реалізацію
1. Парсер PDF (ключовий етап)

— використання PyMuPDF / pdfplumber
— витяг блоків по координатах (а не построчно)
— відновлення правильної структури:
— визначення колонок
— сортування блоків (зліва → вправо, зверху → вниз)
— окремий парсинг:
— тексту
— зображень (PNG з координатною прив’язкою)
— таблиць

👉 Це дозволяє уникнути “перемішаного” тексту — основна проблема таких PDF.

2. Обробка + класифікація

— сегментація на розділи (по заголовках / структурі)
— нормалізація тексту
— підготовка до відправки в Claude

3. Інтеграція з Claude API

— перевірка якості тексту
— виявлення проблем (змішані колонки, розриви)
— retry-логіка (до 3 спроб)
— логування причин відмови

👉 Це фактично “self-healing” pipeline.

4. Backend (пріоритет Python)

— FastAPI
— черга задач (Celery / asyncio workers)
— обробка книг у фоновому режимі
— API для адмінки

5. База даних

— PostgreSQL
— структура:
— книги
— розділи
— медіа (зображення)
— статуси / логи

6. Адмін-панель

— простий web-інтерфейс:
— завантаження книг
— запуск парсингу
— статуси / прогрес
— помилки і retry
— можна реалізувати на:
— React або простіше (FastAPI + Jinja / admin panel)

Як буде виглядати результат

— запускаєте обробку книги
— система автоматично:
— парсить
— перевіряє через Claude
— зберігає в БД
— у базі:
— чистий структурований текст
— прив’язані зображення
— є інтерфейс для контролю

Технології

— Python (FastAPI, asyncio)
— PyMuPDF / pdfplumber
— PostgreSQL
— Claude API
— Docker

Я вже працював з multi-column PDF і знаю основні “підводні камені” — це якраз той кейс, де стандартні рішення не працюють і потрібно будувати кастомну логіку.

Готовий подивитися приклад ваших PDF і запропонувати точну архітектуру та план реалізації

Sergey Mironov

144 6

Проєкти 146
Оцінка 5.0
Рейтинг 6 187

Бюджет: 10000 UAH Термін: 10 днів

Добрий
Є досвід і напрацювання по парсингу складних PDF, що містять таблиці, графіки та діаграми. Пропоную використовувати підхід з кількома інструментами. OCR з вашого боку під питанням, швидше за все, буде зручніше його реалізувати разом з іншим функціоналом, тим більше, що навряд чи ви будете використовувати якісь унікальні інструменти, про які я не знаю.
Для перевірки якості є ще кілька варіантів vl моделей, треба буде протестувати.
Потрібні зразки книг, бажано найскладніших за структурою, для тестів.
Ще питання по швидкості парсингу - які мінімальні-макс вимоги, якщо такі є.

Владимир Новиков
Київ, Україна

Проєктів 5
Оцінка -
Рейтинг 543

Парсер PDF-книг (текст + зображення)

Dmytro Derev'iankin

Andriy P.

Данило Мануляк

Дмитро М.

Тарас О.

Назар Шубеляк

Андрій Тюпа

Олександр З.

Алиса С.

Taras Hranychka

Dmytro Zmenkov

Andrii Domashchenko

Андрей К.

Віктор Гайоха

Олег Патрушев

Oleksandr Mikhov

Nick Osipov

Тетяна Шумейко

Dmytro Parkhomenko

Іван Данилейко

Vladimir B

Володимир Магдик

Sergey Mironov

Ставки приховані

Ставки поки відсутні

Актуальні фриланс-проєкти в категорії Python

Глибока перевірка 3 PDF-файлів на достовірність

Індикатор для Tradingview

Розробка Python-бота для автоматичного моніторингу та приймання замовлень на сайті

Потрібно реалізувати проєкт зі збору та структурування великого масиву зображень

Аспект