Parser książek PDF (tekst + obrazy)
ZADANIE:
Jest biblioteka z książkami PDF, które zawierają przewodniki po naprawie samochodów. Jakość źródeł jest „typograficzna” (to nie jest ręczne skanowanie stron z papierowych podręczników). Łączna objętość do 100 książek / łącznie około 30 000 stron.
Po naszej stronie zostanie przeprowadzona obróbka OCR wszystkich książek PDF zgodnie z uzgodnieniami i wymaganiami wykonawcy w tej sprawie.
Trzeba napisać system, który automatycznie wyciągnie (przeanalizuje) z tych książek wszystkie rozdziały, przeprowadzi ich klasyfikację tematyczną i odpowiednio umieści je w bazie danych.
Z CZEGO SKŁADA SIĘ PRACA SYSTEMU:
1. Parser PDF
Odczytuje książkę, znajduje wszystkie rozdziały, wyciąga tekst w odpowiedniej kolejności i wyciąga wszystkie obrazy i tabele. Główna trudność polega na tym, że każda strona jest złożona w trzy kolumny, tekst i obrazy są pomieszane. Standardowe odczytywanie PDF wiersz po wierszu da śmieci, potrzebna jest praca z współrzędnymi bloków.
2. Sprawdzanie jakości przez Claude API
Po analizie każdy rozdział jest wysyłany do Claude API. Claude odczytuje tekst i wydaje werdykt: wszystko w porządku — rozdział trafia do bazy; są problemy (tekst pomieszał się z dwóch kolumn, przerwa w sensie tekstu itp.) — rozdział jest automatycznie analizowany ponownie, do trzech prób. W przypadku niepowodzenia Claude wskazuje przyczyny zatrzymania.
3. Interfejs administratora
Prosty interfejs do zarządzania systemem: dodaj nową książkę, uruchom analizę, zobacz statystyki, zajmij się rozdziałami, które nie mogły zostać przeanalizowane po trzech próbach, i sprawdź logi błędów. Platforma — przeglądarka internetowa.
CO POWINNO BYĆ W EFEKCIE KOŃCOWYM:
Uruchamiasz polecenie z podaniem książki — system sam wszystko analizuje, sprawdza przez Claude i umieszcza w bazie.
Każdy rozdział w bazie: czysty tekst + powiązane z tekstem zdjęcia (PNG)
Funkcjonalny interfejs administratora z panelem sterowania, logami i zarządzaniem kolejką
README w języku rosyjskim
Ważne przed odpowiedzią! Pokaż przykłady pracy z wydobywaniem tekstu z PDF na podstawie współrzędnych lub pracy z wielokolumnowym układem. Doświadczenie z LLM API jest mile widziane. Szczegółowe wymagania wyślemy po pierwszym kontakcie.
-
✋ Witaj! Jesteśmy firmą IT dZENcode.
Realizujemy usługę parsowania PDF w Pythonie z analizą układu, ekstrakcją tekstu i obrazów, klasyfikacją sekcji, walidacją przez API Claude oraz panelem administracyjnym, opierając się na doświadczeniu zespołu, najlepszych praktykach i własnych rozwiązaniach.
Jaka jest struktura sekcji i zasady klasyfikacji tematycznej?
Czy będą dostępne współrzędne bloków tekstowych po OCR?
Szczegółowe informacje o naszych usługach i stawkach znajdziesz na stronie:Freelancehunt
Zobacz – później omówimy szczegóły pracy, pisz, gdy będziesz gotowy.
…
Ostateczny koszt ustalany jest dopiero po wyjaśnieniu zakresu i wymagań.
___________________
Z poważaniem,
Menadżer dZENcode
Nasze mocne strony:
💎 10+ lat świadczymy usługi IT: Outsourcing, Outstaffing
🔥 90+ pracowników etatowych
🚀 Projekty „od zera” i wsparcie
⚙️ SLA i wsparcie posprzedażowe
✅ Umowa z firmą, gwarantowany wynik!
🔥 250+ publicznych opinii od 2015 roku.
-
271 Dzień dobry! Jestem gotów wykonać twoje zadanie za umiarkowaną cenę w zamian za dobrą ocenę pracy.
-
2973 14 0 Dzień dobry.
Do zadania z trójkolumnowym układem i wydobywaniem bloków tekstu wraz z obrazkami można napisać niestandardowy parser współrzędnych, ale jako bardziej niezawodną alternatywę proponuję rozważyć specjalistyczne API, takie jak AWS Textract lub Google Document AI. One natywnie rozpoznają skomplikowany, wielokolumnowy układ i zwracają gotową strukturę, co znacznie zmniejszy liczbę błędów przed wysłaniem tekstu do weryfikacji.
Całą logikę serwerową z routowaniem, walidacją przez Claude API w trzech próbach i zapisywaniem wyników zrealizuję w Node.js z Typescriptem. Interfejs administratora do zarządzania kolejką książek, wyświetlania statystyk i przeglądania logów dotyczących problematycznych sekcji zbudujemy na Next.js.
W wiadomościach prywatnych pokażę przykłady skryptów wydobywania danych z dokumentów o skomplikowanej strukturze i integracji z LLM API. Będę zadowolony, mogąc zapoznać się z rozszerzonym zadaniem technicznym.
-
1390 12 0 Cześć,
Mam doświadczenie w pracy z biblioteką Tesseract oraz z blokami w szczególności. Realizuję serwer z funkcjonalnością w Node.js/Python/Go (w zależności od twoich preferencji), front-end w Vue lub React. Pracowałem również z LLM, mogę stworzyć uniwersalny interfejs do wymiany agentów w razie potrzeby.
Będę zadowolony ze współpracy!
-
1580 3 0 Witam, mam doświadczenie w tworzeniu systemów i usług do parsowania danych. Jestem gotów szybko i jakościowo opracować dla Państwa parser z uwzględnieniem wszystkich wymagań. Proponuję omówić szczegóły w wiadomościach prywatnych.
-
358 1 0 Dzień dobry!
Zadanie jest jasne. Mam odpowiednie doświadczenie: opracowałem system automatycznego ładowania i przetwarzania faktur PDF przez API (projekt jest na GitHubie). System obejmował interfejs GUI, wybór zakresu dat, automatyczne ładowanie i automatyczne przetwarzanie plików.
W ramach waszego projektu zrealizuję:
Parsowanie PDF z pracą na współrzędnych bloków (pymupdf/pdfplumber) dla poprawnego odczytu trzech kolumn
Sprawdzanie jakości przez Claude API z automatycznym ponownym parsowaniem
Celery + Redis do kolejki zadań (30 000 stron — potrzebna stabilna kolejka)
Panel administracyjny z dashboardem i logami
… PostgreSQL do przechowywania sekcji + PNG
https://github.com/NazarShubeliak
Jestem gotów do omówienia szczegółowego TŻ.
-
7123 53 0 Rozumiem zadanie dotyczące opracowania niezawodnego rozwiązania do parsowania PDF-poradników dotyczących naprawy samochodów, z wydobywaniem tekstu i obrazów z dużej ilości źródeł typograficznych. Mam głębokie doświadczenie w tworzeniu złożonych systemów do wydobywania danych strukturalnych z nieustrukturyzowanych źródeł, w tym dokumentacji technicznej i dużych bibliotek dokumentów. Dla takiej ilości i specyfiki danych kluczowa jest architektura zapewniająca dokładność wydobycia, obsługę błędów oraz dalsze skalowanie do analityki lub wyświetlania. Proszę o wyjaśnienie, jaki jest ostateczny cel wykorzystania wydobytych danych: do tworzenia bazy wyszukiwania, interaktywnej dokumentacji czy czegoś innego? Chętnie omówię to szczegółowo, aby zaproponować optymalne rozwiązanie i oszacować terminy oraz budżet.
-
1495 13 0 Cześć! Mogę to zrealizować. Napisz na prywatną wiadomość, aby omówić wszystkie szczegóły. Będę zadowolony z współpracy!
-
387 1 0 Witam.
W Państwa specyfikacji kluczową trudnością nie jest OCR, lecz poprawna rekonstrukcja struktury: 3-kolumnowy układ + mieszany tekst/obrazy. Jeśli przeczytacie PDF "jak jest", otrzymacie pomieszany tekst i utratę logiki sekcji.
Proponuję inne podejście:
1. Parsowanie przez współrzędne (layout-aware)
Dzielę stronę na bloki → klasteryzuję kolumny → przywracam porządek czytania. To eliminuje mieszanie tekstu między kolumnami.
… 2. Powiązanie treści
Obrazy i tabele są powiązane z najbliższymi blokami tekstowymi (według współrzędnych i kontekstu), aby w bazie danych zachować powiązanie, a nie tylko "zbiór plików".
3. Claude jako brama jakości, a nie "konstrukcja tymczasowa"
Po parsowaniu każdy rozdział przechodzi kontrolę:
— czy kolumny się nie zlepiły
— czy logika tekstu nie została naruszona
— czy nie ma przerw
W przypadku błędów — automatyczny retry z innymi parametrami.
4. Skalowanie pod Państwa objętość
100 książek / ~30k stron → robię batching + kolejki + logowanie, aby system działał stabilnie, a nie zawieszał się w połowie.
5. Panel administracyjny, który naprawdę pomaga
Pokażę nie tylko "status", ale problematyczne miejsca: które strony/rozdziały nie przeszły walidacji i dlaczego.
Aby nie marnować Państwa czasu — proponuję:
zrobię prototyp na 1 książce (pełny cykl: parsowanie → Claude → struktura w bazie danych). Od razu zobaczycie, czy to ten poziom jakości, którego potrzebujecie.
Jeśli pasuje — skalujemy bez zmiany architektury.
Jestem gotowa zacząć od razu po otrzymaniu przykładu PDF.
-
139 Wladimir, dzień dobry!
Świetne i nietrywialne zadanie. Parsowanie wielokolumnowych PDF-ów to zawsze ból, ale twoje podejście z walidacją sensownych luk przez Claude API czyni system bardzo inteligentnym i odpornym na błędy.
Ponadto, temat podręczników jest mi osobiście bardzo bliski: sam serwisuję swoje samochody (od WAZ 2105 do Mercedesa), więc doskonale rozumiem specyfikę instrukcji naprawczych. Od razu zauważę na testach, jeśli parser pomiesza kolejność montażu węzła z sąsiednich kolumn.
Jak proponuję technicznie zrealizować pipeline:
Parser (Współrzędne): Użyjemy biblioteki PyMuPDF (fitz) lub pdfplumber. Pozwalają one na wyciąganie bounding boxes (dokładne współrzędne x,y). Napiszemy heurystykę, która będzie czytać bloki ściśle według kolumn (od góry do dołu, z lewej do prawej), wycinać nagłówki i osobno zapisywać schematy PNG z przypisaniem do akapitu.
…
Claude API: Napiszemy skrypt-walidator z systemowym promptem, który będzie analizował tekst sekcji pod kątem logicznej spójności. W przypadku błędu — wyzwalacz do ponownego przejścia z zmienionymi parametrami wcięć.
Interfejs webowy: Aby zaoszczędzić czas i stworzyć wygodny pulpit nawigacyjny, uruchomię panel administracyjny na Streamlit lub FastAPI + Jinja2. Będzie tam wygodne ładowanie książek, logi błędów od Claude i ręczne zarządzanie zawieszonymi sekcjami.
Jestem gotów zobaczyć kilka stron twoich podręczników jako próbkę testową i pokazać logikę wydobywania bloków. Czekam na rozszerzone TŻ w wiadomościach prywatnych!
-
172 1 1 Witaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.
-
3700 17 0 Dzień dobry.
Jestem gotów zrealizować taki system pod klucz: parsowanie PDF z analizą współrzędnych wielokolumnowego układu, tematyczna klasyfikacja sekcji, zapis do bazy danych oraz panel administracyjny do zarządzania kolejką, logami i problematycznymi przypadkami.
Używany stos technologiczny:
Backend: Python, FastAPI / Django, Celery, PostgreSQL
Integracje: PyMuPDF / pdfplumber, Claude API, pipeline OCR
Frontend: Django Admin lub oddzielny panel web-admin
… Infrastruktura: Docker, Redis
Mam doświadczenie w pracy z wydobywaniem tekstu z PDF na podstawie współrzędnych, wielokolumnowym układem oraz integracją API LLM do walidacji i klasyfikacji treści.
Jestem gotów zapoznać się z rozszerzonym dokumentem wymagań i przedstawić wycenę w podziale na etapy, terminy i koszty.
Z poważaniem,
Andrii
-
94294 1269 1 10 Witam. Pracuję z React/Node.js od ponad 8 lat. Jestem gotowy do współpracy. Proszę o kontakt.
-
807 2 0 Dzień dobry!
Zadanie jest zrozumiałe. Problem z wielokolumnowym układem rozwiązuję poprzez wydobywanie współrzędnych (PyMuPDF): algorytm odczytuje współrzędne X/Y bloków i zbiera tekst z obrazkami ściśle pionowo w obrębie każdej strefy, a nie z lewej do prawej. Walidacja przez API Claude to doskonałe rozwiązanie.
Aby zarządzać całym procesem, uruchomię osobny serwer WWW (FastAPI lub Flask). Stworzę wygodne panel administracyjny w przeglądarce, gdzie będziecie mogli przesyłać nowe pliki PDF, widzieć pulpit nawigacyjny z logami Claude oraz analizować odrzucone sekcje.
Czekam na rozszerzone wytyczne, gotowy do omówienia szczegółów.
-
614 21 0 Witam. Mogę zrealizować twój projekt. Mam doświadczenie. Napisz, ustalimy szczegóły.
-
332 1 0 Dzień dobry Wladimir. Mam doświadczenie w pracy z parserami PDF, które potrafią wyciągać nawet krzywe skany. Mam również doświadczenie w pracy z API sieci neuronowych i ich integracją w boty. Jeśli projekt jest nadal aktualny, proponuję omówić szczegóły współpracy.
-
5011 41 4 1 Dzień dobry!
Jestem gotów opracować system do parsowania i klasyfikacji sekcji z waszych książek PDF. Mam duże doświadczenie w wydobywaniu tekstu z PDF oraz w wielokolumnowym układzie, a także w integracji API LLM do kontroli jakości i klasyfikacji tematycznej.
Napisz do mnie, aby omówić szczegóły i uzyskać rozszerzone wymagania.
-
3020 73 4 2 Dzień dobry! Mogę zrealizować taki system w formie aplikacji internetowej!!! Proszę o kontakt!!!
-
2426 20 0 Dzień dobry, jestem gotów szybko i jakościowo wykonać twoje zadanie, mam duże doświadczenie w tworzeniu różnych parserów. Napisz w wiadomościach prywatnych, omówimy szczegóły. Z przyjemnością pomogę)
-
9351 20 0 1 Dzień dobry. Przejrzałem zadanie, mogę zrealizować parsowanie współrzędnych PDF, sprawdzenie jakości przez API Claude, ponowne próby parsowania oraz interfejs webowy do zarządzania książkami, logami i problematycznymi rozdziałami.
Mam doświadczenie w parsowaniu PDF i weryfikacji danych (https://freelancehunt.com/project/parser-pdf-bankivskih-vipisok/1578814.html), pracowałem również z Azure OCR, dlatego rozumiem niuanse skomplikowanego układu i tekstu wielokolumnowego.
Chciałbym zobaczyć przykłady książek, szczególnie tych skomplikowanych pod względem struktury, aby dokładniej ocenić podejście i terminy. Interesuje mnie również, czy są wymagania dotyczące szybkości przetwarzania.
Jestem gotów omówić szczegóły.
-
1328 35 1 Witam. Mam doświadczenie w pracy z PDF, rozumiem, o co chodzi i znam trudności. Proszę się zgłaszać, omówimy szczegóły i budżet.
-
414 Dzień dobry! 👋
Zadanie jest jasne — to nie tylko parsowanie PDF, ale budowa pełnoprawnego pipeline'u przetwarzania danych z kontrolą jakości przez LLM. Mam odpowiednie doświadczenie w takich systemach.
Doświadczenie w podobnych projektach
Pracowałem nad:
— parsowaniem skomplikowanych PDF (wielokolumnowe, tabele, mieszane bloki)
… — wyciąganiem tekstu przez współrzędne (pdfplumber / PyMuPDF)
— budową pipeline'ów: parsowanie → czyszczenie → walidacja → DB
— integracją z LLM (Claude / GPT) do weryfikacji i klasyfikacji
— systemami z logiką retry i kontrolą jakości danych
Jak widzę realizację
1. Parser PDF (kluczowy etap)
— wykorzystanie PyMuPDF / pdfplumber
— wyciąganie bloków po współrzędnych (a nie linia po linii)
— przywracanie poprawnej struktury:
— określenie kolumn
— sortowanie bloków (z lewej → z prawej, z góry → w dół)
— oddzielne parsowanie:
— tekstu
— obrazów (PNG z przywiązaniem do współrzędnych)
— tabel
👉 To pozwala uniknąć "pomieszanego" tekstu — główny problem takich PDF.
2. Przetwarzanie + klasyfikacja
— segmentacja na rozdziały (po nagłówkach / strukturze)
— normalizacja tekstu
— przygotowanie do wysyłki do Claude
3. Integracja z Claude API
— weryfikacja jakości tekstu
— wykrywanie problemów (mieszane kolumny, przerwy)
— logika retry (do 3 prób)
— logowanie przyczyn odmowy
👉 To właściwie "self-healing" pipeline.
4. Backend (priorytet Python)
— FastAPI
— kolejka zadań (Celery / asyncio workers)
— przetwarzanie książek w tle
— API dla panelu administracyjnego
5. Baza danych
— PostgreSQL
— struktura:
— książki
— rozdziały
— media (obrazy)
— statusy / logi
6. Panel administracyjny
— prosty interfejs webowy:
— przesyłanie książek
— uruchamianie parsowania
— statusy / postęp
— błędy i retry
— można zrealizować na:
— React lub prościej (FastAPI + Jinja / panel administracyjny)
Jak będzie wyglądał wynik
— uruchamiacie przetwarzanie książki
— system automatycznie:
— parsuje
— weryfikuje przez Claude
— zapisuje w DB
— w bazie:
— czysty, ustrukturyzowany tekst
— powiązane obrazy
— jest interfejs do kontroli
Technologie
— Python (FastAPI, asyncio)
— PyMuPDF / pdfplumber
— PostgreSQL
— Claude API
— Docker
Już pracowałem z wielokolumnowymi PDF i znam główne "pułapki" — to właśnie ten przypadek, gdzie standardowe rozwiązania nie działają i trzeba budować niestandardową logikę.
Jestem gotów przyjrzeć się przykładowi waszych PDF i zaproponować dokładną architekturę oraz plan realizacji.
-
6296 144 6 4 Dzień dobry
Mam doświadczenie i opracowania w zakresie parsowania skomplikowanych plików PDF, zawierających tabele, wykresy i diagramy. Proponuję zastosować podejście z wykorzystaniem kilku narzędzi. OCR z waszej strony jest kwestią otwartą, prawdopodobnie będzie wygodniej zrealizować to razem z pozostałą funkcjonalnością, tym bardziej, że raczej nie będziecie używać jakichś unikalnych narzędzi, o których nie wiem.
Do sprawdzenia jakości jest jeszcze kilka opcji modeli vl, trzeba będzie je przetestować.
Potrzebne są próbki książek, najlepiej tych o najbardziej skomplikowanej strukturze, do testów.
Jeszcze pytanie o szybkość parsowania - jakie są minimalne i maksymalne wymagania, jeśli takie istnieją.
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Parsowanie danych przez mobilne APISzukałem osoby z doświadczeniem w parsowaniu danych przez mobilne API, do parsowania e-commerce, rozetka i podobne Zadania: 1. Przechwytywanie ruchu aplikacji mobilnej (Android) konfiguracja proxy, analiza zapytań 2. Określenie potrzebnych punktów końcowych API, do których… Python, Parsowanie danych ∙ 1 dzień temu ∙ 24 oferty |
Szukam programisty lub kodera do automatyzacji scrapingu danych 2https://drive.google.com/file/d/14tP5XWJB9acV4gn_cJrFwMpihUj3EbQz/view?usp=sharing przypadkowo wysłałem ten link Programowanie stron internetowych, Parsowanie danych ∙ 1 dzień 2 godziny temu ∙ 31 ofert |
Stworzyć dashboard w https://airtable.com/ dotyczący efektywności reklamowych kreacji z facebook adsPełnoprawne TZ https://docs.google.com/document/d/1_n_oYRNZWYxalUA---DM5AD1b5ZSrtePw5J4G42svGw/edit?usp=sharing Bazy danych i SQL, Parsowanie danych ∙ 5 dni 21 godzin temu ∙ 19 ofert |
Stworzenie pliku Exel do załadowania towarów na strony innych partnerów.Interesuje mnie, aby stworzyć tabelę Excel ze wszystkimi parametrami. Oto strona - https://heiztechnik.com.ua/ A pozycje, które mnie interesują, powinny być przeniesione: Kotły ręczne: 1) TIS UNI 15-95 kW (10) szt 2)TIS HARD 150-500 kW (7) szt Kotły na pelety: 1)TIS PELLET… Parsowanie danych ∙ 6 dni 1 godzina temu ∙ 37 ofert |
Wymagany programista do parsowania katalogu i automatyzacji importu danychSzczegółowe TZ w załączonym dokumencie proszę w odpowiedzi podać orientacyjną cenę i terminy realizacji czy masz doświadczenie w parsowaniu dużych katalogów jakie możliwe trudności lub ograniczenia widzisz w tym zadaniu Bazy danych i SQL, Parsowanie danych ∙ 6 dni 4 godziny temu ∙ 42 oferty |