Parsowanie tekstowych PDF z tabelami
Konieczne jest parsowanie tekstowych plików PDF z tabelami i stworzenie dynamicznego obiektu ze wszystkimi danymi, które znajdują się w dokumencie. Tabele mogą mieć różną liczbę rekordów, co należy uwzględnić. Tabele mogą znajdować się zarówno na początku dokumentu, jak i na końcu, jednak są łatwe do zlokalizowania dzięki "opornym" napisom.
Znajdują się w nim 2 główne tabele, które można "połączyć" w jedną, a następnie dla każdego rekordu z tej tabeli - po tabeli szczegółowych informacji nieco niżej po głównych tabelach. Pierwsza tabela ECU SUMMARY INFO i druga tabela ECU SUMMARY INFO (CONT...). Następnie po tabelach znajduje się ECU DETAILS, to już bardziej szczegółowe tabele każdego ECU, tak zwane parametry formatu NAME=VALUE.
W idealnym przypadku chciałbym móc później pracować z tymi danymi za pomocą Pythona
Z góry dziękuję
Załączniki 1
-
1 dzień500 PLN1 dzień500 PLN
Dzień dobry. Już omawialiśmy ten projekt. Jestem gotów do realizacji. Będę zadowolony ze współpracy
-
3 dni500 PLN
100 3 dni500 PLNCześć Artiom, mogę pomóc Ci w Twoim zadaniu z wyprowadzaniem danych w potrzebnym formacie do dalszego przetwarzania. Będę czekać na Twoją wiadomość.
-
2 dni500 PLN
571 6 1 1 2 dni500 PLNDzień dobry, Artiom. Jest gotowe rozwiązanie z interfejsem webowym, które pozwala na załadowanie tabel w formacie pdf i ich sparsowanie. Program świetnie działa na waszym przykładzie, po sparsowaniu z danymi można wygodnie pracować w Pythonie.
-
4 dni500 PLN
204 4 dni500 PLNDzień dobry!
Przejrzałam Państwa próbkę PDF. Proponuję takie podejście:
Ekstrakcja tabel
Główne narzędzie: pdfplumber (stabilne wydobycie tekstu).
Fallback dla skomplikowanych siatek: camelot/tabula-py w trybie lattice/stream.
… Automatyczne wyszukiwanie znaczników sekcji: “ECU SUMMARY INFO”, “ECU DETAILS” (działa na różnych stronach/pozycjach).
Normalizacja
Łączenie podzielonych wierszy, usuwanie łamań i zbędnych spacji.
Poprawne łączenie wielowierszowych komórek i kolumn.
Wyrównanie nazw parametrów NAME=VALUE w ECU DETAILS.
Jednolity model danych
{
"vin": "...",
"publication_date": "...",
"summary": [
{"ecu":"ABS","name":"Anti Lock Brakes","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
...
],
"details": [
{"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
...
]
}
Eksport do CSV/Excel (osobne arkusze Podsumowanie / Szczegóły) i/lub SQLite.
Kontrola jakości
Walidacje (obowiązkowe kolumny, liczba wierszy, unikalne ECU).
Logi i małe testy jednostkowe, aby łatwo utrzymać proces.
Wynik: reprodukowalny skrypt + instrukcja uruchomienia, gotowe pliki (JSON/CSV/Excel/SQLite).
Gotowa do wykonania w ciągu 3–4 dni. Koszt — uzgodnimy po doprecyzowaniu formatu finalnego eksportu i możliwych niuansów formatowania innych PDF.
Dziękuję!
Alla
-
4 dni500 PLN
124 4 dni500 PLNProponowane podejście techniczne
1. Narzędzia i biblioteki:
PyMuPDF (fitz) lub pdfplumber do ekstrakcji tekstu z PDF
pandas do strukturyzacji danych tabelarycznych
re (regex) do identyfikacji wzorców i parsowania formatów NAME=VALUE
Niestandardowe funkcje do łączenia i normalizacji danych
2. Architektura rozwiązania:
…
Funkcja identyfikująca sekcje na podstawie "opornych" napisów
Parser dla głównych tabel z automatycznym wykrywaniem liczby rekordów
Moduł łączący dane z obu tabel głównych
Parser dla sekcji ECU DETAILS z elastycznym formatem NAME=VALUE
Generator dynamicznego obiektu (słownik/DataFrame) z pełną strukturą danych
3. Funkcjonalności:
Obsługa różnej liczby rekordów w tabelach
Elastyczne pozycjonowanie tabel w dokumencie
Walidacja i oczyszczanie danych
Export do formatów ułatwiających dalszą pracę (JSON, CSV, pickle)
Moje doświadczenie
Posiadam doświadczenie w:
Przetwarzaniu dokumentów PDF z wykorzystaniem Python
Parsowaniu i strukturyzacji danych z różnych formatów
Pracy z bibliotekami pandas, numpy i narzędziami do analizy danych
Tworzeniu skalowalnych rozwiązań do automatyzacji przetwarzania dokumentów
Oferuję:
✅ Kompletne rozwiązanie - gotowy skrypt Python z dokumentacją
✅ Elastyczność - kod adaptujący się do różnych struktur dokumentów
✅ Jakość kodu - czytelny, komentowany kod z obsługą błędów
✅ Testy - przykłady użycia i walidacja na dostarczonych plikach
✅ Wsparcie - pomoc przy implementacji i ewentualne modyfikacje
Jestem gotów rozpocząć pracę natychmiast.
-
2 dni500 PLN
834 8 0 2 dni500 PLNJeśli trzeba potem łatwo pracować na Pythonie, w idealnym przypadku parsować do bazy danych, na przykład SQL Lite, jeśli chcesz, mogę sparsować do formatu xlsx Exel. Napisz do mnie w celu omówienia, mogę wykonać tę funkcjonalność.
-
2 dni500 PLN
340 2 dni500 PLNCześć!
Przygotowałem w pełni działające rozwiązanie dla twojego zadania.
🔹 Skrypt **parse\_ecu\_pdf.py** napisany w Pythonie robi dokładnie to, co opisałeś:
* Odczytuje PDF (zarówno lokalny, jak i z linku) za pomocą PyMuPDF.
* Znajduje tabele **ECU SUMMARY INFO** i **ECU SUMMARY INFO (CONT...)**, parsuje je linia po linii.
* Znajduje bloki **ECU DETAILS** i zbiera pary `NAME=VALUE`.
* Łączy wszystko w dynamiczny obiekt: każdy wiersz podsumowania automatycznie uzupełniany jest słownikiem `details`.
…
🔹 Na wyjściu otrzymujemy gotową strukturę JSON, z którą łatwo pracować w Pythonie.
📌 Użycie:
```bash
python parse_ecu_pdf.py path/to/your_ecu_report.pdf
```
Na ekranie wyświetla się JSON z danymi dla każdego ECU.
Skrypt jest uniwersalny — liczba wierszy w tabelach może być dowolna, a położenie tabel (na początku lub na końcu PDF) nie ma znaczenia.
Jestem gotów się połączyć i pomóc ci z uruchomieniem, testami na twoim PDF i wszelkimi poprawkami.
-
3 dni499 PLN
656 9 0 3 dni499 PLNDzień dobry, Artem!
Ogólnie zadanie jest jasne, aby dokładnie odpowiedzieć na pytania dotyczące terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Piszesz w prywatnych wiadomościach — omówimy szczegóły i twoje życzenia.
P.S. Kieruję się twoim budżetem, ale myślę, że mogę zmieścić się w mniejszej kwocie — po wyjaśnieniu szczegółów zaproponuję dokładną cyfrę.
-
1 dzień500 PLN
309 1 dzień500 PLNCześć, jestem gotów wykonać twoje zadanie jako praktykę w nauce, pisz na priv, omówimy wszystkie szczegóły, wszystkie szczegóły.
-
2 dni600 PLN
1117 4 0 2 dni600 PLNCześć!
Mogę stworzyć narzędzie w Pythonie, które odczytuje twoje pliki PDF, znajduje tabele ECU SUMMARY niezależnie od ich położenia w pliku i łączy je w jeden kompletny zbiór danych. Tuż po tym skrypt również zbierze tabele ECU DETAILS i powiąże każdy zestaw parametrów NAME=VALUE z odpowiednim wpisem ECU. W ten sposób otrzymasz jeden czysty obiekt, łączący wszystkie informacje, który można używać bezpośrednio w Pythonie lub przekształcić w DataFrame do analizy.
Nie będę zależał od numerów stron ani stałych pozycji. Zamiast tego skrypt będzie szukał etykiet referencyjnych i nazw sekcji, więc będzie działał nawet przy zmianie układu lub liczby wpisów. Ostateczna struktura będzie elastyczna, łatwa do zapytań i eksportu do JSON lub CSV do późniejszego użycia.
Dziękuję!
-
1 dzień500 PLN
232 1 0 1 dzień500 PLNCześć, Artem!
Jestem programistą Pythona, mam duże doświadczenie w pracy z PDF.
W jakim formacie będzie Ci wygodnie pracować na wyjściu?
Pisz, omówimy Twój projekt!
Z poważaniem,
Andrij
-
2 dni500 PLN
1328 35 1 2 dni500 PLNDobry wieczór. Pracowałem z pdf i robiłem podobne zadanie. Ale na php, pod vps na Linuksie. Tam są niuanse, nie wiem jak u was, ale czasami tabele nie idą w kolejności, i wtedy to będzie nieproste. Trzeba próbować.
-
1 dzień500 PLN
2248 18 3 1 dzień500 PLNDobry wieczór, Artiom. Zajmuję się automatyzacją w Pythonie. Mogę opracować dla Ciebie parser z niezbędną funkcjonalnością, jako jedna z opcji, po przetworzeniu funkcja zwróci listę słowników []{} z którymi będziesz mógł dalej pracować w kodzie. Jeśli jesteś zainteresowany - pisz, z przyjemnością omówię szczegóły.
-
3 dni500 PLN
3318 70 1 3 dni500 PLNCześć.
Mam doświadczenie w automatycznym wydobywaniu danych z pdf
Możemy omówić
-
1 dzień500 PLN
200 1 0 1 dzień500 PLNDzień dobry! 👋
Dokładnie zapoznałem się z twoim zadaniem.
Mogę je wykonać szybko i w pełni zgodnie z twoimi wymaganiami.
Jest kilka kwestii, które chciałbym wyjaśnić.
Jestem gotów zacząć od razu po uzgodnieniu szczegółów.
-
1 dzień600 PLN
1562 7 0 1 dzień600 PLNDzień dobry!
Nazywam się Roman i jestem w czołówce 6 programistów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
Gwarantuję:
- Szybkie i jakościowe wykonanie zadania
- Ścisłe przestrzeganie terminów
- Regularny kontakt przez cały proces
Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.
-
1 dzień500 PLN
267 1 dzień500 PLNJuż ukończyłem twoje zadanie—mogę to zademonstrować.
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Konsultacja dotycząca parsowania subskrybentów kont InstagramWitam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem… Parsowanie danych ∙ 1 dzień 10 godzin temu ∙ 12 ofert |
Potrzebny specjalista do wyszukiwania kontaktów decydentów w UkrainieKonieczne jest zebranie bazy (lub gotowej bazy) kontaktów osób podejmujących decyzje (LPR) w firmach Ukrainy. Wyszukiwanie i zbieranie informacji, Parsowanie danych ∙ 1 dzień 15 godzin temu ∙ 15 ofert |
Trzeba zeskrobać dane z LinkedInPotrzebujemy wyciągnąć dane z LinkedIn według naszej listy. Dla każdego wpisu należy znaleźć i zebrać dostępne dane, jeśli takie są na profilu LinkedIn, w tym zdjęcie profilowe w serwisie społecznościowym LinkedIn, adres e-mail, linki do mediów społecznościowych, stronę… Parsowanie danych ∙ 1 dzień 21 godzin temu ∙ 25 ofert |
Parsowanie i klasyfikacja danychSzukamy dewelopera do realizacji systemu zbierania i strukturyzacji danych z otwartych źródeł. Posiadamy bazę właścicieli małych firm w USA, która zawiera imię i nazwisko, nazwę firmy, adres oraz stan. Należy zbudować proces wzbogacania tych rekordów dodatkowymi informacjami z… Programowanie stron internetowych, Parsowanie danych ∙ 1 dzień 22 godziny temu ∙ 39 ofert |
Svitlahata
61 PLN
Potrzebne jest zaimportowanie 1819 produktów z pliku XML/YML Prom.ua do OpenCart 3. Jest gotowy plik XML, który zawiera nazwy produktów, opisy, ceny, zdjęcia, cechy, producentów i kategorie. Wymagane: zaimportować wszystkie produkty do OpenCart 3; utworzyć i powiązać… Content Management Systems, Parsowanie danych ∙ 3 dni 1 godzina temu ∙ 34 oferty |