Parsowanie tekstowych PDF z tabelami
Konieczne jest parsowanie tekstowych plików PDF z tabelami i stworzenie dynamicznego obiektu ze wszystkimi danymi, które znajdują się w dokumencie. Tabele mogą mieć różną liczbę rekordów, co należy uwzględnić. Tabele mogą znajdować się zarówno na początku dokumentu, jak i na końcu, jednak są łatwe do zlokalizowania dzięki "opornym" napisom.
Znajdują się w nim 2 główne tabele, które można "połączyć" w jedną, a następnie dla każdego rekordu z tej tabeli - po tabeli szczegółowych informacji nieco niżej po głównych tabelach. Pierwsza tabela ECU SUMMARY INFO i druga tabela ECU SUMMARY INFO (CONT...). Następnie po tabelach znajduje się ECU DETAILS, to już bardziej szczegółowe tabele każdego ECU, tak zwane parametry formatu NAME=VALUE.
W idealnym przypadku chciałbym móc później pracować z tymi danymi za pomocą Pythona
Z góry dziękuję
Załączniki 1
-
1 dzień500 PLN1 dzień500 PLN
Dzień dobry. Już omawialiśmy ten projekt. Jestem gotów do realizacji. Będę zadowolony ze współpracy
-
3 dni500 PLN
100 3 dni500 PLNCześć Artiom, mogę pomóc Ci w Twoim zadaniu z wyprowadzaniem danych w potrzebnym formacie do dalszego przetwarzania. Będę czekać na Twoją wiadomość.
-
2 dni500 PLN
571 6 1 1 2 dni500 PLNDzień dobry, Artiom. Jest gotowe rozwiązanie z interfejsem webowym, które pozwala na załadowanie tabel w formacie pdf i ich sparsowanie. Program świetnie działa na waszym przykładzie, po sparsowaniu z danymi można wygodnie pracować w Pythonie.
-
4 dni500 PLN
204 4 dni500 PLNDzień dobry!
Przejrzałam Państwa próbkę PDF. Proponuję takie podejście:
Ekstrakcja tabel
Główne narzędzie: pdfplumber (stabilne wydobycie tekstu).
Fallback dla skomplikowanych siatek: camelot/tabula-py w trybie lattice/stream.
… Automatyczne wyszukiwanie znaczników sekcji: “ECU SUMMARY INFO”, “ECU DETAILS” (działa na różnych stronach/pozycjach).
Normalizacja
Łączenie podzielonych wierszy, usuwanie łamań i zbędnych spacji.
Poprawne łączenie wielowierszowych komórek i kolumn.
Wyrównanie nazw parametrów NAME=VALUE w ECU DETAILS.
Jednolity model danych
{
"vin": "...",
"publication_date": "...",
"summary": [
{"ecu":"ABS","name":"Anti Lock Brakes","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
...
],
"details": [
{"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
...
]
}
Eksport do CSV/Excel (osobne arkusze Podsumowanie / Szczegóły) i/lub SQLite.
Kontrola jakości
Walidacje (obowiązkowe kolumny, liczba wierszy, unikalne ECU).
Logi i małe testy jednostkowe, aby łatwo utrzymać proces.
Wynik: reprodukowalny skrypt + instrukcja uruchomienia, gotowe pliki (JSON/CSV/Excel/SQLite).
Gotowa do wykonania w ciągu 3–4 dni. Koszt — uzgodnimy po doprecyzowaniu formatu finalnego eksportu i możliwych niuansów formatowania innych PDF.
Dziękuję!
Alla
-
4 dni500 PLN
124 4 dni500 PLNProponowane podejście techniczne
1. Narzędzia i biblioteki:
PyMuPDF (fitz) lub pdfplumber do ekstrakcji tekstu z PDF
pandas do strukturyzacji danych tabelarycznych
re (regex) do identyfikacji wzorców i parsowania formatów NAME=VALUE
Niestandardowe funkcje do łączenia i normalizacji danych
2. Architektura rozwiązania:
…
Funkcja identyfikująca sekcje na podstawie "opornych" napisów
Parser dla głównych tabel z automatycznym wykrywaniem liczby rekordów
Moduł łączący dane z obu tabel głównych
Parser dla sekcji ECU DETAILS z elastycznym formatem NAME=VALUE
Generator dynamicznego obiektu (słownik/DataFrame) z pełną strukturą danych
3. Funkcjonalności:
Obsługa różnej liczby rekordów w tabelach
Elastyczne pozycjonowanie tabel w dokumencie
Walidacja i oczyszczanie danych
Export do formatów ułatwiających dalszą pracę (JSON, CSV, pickle)
Moje doświadczenie
Posiadam doświadczenie w:
Przetwarzaniu dokumentów PDF z wykorzystaniem Python
Parsowaniu i strukturyzacji danych z różnych formatów
Pracy z bibliotekami pandas, numpy i narzędziami do analizy danych
Tworzeniu skalowalnych rozwiązań do automatyzacji przetwarzania dokumentów
Oferuję:
✅ Kompletne rozwiązanie - gotowy skrypt Python z dokumentacją
✅ Elastyczność - kod adaptujący się do różnych struktur dokumentów
✅ Jakość kodu - czytelny, komentowany kod z obsługą błędów
✅ Testy - przykłady użycia i walidacja na dostarczonych plikach
✅ Wsparcie - pomoc przy implementacji i ewentualne modyfikacje
Jestem gotów rozpocząć pracę natychmiast.
-
2 dni500 PLN
834 8 0 2 dni500 PLNJeśli trzeba potem łatwo pracować na Pythonie, w idealnym przypadku parsować do bazy danych, na przykład SQL Lite, jeśli chcesz, mogę sparsować do formatu xlsx Exel. Napisz do mnie w celu omówienia, mogę wykonać tę funkcjonalność.
-
2 dni500 PLN
340 2 dni500 PLNCześć!
Przygotowałem w pełni działające rozwiązanie dla twojego zadania.
🔹 Skrypt **parse\_ecu\_pdf.py** napisany w Pythonie robi dokładnie to, co opisałeś:
* Odczytuje PDF (zarówno lokalny, jak i z linku) za pomocą PyMuPDF.
* Znajduje tabele **ECU SUMMARY INFO** i **ECU SUMMARY INFO (CONT...)**, parsuje je linia po linii.
* Znajduje bloki **ECU DETAILS** i zbiera pary `NAME=VALUE`.
* Łączy wszystko w dynamiczny obiekt: każdy wiersz podsumowania automatycznie uzupełniany jest słownikiem `details`.
…
🔹 Na wyjściu otrzymujemy gotową strukturę JSON, z którą łatwo pracować w Pythonie.
📌 Użycie:
```bash
python parse_ecu_pdf.py path/to/your_ecu_report.pdf
```
Na ekranie wyświetla się JSON z danymi dla każdego ECU.
Skrypt jest uniwersalny — liczba wierszy w tabelach może być dowolna, a położenie tabel (na początku lub na końcu PDF) nie ma znaczenia.
Jestem gotów się połączyć i pomóc ci z uruchomieniem, testami na twoim PDF i wszelkimi poprawkami.
-
3 dni499 PLN
656 9 0 3 dni499 PLNDzień dobry, Artem!
Ogólnie zadanie jest jasne, aby dokładnie odpowiedzieć na pytania dotyczące terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Piszesz w prywatnych wiadomościach — omówimy szczegóły i twoje życzenia.
P.S. Kieruję się twoim budżetem, ale myślę, że mogę zmieścić się w mniejszej kwocie — po wyjaśnieniu szczegółów zaproponuję dokładną cyfrę.
-
1 dzień500 PLN
309 1 dzień500 PLNCześć, jestem gotów wykonać twoje zadanie jako praktykę w nauce, pisz na priv, omówimy wszystkie szczegóły, wszystkie szczegóły.
-
2 dni600 PLN
1117 4 0 2 dni600 PLNCześć!
Mogę stworzyć narzędzie w Pythonie, które odczytuje twoje pliki PDF, znajduje tabele ECU SUMMARY niezależnie od ich położenia w pliku i łączy je w jeden kompletny zbiór danych. Tuż po tym skrypt również zbierze tabele ECU DETAILS i powiąże każdy zestaw parametrów NAME=VALUE z odpowiednim wpisem ECU. W ten sposób otrzymasz jeden czysty obiekt, łączący wszystkie informacje, który można używać bezpośrednio w Pythonie lub przekształcić w DataFrame do analizy.
Nie będę zależał od numerów stron ani stałych pozycji. Zamiast tego skrypt będzie szukał etykiet referencyjnych i nazw sekcji, więc będzie działał nawet przy zmianie układu lub liczby wpisów. Ostateczna struktura będzie elastyczna, łatwa do zapytań i eksportu do JSON lub CSV do późniejszego użycia.
Dziękuję!
-
1 dzień500 PLN
232 1 0 1 dzień500 PLNCześć, Artem!
Jestem programistą Pythona, mam duże doświadczenie w pracy z PDF.
W jakim formacie będzie Ci wygodnie pracować na wyjściu?
Pisz, omówimy Twój projekt!
Z poważaniem,
Andrij
-
2 dni500 PLN
1328 35 1 2 dni500 PLNDobry wieczór. Pracowałem z pdf i robiłem podobne zadanie. Ale na php, pod vps na Linuksie. Tam są niuanse, nie wiem jak u was, ale czasami tabele nie idą w kolejności, i wtedy to będzie nieproste. Trzeba próbować.
-
1 dzień500 PLN
2248 18 3 1 dzień500 PLNDobry wieczór, Artiom. Zajmuję się automatyzacją w Pythonie. Mogę opracować dla Ciebie parser z niezbędną funkcjonalnością, jako jedna z opcji, po przetworzeniu funkcja zwróci listę słowników []{} z którymi będziesz mógł dalej pracować w kodzie. Jeśli jesteś zainteresowany - pisz, z przyjemnością omówię szczegóły.
-
3 dni500 PLN
3318 70 1 3 dni500 PLNCześć.
Mam doświadczenie w automatycznym wydobywaniu danych z pdf
Możemy omówić
-
1 dzień500 PLN
200 1 0 1 dzień500 PLNDzień dobry! 👋
Dokładnie zapoznałem się z twoim zadaniem.
Mogę je wykonać szybko i w pełni zgodnie z twoimi wymaganiami.
Jest kilka kwestii, które chciałbym wyjaśnić.
Jestem gotów zacząć od razu po uzgodnieniu szczegółów.
-
1 dzień600 PLN
1562 7 0 1 dzień600 PLNDzień dobry!
Nazywam się Roman i jestem w czołówce 6 programistów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
Gwarantuję:
- Szybkie i jakościowe wykonanie zadania
- Ścisłe przestrzeganie terminów
- Regularny kontakt przez cały proces
Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.
-
1 dzień500 PLN
267 1 dzień500 PLNJuż ukończyłem twoje zadanie—mogę to zademonstrować.
Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych
Parsowanie danych
82 PLN
Dzień dobry. Trzeba zeskrobać dane z dwóch małych kategorii znanej tablicy ogłoszeń. Łączna liczba ogłoszeń to ~12k. Potrzebne są takie kolumny: podkategoria - miasto - telefon - tytuł ogłoszenia. Wynik w .xlsx. Parsowanie danych ∙ 26 minut temu ∙ 14 ofert |
Konsultacja dotycząca parsowania subskrybentów kont InstagramWitam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem… Parsowanie danych ∙ 1 dzień 12 godzin temu ∙ 12 ofert |
Potrzebny specjalista do wyszukiwania kontaktów decydentów w UkrainieKonieczne jest zebranie bazy (lub gotowej bazy) kontaktów osób podejmujących decyzje (LPR) w firmach Ukrainy. Wyszukiwanie i zbieranie informacji, Parsowanie danych ∙ 1 dzień 17 godzin temu ∙ 16 ofert |
Trzeba zeskrobać dane z LinkedInPotrzebujemy wyciągnąć dane z LinkedIn według naszej listy. Dla każdego wpisu należy znaleźć i zebrać dostępne dane, jeśli takie są na profilu LinkedIn, w tym zdjęcie profilowe w serwisie społecznościowym LinkedIn, adres e-mail, linki do mediów społecznościowych, stronę… Parsowanie danych ∙ 1 dzień 22 godziny temu ∙ 27 ofert |
Parsowanie i klasyfikacja danychSzukamy dewelopera do realizacji systemu zbierania i strukturyzacji danych z otwartych źródeł. Posiadamy bazę właścicieli małych firm w USA, która zawiera imię i nazwisko, nazwę firmy, adres oraz stan. Należy zbudować proces wzbogacania tych rekordów dodatkowymi informacjami z… Programowanie stron internetowych, Parsowanie danych ∙ 2 dni temu ∙ 40 ofert |