Switch to English?
Yes
Переключитись на українську?
Так
Переключиться на русскую?
Да
Przełączyć się na polską?
Tak
Opublikuj swoje zlecenie za darmo i otrzymaj oferty od wykonawców freelancerów już minutę po opublikowaniu!

Parsowanie tekstowych PDF z tabelami

Translated500 PLN

Załączniki 1

Wgląd do aplikacji jest dostępny tylko zarejestrowanym użytkownikom.
  1. 10738
     149  0

    1 dzień500 PLN

    Dzień dobry. Już omawialiśmy ten projekt. Jestem gotów do realizacji. Będę zadowolony ze współpracy

  2. 100  
    3 dni500 PLN

    Cześć Artiom, mogę pomóc Ci w Twoim zadaniu z wyprowadzaniem danych w potrzebnym formacie do dalszego przetwarzania. Będę czekać na Twoją wiadomość.

  3. 571    6  1   1
    2 dni500 PLN

    Dzień dobry, Artiom. Jest gotowe rozwiązanie z interfejsem webowym, które pozwala na załadowanie tabel w formacie pdf i ich sparsowanie. Program świetnie działa na waszym przykładzie, po sparsowaniu z danymi można wygodnie pracować w Pythonie.

  4. 204  
    4 dni500 PLN

    Dzień dobry!
    Przejrzałam Państwa próbkę PDF. Proponuję takie podejście:

    Ekstrakcja tabel

    Główne narzędzie: pdfplumber (stabilne wydobycie tekstu).

    Fallback dla skomplikowanych siatek: camelot/tabula-py w trybie lattice/stream.

    Automatyczne wyszukiwanie znaczników sekcji: “ECU SUMMARY INFO”, “ECU DETAILS” (działa na różnych stronach/pozycjach).

    Normalizacja

    Łączenie podzielonych wierszy, usuwanie łamań i zbędnych spacji.

    Poprawne łączenie wielowierszowych komórek i kolumn.

    Wyrównanie nazw parametrów NAME=VALUE w ECU DETAILS.

    Jednolity model danych

    {
    "vin": "...",
    "publication_date": "...",
    "summary": [
    {"ecu":"ABS","name":"Anti Lock Brakes","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
    ...
    ],
    "details": [
    {"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
    ...
    ]
    }


    Eksport do CSV/Excel (osobne arkusze Podsumowanie / Szczegóły) i/lub SQLite.

    Kontrola jakości

    Walidacje (obowiązkowe kolumny, liczba wierszy, unikalne ECU).

    Logi i małe testy jednostkowe, aby łatwo utrzymać proces.

    Wynik: reprodukowalny skrypt + instrukcja uruchomienia, gotowe pliki (JSON/CSV/Excel/SQLite).
    Gotowa do wykonania w ciągu 3–4 dni. Koszt — uzgodnimy po doprecyzowaniu formatu finalnego eksportu i możliwych niuansów formatowania innych PDF.



    Dziękuję!
    Alla

  5. 124  
    4 dni500 PLN

    Proponowane podejście techniczne
    1. Narzędzia i biblioteki:

    PyMuPDF (fitz) lub pdfplumber do ekstrakcji tekstu z PDF
    pandas do strukturyzacji danych tabelarycznych
    re (regex) do identyfikacji wzorców i parsowania formatów NAME=VALUE
    Niestandardowe funkcje do łączenia i normalizacji danych

    2. Architektura rozwiązania:

    Funkcja identyfikująca sekcje na podstawie "opornych" napisów
    Parser dla głównych tabel z automatycznym wykrywaniem liczby rekordów
    Moduł łączący dane z obu tabel głównych
    Parser dla sekcji ECU DETAILS z elastycznym formatem NAME=VALUE
    Generator dynamicznego obiektu (słownik/DataFrame) z pełną strukturą danych

    3. Funkcjonalności:

    Obsługa różnej liczby rekordów w tabelach
    Elastyczne pozycjonowanie tabel w dokumencie
    Walidacja i oczyszczanie danych
    Export do formatów ułatwiających dalszą pracę (JSON, CSV, pickle)

    Moje doświadczenie
    Posiadam doświadczenie w:

    Przetwarzaniu dokumentów PDF z wykorzystaniem Python
    Parsowaniu i strukturyzacji danych z różnych formatów
    Pracy z bibliotekami pandas, numpy i narzędziami do analizy danych
    Tworzeniu skalowalnych rozwiązań do automatyzacji przetwarzania dokumentów

    Oferuję:
    ✅ Kompletne rozwiązanie - gotowy skrypt Python z dokumentacją
    ✅ Elastyczność - kod adaptujący się do różnych struktur dokumentów
    ✅ Jakość kodu - czytelny, komentowany kod z obsługą błędów
    ✅ Testy - przykłady użycia i walidacja na dostarczonych plikach
    ✅ Wsparcie - pomoc przy implementacji i ewentualne modyfikacje

    Jestem gotów rozpocząć pracę natychmiast.

  6. 834    8  0
    2 dni500 PLN

    Jeśli trzeba potem łatwo pracować na Pythonie, w idealnym przypadku parsować do bazy danych, na przykład SQL Lite, jeśli chcesz, mogę sparsować do formatu xlsx Exel. Napisz do mnie w celu omówienia, mogę wykonać tę funkcjonalność.

  7. 340  
    2 dni500 PLN

    Cześć!
    Przygotowałem w pełni działające rozwiązanie dla twojego zadania.

    🔹 Skrypt **parse\_ecu\_pdf.py** napisany w Pythonie robi dokładnie to, co opisałeś:

    * Odczytuje PDF (zarówno lokalny, jak i z linku) za pomocą PyMuPDF.
    * Znajduje tabele **ECU SUMMARY INFO** i **ECU SUMMARY INFO (CONT...)**, parsuje je linia po linii.
    * Znajduje bloki **ECU DETAILS** i zbiera pary `NAME=VALUE`.
    * Łączy wszystko w dynamiczny obiekt: każdy wiersz podsumowania automatycznie uzupełniany jest słownikiem `details`.

    🔹 Na wyjściu otrzymujemy gotową strukturę JSON, z którą łatwo pracować w Pythonie.

    📌 Użycie:

    ```bash
    python parse_ecu_pdf.py path/to/your_ecu_report.pdf
    ```

    Na ekranie wyświetla się JSON z danymi dla każdego ECU.

    Skrypt jest uniwersalny — liczba wierszy w tabelach może być dowolna, a położenie tabel (na początku lub na końcu PDF) nie ma znaczenia.

    Jestem gotów się połączyć i pomóc ci z uruchomieniem, testami na twoim PDF i wszelkimi poprawkami.

  8. 656    9  0
    3 dni499 PLN

    Dzień dobry, Artem!
    Ogólnie zadanie jest jasne, aby dokładnie odpowiedzieć na pytania dotyczące terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
    Piszesz w prywatnych wiadomościach — omówimy szczegóły i twoje życzenia.
    P.S. Kieruję się twoim budżetem, ale myślę, że mogę zmieścić się w mniejszej kwocie — po wyjaśnieniu szczegółów zaproponuję dokładną cyfrę.

  9. 309  
    1 dzień500 PLN

    Cześć, jestem gotów wykonać twoje zadanie jako praktykę w nauce, pisz na priv, omówimy wszystkie szczegóły, wszystkie szczegóły.

  10. 1117    4  0
    2 dni600 PLN

    Cześć!

    Mogę stworzyć narzędzie w Pythonie, które odczytuje twoje pliki PDF, znajduje tabele ECU SUMMARY niezależnie od ich położenia w pliku i łączy je w jeden kompletny zbiór danych. Tuż po tym skrypt również zbierze tabele ECU DETAILS i powiąże każdy zestaw parametrów NAME=VALUE z odpowiednim wpisem ECU. W ten sposób otrzymasz jeden czysty obiekt, łączący wszystkie informacje, który można używać bezpośrednio w Pythonie lub przekształcić w DataFrame do analizy.

    Nie będę zależał od numerów stron ani stałych pozycji. Zamiast tego skrypt będzie szukał etykiet referencyjnych i nazw sekcji, więc będzie działał nawet przy zmianie układu lub liczby wpisów. Ostateczna struktura będzie elastyczna, łatwa do zapytań i eksportu do JSON lub CSV do późniejszego użycia.

    Dziękuję!

  11. 232    1  0
    1 dzień500 PLN

    Cześć, Artem!

    Jestem programistą Pythona, mam duże doświadczenie w pracy z PDF.
    W jakim formacie będzie Ci wygodnie pracować na wyjściu?

    Pisz, omówimy Twój projekt!

    Z poważaniem,
    Andrij

  12. 1328    35  1
    2 dni500 PLN

    Dobry wieczór. Pracowałem z pdf i robiłem podobne zadanie. Ale na php, pod vps na Linuksie. Tam są niuanse, nie wiem jak u was, ale czasami tabele nie idą w kolejności, i wtedy to będzie nieproste. Trzeba próbować.

  13. 2248    18  3
    1 dzień500 PLN

    Dobry wieczór, Artiom. Zajmuję się automatyzacją w Pythonie. Mogę opracować dla Ciebie parser z niezbędną funkcjonalnością, jako jedna z opcji, po przetworzeniu funkcja zwróci listę słowników []{} z którymi będziesz mógł dalej pracować w kodzie. Jeśli jesteś zainteresowany - pisz, z przyjemnością omówię szczegóły.

  14. 3318    70  1
    3 dni500 PLN

    Cześć.
    Mam doświadczenie w automatycznym wydobywaniu danych z pdf
    Możemy omówić

  15. 200    1  0
    1 dzień500 PLN

    Dzień dobry! 👋

    Dokładnie zapoznałem się z twoim zadaniem.
    Mogę je wykonać szybko i w pełni zgodnie z twoimi wymaganiami.
    Jest kilka kwestii, które chciałbym wyjaśnić.

    Jestem gotów zacząć od razu po uzgodnieniu szczegółów.

  16. 1562    7  0
    1 dzień600 PLN

    Dzień dobry!
    Nazywam się Roman i jestem w czołówce 6 programistów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
    Gwarantuję:
    - Szybkie i jakościowe wykonanie zadania
    - Ścisłe przestrzeganie terminów
    - Regularny kontakt przez cały proces
    Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.

  17. 267  
    1 dzień500 PLN

    Już ukończyłem twoje zadanie—mogę to zademonstrować.

  18. Jeszcze 3 ofert jest ukrytych

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych

Konsultacja dotycząca parsowania subskrybentów kont Instagram

Witam. Konieczne jest przeprowadzenie wstępnej oceny możliwości realizacji następującego zadania. Posiadam listę kont na Instagramie. Celem jest uzyskanie danych kontaktowych (w pierwszej kolejności adresów e-mail) użytkowników, którzy obserwują te konta. Wcześniej spotkałem…

Parsowanie danych ∙ 1 dzień 7 godzin temu ∙ 12 ofert

Potrzebny specjalista do wyszukiwania kontaktów decydentów w Ukrainie

Konieczne jest zebranie bazy (lub gotowej bazy) kontaktów osób podejmujących decyzje (LPR) w firmach Ukrainy.

Wyszukiwanie i zbieranie informacjiParsowanie danych ∙ 1 dzień 11 godzin temu ∙ 14 ofert

Trzeba zeskrobać dane z LinkedIn

Potrzebujemy wyciągnąć dane z LinkedIn według naszej listy. Dla każdego wpisu należy znaleźć i zebrać dostępne dane, jeśli takie są na profilu LinkedIn, w tym zdjęcie profilowe w serwisie społecznościowym LinkedIn, adres e-mail, linki do mediów społecznościowych, stronę…

Parsowanie danych ∙ 1 dzień 17 godzin temu ∙ 24 oferty

Parsowanie i klasyfikacja danych

Szukamy dewelopera do realizacji systemu zbierania i strukturyzacji danych z otwartych źródeł. Posiadamy bazę właścicieli małych firm w USA, która zawiera imię i nazwisko, nazwę firmy, adres oraz stan. Należy zbudować proces wzbogacania tych rekordów dodatkowymi informacjami z…

Programowanie stron internetowychParsowanie danych ∙ 1 dzień 18 godzin temu ∙ 38 ofert

Svitlahata

61 PLN

Potrzebne jest zaimportowanie 1819 produktów z pliku XML/YML Prom.ua do OpenCart 3. Jest gotowy plik XML, który zawiera nazwy produktów, opisy, ceny, zdjęcia, cechy, producentów i kategorie. Wymagane: zaimportować wszystkie produkty do OpenCart 3; utworzyć i powiązać…

Content Management SystemsParsowanie danych ∙ 2 dni 21 godzin temu ∙ 34 oferty

Zleceniodawca
Artem Ro
Polska Polska  1  0
Zlecenie zostało opublikowane
9 miesięcy 12 dni temu
263 wyświetlenia
Tagi
  • python
  • PDF