Zlecenia dla freelancerów

Zlecenia dla freelancerów

Parsowanie tekstowych PDF z tabelami

Name: Parsowanie tekstowych PDF z tabelami
Price: 500 PLN
Availability: InStock

Parsowanie danych, Python — podano nieprawidłowe kategorie?

500 PLN

Zlecenie jest tłumaczone automatycznie. Zaloguj się lub zarejestruj się, żeby zobaczyć oryginał

Konieczne jest parsowanie tekstowych plików PDF z tabelami i stworzenie dynamicznego obiektu ze wszystkimi danymi, które znajdują się w dokumencie. Tabele mogą mieć różną liczbę rekordów, co należy uwzględnić. Tabele mogą znajdować się zarówno na początku dokumentu, jak i na końcu, jednak są łatwe do zlokalizowania dzięki "opornym" napisom.

Znajdują się w nim 2 główne tabele, które można "połączyć" w jedną, a następnie dla każdego rekordu z tej tabeli - po tabeli szczegółowych informacji nieco niżej po głównych tabelach. Pierwsza tabela ECU SUMMARY INFO i druga tabela ECU SUMMARY INFO (CONT...). Następnie po tabelach znajduje się ECU DETAILS, to już bardziej szczegółowe tabele każdego ECU, tak zwane parametry formatu NAME=VALUE.

W idealnym przypadku chciałbym móc później pracować z tymi danymi za pomocą Pythona

Z góry dziękuję

Oferty 20

Artem Plakha

150 0

Budżet: 500 PLN Termin: 1 dzień

Dzień dobry. Już omawialiśmy ten projekt. Jestem gotów do realizacji. Będę zadowolony ze współpracy

Czekamy na współpracę z Tobą!

Karlen Abelyan

0 0

Zlecenia -
Ocena -
Ranking 100

Budżet: 500 PLN Termin: 3 dni

Cześć Artiom, mogę pomóc Ci w Twoim zadaniu z wyprowadzaniem danych w potrzebnym formacie do dalszego przetwarzania. Będę czekać na Twoją wiadomość.

Bogdan Kovalenko

6 1

Zlecenia 6
Ocena -
Ranking 547

Budżet: 500 PLN Termin: 2 dni

Dzień dobry, Artiom. Jest gotowe rozwiązanie z interfejsem webowym, które pozwala na załadowanie tabel w formacie pdf i ich sparsowanie. Program świetnie działa na waszym przykładzie, po sparsowaniu z danymi można wygodnie pracować w Pythonie.

Alla Pankovska

0 0

Zlecenia -
Ocena -
Ranking 204

Budżet: 500 PLN Termin: 4 dni

Dzień dobry!
Przejrzałam Państwa próbkę PDF. Proponuję takie podejście:

Ekstrakcja tabel

Główne narzędzie: pdfplumber (stabilne wydobycie tekstu).

Fallback dla skomplikowanych siatek: camelot/tabula-py w trybie lattice/stream.

Automatyczne wyszukiwanie znaczników sekcji: “ECU SUMMARY INFO”, “ECU DETAILS” (działa na różnych stronach/pozycjach).

Normalizacja

Łączenie podzielonych wierszy, usuwanie łamań i zbędnych spacji.

Poprawne łączenie wielowierszowych komórek i kolumn.

Wyrównanie nazw parametrów NAME=VALUE w ECU DETAILS.

Jednolity model danych

{
"vin": "...",
"publication_date": "...",
"summary": [
{"ecu":"ABS","name":"Anti Lock Brakes","bus_type":"CAN-CH", "flash_part":"...", "current_vin":"...", "original_vin":"...", "part":"..."},
...
],
"details": [
{"ecu":"ABS","params":{"Param1":"Value1","Param2":"Value2", ...}},
...
]
}

Eksport do CSV/Excel (osobne arkusze Podsumowanie / Szczegóły) i/lub SQLite.

Kontrola jakości

Walidacje (obowiązkowe kolumny, liczba wierszy, unikalne ECU).

Logi i małe testy jednostkowe, aby łatwo utrzymać proces.

Wynik: reprodukowalny skrypt + instrukcja uruchomienia, gotowe pliki (JSON/CSV/Excel/SQLite).
Gotowa do wykonania w ciągu 3–4 dni. Koszt — uzgodnimy po doprecyzowaniu formatu finalnego eksportu i możliwych niuansów formatowania innych PDF.

Dziękuję!
Alla

Marcin Grzechnik

0 0

Zlecenia -
Ocena -
Ranking 124

Budżet: 500 PLN Termin: 4 dni

Proponowane podejście techniczne
1. Narzędzia i biblioteki:

PyMuPDF (fitz) lub pdfplumber do ekstrakcji tekstu z PDF
pandas do strukturyzacji danych tabelarycznych
re (regex) do identyfikacji wzorców i parsowania formatów NAME=VALUE
Niestandardowe funkcje do łączenia i normalizacji danych

2. Architektura rozwiązania:

Funkcja identyfikująca sekcje na podstawie "opornych" napisów
Parser dla głównych tabel z automatycznym wykrywaniem liczby rekordów
Moduł łączący dane z obu tabel głównych
Parser dla sekcji ECU DETAILS z elastycznym formatem NAME=VALUE
Generator dynamicznego obiektu (słownik/DataFrame) z pełną strukturą danych

3. Funkcjonalności:

Obsługa różnej liczby rekordów w tabelach
Elastyczne pozycjonowanie tabel w dokumencie
Walidacja i oczyszczanie danych
Export do formatów ułatwiających dalszą pracę (JSON, CSV, pickle)

Moje doświadczenie
Posiadam doświadczenie w:

Przetwarzaniu dokumentów PDF z wykorzystaniem Python
Parsowaniu i strukturyzacji danych z różnych formatów
Pracy z bibliotekami pandas, numpy i narzędziami do analizy danych
Tworzeniu skalowalnych rozwiązań do automatyzacji przetwarzania dokumentów

Oferuję:
✅ Kompletne rozwiązanie - gotowy skrypt Python z dokumentacją
✅ Elastyczność - kod adaptujący się do różnych struktur dokumentów
✅ Jakość kodu - czytelny, komentowany kod z obsługą błędów
✅ Testy - przykłady użycia i walidacja na dostarczonych plikach
✅ Wsparcie - pomoc przy implementacji i ewentualne modyfikacje

Jestem gotów rozpocząć pracę natychmiast.

Yurii Shtibel

8 0

Budżet: 500 PLN Termin: 2 dni

Jeśli trzeba potem łatwo pracować na Pythonie, w idealnym przypadku parsować do bazy danych, na przykład SQL Lite, jeśli chcesz, mogę sparsować do formatu xlsx Exel. Napisz do mnie w celu omówienia, mogę wykonać tę funkcjonalność.

Iryna Lytvyn

0 0

Zlecenia -
Ocena -
Ranking 328

Budżet: 500 PLN Termin: 2 dni

Cześć!
Przygotowałem w pełni działające rozwiązanie dla twojego zadania.

🔹 Skrypt **parse\_ecu\_pdf.py** napisany w Pythonie robi dokładnie to, co opisałeś:

* Odczytuje PDF (zarówno lokalny, jak i z linku) za pomocą PyMuPDF.
* Znajduje tabele **ECU SUMMARY INFO** i **ECU SUMMARY INFO (CONT...)**, parsuje je linia po linii.
* Znajduje bloki **ECU DETAILS** i zbiera pary `NAME=VALUE`.
* Łączy wszystko w dynamiczny obiekt: każdy wiersz podsumowania automatycznie uzupełniany jest słownikiem `details`.

🔹 Na wyjściu otrzymujemy gotową strukturę JSON, z którą łatwo pracować w Pythonie.

📌 Użycie:

```bash
python parse_ecu_pdf.py path/to/your_ecu_report.pdf
```

Na ekranie wyświetla się JSON z danymi dla każdego ECU.

Skrypt jest uniwersalny — liczba wierszy w tabelach może być dowolna, a położenie tabel (na początku lub na końcu PDF) nie ma znaczenia.

Jestem gotów się połączyć i pomóc ci z uruchomieniem, testami na twoim PDF i wszelkimi poprawkami.

Ihor Doronin

9 0

Budżet: 499 PLN Termin: 3 dni

Dzień dobry, Artem!
Ogólnie zadanie jest jasne, aby dokładnie odpowiedzieć na pytania dotyczące terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Piszesz w prywatnych wiadomościach — omówimy szczegóły i twoje życzenia.
P.S. Kieruję się twoim budżetem, ale myślę, że mogę zmieścić się w mniejszej kwocie — po wyjaśnieniu szczegółów zaproponuję dokładną cyfrę.

Denys Ternopolskyi

0 0

Zlecenia -
Ocena -
Ranking 309

Budżet: 500 PLN Termin: 1 dzień

Cześć, jestem gotów wykonać twoje zadanie jako praktykę w nauce, pisz na priv, omówimy wszystkie szczegóły, wszystkie szczegóły.

Tamara Ibrahim Sule A.

4 0

Budżet: 600 PLN Termin: 2 dni

Cześć!

Mogę stworzyć narzędzie w Pythonie, które odczytuje twoje pliki PDF, znajduje tabele ECU SUMMARY niezależnie od ich położenia w pliku i łączy je w jeden kompletny zbiór danych. Tuż po tym skrypt również zbierze tabele ECU DETAILS i powiąże każdy zestaw parametrów NAME=VALUE z odpowiednim wpisem ECU. W ten sposób otrzymasz jeden czysty obiekt, łączący wszystkie informacje, który można używać bezpośrednio w Pythonie lub przekształcić w DataFrame do analizy.

Nie będę zależał od numerów stron ani stałych pozycji. Zamiast tego skrypt będzie szukał etykiet referencyjnych i nazw sekcji, więc będzie działał nawet przy zmianie układu lub liczby wpisów. Ostateczna struktura będzie elastyczna, łatwa do zapytań i eksportu do JSON lub CSV do późniejszego użycia.

Dziękuję!

Andrii-Serhii Pavlenko

1 0

Zlecenia -
Ocena -
Ranking 232

Budżet: 500 PLN Termin: 1 dzień

Cześć, Artem!

Jestem programistą Pythona, mam duże doświadczenie w pracy z PDF.
W jakim formacie będzie Ci wygodnie pracować na wyjściu?

Pisz, omówimy Twój projekt!

Z poważaniem,
Andrij

Vladimir B

35 1

Budżet: 500 PLN Termin: 2 dni

Dobry wieczór. Pracowałem z pdf i robiłem podobne zadanie. Ale na php, pod vps na Linuksie. Tam są niuanse, nie wiem jak u was, ale czasami tabele nie idą w kolejności, i wtedy to będzie nieproste. Trzeba próbować.

Viktor Piven

18 3

Budżet: 500 PLN Termin: 1 dzień

Dobry wieczór, Artiom. Zajmuję się automatyzacją w Pythonie. Mogę opracować dla Ciebie parser z niezbędną funkcjonalnością, jako jedna z opcji, po przetworzeniu funkcja zwróci listę słowników []{} z którymi będziesz mógł dalej pracować w kodzie. Jeśli jesteś zainteresowany - pisz, z przyjemnością omówię szczegóły.

Oleksandr D.

70 1

Budżet: 500 PLN Termin: 3 dni

Cześć.
Mam doświadczenie w automatycznym wydobywaniu danych z pdf
Możemy omówić

Nazar Poturayko

1 0

Zlecenia -
Ocena -
Ranking 176

Budżet: 500 PLN Termin: 1 dzień

Dzień dobry! 👋

Dokładnie zapoznałem się z twoim zadaniem.
Mogę je wykonać szybko i w pełni zgodnie z twoimi wymaganiami.
Jest kilka kwestii, które chciałbym wyjaśnić.

Jestem gotów zacząć od razu po uzgodnieniu szczegółów.

Roman Z.

7 0

Budżet: 600 PLN Termin: 1 dzień

Dzień dobry!
Nazywam się Roman i jestem w czołówce 6 programistów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
Gwarantuję:
- Szybkie i jakościowe wykonanie zadania
- Ścisłe przestrzeganie terminów
- Regularny kontakt przez cały proces
Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.

Gustavo Gaviria Ivanov

0 0

Zlecenia -
Ocena -
Ranking 219

Budżet: 500 PLN Termin: 1 dzień

Już ukończyłem twoje zadanie—mogę to zademonstrować.

Artem Ro
Polska

Zleceń 1
Ocena -
Ranking 128

Parsowanie tekstowych PDF z tabelami

Artem Plakha

Karlen Abelyan

Bogdan Kovalenko

Alla Pankovska

Marcin Grzechnik

Yurii Shtibel

Iryna Lytvyn

Ihor Doronin

Denys Ternopolskyi

Tamara Ibrahim Sule A.

Andrii-Serhii Pavlenko

Vladimir B

Viktor Piven

Oleksandr D.

Nazar Poturayko

Roman Z.

Gustavo Gaviria Ivanov

Oferty ukryte

Aktualnie brak ofert

Aktualne zlecenia dla freelancerów w kategorii Parsowanie danych

Zbieranie kontaktów nowo utworzonych FOP-ów

Stworzenie stabilnego parsera/monitora cen i dostępności dla wymagającego sklepu RTV/AGD

System zarządzania asortymentem z elastycznym podziałem praw

Bot/program do parsowania kanałów, czatów w TG

Parsowanie cen i aktualność towarów