Mapowanie danych PDF na kolumny Excela z współrzędnymi
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
mam kilka plików pdf, każdy pdf jest w innym formacie, a ja potrzebuję aplikacji na Windows. ale każdy pdf ma ten sam typ danych, które potrzebuję, a dane powinny być eksportowane do tego samego pliku xl.
łącznie mam 5 plików pdf. każdy plik ma inny format.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Załączniki 2
-
1 dzień567 PLN
445 2 0 1 dzień567 PLNCześć, Adi Yancher
Mam nadzieję, że wszystko w porządku.
Fajna wyzwanie dla nowoczesnego programisty..
Najprostszym sposobem jest użycie bibliotek python dla twojego przypadku.
Zbadałem ten problem w pythonie. Fajnie. Ma pewne wady. A także rozmiar dystrybucji.
Zbadałem apache pdfbox dla javy. Bardziej zwięzłe wyniki.
… Nie ma potrzeby OCR-owania. Ale jeszcze nie zbadałem apache POI.
W każdym razie, powinna być graficzna interfejs użytkownika, zasady parsowania/mapowania oraz mapowanie tekstu do excela, a także wspólne szablony dokumentów pdf i tak dalej.
Może warto pomyśleć o usłudze internetowej dla innych użytkowników.
Rozwiązanie:
Platformy OS - gdzie java działa.
java, apache pdfbox 3 apache POI
Opcjonalnie: tesseract-ocr.
Opcjonalnie: tesseract-ocr. dodatkowe szkolenie modelu.
Będę wdzięczny za Twoje przemyślenia.
Z poważaniem.
-
7 dni757 PLN
316 7 dni757 PLNCześć! 👋
Cieszę się, że mogę pomóc w Twoim projekcie stworzenia potężnego i wydajnego skryptu/narzędzia do ekstrakcji danych w języku hebrajskim z plików PDF i przenoszenia ich do Excela. Oto dlaczego jestem idealnym kandydatem do tego zadania:
Dlaczego warto wybrać mnie?
Ekspertyza w OCR i automatyzacji:
Mam duże doświadczenie z Tesseract OCR, w tym pracę z obsługą języka hebrajskiego, co zapewnia wysoką dokładność w ekstrakcji tekstu.
Udokumentowane osiągnięcia w tworzeniu zautomatyzowanych narzędzi do złożonej ekstrakcji danych i mapowania.
… Bezproblemowe mapowanie danych:
Specjalizuję się w projektowaniu skryptów, które dokładnie identyfikują słowa kluczowe w plikach PDF i mapują je do odpowiednich kolumn Excela, zgodnie z wcześniej określonymi strukturami.
Mogę wdrożyć obsługę błędów dla brakujących lub niepoprawnych danych, zapewniając czysty i niezawodny wynik.
Dbałość o szczegóły:
Rozumiem znaczenie obsługi wielu planów pożyczkowych i analizowania złożonych pól, takich jak daty, stopy procentowe i miesięczne płatności (w tym symbole takie jak ₪).
Upewnię się, że Twój plik Excel jest profesjonalnie sformatowany i spełnia Twoje wymagania.
Efektywny przepływ pracy i komunikacja:
Pracuję szybko, nie rezygnując z jakości. Zadanie zostanie dostarczone na czas z aktualizacjami na każdym etapie.
Cenię sobie jasną komunikację i zapewnię, że narzędzie/skrypt będzie łatwe w użyciu i dostosowywalne do przyszłych potrzeb.
Mój plan realizacji Twojego zadania
Konfiguracja OCR:
Skonfiguruj Tesseract z obsługą języka hebrajskiego, aby efektywnie ekstraktować tekst z plików PDF.
Ekstrakcja danych i mapowanie:
Opracuj solidny skrypt do identyfikacji konkretnych pól, takich jak typ pożyczki, kwota, stopa procentowa, i mapuj je do odpowiednich kolumn Excela.
Obsługa błędów i formatowanie:
Zbuduj mechanizmy sprawdzania błędów, aby elegancko obsługiwać brakujące dane.
Sformatuj plik Excel z precyzją, zapewniając, że będzie zgodny z Twoimi specyfikacjami.
Dostawa i wsparcie:
Dostarcz w pełni funkcjonalny i przetestowany skrypt lub narzędzie.
Oferuj wsparcie po dostawie, aby zapewnić płynne wdrożenie i użytkowanie.
Zacznijmy!
Jestem pewny, że mogę dostarczyć wysokiej jakości rozwiązanie dostosowane do Twoich potrzeb. Porozmawiajmy o Twoich wymaganiach, a ja upewnię się, że ten projekt przekroczy Twoje oczekiwania. Czekam na współpracę z Tobą! 😊
-
7 dni757 PLN
5149 210 0 7 dni757 PLNCześć,
Mogę wdrożyć rozwiązanie dla Twojego projektu jako program .exe dla systemu Windows.
Jednak mam kilka pytań do omówienia:
- Czy wszystkie pliki PDF mają ten sam szablon co załączony plik?
- Aby lepiej zrozumieć powiązania informacji, czy mógłbyś nagrać wideo pokazujące, jak ręcznie wypełniasz plik Excel na podstawie pliku PDF?
Aktualne zlecenia dla freelancerów w kategorii Bazy danych i SQL
Należy sprawdzić skrypty i zaktualizować dane w bazie danych postgres.Konieczne jest poprawienie skryptów SQL dla bazy Postgres. Należy sprawdzić skrypty i zaktualizować dane z zewnętrznych tabel Excel oraz między dwoma bazami (różne serwery) Postgres. Uruchamianie skryptów przez program AnyDesk Navicat. Lista danych do sprawdzenia i korekty: 1.… Bazy danych i SQL ∙ 1 dzień 5 godzin temu ∙ 18 ofert |
Potrzebny architekt Airtable do zbudowania schematu relacyjnego i nowej czystej bazy AirtablePotrzebna pomoc w przemyśleniu i zbudowaniu czystiej schemy relacyjnej dla wewnętrznego systemu operacyjnego w Airtable. Obecna baza jest już używana przez zespół, ale rozwinęła się organicznie: struktura jest częściowo płaska, część tabel/widoków jest używana aktywnie, część… Bazy danych i SQL, Aplikacje desktopowe ∙ 1 dzień 22 godziny temu ∙ 9 ofert |
Platforma edukacyjna dla trenerów koszykówki + niestandardowy CMSPlatforma edukacyjna dla trenerów koszykówki + Custom CMSPrzegląd projektu Poszukujemy doświadczonego zespołu deweloperskiego lub programisty full-stack do zbudowania nowoczesnej platformy edukacyjnej dla trenerów koszykówki. Strona internetowa zapewni trenerom koszykówki dostęp… Bazy danych i SQL, Programowanie stron internetowych ∙ 2 dni 16 godzin temu ∙ 88 ofert |
Integracja Viber w 8.3
842 PLN
Potrzebna integracja Viber w własnym CRM (1C 8.3)O firmieFirma "Domofon System" zajmuje się instalacją i serwisowaniem systemów domofonowych.Baza ponad 40 000 abonentów.Pracujemy na własnym dopracowanym systemie opartym na 1C 8.3.Szukamy specjalisty lub zespołu do… Bazy danych i SQL, Tworzenie chatbota ∙ 2 dni 19 godzin temu ∙ 16 ofert |
Dopracowanie 1C UT 11 dla TSD Zebra (RDP): różne sygnały dźwiękowe podczas skanowania
84 PLN
Konfiguracja: 1C UT 11 Adresowy magazyn Terminal Zebra TC26 Praca przez RDP Skanowanie towarów odbywa się w dokumentach przyjęcia, umiejscowienia, selekcji oraz innych operacjach magazynowych. Aktualny problem: Magazynierzy pracują przez terminal Zebra. Podczas skanowania nie… C#, Bazy danych i SQL ∙ 4 dni 17 godzin temu ∙ 6 ofert |