Mapowanie danych PDF na kolumny Excela z współrzędnymi
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
mam kilka plików pdf, każdy pdf jest w innym formacie, a ja potrzebuję aplikacji na Windows. ale każdy pdf ma ten sam typ danych, które potrzebuję, a dane powinny być eksportowane do tego samego pliku xl.
łącznie mam 5 plików pdf. każdy plik ma inny format.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Załączniki 2
-
1 dzień547 PLN
469 2 0 1 dzień547 PLNCześć, Adi Yancher
Mam nadzieję, że wszystko w porządku.
Fajna wyzwanie dla nowoczesnego programisty..
Najprostszym sposobem jest użycie bibliotek python dla twojego przypadku.
Zbadałem ten problem w pythonie. Fajnie. Ma pewne wady. A także rozmiar dystrybucji.
Zbadałem apache pdfbox dla javy. Bardziej zwięzłe wyniki.
… Nie ma potrzeby OCR-owania. Ale jeszcze nie zbadałem apache POI.
W każdym razie, powinna być graficzna interfejs użytkownika, zasady parsowania/mapowania oraz mapowanie tekstu do excela, a także wspólne szablony dokumentów pdf i tak dalej.
Może warto pomyśleć o usłudze internetowej dla innych użytkowników.
Rozwiązanie:
Platformy OS - gdzie java działa.
java, apache pdfbox 3 apache POI
Opcjonalnie: tesseract-ocr.
Opcjonalnie: tesseract-ocr. dodatkowe szkolenie modelu.
Będę wdzięczny za Twoje przemyślenia.
Z poważaniem.
-
7 dni729 PLN
316 7 dni729 PLNCześć! 👋
Cieszę się, że mogę pomóc w Twoim projekcie stworzenia potężnego i wydajnego skryptu/narzędzia do ekstrakcji danych w języku hebrajskim z plików PDF i przenoszenia ich do Excela. Oto dlaczego jestem idealnym kandydatem do tego zadania:
Dlaczego warto wybrać mnie?
Ekspertyza w OCR i automatyzacji:
Mam duże doświadczenie z Tesseract OCR, w tym pracę z obsługą języka hebrajskiego, co zapewnia wysoką dokładność w ekstrakcji tekstu.
Udokumentowane osiągnięcia w tworzeniu zautomatyzowanych narzędzi do złożonej ekstrakcji danych i mapowania.
… Bezproblemowe mapowanie danych:
Specjalizuję się w projektowaniu skryptów, które dokładnie identyfikują słowa kluczowe w plikach PDF i mapują je do odpowiednich kolumn Excela, zgodnie z wcześniej określonymi strukturami.
Mogę wdrożyć obsługę błędów dla brakujących lub niepoprawnych danych, zapewniając czysty i niezawodny wynik.
Dbałość o szczegóły:
Rozumiem znaczenie obsługi wielu planów pożyczkowych i analizowania złożonych pól, takich jak daty, stopy procentowe i miesięczne płatności (w tym symbole takie jak ₪).
Upewnię się, że Twój plik Excel jest profesjonalnie sformatowany i spełnia Twoje wymagania.
Efektywny przepływ pracy i komunikacja:
Pracuję szybko, nie rezygnując z jakości. Zadanie zostanie dostarczone na czas z aktualizacjami na każdym etapie.
Cenię sobie jasną komunikację i zapewnię, że narzędzie/skrypt będzie łatwe w użyciu i dostosowywalne do przyszłych potrzeb.
Mój plan realizacji Twojego zadania
Konfiguracja OCR:
Skonfiguruj Tesseract z obsługą języka hebrajskiego, aby efektywnie ekstraktować tekst z plików PDF.
Ekstrakcja danych i mapowanie:
Opracuj solidny skrypt do identyfikacji konkretnych pól, takich jak typ pożyczki, kwota, stopa procentowa, i mapuj je do odpowiednich kolumn Excela.
Obsługa błędów i formatowanie:
Zbuduj mechanizmy sprawdzania błędów, aby elegancko obsługiwać brakujące dane.
Sformatuj plik Excel z precyzją, zapewniając, że będzie zgodny z Twoimi specyfikacjami.
Dostawa i wsparcie:
Dostarcz w pełni funkcjonalny i przetestowany skrypt lub narzędzie.
Oferuj wsparcie po dostawie, aby zapewnić płynne wdrożenie i użytkowanie.
Zacznijmy!
Jestem pewny, że mogę dostarczyć wysokiej jakości rozwiązanie dostosowane do Twoich potrzeb. Porozmawiajmy o Twoich wymaganiach, a ja upewnię się, że ten projekt przekroczy Twoje oczekiwania. Czekam na współpracę z Tobą! 😊
-
7 dni729 PLN
5195 210 0 7 dni729 PLNCześć,
Mogę wdrożyć rozwiązanie dla Twojego projektu jako program .exe dla systemu Windows.
Jednak mam kilka pytań do omówienia:
- Czy wszystkie pliki PDF mają ten sam szablon co załączony plik?
- Aby lepiej zrozumieć powiązania informacji, czy mógłbyś nagrać wideo pokazujące, jak ręcznie wypełniasz plik Excel na podstawie pliku PDF?
Aktualne zlecenia dla freelancerów w kategorii Bazy danych i SQL
Potrzebny specjalista Power BI do budowy raportów zarządzających na podstawie BAS Księgowość KORPO firmieJesteśmy dystrybutorem międzynarodowych marek sportowych w Ukrainie. Księgowość prowadzona jest w BAS Księgowość KORP.Szukamy specjalisty, który pomoże zbudować system raportowania zarządczego dla kierownictwa firmy na bazie Power BI.Ważne: interesuje nas nie tylko… Bazy danych i SQL, Usługi księgowe ∙ 18 godzin 20 minut temu ∙ 3 oferty |
Specjalista ds. Excela / automatyzacji procesów (Excel + mile widziane programowanie)Szukamy specjalisty z ZAAWANSOWANYMI umiejętnościami Excel do optymalizacji istniejącego pliku i automatyzacji procesów. Wielką zaletą będzie, jeśli masz również umiejętności programowania / VBA / Power Query / Power Automate lub doświadczenie w tworzeniu złożonej logiki w… Python, Bazy danych i SQL ∙ 20 godzin 12 minut temu ∙ 32 oferty |
Zadanie techniczne: Integracja bota czatu Telegram z BAS1. Ogólny opis Należy zrealizować integrację chatbota z systemem BAS w celu przesyłania i rejestrowania danych o towarach (zamówieniach). 2. Dane wejściowe (przesyłane przez chatbota): ID grupy Nazwa towaru (z kodem towaru) Cena towaru 3. Logika działania: Po naciśnięciu… Automatyzacja zarządzania przedsiębiorstwem, Bazy danych i SQL ∙ 21 godzin 18 minut temu ∙ 16 ofert |
Integracja danych 1CZorganizować jakościowe przygotowanie i transfer danych z 1C do BigQuery do dalszego wykorzystania w Looker:Zorganizować dane zgodnie z tym, jakie pola są potrzebne.Przygotować zrozumiałą strukturę tabel i pośrednich zbiorów danych, na których będą budowane… Bazy danych i SQL, Obróbka danych ∙ 2 dni 12 godzin temu ∙ 9 ofert |
Opracowanie prostego systemu controllingu i ewidencji zarządczej w Google Sheets „pod klucz”Nazwa zadania: Opracowanie prostego systemu controllingu i ewidencji zarządczej w Google Sheets „pod klucz” dla firmy budowlanej w Polsce (+ szkolenie online oraz pomoc przy wdrożeniu) O firmie, kontekście i moim głównym problemie Dzień dobry, Poszukuję doświadczonego… Bazy danych i SQL, Usługi księgowe ∙ 3 dni 17 godzin temu ∙ 35 ofert |