Mapowanie danych PDF na kolumny Excela z współrzędnymi
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
mam kilka plików pdf, każdy pdf jest w innym formacie, a ja potrzebuję aplikacji na Windows. ale każdy pdf ma ten sam typ danych, które potrzebuję, a dane powinny być eksportowane do tego samego pliku xl.
łącznie mam 5 plików pdf. każdy plik ma inny format.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Załączniki 2
-
1 dzień609 PLN
582 2 0 1 dzień609 PLNCześć, Adi Yancher
Mam nadzieję, że wszystko w porządku.
Fajna wyzwanie dla nowoczesnego programisty..
Najprostszym sposobem jest użycie bibliotek python dla twojego przypadku.
Zbadałem ten problem w pythonie. Fajnie. Ma pewne wady. A także rozmiar dystrybucji.
Zbadałem apache pdfbox dla javy. Bardziej zwięzłe wyniki.
… Nie ma potrzeby OCR-owania. Ale jeszcze nie zbadałem apache POI.
W każdym razie, powinna być graficzna interfejs użytkownika, zasady parsowania/mapowania oraz mapowanie tekstu do excela, a także wspólne szablony dokumentów pdf i tak dalej.
Może warto pomyśleć o usłudze internetowej dla innych użytkowników.
Rozwiązanie:
Platformy OS - gdzie java działa.
java, apache pdfbox 3 apache POI
Opcjonalnie: tesseract-ocr.
Opcjonalnie: tesseract-ocr. dodatkowe szkolenie modelu.
Będę wdzięczny za Twoje przemyślenia.
Z poważaniem.
Hello, Adi Yancher
Hope you are well.
Nice challenge for a modern programmer..
The simplest way is to use python libraries for your case.
Investigated this issue in python. Nice. Has some drawbacks. As well as distribution size.
Investigated apache pdfbox for java. More consize results.
… There is no need for OCR-ing. But not investigated apache POI yet.
Anyway, there should be a graphical user interface, parsing/mapping rules, and text to excel mapping as well as. common pdf document templates and so on.
May be thinking ahead for web-service for another users.
Solution:
OS platforms - where java is running on.
java, apache pdfbox 3 apache POI
Optionally: tesseract-ocr.
Optionally: tesseract-ocr. model extra training.
Will be glad to hear your mind.
With regards.
-
7 dni812 PLN
262 7 dni812 PLNCześć! 👋
Cieszę się, że mogę pomóc w Twoim projekcie stworzenia potężnego i wydajnego skryptu/narzędzia do ekstrakcji danych w języku hebrajskim z plików PDF i przenoszenia ich do Excela. Oto dlaczego jestem idealnym kandydatem do tego zadania:
Dlaczego warto wybrać mnie?
Ekspertyza w OCR i automatyzacji:
Mam duże doświadczenie z Tesseract OCR, w tym pracę z obsługą języka hebrajskiego, co zapewnia wysoką dokładność w ekstrakcji tekstu.
Udokumentowane osiągnięcia w tworzeniu zautomatyzowanych narzędzi do złożonej ekstrakcji danych i mapowania.
… Bezproblemowe mapowanie danych:
Specjalizuję się w projektowaniu skryptów, które dokładnie identyfikują słowa kluczowe w plikach PDF i mapują je do odpowiednich kolumn Excela, zgodnie z wcześniej określonymi strukturami.
Mogę wdrożyć obsługę błędów dla brakujących lub niepoprawnych danych, zapewniając czysty i niezawodny wynik.
Dbałość o szczegóły:
Rozumiem znaczenie obsługi wielu planów pożyczkowych i analizowania złożonych pól, takich jak daty, stopy procentowe i miesięczne płatności (w tym symbole takie jak ₪).
Upewnię się, że Twój plik Excel jest profesjonalnie sformatowany i spełnia Twoje wymagania.
Efektywny przepływ pracy i komunikacja:
Pracuję szybko, nie rezygnując z jakości. Zadanie zostanie dostarczone na czas z aktualizacjami na każdym etapie.
Cenię sobie jasną komunikację i zapewnię, że narzędzie/skrypt będzie łatwe w użyciu i dostosowywalne do przyszłych potrzeb.
Mój plan realizacji Twojego zadania
Konfiguracja OCR:
Skonfiguruj Tesseract z obsługą języka hebrajskiego, aby efektywnie ekstraktować tekst z plików PDF.
Ekstrakcja danych i mapowanie:
Opracuj solidny skrypt do identyfikacji konkretnych pól, takich jak typ pożyczki, kwota, stopa procentowa, i mapuj je do odpowiednich kolumn Excela.
Obsługa błędów i formatowanie:
Zbuduj mechanizmy sprawdzania błędów, aby elegancko obsługiwać brakujące dane.
Sformatuj plik Excel z precyzją, zapewniając, że będzie zgodny z Twoimi specyfikacjami.
Dostawa i wsparcie:
Dostarcz w pełni funkcjonalny i przetestowany skrypt lub narzędzie.
Oferuj wsparcie po dostawie, aby zapewnić płynne wdrożenie i użytkowanie.
Zacznijmy!
Jestem pewny, że mogę dostarczyć wysokiej jakości rozwiązanie dostosowane do Twoich potrzeb. Porozmawiajmy o Twoich wymaganiach, a ja upewnię się, że ten projekt przekroczy Twoje oczekiwania. Czekam na współpracę z Tobą! 😊
Hello! 👋
I am excited to assist with your project of creating a powerful and efficient script/tool for extracting Hebrew-language data from PDF files and populating it into Excel. Here's why I'm the perfect fit for this task:
Why Choose Me?
Expertise in OCR and Automation:
I have extensive experience with Tesseract OCR, including working with Hebrew-language support, ensuring high accuracy in text extraction.
Proven track record in creating automated tools for complex data extraction and mapping.
… Flawless Data Mapping:
I specialize in designing scripts that accurately identify keywords in PDFs and map them to the correct Excel columns, following predefined structures.
I can implement error handling for missing or incorrect data, ensuring clean and reliable output.
Attention to Detail:
I understand the importance of handling multiple loan plans and parsing complex fields like dates, interest rates, and monthly payments (including symbols like ₪).
I'll make sure your Excel output is professionally formatted and meets your requirements.
Efficient Workflow and Communication:
I work quickly without compromising quality. The task will be delivered on time with updates at every stage.
I value clear communication and will ensure the tool/script is easy to use and customizable for future needs.
My Plan to Execute Your Task
OCR Setup:
Configure Tesseract with Hebrew language support to extract text efficiently from PDF files.
Data Extraction and Mapping:
Develop a robust script to identify specific fields like Loan Type, Amount, Interest Rate, and map them to their respective Excel columns.
Error Handling and Formatting:
Build error-checking mechanisms to handle missing data gracefully.
Format the output Excel file with precision, ensuring it aligns with your specifications.
Delivery and Support:
Provide a fully functional and tested script or tool.
Offer post-delivery support to ensure seamless integration and use.
Let’s Get Started!
I’m confident that I can deliver a high-quality solution tailored to your needs. Let’s discuss your requirements further, and I’ll make sure this project exceeds your expectations. I look forward to collaborating with you! 😊
-
7 dni812 PLN
5025 198 0 7 dni812 PLNCześć,
Mogę wdrożyć rozwiązanie dla Twojego projektu jako program .exe dla systemu Windows.
Jednak mam kilka pytań do omówienia:
- Czy wszystkie pliki PDF mają ten sam szablon co załączony plik?
- Aby lepiej zrozumieć powiązania informacji, czy mógłbyś nagrać wideo pokazujące, jak ręcznie wypełniasz plik Excel na podstawie pliku PDF?
Hello,
I can implement a solution for your project as a .exe program for Windows.
However, I have a few questions to discuss:
- Do all PDF files follow the same template as the attached file?
- To better understand the information connections, could you record a video showing how you manually fill in an Excel file based on a PDF file?
-
7 dni812 PLN
477 2 0 7 dni812 PLNCześć, zadanie jest jasne i jestem gotów je podjąć. Czekam na współpracę z tobą!
Hello, the task is clear, and I’m ready to take it on. I look forward to collaborating with you!
Aktualne projekty freelancerskie w kategorii Bazy danych i SQL
Rozwój backendu Nest.js dla mobilnej gry online
2643 PLN
O projekcie: Backend dla mobilnej gry 2D online z walkami 1 na 1 w czasie rzeczywistym między graczami. Projekt zakłada wykorzystanie socket.io do natychmiastowego przesyłania wydarzeń w grze, opracowania logiki zdobywania zasobów, rankingów oraz osiągnięć, a także czatu online… Bazy danych i SQL, Tworzenie gier ∙ 3 godziny 43 minuty temu |
Skonwertować bazę Firebird 2.5 na Firebird 3.0
49 PLN
Mamy plik bazy, który działa z Firebird 2.5 i z nim działa program na Windowsie Carstore, chcemy skonwertować bazę do nowszej wersji 3.0 i wyższej, aby mogła działać z PHP, a jednocześnie pozostała kompatybilna z Carstore. PHP, Bazy danych i SQL ∙ 13 godzin 38 minut temu ∙ 2 oferty |
Administrator systemu
49 PLN
Umiejętność pracy z Parallels Desktop. 1. przypadkowo usunęłam plik, nie ma go w koszu, trzeba przywrócić go z poprzedniego dnia 2. skonfigurować kopie zapasowe z Parallels Desktop na dysku Google 3. wyczyścić pamięć Bazy danych i SQL, Aplikacje desktopowe ∙ 1 dzień 3 godziny temu ∙ 2 oferty |
Automatyzacja tworzenia kart produktów na marketplace'ach Prom i RozetkaPotrzebne jest opracowanie skryptu do automatycznego tworzenia kart produktów dla marketplace'u Prom.ua i Rozetka. Skrypt ma pobierać dane z tabeli (Google Sheets / Excel / Baza Danych SQL) i formować kartę produktu w formacie Google Docs / CSV / JSON / XML, który można… Python, Bazy danych i SQL ∙ 1 dzień 4 godziny temu ∙ 6 ofert |
Modyfikacja pliku Excel do wynajmu samochodów: integracja kalendarza i automatyczne obliczanie datPosiadam plik Excel z obliczeniami wynajmu samochodów, w którym już działają formuły obliczeniowe. Jednak należy dodać kilka funkcji dla ułatwienia pracy: Integracja wyboru dat: Konieczne jest wdrożenie możliwości wyboru dat za pomocą kalendarza (Date Picker) dla każdego… Bazy danych i SQL, Parsowanie danych ∙ 1 dzień 11 godzin temu ∙ 9 ofert |