Картографування даних PDF у стовпці Excel з координатами
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
У мене є кілька PDF-файлів, кожен PDF має різний формат, і я хочу програму для Windows. Але кожен PDF містить один і той же тип даних, які мені потрібні, і дані повинні бути експортовані в один і той же файл xl.
Всього у мене є 5 PDF-файлів. Кожен файл має різний формат.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Додатки 2
-
1 день6223 UAH
582 2 0 1 день6223 UAHПривіт, Аді Янчер
Сподіваюся, ти в порядку.
Цікаве завдання для сучасного програміста..
Найпростіший спосіб - використовувати бібліотеки python для твого випадку.
Досліджував це питання в python. Гарно. Має деякі недоліки. А також розмір дистрибуції.
Досліджував apache pdfbox для java. Більш стислі результати.
… Немає потреби в OCR. Але ще не досліджував apache POI.
У будь-якому випадку, має бути графічний інтерфейс користувача, правила парсингу/відображення, а також відображення тексту в excel, а також загальні шаблони pdf документів і так далі.
Можливо, варто подумати про веб-сервіс для інших користувачів.
Рішення:
ОС платформи - де працює java.
java, apache pdfbox 3 apache POI
Опціонально: tesseract-ocr.
Опціонально: tesseract-ocr. додаткове навчання моделі.
Буду радий почути твою думку.
З повагою.
Hello, Adi Yancher
Hope you are well.
Nice challenge for a modern programmer..
The simplest way is to use python libraries for your case.
Investigated this issue in python. Nice. Has some drawbacks. As well as distribution size.
Investigated apache pdfbox for java. More consize results.
… There is no need for OCR-ing. But not investigated apache POI yet.
Anyway, there should be a graphical user interface, parsing/mapping rules, and text to excel mapping as well as. common pdf document templates and so on.
May be thinking ahead for web-service for another users.
Solution:
OS platforms - where java is running on.
java, apache pdfbox 3 apache POI
Optionally: tesseract-ocr.
Optionally: tesseract-ocr. model extra training.
Will be glad to hear your mind.
With regards.
-
7 днів8298 UAH
262 7 днів8298 UAHПривіт! 👋
Я радий допомогти з вашим проектом створення потужного та ефективного скрипта/інструменту для витягування даних на івриті з PDF-файлів та їх заповнення в Excel. Ось чому я ідеально підходжу для цього завдання:
Чому обрати мене?
Експертиза в OCR та автоматизації:
У мене великий досвід роботи з Tesseract OCR, включаючи підтримку івриту, що забезпечує високу точність витягування тексту.
Доведений досвід створення автоматизованих інструментів для складного витягування даних та їх відображення.
… Бездоганне відображення даних:
Я спеціалізуюсь на розробці скриптів, які точно ідентифікують ключові слова в PDF-файлах та відображають їх у відповідних стовпцях Excel, дотримуючись попередньо визначених структур.
Я можу реалізувати обробку помилок для відсутніх або неправильних даних, забезпечуючи чистий та надійний вихід.
Увага до деталей:
Я розумію важливість обробки кількох кредитних планів та парсингу складних полів, таких як дати, процентні ставки та щомісячні платежі (включаючи символи, такі як ₪).
Я подбаю про те, щоб ваш вихідний файл Excel був професійно оформлений і відповідав вашим вимогам.
Ефективний робочий процес та комунікація:
Я працюю швидко, не жертвуючи якістю. Завдання буде виконано вчасно з оновленнями на кожному етапі.
Я ціную чітку комунікацію і забезпечу, щоб інструмент/скрипт був простим у використанні та налаштуванні для майбутніх потреб.
Мій план виконання вашого завдання
Налаштування OCR:
Налаштувати Tesseract з підтримкою івриту для ефективного витягування тексту з PDF-файлів.
Витягування даних та відображення:
Розробити надійний скрипт для ідентифікації конкретних полів, таких як тип кредиту, сума, процентна ставка, та відобразити їх у відповідних стовпцях Excel.
Обробка помилок та форматування:
Створити механізми перевірки помилок для коректної обробки відсутніх даних.
Форматувати вихідний файл Excel з точністю, забезпечуючи відповідність вашим специфікаціям.
Доставка та підтримка:
Надати повністю функціональний та протестований скрипт або інструмент.
Запропонувати підтримку після доставки для забезпечення безперебійної інтеграції та використання.
Давайте почнемо!
Я впевнений, що можу запропонувати рішення високої якості, адаптоване до ваших потреб. Давайте обговоримо ваші вимоги детальніше, і я подбаю про те, щоб цей проект перевершив ваші очікування. Я з нетерпінням чекаю співпраці з вами! 😊
Hello! 👋
I am excited to assist with your project of creating a powerful and efficient script/tool for extracting Hebrew-language data from PDF files and populating it into Excel. Here's why I'm the perfect fit for this task:
Why Choose Me?
Expertise in OCR and Automation:
I have extensive experience with Tesseract OCR, including working with Hebrew-language support, ensuring high accuracy in text extraction.
Proven track record in creating automated tools for complex data extraction and mapping.
… Flawless Data Mapping:
I specialize in designing scripts that accurately identify keywords in PDFs and map them to the correct Excel columns, following predefined structures.
I can implement error handling for missing or incorrect data, ensuring clean and reliable output.
Attention to Detail:
I understand the importance of handling multiple loan plans and parsing complex fields like dates, interest rates, and monthly payments (including symbols like ₪).
I'll make sure your Excel output is professionally formatted and meets your requirements.
Efficient Workflow and Communication:
I work quickly without compromising quality. The task will be delivered on time with updates at every stage.
I value clear communication and will ensure the tool/script is easy to use and customizable for future needs.
My Plan to Execute Your Task
OCR Setup:
Configure Tesseract with Hebrew language support to extract text efficiently from PDF files.
Data Extraction and Mapping:
Develop a robust script to identify specific fields like Loan Type, Amount, Interest Rate, and map them to their respective Excel columns.
Error Handling and Formatting:
Build error-checking mechanisms to handle missing data gracefully.
Format the output Excel file with precision, ensuring it aligns with your specifications.
Delivery and Support:
Provide a fully functional and tested script or tool.
Offer post-delivery support to ensure seamless integration and use.
Let’s Get Started!
I’m confident that I can deliver a high-quality solution tailored to your needs. Let’s discuss your requirements further, and I’ll make sure this project exceeds your expectations. I look forward to collaborating with you! 😊
-
7 днів8298 UAH
5025 198 0 7 днів8298 UAHПривіт,
Я можу реалізувати рішення для вашого проекту у вигляді програми .exe для Windows.
Однак у мене є кілька запитань для обговорення:
- Чи всі PDF файли відповідають одному й тому ж шаблону, як прикріплений файл?
- Щоб краще зрозуміти інформаційні зв'язки, чи могли б ви записати відео, на якому показано, як ви вручну заповнюєте файл Excel на основі PDF файлу?
Hello,
I can implement a solution for your project as a .exe program for Windows.
However, I have a few questions to discuss:
- Do all PDF files follow the same template as the attached file?
- To better understand the information connections, could you record a video showing how you manually fill in an Excel file based on a PDF file?
-
7 днів8298 UAH
477 2 0 7 днів8298 UAHПривіт, завдання зрозуміле, і я готовий його виконати. Чекаю на співпрацю з вами!
Hello, the task is clear, and I’m ready to take it on. I look forward to collaborating with you!
Актуальні фриланс-проєкти в категорії Python
Модуль fastapi (python) для перекладів Toncoin
4500 UAH
Нужно дописати функціонал для проєкту на fastapi (python) для формування та відправки транзакцій в TON за допомогою pytoniq. Проєкт: Користувачі залишають заявки на вивід в TON з записом в бд. Дані заявки виконуються через 21 день. Workflow: Після появи нових коштів (або за… Python, Криптовалюта та blockchain ∙ 43 хвилини тому |
Python + Selenium. Антикапча. Парсинг гугл пошук.
2000 UAH
Вітаю. Детально дам лог з проблемою, тому хто напише в ставці. Задача для того хто мав досвід з ботами/парсерами які працювали на Selenium і робили запит в гугл пошук і використовували сервіс антикапчі. Маю парсера на Phyton, запити робить через aiohttp. Має локальний хост. Він… Python, Парсинг даних ∙ 3 години 12 хвилин тому ∙ 4 ставки |
Абітражноа система з керуванням через Telegram**Технічне завдання для розробки арбітражної системи з керуванням через Telegram** ### **Короткий опис** Потрібно створити автоматизовану систему для арбітражу між криптобіржами (MEXC, Gate.io), яка: 1. Аналізує сигнали з Telegram-каналу та відкриває/закриває позиції на… Python, Розробка ботів ∙ 4 години 54 хвилини тому ∙ 3 ставки |
Інтеграція Django з aiogramЄ проект на Django, коротко - CRM для адміністраторів ТГ каналів. Є реалізований функціонал планування постів у календарі, потрібно інтегрувати відправку поста в телеграм. Вже є мінімальна панель з ботами, завдання проекту - зв'язати її з панеллю каналів, і організувати… Python, Розробка ботів ∙ 6 годин 35 хвилин тому ∙ 3 ставки |
Python-розробник для проєкту
11 000 UAH
Шукаю Python-розробника з досвідом створення REST API на FastAPI та інтеграції нейромереж (DECA, SMPL/SMPL-X, StyleGAN) для генерації 3D-аватарів. Знання Blender API для конвертації моделей у формат .glb обов'язкове. Якщо ви є таким розробником, почніть своє повідомлення з… Python, Веб-програмування ∙ 8 годин 55 хвилин тому ∙ 3 ставки |