Картографування даних PDF у стовпці Excel з координатами
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
У мене є кілька PDF-файлів, кожен PDF має різний формат, і я хочу програму для Windows. Але кожен PDF містить один і той же тип даних, які мені потрібні, і дані повинні бути експортовані в один і той же файл xl.
Всього у мене є 5 PDF-файлів. Кожен файл має різний формат.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Додатки 2
-
1 день6738 UAH
445 2 0 1 день6738 UAHПривіт, Аді Янчер
Сподіваюся, ти в порядку.
Цікаве завдання для сучасного програміста..
Найпростіший спосіб - використовувати бібліотеки python для твого випадку.
Досліджував це питання в python. Гарно. Має деякі недоліки. А також розмір дистрибуції.
Досліджував apache pdfbox для java. Більш стислі результати.
… Немає потреби в OCR. Але ще не досліджував apache POI.
У будь-якому випадку, має бути графічний інтерфейс користувача, правила парсингу/відображення, а також відображення тексту в excel, а також загальні шаблони pdf документів і так далі.
Можливо, варто подумати про веб-сервіс для інших користувачів.
Рішення:
ОС платформи - де працює java.
java, apache pdfbox 3 apache POI
Опціонально: tesseract-ocr.
Опціонально: tesseract-ocr. додаткове навчання моделі.
Буду радий почути твою думку.
З повагою.
-
7 днів8985 UAH
316 7 днів8985 UAHПривіт! 👋
Я радий допомогти з вашим проектом створення потужного та ефективного скрипта/інструменту для витягування даних на івриті з PDF-файлів та їх заповнення в Excel. Ось чому я ідеально підходжу для цього завдання:
Чому обрати мене?
Експертиза в OCR та автоматизації:
У мене великий досвід роботи з Tesseract OCR, включаючи підтримку івриту, що забезпечує високу точність витягування тексту.
Доведений досвід створення автоматизованих інструментів для складного витягування даних та їх відображення.
… Бездоганне відображення даних:
Я спеціалізуюсь на розробці скриптів, які точно ідентифікують ключові слова в PDF-файлах та відображають їх у відповідних стовпцях Excel, дотримуючись попередньо визначених структур.
Я можу реалізувати обробку помилок для відсутніх або неправильних даних, забезпечуючи чистий та надійний вихід.
Увага до деталей:
Я розумію важливість обробки кількох кредитних планів та парсингу складних полів, таких як дати, процентні ставки та щомісячні платежі (включаючи символи, такі як ₪).
Я подбаю про те, щоб ваш вихідний файл Excel був професійно оформлений і відповідав вашим вимогам.
Ефективний робочий процес та комунікація:
Я працюю швидко, не жертвуючи якістю. Завдання буде виконано вчасно з оновленнями на кожному етапі.
Я ціную чітку комунікацію і забезпечу, щоб інструмент/скрипт був простим у використанні та налаштуванні для майбутніх потреб.
Мій план виконання вашого завдання
Налаштування OCR:
Налаштувати Tesseract з підтримкою івриту для ефективного витягування тексту з PDF-файлів.
Витягування даних та відображення:
Розробити надійний скрипт для ідентифікації конкретних полів, таких як тип кредиту, сума, процентна ставка, та відобразити їх у відповідних стовпцях Excel.
Обробка помилок та форматування:
Створити механізми перевірки помилок для коректної обробки відсутніх даних.
Форматувати вихідний файл Excel з точністю, забезпечуючи відповідність вашим специфікаціям.
Доставка та підтримка:
Надати повністю функціональний та протестований скрипт або інструмент.
Запропонувати підтримку після доставки для забезпечення безперебійної інтеграції та використання.
Давайте почнемо!
Я впевнений, що можу запропонувати рішення високої якості, адаптоване до ваших потреб. Давайте обговоримо ваші вимоги детальніше, і я подбаю про те, щоб цей проект перевершив ваші очікування. Я з нетерпінням чекаю співпраці з вами! 😊
-
7 днів8985 UAH
5149 210 0 7 днів8985 UAHПривіт,
Я можу реалізувати рішення для вашого проекту у вигляді програми .exe для Windows.
Однак у мене є кілька запитань для обговорення:
- Чи всі PDF файли відповідають одному й тому ж шаблону, як прикріплений файл?
- Щоб краще зрозуміти інформаційні зв'язки, чи могли б ви записати відео, на якому показано, як ви вручну заповнюєте файл Excel на основі PDF файлу?
Актуальні фриланс-проєкти в категорії Python
Створення Тік-ток ферми з генерацією доходу
27 000 UAH
в пошуках людини, яка може написати софт для ферми Тік Ток, щоб ми змогли генерувати трафік, отримувати дохід. Шукаємо готове рішення з повним циклом. Python, Розробка ботів ∙ 1 день 17 годин тому ∙ 15 ставок |
AI Коментуюча Платформа для TikTok та Instagram.Мета проекту Розробити систему, яка дозволяє керувати великою кількістю акаунтів TikTok та Instagram і автоматично публікувати релевантні коментарі під вибраними відео з використанням ШІ. Основний функціонал1. Управління акаунтами Необхідно реалізувати можливість підключення… AI та машинне навчання, Python ∙ 3 дні 1 година тому ∙ 22 ставки |
Побудувути модель калсифікації клієнтів1. Є дані клієнтів в Mongo/SQL (приблизно 20 000 заисів із сирими даними). 2. Необхідно на їх основі побудувати фічі та модель класифікації клієнтв на поведінкові групи. 3. Проект виконати на Python. AI та машинне навчання, Python ∙ 4 дні 19 годин тому ∙ 43 ставки |
ІТ Автоматизація ведення VAT- звітності
10 000 UAH
Необхідно розробити систему для автоматизації перенесення даних про продажі з CRM у бухгалтерську систему Wafeq. Система має імпортувати банківські та платіжні звіти, автоматично звіряти платежі з інвойсами, формувати інвойси для VAT-звітності та мінімізувати ручну роботу.… AI та машинне навчання, Python ∙ 5 днів тому ∙ 51 ставка |
Інструмент звірки рахунків з банком, картами та бухгалтеромТехнічне завдання: інструмент звірки рахунків з банком, картами та бухгалтеромЗагальна метаПотрібен локальний інструмент (скрипт/невеликий додаток на Python), який запускається вручну раз на 1-2 місяці на моєму комп'ютері і робить звірку між:Рахунками, які я виставив клієнтам і… Python, Десктопні додатки ∙ 5 днів 13 годин тому ∙ 43 ставки |