Картографування даних PDF у стовпці Excel з координатами
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
У мене є кілька PDF-файлів, кожен PDF має різний формат, і я хочу програму для Windows. Але кожен PDF містить один і той же тип даних, які мені потрібні, і дані повинні бути експортовані в один і той же файл xl.
Всього у мене є 5 PDF-файлів. Кожен файл має різний формат.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Додатки 2
-
1 день6652 UAH
469 2 0 1 день6652 UAHПривіт, Аді Янчер
Сподіваюся, ти в порядку.
Цікаве завдання для сучасного програміста..
Найпростіший спосіб - використовувати бібліотеки python для твого випадку.
Досліджував це питання в python. Гарно. Має деякі недоліки. А також розмір дистрибуції.
Досліджував apache pdfbox для java. Більш стислі результати.
… Немає потреби в OCR. Але ще не досліджував apache POI.
У будь-якому випадку, має бути графічний інтерфейс користувача, правила парсингу/відображення, а також відображення тексту в excel, а також загальні шаблони pdf документів і так далі.
Можливо, варто подумати про веб-сервіс для інших користувачів.
Рішення:
ОС платформи - де працює java.
java, apache pdfbox 3 apache POI
Опціонально: tesseract-ocr.
Опціонально: tesseract-ocr. додаткове навчання моделі.
Буду радий почути твою думку.
З повагою.
-
7 днів8870 UAH
316 7 днів8870 UAHПривіт! 👋
Я радий допомогти з вашим проектом створення потужного та ефективного скрипта/інструменту для витягування даних на івриті з PDF-файлів та їх заповнення в Excel. Ось чому я ідеально підходжу для цього завдання:
Чому обрати мене?
Експертиза в OCR та автоматизації:
У мене великий досвід роботи з Tesseract OCR, включаючи підтримку івриту, що забезпечує високу точність витягування тексту.
Доведений досвід створення автоматизованих інструментів для складного витягування даних та їх відображення.
… Бездоганне відображення даних:
Я спеціалізуюсь на розробці скриптів, які точно ідентифікують ключові слова в PDF-файлах та відображають їх у відповідних стовпцях Excel, дотримуючись попередньо визначених структур.
Я можу реалізувати обробку помилок для відсутніх або неправильних даних, забезпечуючи чистий та надійний вихід.
Увага до деталей:
Я розумію важливість обробки кількох кредитних планів та парсингу складних полів, таких як дати, процентні ставки та щомісячні платежі (включаючи символи, такі як ₪).
Я подбаю про те, щоб ваш вихідний файл Excel був професійно оформлений і відповідав вашим вимогам.
Ефективний робочий процес та комунікація:
Я працюю швидко, не жертвуючи якістю. Завдання буде виконано вчасно з оновленнями на кожному етапі.
Я ціную чітку комунікацію і забезпечу, щоб інструмент/скрипт був простим у використанні та налаштуванні для майбутніх потреб.
Мій план виконання вашого завдання
Налаштування OCR:
Налаштувати Tesseract з підтримкою івриту для ефективного витягування тексту з PDF-файлів.
Витягування даних та відображення:
Розробити надійний скрипт для ідентифікації конкретних полів, таких як тип кредиту, сума, процентна ставка, та відобразити їх у відповідних стовпцях Excel.
Обробка помилок та форматування:
Створити механізми перевірки помилок для коректної обробки відсутніх даних.
Форматувати вихідний файл Excel з точністю, забезпечуючи відповідність вашим специфікаціям.
Доставка та підтримка:
Надати повністю функціональний та протестований скрипт або інструмент.
Запропонувати підтримку після доставки для забезпечення безперебійної інтеграції та використання.
Давайте почнемо!
Я впевнений, що можу запропонувати рішення високої якості, адаптоване до ваших потреб. Давайте обговоримо ваші вимоги детальніше, і я подбаю про те, щоб цей проект перевершив ваші очікування. Я з нетерпінням чекаю співпраці з вами! 😊
-
7 днів8870 UAH
5195 210 0 7 днів8870 UAHПривіт,
Я можу реалізувати рішення для вашого проекту у вигляді програми .exe для Windows.
Однак у мене є кілька запитань для обговорення:
- Чи всі PDF файли відповідають одному й тому ж шаблону, як прикріплений файл?
- Щоб краще зрозуміти інформаційні зв'язки, чи могли б ви записати відео, на якому показано, як ви вручну заповнюєте файл Excel на основі PDF файлу?
Актуальні фриланс-проєкти в категорії Python
Розробка програмного забезпечення з ШІПотрібно розробити програмне забезпечення для автоматичного виявлення, захоплення та супроводження об'єкта за допомогою відеокамери та поворотного механізму.Вихідні дані: Відеокамера з оптикою. Поворотний пристрій по двох осях (азимут/кут місця). Сервоприводи з керуванням через… AI та машинне навчання, Python ∙ 1 день 4 години тому ∙ 14 ставок |
ТЗ НА ДОПРАЦЮВАННЯ AI-БОТА ГЕНЕРАЦІЇ ПЕРСОНАЛЬНИХ ПІСЕНЬТЗ НА ДОПРАЦЮВАННЯ AI-БОТА ГЕНЕРАЦІЇ ПЕРСОНАЛЬНИХ ПІСЕНЬГОЛОВНА ЦІЛЬ Створити стабільний преміальний продукт, який: генерує максимально якісні персональні пісні; не вигадує факти про клієнта; працює стабільно під навантаженням; легко масштабується; дозволяє аналізувати та… Python, Розробка ботів ∙ 1 день 6 годин тому ∙ 30 ставок |
Автоматизація процесів через API та PythonНижче описав поточний процес і те, до якого результату хотілося б прийти. Також прикладаю файли реального процесу, щоб краще зрозуміти, як він виглядає в реальності Поточний процес Зараз весь процес виконується вручну: завантаження/вивантаження файлів, перенесення даних… AI та машинне навчання, Python ∙ 1 день 10 годин тому ∙ 43 ставки |
Потрібно створити бот в тг для оплати підписки.
2000 UAH
Потрібно створити бот в телеграмі де користувач зможе оформити підписку на доступ до веб камер котрі знгаходяться у дворі. Організувати в боті оплату двух видів підписок (на місяць і на один день). Бот повинен автоматично перевірити оплату і після видавати посилання-доступу Python, Розробка ботів ∙ 1 день 22 години тому ∙ 78 ставок |
Бізнес-логіка платформи: підтвердження занять, контроль відвідуваності та історія уроків (DjangoДоопрацювання бізнес-логіки освітньої платформи: підтвердження занять, контроль відвідуваності та історія уроків (Django + React) Необхідно реалізувати повноцінну систему підтвердження уроків, контролю відвідуваності та зберігання історії підтверджень. Важливо Перед початком… Python ∙ 4 дні 10 годин тому ∙ 30 ставок |