Сопоставление данных PDF с колонками Excel с координатами
Job Description for Freelancer
We are looking for a skilled freelancer to develop a script or tool that extracts specific data fields from a Hebrew-language PDF document and populates these into an Excel file. The task involves utilizing OCR to read the Hebrew text and mapping specific keywords to predefined columns in Excel. The output Excel file must be formatted according to our requirements.
Requirements
1. Develop a script or tool to:
a. Extract text from a PDF file in Hebrew using OCR technology (e.g., Tesseract with Hebrew support).
b. Identify and extract the following data fields based on specific keywords (provided below).
c. Map these fields to specific columns in an Excel file.
d. Save the populated Excel file with the data in the correct format.
2. Ensure the tool/script can:
a. Handle multiple loan plans in the PDF.
b. Perform basic error handling for missing or incorrect data in the PDF.
Data Fields and Mapping
The script should extract the following fields from the PDF and insert them into the specified columns in the Excel file.
PDF Field | Excel Column | Notes |
מספר מסלול (Loan No.) | Column A | Sequential numbering for each loan plan. |
סוג ההלוואה (Loan Type) | Column B | Example: ריבית קבועה צמודה למדד → Fixed Interest, Linked to Index. |
קיימת (Exists) | Column C | Optional field, typically indicates a period for variable loans, e.g., '5'. |
צמוד למדד (Index Linkage) | Column D | צמוד למדד → Linked to Index, לא צמוד → Not Linked. |
סכום (Amount) | Column E | Loan amount from the PDF, e.g., 318,857. |
ריבית (Interest Rate) | Column F | The interest rate or margin for Prime loans, e.g., 2.65% or +0.24%. |
תאריך סיום (End Date) | Column G | End date of the loan, e.g., 15/08/2039. |
החזר חודשי (Monthly Payment) | Column H | Monthly payment from the PDF, e.g., 1,879 ₪. |
תשלום חודשי (מחושב) (Monthly Payment Calculated) | Column I | Leave empty; calculated automatically in Excel. |
לוח סילוקין (Repayment Type) | Column J | e.g., שפיצר (Spitzer) or קרן שווה (Equal Principal). |
עמלת תשלום מראש | טור ק | עמלת תשלום מראש, אם זמינה, למשל, 8,841 ₪. |
שלבים ליישום
1. השתמשו בטכנולוגיית OCR כדי לחלץ טקסט בעברית מה-PDF. למשל, Tesseract עם חבילת השפה העברית.
2. זהה את השדות שצוינו באמצעות מילות מפתח בעברית:
- סוג הלוואה: חפש את הטקסט הזה כדי למצוא את סוג ההלוואה.
- סכום (כמות): חפש מילת מפתח זו או מספר גדול, למשל, 318,857.
- ריבית (ריבית): חפש מילת מפתח זו או סמל אחוז (%).
- תאריך סיום (תאריך סיום): חפש מילת מפתח זו או פורמט תאריך (למשל, 09/10/2047).
- החזר חודשי (תשלום חודשי): חפש מילת מפתח זו או מספר עם סמל המטבע ₪.
- צמוד למדד (קישור אינדקס): חפש את המילים צמוד למדד (מקושר לאינדקס) או לא צמוד (לא מקושר).
3. אוכלס את הנתונים שחולצו בעמודות המתאימות באקסל.
4. שמור את קובץ האקסל בפורמט שצוין.
У меня есть несколько PDF-файлов, каждый PDF в разном формате, и мне нужно приложение для Windows. Но каждый PDF содержит один и тот же тип данных, который мне нужен, и данные должны быть экспортированы в один и тот же файл xl.
В общей сложности у меня есть 5 PDF-файлов. Каждый файл имеет разный формат.
i have few pdf files, each pdf is in deffrent format, and i want the windows app. but each pdf have the same type of data that i need, and the data should be exported to the same xl file.
in total i have 5 pdf files. each file have diffrent format.
Приложения 2
-
1 день6645 UAH
469 2 0 1 день6645 UAHЗдравствуйте, Ади Янчер
Надеюсь, у вас все хорошо.
Хороший вызов для современного программиста..
Самый простой способ - использовать библиотеки python для вашего случая.
Изучил эту проблему в python. Хорошо. Имеет некоторые недостатки. А также размер дистрибутива.
Изучил apache pdfbox для java. Более сжатые результаты.
… Нет необходимости в OCR. Но apache POI еще не изучен.
В любом случае, должен быть графический пользовательский интерфейс, правила парсинга/отображения и отображение текста в excel, а также общие шаблоны pdf-документов и так далее.
Может быть, стоит подумать о веб-сервисе для других пользователей.
Решение:
ОС платформы - где работает java.
java, apache pdfbox 3 apache POI
Дополнительно: tesseract-ocr.
Дополнительно: tesseract-ocr. дополнительное обучение модели.
Буду рад услышать ваше мнение.
С уважением.
-
7 дней8860 UAH
316 7 дней8860 UAHЗдравствуйте! 👋
Я рад помочь вам с вашим проектом по созданию мощного и эффективного скрипта/инструмента для извлечения данных на иврите из PDF-файлов и их заполнения в Excel. Вот почему я идеально подхожу для этой задачи:
Почему выбирают меня?
Экспертиза в OCR и автоматизации:
У меня есть обширный опыт работы с Tesseract OCR, включая поддержку иврита, что обеспечивает высокую точность извлечения текста.
Доказанный опыт создания автоматизированных инструментов для сложного извлечения данных и их сопоставления.
… Безупречное сопоставление данных:
Я специализируюсь на разработке скриптов, которые точно определяют ключевые слова в PDF и сопоставляют их с правильными столбцами Excel, следуя заранее определенным структурам.
Я могу реализовать обработку ошибок для отсутствующих или некорректных данных, обеспечивая чистый и надежный вывод.
Внимание к деталям:
Я понимаю важность обработки нескольких кредитных планов и разбора сложных полей, таких как даты, процентные ставки и ежемесячные платежи (включая символы, такие как ₪).
Я позабочусь о том, чтобы ваш вывод в Excel был профессионально оформлен и соответствовал вашим требованиям.
Эффективный рабочий процесс и коммуникация:
Я работаю быстро, не жертвуя качеством. Задача будет выполнена в срок с обновлениями на каждом этапе.
Я ценю четкую коммуникацию и обеспечу, чтобы инструмент/скрипт был прост в использовании и настраиваем для будущих нужд.
Мой план выполнения вашей задачи
Настройка OCR:
Настроить Tesseract с поддержкой иврита для эффективного извлечения текста из PDF-файлов.
Извлечение данных и сопоставление:
Разработать надежный скрипт для определения конкретных полей, таких как тип кредита, сумма, процентная ставка, и сопоставить их с соответствующими столбцами Excel.
Обработка ошибок и форматирование:
Создать механизмы проверки ошибок для корректной обработки отсутствующих данных.
Точно отформатировать выходной файл Excel, обеспечивая его соответствие вашим спецификациям.
Доставка и поддержка:
Предоставить полностью функциональный и протестированный скрипт или инструмент.
Предложить поддержку после доставки, чтобы обеспечить бесшовную интеграцию и использование.
Давайте начнем!
Я уверен, что смогу предоставить высококачественное решение, соответствующее вашим потребностям. Давайте обсудим ваши требования подробнее, и я позабочусь о том, чтобы этот проект превзошел ваши ожидания. Я с нетерпением жду сотрудничества с вами! 😊
-
7 дней8860 UAH
5195 210 0 7 дней8860 UAHЗдравствуйте,
Я могу реализовать решение для вашего проекта в виде .exe программы для Windows.
Однако у меня есть несколько вопросов для обсуждения:
- Все ли PDF файлы следуют тому же шаблону, что и прикрепленный файл?
- Чтобы лучше понять информационные связи, не могли бы вы записать видео, показывающее, как вы вручную заполняете файл Excel на основе PDF файла?
Актуальные фриланс-проекты в категории Python
Разработка программного обеспечения с ИИНеобходимо разработать программное обеспечение для автоматического обнаружения, захвата и сопровождения объекта с помощью видеокамеры и поворотного механизма.Исходные данные: Видеокамера с оптикой. Поворотное устройство по двум осям (азимут/угол места). Сервоприводы с… AI и машинное обучение, Python ∙ 2 часа 53 минуты назад ∙ 6 ставок |
ТЗ НА ДОПРАЦЮВАНИЕ AI-БОТА ГЕНЕРАЦИИ ЛИЧНЫХ ПЕСЕНТЗ НА ДОПРАЦЮВАННЯ AI-БОТА ГЕНЕРАЦІЇ ПЕРСОНАЛЬНИХ ПІСЕНЬГОЛОВНА ЦІЛЬ Створити стабільний преміальний продукт, який: генерує максимально якісні персональні пісні; не вигадує факти про клієнта; працює стабільно під навантаженням; легко масштабується; дозволяє аналізувати та… Python, Разработка ботов ∙ 3 часа 59 минут назад ∙ 16 ставок |
Специалист по Excel / автоматизации процессов (Excel + желательно программирование)Ищем специалиста с ПРОДВИНУТЫМИ знаниями Excel для оптимизации существующего файла и автоматизации процессов. Будет большим преимуществом, если вы также имеете навыки программирования / VBA / Power Query / Power Automate или опыт создания сложной логики в Excel. Задачи проекта… Python, Базы данных и SQL ∙ 6 часов 57 минут назад ∙ 26 ставок |
Автоматизация процессоів через API и PhytonНиже описал текущий процесс и то, к какому результату хотелось бы прийти. Также прикладіваю файлы реалтного процесса чтобы лучше понять как он выглядит в ревльности Текущий процесс Сейчас весь процесс выполняется вручную: загрузка/выгрузка файлов, перенос данных между… AI и машинное обучение, Python ∙ 7 часов 58 минут назад ∙ 32 ставки |
Необходимо создать бота в ТГ для оплаты подписки.
2000 UAH
Необходимо создать бота в телеграме, где пользователь сможет оформить подписку на доступ к веб-камерам, которые находятся во дворе. Организовать в боте оплату двух видов подписок (на месяц и на один день). Бот должен автоматически проверять оплату и после выдавать ссылку-доступа. Python, Разработка ботов ∙ 20 часов 45 минут назад ∙ 71 ставка |