Извлечь текст из pdf, сохранить в csv
Здравствуйте.
Есть банковские выписки в pdf файлах.
Несколько видов типа струтуры(до 5ти).
Все типы содержат текстовый слой, но не все библиотеки распознают текст корректно.
В случае возникновения сложности в извлечении текста, предлагаю подключить облачное распознавание ABBY finereader или opencv
https://github.com/abbyy/ocrsdk.com/tree/master/Python
https://support.abbyy.com/hc/en-us/articles/360017269420-api-reference
https://www.abbyy.com/cloud-ocr-sdk/documentation/
Выписки можно скачать по ссылке - https://www.dropbox.com/t/vcLLkeHW0I7P3RlO
В первую очередь интересует 2022.
Нужно извлечь из ПДФ информацию, структурировать и сохранить в CSV. Пример приложил.
Считывать все пдф из папки PDF(могут быть вложенные директории)
Каждую выписку сохранять в отдельный файл CSV с таким же именем, как и PDF. В папку CSV.
Стуртуру папок желательно сохранять, но не обязательно.
Каждая запись - отдельная строка.
Примечания:
- столбец D должен содержать только сумму без валюты;
- знак + не нужен для сумм больше 0;
- валюта должна быть в столбце E;
- столбец D должен содержать сумму в формате 3.15 вместо 3,15, например;
Требуется предоставление исходного кода.
Комментарии в коде и инструкции на английском языке.
Приложения 1
-
113 Доброго дня .
Обычно здесь пишут много текстов, но я буду довольно лаконичным и стрикным.
Готовы рассмотреть Ваше предложение.
-
1982 47 7 2 Добрый день. Ознакомился с либами, и пдфками. Модем сделать десктопную программу, для конвертации данных, чтоб вы смогли её использовать в дальнейшем.
Актуальные фриланс-проекты в категории Python
Парсинг данных через мобильное APIИщу человека с опытом парсинга данных через мобильное API, для парсинга e-commerce, rozetka и аналоги Задачи: 1. Перехват трафика мобильного приложения (Android) настройка прокси, анализ запросов 2. Определение нужных API endpoints куда идут запросы, какие headers… Python, Парсинг данных ∙ 21 час 12 минут назад ∙ 23 ставки |
Найти товарный фид (Google Merchant XML) для сайта на OpenCart
700 UAH
Необходимо найти прямую ссылку на действующий товарный фид (XML) конкурента для Google Merchant Center Платформа (CMS): OpenCart / ocStore Найти оригинальный фидТребования к результату: Рабочая ссылка на XML-файл Python, Парсинг данных ∙ 6 дней 6 часов назад ∙ 28 ставок |
Розработка Тик-Ток фермы (контент-завод)Необзодимо разработать систему для централизованного управления несколькими TikTok-аккаунтами с автоматической публикацией контента, использованием индивидуальных прокси и имитацией естественной активности аккаунтов. Функциональные требования1. Управление аккаунтами Добавление… Python, Разработка ботов ∙ 6 дней 17 часов назад ∙ 22 ставки |
Улучшить работу Claude Code и работа с написанием софтаСейчас разрабатываю СРМ и Аналитику, софт. Делаю через Клод Код, но понимаю что результаты не лучшие в плане изменений. Есть 2 задачи - Нужно помочь сделать пресет по навыкам, мд и так далее чтобы улучшить качество. Взять проверенные с которыми работали, а не с интернета… AI и машинное обучение, Python ∙ 7 дней назад ∙ 28 ставок |
Система OCRНужна система распознавания текста на почтовых конвертах (индекс кому - только числа). Текст иногда может быть рукописным. Распознавание марок (подсчет количества и номинала) Python ∙ 7 дней 3 часа назад ∙ 28 ставок |