Парсинг PDF банковских выписок
Необходимо разработать Пайтон-проект:
1. Согласуем структуру модулей проекта.
2. На вход по АПИ поступает ПДФ-файл с банковской выпиской (тип смешанный: текст + картинки).
3. Нужно распознать банк и тип выписки (у 1-го банка может быть несколько типов).
4. Считать текстовые данные + сделать OCR нетекстовых частей.
5. Разобрать данные (основные и транзакции) и нормализовать под универсальный шаблон. Шаблон согласуем.
6. Использовать бесплатные инструменты.
7. Работать должно быстро даже для выписок на несколько десятков страниц (1-3 сек на файл).
8. Для начала натренировать на 3-х типах выписок.
9. Структура проекта должна быть адаптирована под расширение на другие банки.
-
Добрый день
Делал аналогичные проекты для своей основной работы под ОТП Банк и Приватбанк. Парсил только табличные данные выписок. Нужно ознакомиться с вашими файлами и подробнее обсудить ТЗ.
Готов к постоянному сотрудничеству.
-
✋ Здравствуйте! Мы IT-компания dZENcode.
Мы можем разработать вам Python-решение для распознавания и парсинга банковских выписок.
Какие три типа выписок нужно взять для старта?
Есть ли примеры файлов для согласования шаблона?
Работаем итерациями, ставки от 750 грн/час.
Подробную информацию о наших услугах и ставках вы найдёте на сайте:Freelancehunt
… Посмотрите – дальше обсудим детали работы, пишите, как будете готовы.
Финальная стоимость формируется только после уточнения объёма и требований.
___________________
С уважением,
Менеджер dZENcode
Наши сильные стороны:
💎 10+ лет оказываем IT-услуги: Аутсорс, Аутстаф
🔥 90+ штатных специалистов
🚀 Проекты «с нуля» и на поддержку
⚙️ SLA и постпродакшн-сопровождение
✅ Договор c компанией, гарантированный результат!
🔥 250+ публичных отзывов с 2015 года.
-
34 Добрый день, НИЧЕГО О СЕБЕ СКАЗАТЬ НЕ МОГУ, желаю счастья и здоровья.
-
1315 7 0 Добрый день.
Готов взять Ваш проект в работу.
Смогу разработать для Вас такую автоматизацию для парсинга банковских выписок.
Пишите в личные сообщения, обсудим с Вами все детали и выберем для Вас лучшее решение.
-
1522 14 0 Здравствуйте! Смогу реализовать. Напишите в личные сообщения, чтобы обсудить все детали. Буду рад сотрудничеству!
-
1682 2 0 Добрый день, Константин!
У меня есть production-опыт именно с этой задачей — разрабатывал OCR-микросервис для обработки 5 типов смешанных PDF-документов (текст + скан). FastAPI + pdfplumber + PaddleOCR, точность 100%, вывод структурированного JSON.
Архитектура:
— pdfplumber для текстовых слоев + PaddleOCR для нетекстовых (бесплатно)
— автопределение банка и типа по заголовку/структуре таблиц
— плагинная архитектура: новый банк = новый модуль без изменения ядра
— нормализация под согласованный шаблон (дата, сумма, назначение, остаток)
…
Одно вопрос: какие 3 банка/типа выписок стартируем? От форматов зависит выбор стратегии парсинга.
-
278 5 1 1 Добрый день!
У меня есть прямой опыт с аналогичной задачей — разрабатывал production-ready pipeline обработки PDF-документов (инспекционные отчеты, инвойсы, сканированные формы) с мультимодальной экстракцией данных.
Что я уже решал и что релевантно вашему проекту:
Автоматическое определение типа документа — в моем проекте pipeline различал inspection mode vs service mode по ключевым словам в первых 500 символах + количество страниц. Для банковских выписок подход аналогичный: определение банка по header/logo + тип выписки по структуре таблиц.
Мультимодальная экстракция — pdfplumber для чистых текстовых PDF, PaddleOCR для сканированных частей, с автоматическим определением пути (есть текст → pdfplumber, нет → OCR). Дополнительно реализовывал CID-encoded text detection — когда PDF выглядит текстовым, но символы нечитаемы из-за встроенных шрифтов. В банковских выписках это частая проблема.
…
Нормализация под единый шаблон — экстракция в структурированные категории с валидацией, дедупликацией и нормализацией имен. Адаптирую под ваш универсальный шаблон транзакций.
Расширяемая архитектура — система построена модульно: добавление нового типа документа = новый конфиг + правила парсинга, без изменения core pipeline.
Что касается скорости 1-3 сек: для текстовых PDF с pdfplumber — реалистично даже для 30+ страниц. Для смешанных (текст + OCR) — зависит от количества страниц, которые требуют OCR. Готов обсудить оптимизацию: батч-обработка только нетекстовых страниц, кэширование шаблонов банков, предварительная классификация без полного парсинга.
Стек: Python, FastAPI, pdfplumber, PaddleOCR/Tesseract, PostgreSQL, Docker.
Могу показать архитектуру аналогичного проекта (без деталей клиента, NDA) и обсудить структуру модулей на первом звонке.
Ориентировочная оценка: $800-1200 в зависимости от сложности шаблонов и количества edge cases.
Срок: 1-2 недели на MVP (3 типа выписок).
-
172 1 1 Добрый день. Готов выполнить данный проект, имею большой опыт разработки приложений.
-
1540 3 0 Привет! Сделаю за 1 день — есть опыт именно с парсингом PDF-выписок.
План:
• Модульная структура с плагинной архитектурой — новый банк добавляется одним модулем без правок ядра
• pdfplumber для текста + Tesseract OCR для картинок — все бесплатное
• Автовыявление банка и типа выписки
• Парсинг + нормализация под универсальный JSON-шаблон
• API-эндпоинт на FastAPI
• Натренирую на 3 типа выписок, скорость 1–3 сек на файл
…
Скиньте примеры выписок и желаемый шаблон — стартую сразу.
-
702 1 0 Здравствуйте! У меня есть опыт создания телеграм-ботов. Предлагаю лояльную цену и качественную работу. Пишите)
-
573 15 0 Привет, я делал такое на open source партере pdf для себя лично и своих банков. По скорости не скажу, так как тогда на это не обращал внимания, но по шаблонам вам нужно будет сделать базу для каждого отдельного типа банковских документов, а также желательно добавить механизм проверки ее актуальности и какой-то процесс с обновлением, так как любые партеры работают до первого изменения структуры документа со стороны банка.
Если есть вопросы, пишите в личные, договоримся.
P.S. Для себя я делал модуль для Firefly III, чтобы автоматически получать данные из банков, которые не поддерживают интеграцию по API, так что написать под ваши требования интерфейс не будет проблемой.
-
1251 35 1 3 Здравствуйте. Делал обработку PDF с OCR, понимаю как быстро вытащить данные даже из смешанных выписок. Использую PyMuPDF/pdfplumber для текста, Tesseract для OCR, всё соберу в нормальную модульную структуру с возможностью добавлять новые банки.
Подскажите, у вас есть примеры выписок (PDF) для тестов?
-
256 Привет! У меня более 4 лет опыта в Python и OCR, поэтому я реализую быструю систему распознавания банковских выписок на основе FastAPI, PyMuPDF и Tesseract. Я создам модульную архитектуру для легкой поддержки новых банков и обеспечу нормализацию данных в согласованный шаблон с обработкой за 1–3 секунды. Мои работы:
Behance, https://3magency.co/, https://jk-solution.com.ua/, https://farfieworldwide.com/. Пишите в личные сообщения — обсудим структуру модулей!
-
807 2 0 Привет! Готов взяться за ваш проект.
Моя основная специализация — парсинг данных. У меня есть опыт в банковской сфере: предыдущий успешно завершенный проект касался разработки приложения для парсинга пуш-уведомлений от банков (отзыв заказчика можете посмотреть в моем профиле).
Технические требования вполне понятны, смогу реализовать.
Поскольку я сейчас нарабатываю рейтинг, готов выполнить работу по цене, ниже рыночной, без потери качества.
Пишите, обсудим детали.
-
726 9 1 Здравствуйте! Я ознакомился с вашим проектом и готов начать работу. Гарантирую высокое качество и оперативное выполнение.
-
656 9 0 Добрый вечер, Константин! В целом задание понятно, для точного ответа по срокам и цене хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашего задания. Пишите в личные сообщения – обсудим детали и ваши пожелания.
-
2138 22 2 привет
здесь нужно ocr, есть разные локальные и платные, а дальше из этого текста извлекать данные
здесь проблема, потому что без ши это будет тяжело, или невозможно
поэтому на бесплатных вряд ли получится, пишите, обсудим
-
764 5 1 Добрый день.
Задача понятна: нужен не просто “парсер PDF”, а нормально построенный Python-проект, который сможет определять банк и тип выписки, извлекать текстовые данные, подключать OCR для нетекстовых частей, парсить транзакции и приводить все к единому универсальному формату с возможностью масштабирования на другие банки.
Могу реализовать это именно в таком подходе:
— продумать структуру модулей под расширение;
— сделать определение банка/типа выписки;
— отдельно обработать text layer и OCR-слои;
— собрать нормализацию в согласованный шаблон;
… — подготовить решение под пакетную обработку;
— заложить основу, чтобы дальше можно было добавлять новые банки без переписывания всего проекта.
Нравится, что у вас сразу есть правильный акцент на архитектуру, скорость и адаптивность. Я бы тоже делал это как модульный пайплайн: classify → extract → OCR fallback → parse → normalize → validate. Это дает более стабильный результат, чем “один большой скрипт”.
Если шаблон нормализации согласуем на старте и объем в пределах описанного, готов быстро включиться в реализацию.
-
1045 7 0 Здравствуйте, Константин! Ваша задача требует системного подхода к обработке неструктурированных данных. У меня есть опыт работы с PDF-аналитикой и разработки масштабируемых Python-проектов.
Мой план реализации в соответствии с вашими требованиями:
Архитектура: Построю модульную структуру (OOP), где каждый тип выписки — это отдельный плагин-модуль. Это позволит легко добавлять новые банки без изменения ядра системы.
Гибридный парсинг: Использую pdfplumber для мгновенного извлечения текста и EasyOCR/Tesseract для графических элементов (печати, рукописные даты). Это обеспечит скорость 1–3 секунды на файл.
Нормализация: Создам универсальную схему данных (Transaction Model). На выходе вы получите чистый JSON или DataFrame с валидированными полями (дата, сумма, назначение, остаток).
…
Обучение: Натренирую логику на ваших 3-х типах выписок, обеспечив устойчивость к смещениям верстки и специфическим кодировкам банков.
Безоплатность: Использую исключительно open-source решения без привязки к платным облачным API.
Готов обсудить структуру выходного шаблона и начать разработку прототипа.
С уважением,
Виктор
-
2947 73 4 2 Здравствуйте! Могу разработать проект для парсинга таких выписок на Python!!!! Обращайтесь, качество гарантирую!!!
-
2506 20 0 Добрый день, готов выполнить ваше задание быстро и качественно. У меня большой опыт в создании различных парсеров. Напишите в личные сообщения, обсудим детали. С удовольствием помогу)
-
4611 52 1 Здравствуйте, я Python - разработчик, есть опыт в разработке парсеров разной сложности. Могу выполнить ваш проект быстро и качественно. Пишите - обсудим детали. Приступить к работе готов уже сегодня
-
718 5 0 Здравствуйте
У меня есть опыт работы с обработкой PDF документов, распознаванием, парсингом и записью информации в БД, настройкой API проектов.
Буду рад сотрудничеству.
Предоставьте пример выписок, чтобы можно было ознакомиться со структурой входных данных.
-
223 Добрый день, готов реализовать ваш проект, имею большой опыт с пайтон-проектами. Пишите в личку, обсудим детали.
-
2335 37 0 Добрый день, делал подобный инструмент для юридической компании - парсил выписку УБКИ. Могу помочь, пишите в личку.
-
3186 52 1 Добрый день
готов выполнить вашу работу
Пишите буду рад помочь с вашей задачей
Актуальные фриланс-проекты в категории AI и машинное обучение
Сделать видео-ролик AI
2000 UAH
Сгенерировать видеоролик с рендера здания с использованием фото объекта в соответствии с референсом и с учетом сценария. Есть разработанный тестовый промт, который нужно доработать. Вероятные нейронки для генерации: King AI, Runway, Luma, Google AI Pro, Google AI Ultra. Но это… AI и машинное обучение ∙ 16 часов 54 минуты назад ∙ 13 ставок |
Шукпю AI Automation Engineer
1000 UAH
Нужен AI Automation Engineer, специалист для создания системы активного поиска клиентов и умного аутрича (не обычный чат-бот-автоответчик) в В2В проект Сбор данных: автоматический парсинг контактов из «слепых» баз по назва. Умная рассылка: интеграция Claude/OpenAI для… AI и машинное обучение, Встраиваемые системы и микроконтроллеры ∙ 19 часов 12 минут назад ∙ 10 ставок |
Разработка Highload системы с fine tuning моделей LLMРазработка высоконагруженной (Highload) системы c fine tuning LLM моделей для онлайн сервиса мультимодального поиска товаров по фото и текстовому запросу одновременно интегрированного в мессенджеры через персонального агента-ассистента. AI и машинное обучение ∙ 1 день 4 часа назад ∙ 14 ставок |
Нужен разработчик для создания автоматизированного AI-сервиса по генерации нумерологических отчетов
8000 UAH
Ищу разработчика, который сможет реализовать под ключ автоматизированный сервис для генерации персональных нумерологических отчетов. Есть готовая концепция продукта, формулы расчетов, тексты, база знаний, дизайн лендинга и дизайн PDF-отчетов. Необходимо объединить все это в… AI и машинное обучение, Веб-программирование ∙ 1 день 7 часов назад ∙ 71 ставка |
Нужна AI-фотосессия для сайта знакомств и соцсетей (10 фото)Нужна AI-фотосессия для сайта знакомств и соцсетей (10 фото) Ищу специалиста по AI-генерации, ретуши и фотомонтажу для создания реалистичной фотосессии на основе моих фотографий. Что нужно сделать: Создать 10 качественных и максимально реалистичных фотографий с использованием… AI в дизайне, AI и машинное обучение ∙ 1 день 16 часов назад ∙ 30 ставок |