Фриланс-проекты

Фриланс-проекты

Парсинг PDF банковских выписок

AI и машинное обучение, Python — неверно указаны категории?

Проект переведен автоматически. Войдите или зарегистрируйтесь, чтобы увидеть оригинал

Необходимо разработать Пайтон-проект:

1. Согласуем структуру модулей проекта.

2. На вход по АПИ поступает ПДФ-файл с банковской выпиской (тип смешанный: текст + картинки).

3. Нужно распознать банк и тип выписки (у 1-го банка может быть несколько типов).

4. Считать текстовые данные + сделать OCR нетекстовых частей.

5. Разобрать данные (основные и транзакции) и нормализовать под универсальный шаблон. Шаблон согласуем.

6. Использовать бесплатные инструменты.

7. Работать должно быстро даже для выписок на несколько десятков страниц (1-3 сек на файл).

8. Для начала натренировать на 3-х типах выписок.

9. Структура проекта должна быть адаптирована под расширение на другие банки.

Ставки 39

Віктор Франковський

11 0

Проекты 11
Оценка 5.0
Рейтинг 1 931

Бюджет: 9999 UAH Срок: 6 дней

Здравствуйте, Константин! Ваша задача требует системного подхода к обработке неструктурированных данных. У меня есть опыт работы с PDF-аналитикой и разработки масштабируемых Python-проектов.

Мой план реализации в соответствии с вашими требованиями:

Архитектура: Построю модульную структуру (OOP), где каждый тип выписки — это отдельный плагин-модуль. Это позволит легко добавлять новые банки без изменения ядра системы.

Гибридный парсинг: Использую pdfplumber для мгновенного извлечения текста и EasyOCR/Tesseract для графических элементов (печати, рукописные даты). Это обеспечит скорость 1–3 секунды на файл.

Нормализация: Создам универсальную схему данных (Transaction Model). На выходе вы получите чистый JSON или DataFrame с валидированными полями (дата, сумма, назначение, остаток).

Обучение: Натренирую логику на ваших 3-х типах выписок, обеспечив устойчивость к смещениям верстки и специфическим кодировкам банков.

Безоплатность: Использую исключительно open-source решения без привязки к платным облачным API.

Готов обсудить структуру выходного шаблона и начать разработку прототипа.

С уважением,
Виктор

Віталій Жовнірчик

100 0

Проекты 101
Оценка 5.0
Рейтинг 8 135

Бюджет: 3000 UAH Срок: 1 день

Добрый день
Делал аналогичные проекты для своей основной работы под ОТП Банк и Приватбанк. Парсил только табличные данные выписок. Нужно ознакомиться с вашими файлами и подробнее обсудить ТЗ.

Готов к постоянному сотрудничеству.

Dmytro Derev'iankin

2 0

Проекты -
Оценка -
Рейтинг 596

Бюджет: 10000 UAH Срок: 1 день

✋ Здравствуйте! Мы IT-компания dZENcode.

Мы можем разработать вам Python-решение для распознавания и парсинга банковских выписок.

Какие три типа выписок нужно взять для старта?
Есть ли примеры файлов для согласования шаблона?

Работаем итерациями, ставки от 750 грн/час.
Подробную информацию о наших услугах и ставках вы найдёте на сайте: Freelancehunt
Посмотрите – дальше обсудим детали работы, пишите, как будете готовы.

Финальная стоимость формируется только после уточнения объёма и требований.

___________________
С уважением,
Менеджер dZENcode

Наши сильные стороны:
💎 10+ лет оказываем IT-услуги: Аутсорс, Аутстаф
🔥 90+ штатных специалистов
🚀 Проекты «с нуля» и на поддержку
⚙️ SLA и постпродакшн-сопровождение
✅ Договор c компанией, гарантированный результат!
🔥 250+ публичных отзывов с 2015 года.

Ivan Mandregelia

0 0

Проекты -
Оценка -
Рейтинг 84

Бюджет: 700 UAH Срок: 1 день

Добрый день, НИЧЕГО О СЕБЕ СКАЗАТЬ НЕ МОГУ, желаю счастья и здоровья.

Ярослав Стьопін

7 0

Проекты 7
Оценка 4.5
Рейтинг 1 266

Бюджет: 7000 UAH Срок: 4 дня

Добрый день.
Готов взять Ваш проект в работу.
Смогу разработать для Вас такую автоматизацию для парсинга банковских выписок.
Пишите в личные сообщения, обсудим с Вами все детали и выберем для Вас лучшее решение.

Олександр З.

14 0

Проекты 14
Оценка 5.0
Рейтинг 1 512

Бюджет: 10000 UAH Срок: 1 день

Здравствуйте! Смогу реализовать. Напишите в личные сообщения, чтобы обсудить все детали. Буду рад сотрудничеству!

Igor S.

2 0

Проекты -
Оценка -
Рейтинг 1 682

Бюджет: 5000 UAH Срок: 7 дней

Добрый день, Константин!

У меня есть production-опыт именно с этой задачей — разрабатывал OCR-микросервис для обработки 5 типов смешанных PDF-документов (текст + скан). FastAPI + pdfplumber + PaddleOCR, точность 100%, вывод структурированного JSON.

Архитектура:
— pdfplumber для текстовых слоев + PaddleOCR для нетекстовых (бесплатно)
— автопределение банка и типа по заголовку/структуре таблиц
— плагинная архитектура: новый банк = новый модуль без изменения ядра
— нормализация под согласованный шаблон (дата, сумма, назначение, остаток)

Одно вопрос: какие 3 банка/типа выписок стартируем? От форматов зависит выбор стратегии парсинга.

Юра Саченко

5 1

Проекты 5
Оценка 4.1
Рейтинг 258

Бюджет: 27000 UAH Срок: 7 дней

Добрый день!

У меня есть прямой опыт с аналогичной задачей — разрабатывал production-ready pipeline обработки PDF-документов (инспекционные отчеты, инвойсы, сканированные формы) с мультимодальной экстракцией данных.

Что я уже решал и что релевантно вашему проекту:

Автоматическое определение типа документа — в моем проекте pipeline различал inspection mode vs service mode по ключевым словам в первых 500 символах + количество страниц. Для банковских выписок подход аналогичный: определение банка по header/logo + тип выписки по структуре таблиц.

Мультимодальная экстракция — pdfplumber для чистых текстовых PDF, PaddleOCR для сканированных частей, с автоматическим определением пути (есть текст → pdfplumber, нет → OCR). Дополнительно реализовывал CID-encoded text detection — когда PDF выглядит текстовым, но символы нечитаемы из-за встроенных шрифтов. В банковских выписках это частая проблема.

Нормализация под единый шаблон — экстракция в структурированные категории с валидацией, дедупликацией и нормализацией имен. Адаптирую под ваш универсальный шаблон транзакций.

Расширяемая архитектура — система построена модульно: добавление нового типа документа = новый конфиг + правила парсинга, без изменения core pipeline.

Что касается скорости 1-3 сек: для текстовых PDF с pdfplumber — реалистично даже для 30+ страниц. Для смешанных (текст + OCR) — зависит от количества страниц, которые требуют OCR. Готов обсудить оптимизацию: батч-обработка только нетекстовых страниц, кэширование шаблонов банков, предварительная классификация без полного парсинга.

Стек: Python, FastAPI, pdfplumber, PaddleOCR/Tesseract, PostgreSQL, Docker.

Могу показать архитектуру аналогичного проекта (без деталей клиента, NDA) и обсудить структуру модулей на первом звонке.

Ориентировочная оценка: $800-1200 в зависимости от сложности шаблонов и количества edge cases.

Срок: 1-2 недели на MVP (3 типа выписок).

Dmytro Zmenkov

1 1

Проекты -
Оценка -
Рейтинг 121

Бюджет: 4000 UAH Срок: 1 день

Добрый день. Готов выполнить данный проект, имею большой опыт разработки приложений.

Denys Avulin

3 0

Проекты 3
Оценка 5.0
Рейтинг 1 540

Бюджет: 4300 UAH Срок: 1 день

Привет! Сделаю за 1 день — есть опыт именно с парсингом PDF-выписок.

План:
• Модульная структура с плагинной архитектурой — новый банк добавляется одним модулем без правок ядра
• pdfplumber для текста + Tesseract OCR для картинок — все бесплатное
• Автовыявление банка и типа выписки
• Парсинг + нормализация под универсальный JSON-шаблон
• API-эндпоинт на FastAPI
• Натренирую на 3 типа выписок, скорость 1–3 сек на файл

Скиньте примеры выписок и желаемый шаблон — стартую сразу.

Роман Пастухов

1 0

Проекты -
Оценка -
Рейтинг 702

Бюджет: 10000 UAH Срок: 6 дней

Здравствуйте! У меня есть опыт создания телеграм-ботов. Предлагаю лояльную цену и качественную работу. Пишите)

Євгеній Медуха

15 0

Проекты 13
Оценка 5.0
Рейтинг 581

Бюджет: 6000 UAH Срок: 3 дня

Привет, я делал такое на open source партере pdf для себя лично и своих банков. По скорости не скажу, так как тогда на это не обращал внимания, но по шаблонам вам нужно будет сделать базу для каждого отдельного типа банковских документов, а также желательно добавить механизм проверки ее актуальности и какой-то процесс с обновлением, так как любые партеры работают до первого изменения структуры документа со стороны банка.

Если есть вопросы, пишите в личные, договоримся.

P.S. Для себя я делал модуль для Firefly III, чтобы автоматически получать данные из банков, которые не поддерживают интеграцию по API, так что написать под ваши требования интерфейс не будет проблемой.

Владислав Т.

35 1

Проекты 35
Оценка 4.2
Рейтинг 1 251

Бюджет: 6666 UAH Срок: 6 дней

Здравствуйте. Делал обработку PDF с OCR, понимаю как быстро вытащить данные даже из смешанных выписок. Использую PyMuPDF/pdfplumber для текста, Tesseract для OCR, всё соберу в нормальную модульную структуру с возможностью добавлять новые банки.

Подскажите, у вас есть примеры выписок (PDF) для тестов?

Віктор Гайоха

2 0

Проекты -
Оценка -
Рейтинг 816

Бюджет: 3000 UAH Срок: 4 дня

Привет! Готов взяться за ваш проект.

Моя основная специализация — парсинг данных. У меня есть опыт в банковской сфере: предыдущий успешно завершенный проект касался разработки приложения для парсинга пуш-уведомлений от банков (отзыв заказчика можете посмотреть в моем профиле).

Технические требования вполне понятны, смогу реализовать.

Поскольку я сейчас нарабатываю рейтинг, готов выполнить работу по цене, ниже рыночной, без потери качества.

Пишите, обсудим детали.

Volodymyr S.

9 1

Проекты 9
Оценка 5.0
Рейтинг 726

Бюджет: 2000 UAH Срок: 3 дня

Здравствуйте! Я ознакомился с вашим проектом и готов начать работу. Гарантирую высокое качество и оперативное выполнение.

Ігор Доронін

9 0

Проекты 9
Оценка 5.0
Рейтинг 656

Бюджет: 700 UAH Срок: 1 день

Добрый вечер, Константин! В целом задание понятно, для точного ответа по срокам и цене хотелось бы уточнить некоторые вопросы, которые у меня возникли после анализа вашего задания. Пишите в личные сообщения – обсудим детали и ваши пожелания.

Сергій Гавка

22 2

Проекты 23
Оценка -
Рейтинг 2 114

Бюджет: 10000 UAH Срок: 10 дней

привет
здесь нужно ocr, есть разные локальные и платные, а дальше из этого текста извлекать данные
здесь проблема, потому что без ши это будет тяжело, или невозможно
поэтому на бесплатных вряд ли получится, пишите, обсудим

Daniil Skrebets

5 1

Проекты 5
Оценка 4.8
Рейтинг 764

Бюджет: 15000 UAH Срок: 6 дней

Добрый день.

Задача понятна: нужен не просто “парсер PDF”, а нормально построенный Python-проект, который сможет определять банк и тип выписки, извлекать текстовые данные, подключать OCR для нетекстовых частей, парсить транзакции и приводить все к единому универсальному формату с возможностью масштабирования на другие банки.

Могу реализовать это именно в таком подходе:
— продумать структуру модулей под расширение;
— сделать определение банка/типа выписки;
— отдельно обработать text layer и OCR-слои;
— собрать нормализацию в согласованный шаблон;
— подготовить решение под пакетную обработку;
— заложить основу, чтобы дальше можно было добавлять новые банки без переписывания всего проекта.

Нравится, что у вас сразу есть правильный акцент на архитектуру, скорость и адаптивность. Я бы тоже делал это как модульный пайплайн: classify → extract → OCR fallback → parse → normalize → validate. Это дает более стабильный результат, чем “один большой скрипт”.

Если шаблон нормализации согласуем на старте и объем в пределах описанного, готов быстро включиться в реализацию.

Тетяна Шумейко

73 4

Проекты 77
Оценка 4.8
Рейтинг 2 896

Бюджет: 2000 UAH Срок: 1 день

Здравствуйте! Могу разработать проект для парсинга таких выписок на Python!!!! Обращайтесь, качество гарантирую!!!

Dmytro Parkhomenko

20 0

Проекты 20
Оценка 5.0
Рейтинг 2 467

Бюджет: 10000 UAH Срок: 5 дней

Добрый день, готов выполнить ваше задание быстро и качественно. У меня большой опыт в создании различных парсеров. Напишите в личные сообщения, обсудим детали. С удовольствием помогу)

Данило Канівець

54 1

Проекты 55
Оценка 5.0
Рейтинг 4 968

Бюджет: 1000 UAH Срок: 1 день

Здравствуйте, я Python - разработчик, есть опыт в разработке парсеров разной сложности. Могу выполнить ваш проект быстро и качественно. Пишите - обсудим детали. Приступить к работе готов уже сегодня

Dmytro R.

5 0

Проекты 5
Оценка 5.0
Рейтинг 718

Бюджет: 6000 UAH Срок: 3 дня

Здравствуйте
У меня есть опыт работы с обработкой PDF документов, распознаванием, парсингом и записью информации в БД, настройкой API проектов.
Буду рад сотрудничеству.
Предоставьте пример выписок, чтобы можно было ознакомиться со структурой входных данных.

Ярослав М.

0 0

Проекты -
Оценка -
Рейтинг 250

Бюджет: 1500 UAH Срок: 4 дня

Добрый день, готов реализовать ваш проект, имею большой опыт с пайтон-проектами. Пишите в личку, обсудим детали.

Илья П.

39 0

Проекты 39
Оценка 5.0
Рейтинг 2 680

Бюджет: 3000 UAH Срок: 3 дня

Добрый день, делал подобный инструмент для юридической компании - парсил выписку УБКИ. Могу помочь, пишите в личку.

Oleh Ovchynnykov

52 1

Проекты 53
Оценка 4.3
Рейтинг 3 170