Parsowanie PDF bankowych wyciągów
Konieczne jest opracowanie projektu w Pythonie:
1. Uzgadniamy strukturę modułów projektu.
2. Na wejściu przez API przychodzi plik PDF z wyciągiem bankowym (typ mieszany: tekst + obrazy).
3. Należy rozpoznać bank oraz typ wyciągu (jeden bank może mieć kilka typów).
4. Odczytać dane tekstowe + wykonać OCR dla części nie tekstowych.
5. Rozparsować dane (główne oraz transakcje) i znormalizować pod uniwersalny szablon. Szablon uzgadniamy.
6. Użyć darmowych narzędzi.
7. Powinno działać szybko nawet dla wyciągów na kilka dziesiątek stron (1-3 sekundy na plik).
8. Na początek wytrenować na 3 typach wyciągów.
9. Struktura projektu powinna być dostosowana do rozszerzenia na inne banki.
-
Dzień dobry
Robiłem podobne projekty dla swojej głównej pracy pod OТП Bank i Privatbank. Parsowałem tylko tabelaryczne dane wyciągów. Muszę przejrzeć Twoje pliki i dokładniej omówić TЗ
Jestem gotowy do stałej współpracy
-
✋ Witaj! Jesteśmy firmą IT dZENcode.
Możemy opracować dla Ciebie rozwiązanie w Pythonie do rozpoznawania i parsowania wyciągów bankowych.
Jakie trzy typy wyciągów należy wziąć na początek?
Czy są przykłady plików do zatwierdzenia szablonu?
Pracujemy w iteracjach, stawki od 750 UAH/godz.
Szczegółowe informacje o naszych usługach i stawkach znajdziesz na stronie:Freelancehunt
… Zobacz – potem omówimy szczegóły pracy, pisz, gdy będziesz gotowy.
Ostateczny koszt ustalany jest dopiero po wyjaśnieniu zakresu i wymagań.
___________________
Z poważaniem,
Menadżer dZENcode
Nasze mocne strony:
💎 10+ lat świadczymy usługi IT: Outsourcing, Outstaffing
🔥 90+ pracowników na etacie
🚀 Projekty „od zera” i wsparcie
⚙️ SLA i wsparcie po produkcji
✅ Umowa z firmą, gwarantowany wynik!
🔥 250+ publicznych opinii od 2015 roku.
-
34 Dzień dobry, NIC NIE MOGĘ O SOBIE POWIEDZIEĆ, życzę szczęścia i zdrowia.
-
1315 7 0 Dzień dobry.
Jestem gotów podjąć się realizacji Państwa projektu.
Mogę opracować dla Państwa automatyzację do parsowania wyciągów bankowych.
Proszę pisać na prywatną wiadomość, omówimy wszystkie szczegóły i wybierzemy dla Państwa najlepsze rozwiązanie.
-
1522 14 0 Cześć! Mogę to zrealizować. Napisz na prywatną wiadomość, aby omówić wszystkie szczegóły. Będę zadowolony z współpracy!
-
1682 2 0 Dzień dobry, Kostiantynie!
Mam doświadczenie produkcyjne w tej konkretnej zadaniu — opracowałem mikroserwis OCR do przetwarzania 5 typów mieszanych dokumentów PDF (tekst + skan). FastAPI + pdfplumber + PaddleOCR, dokładność 100%, wyjście w postaci ustrukturyzowanego JSON.
Architektura:
— pdfplumber dla warstw tekstowych + PaddleOCR dla warstw nietekstowych (darmowo)
— automatyczne rozpoznawanie banku i typu na podstawie nagłówka/struktury tabel
— architektura wtyczkowa: nowy bank = nowy moduł bez zmiany rdzenia
— normalizacja do uzgodnionego szablonu (data, kwota, przeznaczenie, saldo)
…
Jedno pytanie: które 3 banki/typy wyciągów zaczynamy? Od formatów zależy wybór strategii parsowania.
-
278 5 1 1 Dzień dobry!
Mam bezpośrednie doświadczenie w podobnym zadaniu — opracowałem pipeline gotowy do produkcji do przetwarzania dokumentów PDF (raporty inspekcyjne, faktury, skanowane formularze) z multimodalną ekstrakcją danych.
Co już rozwiązałem i co jest istotne dla Państwa projektu:
Automatyczne określenie typu dokumentu — w moim projekcie pipeline rozróżniał tryb inspekcji vs tryb serwisowy na podstawie słów kluczowych w pierwszych 500 znakach + liczba stron. Dla wyciągów bankowych podejście jest podobne: określenie banku na podstawie nagłówka/logo + typ wyciągu na podstawie struktury tabel.
Multimodalna ekstrakcja — pdfplumber dla czystych tekstowych PDF, PaddleOCR dla skanowanych części, z automatycznym określeniem ścieżki (jest tekst → pdfplumber, nie ma → OCR). Dodatkowo wdrożyłem wykrywanie tekstu zakodowanego CID — kiedy PDF wygląda na tekstowy, ale znaki są nieczytelne z powodu osadzonych czcionek. W wyciągach bankowych to częsty problem.
…
Normalizacja pod jeden szablon — ekstrakcja do zorganizowanych kategorii z walidacją, deduplikacją i normalizacją nazw. Dostosowuję do Państwa uniwersalnego szablonu transakcji.
Rozszerzalna architektura — system zbudowany modułowo: dodanie nowego typu dokumentu = nowa konfiguracja + zasady parsowania, bez zmiany rdzenia pipeline.
Jeśli chodzi o szybkość 1-3 sekundy: dla tekstowych PDF z pdfplumber — realistyczne nawet dla 30+ stron. Dla mieszanych (tekst + OCR) — zależy od liczby stron wymagających OCR. Jestem gotów omówić optymalizację: przetwarzanie wsadowe tylko nie-tekstowych stron, buforowanie szablonów bankowych, wstępna klasyfikacja bez pełnego parsowania.
Stos: Python, FastAPI, pdfplumber, PaddleOCR/Tesseract, PostgreSQL, Docker.
Mogę pokazać architekturę podobnego projektu (bez szczegółów klienta, NDA) i omówić strukturę modułów podczas pierwszej rozmowy.
Orientacyjna wycena: 800-1200 USD w zależności od złożoności szablonów i liczby przypadków brzegowych.
Termin: 1-2 tygodnie na MVP (3 typy wyciągów).
-
172 1 1 Dzień dobry. Jestem gotów wykonać ten projekt, mam duże doświadczenie w tworzeniu aplikacji.
-
1540 3 0 Cześć! Zrobię to w 1 dzień — mam doświadczenie w parsowaniu wyciągów PDF.
Plan:
• Modułowa struktura z architekturą wtyczek — nowy bank dodawany jest jednym modułem bez zmian w jądrze
• pdfplumber do tekstu + Tesseract OCR do obrazków — wszystko za darmo
• Automatyczne rozpoznawanie banku i typu wyciągu
• Parsowanie + normalizacja do uniwersalnego szablonu JSON
• API-Endpoint na FastAPI
• Wytrenuję na 3 typy wyciągów, prędkość 1–3 sekundy na plik
…
Prześlij przykłady wyciągów i pożądany szablon — zaczynam od razu.
-
702 1 0 Cześć! Mam doświadczenie w tworzeniu botów telegramowych. Proponuję lojalną cenę i wysoką jakość pracy. Piszcie)
-
593 15 0 Cześć, robiłem coś takiego na open source partnerze pdf dla siebie osobiście i swoich banków. Co do szybkości, nie powiem, ponieważ wtedy na to nie zwracałem uwagi, ale według szablonów będziesz musiał stworzyć bazę dla każdego osobnego typu dokumentów bankowych, a także dobrze byłoby dodać mechanizm sprawdzania jej aktualizacji i jakiś proces z aktualizacją, ponieważ wszelkie partnerstwa działają do pierwszej zmiany struktury dokumentu ze strony banku.
Jeśli masz pytania, pisz na prywatne, dogadamy się.
P.S. Dla siebie zrobiłem moduł dla Firefly III, aby automatycznie uzyskiwać dane z banków, które nie wspierają integracji przez API, więc napisanie interfejsu pod twoje wymagania nie będzie problemem.
-
1251 35 1 3 Cześć. Robiłem przetwarzanie PDF z OCR, rozumiem jak szybko wyciągnąć dane nawet z mieszanych wyciągów. Używam PyMuPDF/pdfplumber do tekstu, Tesseract do OCR, wszystko złożę w normalną modułową strukturę z możliwością dodawania nowych banków.
Czy macie przykłady wyciągów (PDF) do testów?
-
807 2 0 Cześć! Jestem gotowy zająć się twoim projektem.
Moja główna specjalizacja to parsowanie danych. Mam doświadczenie w sektorze bankowym: poprzedni pomyślnie zakończony projekt dotyczył opracowania aplikacji do parsowania powiadomień push od banków (opinie klientów możesz zobaczyć w moim profilu).
Wymagania techniczne są całkowicie zrozumiałe, będę w stanie je zrealizować.
Ponieważ obecnie buduję swoją ocenę, jestem gotowy wykonać pracę po cenie niższej od rynkowej, bez utraty jakości.
Pisz, omówimy szczegóły.
-
726 9 1 Witaj! Zapoznałem się z twoim projektem i jestem gotów rozpocząć pracę. Gwarantuję wysoką jakość i szybkie wykonanie.
-
656 9 0 Dobry wieczór, Kostiantyn!
Ogólnie zadanie jest zrozumiałe, aby uzyskać dokładną odpowiedź na temat terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Pisz w prywatnych wiadomościach – omówimy szczegóły i twoje życzenia.
-
2138 22 2 cześć
tu trzeba ocr, są różne lokalne i płatne, a dalej z tego tekstu wyciągać dane
tu problem, bo bez szí będzie ciężko, albo niemożliwe
więc na darmowych raczej się nie uda, piszcie, omówimy
-
764 5 1 Dzień dobry.
Zadanie jest jasne: potrzebny jest nie tylko "parser PDF", ale dobrze zbudowany projekt w Pythonie, który będzie w stanie określić bank i typ wyciągu, wydobywać dane tekstowe, podłączać OCR do części nietekstowych, parsować transakcje i sprowadzać wszystko do jednego uniwersalnego formatu z możliwością skalowania na inne banki.
Mogę zrealizować to w takim podejściu:
— przemyśleć strukturę modułów pod rozszerzenia;
— zrobić określenie banku/typu wyciągu;
— osobno przetworzyć warstwę tekstową i warstwy OCR;
— zebrać normalizację w uzgodniony szablon;
… — przygotować rozwiązanie pod przetwarzanie wsadowe;
— położyć fundament, aby można było później dodawać nowe banki bez przepisywania całego projektu.
Podoba mi się, że od razu kładziecie nacisk na architekturę, szybkość i adaptacyjność. Też bym to robił jako modułowy pipeline: klasyfikacja → ekstrakcja → fallback OCR → parsowanie → normalizacja → walidacja. To daje bardziej stabilny wynik niż "jeden duży skrypt".
Jeśli szablon normalizacji uzgodnimy na początku i zakres będzie w granicach opisanych, jestem gotów szybko włączyć się w realizację.
-
1021 7 0 Witaj, Konstantynie! Twoje zadanie wymaga systematycznego podejścia do przetwarzania danych niestrukturalnych. Mam doświadczenie w pracy z analizą PDF oraz w rozwijaniu skalowalnych projektów w Pythonie.
Mój plan realizacji zgodnie z Twoimi wymaganiami:
Architektura: Zbuduję modułową strukturę (OOP), gdzie każdy typ wyciągu będzie osobnym modułem wtyczkowym. To pozwoli na łatwe dodawanie nowych banków bez zmiany rdzenia systemu.
Hybrydowe parsowanie: Wykorzystam pdfplumber do natychmiastowego wyciągania tekstu oraz EasyOCR/Tesseract do elementów graficznych (pieczęcie, ręcznie pisane daty). To zapewni szybkość 1–3 sekundy na plik.
Normalizacja: Stworzę uniwersalny schemat danych (Model Transakcji). Na wyjściu otrzymasz czysty JSON lub DataFrame z walidowanymi polami (data, kwota, przeznaczenie, saldo).
…
Szkolenie: Wytrenuję logikę na Twoich 3 typach wyciągów, zapewniając odporność na przesunięcia układu i specyficzne kodowania banków.
Bezpłatność: Wykorzystam wyłącznie rozwiązania open-source bez powiązań z płatnymi chmurowymi API.
Jestem gotów omówić strukturę wyjściowego szablonu i rozpocząć rozwój prototypu.
Z poważaniem,
Wiktor
-
2937 73 4 2 Witam! Mogę opracować projekt do parsowania takich wyciągów w Pythonie!!!! Proszę o kontakt, jakość gwarantuję!!!
-
2506 20 0 Dzień dobry, jestem gotowy wykonać twoje zadanie szybko i jakościowo. Mam duże doświadczenie w tworzeniu różnych parserów. Napisz w wiadomościach prywatnych, omówimy szczegóły. Chętnie pomogę)
-
4611 52 1 Cześć, jestem programistą Pythona, mam doświadczenie w tworzeniu parserów o różnym stopniu skomplikowania. Mogę szybko i jakościowo zrealizować Twój projekt. Napisz - omówimy szczegóły. Jestem gotów do pracy już dzisiaj.
-
718 5 0 Witam
Mam doświadczenie w przetwarzaniu dokumentów PDF, rozpoznawaniu, parsowaniu i zapisywaniu informacji w bazach danych, a także w konfiguracji API projektów.
Będę zadowolony z współpracy.
Proszę o przesłanie przykładu wyciągów, aby można było zapoznać się ze strukturą danych wejściowych.
-
250 Dzień dobry, jestem gotowy zrealizować twój projekt, mam duże doświadczenie w projektach z Pythonem. Pisz na prywatną wiadomość, omówimy szczegóły.
-
2335 37 0 Dzień dobry, robiłem podobne narzędzie dla firmy prawniczej - parsowałem wyciąg z UBCI. Mogę pomóc, pisz na prywatną wiadomość.
-
3186 52 1 Dzień dobry
jestem gotów wykonać twoją pracę
Pisz, chętnie pomogę w twoim zadaniu
Aktualne zlecenia dla freelancerów w kategorii AI i uczenie maszynowe
AI-agent w Instagram Direct — ManyChat PRO (dopracowanie i nowe funkcje)
145 PLN
dianashuvaloffмой т гJest kobiecy klub eventowy HER ERA, ManyChat PRO podłączony do Instagrama. Poprzedni wykonawca zebrał podstawowy flow, ale z błędami — trzeba przejąć projekt i doprowadzić do stanu roboczego.Co poprawić:Usunąć z wszystkich bloków wzmianki o pakietach i… AI i uczenie maszynowe, Tworzenie chatbota ∙ 8 godzin 6 minut temu ∙ 12 ofert |
Stworzyć wtyczkę do Chrome, do łączenia z proxyStworzyć wtyczkę do Chrome, do łączenia z proxy szukam programisty, możliwe + AI który już publikował podobne wtyczki w sklepie z sukcesem po prostu AI pisanie bez doświadczenia w programowaniu nie jest potrzebne proszę o oferty cenowe, terminy AI i uczenie maszynowe, Programowanie stron internetowych ∙ 22 godziny 5 minut temu ∙ 27 ofert |
Należy przenieść stronę z Figma + Webflow na kod, możliwie z AITrzeba przenieść stronę z Figma + Webflow na kod, możliwe z AI Jeśli można to zrobić z AI, z 100% dokładnością i bez błędów, lepiej to zrobić z nimi napisz cenę i jakie miałeś doświadczenie w tej konkretnej zadaniu AI i uczenie maszynowe, AI graphic ∙ 22 godziny 7 minut temu ∙ 33 oferty |
Twórca Wideo AI i Artysta 3D dla Innowacyjnego Projektu AI-EdTech (Radaastrea): Szukamy artysty 3D / twórcy wideo AI do innowacyjnego projektu AI-EdTech (Radaastria)Opis: Tworzymy rozbudowaną franczyzę medialną i koncepcję empatycznego robota AI nowej generacji dla nastolatków — RADAASTRIA. Obraz — mądra i jasna 7-letnia dziewczynka, łącząca w sobie boską… AI i uczenie maszynowe, Tworzenie gier ∙ 1 dzień 18 godzin temu ∙ 1 oferta |
Przegląd architektury i wdrożenia N8nJęzyk Nasza ekipa techniczna mówi po angielsku, rosyjsku i niemiecku. Możesz wybrać dowolny z tych języków dla swojego tekstu i rozmowy przeglądowej. CelObsługujemy gotowe do produkcji AI i przepływy dokumentów w n8n Cloud, które integrują Salesforce z LLM i usługami… AI i uczenie maszynowe, AI consult ∙ 1 dzień 21 godzin temu ∙ 18 ofert |