Skrypt Pythona do masowego ładowania dokumentów z dwóch API
Aby aplikacja mobilna działała, potrzebna jest baza danych, którą LLM będzie używać po zapytaniu użytkownika w czacie. Baza danych musi być w Supabase. Jeśli odpowiedzi nie ma w BDB, wtedy LLM zwróci się przez API do zewnętrznego źródła.
1. Opis projektu
Opracować asynchroniczny skrypt Python do masowego ładowania dokumentów:
SITE API załadować wszystkie dostępne dokumenty wszystkich typów za cały okres.
SITE API: załadować wszystkie dokumenty, począwszy od 2000 roku.
Przechowywać pełny tekst, wszystkie pola i metadane każdego dokumentu. Docelowa baza — Supabase (PostgreSQL).
2. Wymagania funkcjonalne
Zadanie dla wykonawcy na Python 3.8+:
A. Asynchroniczne masowe ładowanie przez API
Użycie
aiohttp+asynciodo asynchronicznej pracy.Paralelizacja zapytań (10–50 jednoczesnych połączeń, bez przekraczania dozwolonych limitów API).
Wsparcie paginacji (
pageSizemaksymalnie dla SAOS — 100, dla Sejm potwierdzić w dokumentacji).Dla SAOS zrealizować filtrowanie
judgmentDate >= 2000-01-01.Przechowywanie wszystkich otrzymanych pól — meta oraz pełny tekst orzeczenia.
B. Przechowywanie w Supabase
Partiowe przechowywanie danych (batch insert, do 1000–5000 rekordów na raz).
Użycie
supabase-pydo integracji.Opracować schemat SQL:
Oddzielne tabele dla sejm_documents oraz saos_judgments.
Przechowywanie metadanych w JSONB.
Indeksy dla kluczowych pól (data, sąd, typ dokumentu).
C. Niezawodność i kontrola procesu
Automatyczne przywracanie postępu po przerwaniu (checkpoint-file).
Ponowne próby w przypadku niepowodzeń (do 3 razy, z exponential backoff).
Szczegółowe logowanie — czas wykonania, otrzymane obiekty, błędy.
D. Wektoryzacja dla wyszukiwania
Po imporcie — chunking każdego dokumentu (25 chunków/dokument; rozmiar do omówienia, orientacyjnie 1500–2000 znaków).
Przechowywanie chunków w oddzielnej tabeli (
document_chunks), z odniesieniem do oryginalnego dokumentu.(Opcjonalnie) Formularz do dalszej wektoryzacji przez LLM API (Gemini Flash 2.5 lub inny odpowiednik).
3. Dane wejściowe
Sejm API: wszystkie dokumenty (zgodnie z dokumentacją), wszystkie typy, wszystkie lata.
SAOS API: wszystkie sądy, orzeczenia sądowe od 2000 roku.
Docelowa Baza Danych: nowy projekt Supabase (PostgreSQL), konto i klucze dostarcza zamawiający.
Oczekiwana liczba: 160,000+ , 520,000+ .
4. Struktura danych (SQL Schema)
Tabela: sejm_documents
sqlCREATE TABLE sejm_documents (
id BIGSERIAL PRIMARY KEY,
source_id TEXT UNIQUE NOT NULL,
document_type TEXT,
title TEXT,
content TEXT,
metadata JSONB,
created_at TIMESTAMP DEFAULT NOW(),
updated_at TIMESTAMP,
is_processed BOOLEAN DEFAULT FALSE
);
Tabela: saos_judgments
sqlCREATE TABLE saos_judgments (
id BIGSERIAL PRIMARY KEY,
source_id TEXT UNIQUE NOT NULL,
court_type TEXT,
case_number TEXT,
judgment_date DATE,
text_content TEXT,
metadata JSONB,
created_at TIMESTAMP DEFAULT NOW(),
updated_at TIMESTAMP,
is_processed BOOLEAN DEFAULT FALSE
);
Tabela: document_chunks
sqlCREATE TABLE document_chunks (
id BIGSERIAL PRIMARY KEY,
document_id BIGINT REFERENCES sejm_documents(id) ON DELETE CASCADE,
chunk_index INT,
chunk_text TEXT,
created_at TIMESTAMP DEFAULT NOW()
);
5. Deliverables (co musi być w wyniku)
Asynchroniczny skrypt Python (+ szczegółowa instrukcja uruchomienia)
Skrypty SQL do tworzenia niezbędnych tabel
README do wdrożenia projektu od zera
.env.exampledo konfiguracji kluczy SupabaseDziennik logów, plik kontrolny do monitorowania postępu
(Opcjonalnie dla MVP): chunking testowych dokumentów do weryfikacji RAG/LLM indeksacji
6. Wymagania
Dokumentacja do skryptu!
Proste uruchomienie dla właściciela bez doświadczenia w programowaniu.
Opinia zleceniodawcy o współpracy z Illia Antipiev
Skrypt Pythona do masowego ładowania dokumentów z dwóch APIIlia, dziękuję za pracę. Projekt był trudny, ale poradziłeś sobie. Zajęło to znacznie więcej czasu niż planowano. Wykonanie zadania w 100% wymagało cierpliwości i wielu poprawek, a także zmian z naszej strony. W każdym razie dziękuję!
Opinia freelancera o współpracy z Maximilian D
Skrypt Pythona do masowego ładowania dokumentów z dwóch APIDziękuję za współpracę!
wszystkie materiały, dostęp do nich były dostarczone na czas i aktualizowane w miarę potrzeby
klient wyszedł naprzeciw, gdy musiał odłożyć wykonanie z powodów osobistych
mały minus - czasami trzeba odpowiadać na pytania od osoby, której brakuje kontekstu. dlatego trzeba było się powtarzać 😔 ale należy oddać mu sprawiedliwość - niektóre błędy znajduje
-
20 dni8500 PLN
169 20 dni8500 PLNDzień dobry,
Proponuję opracowanie asynchronicznego skryptu Python do masowego ładowania dokumentów z API Sejmu i SAOS, ich przechowywania w Supabase oraz przygotowania do dalszej wektoryzacji dla LLM. Skrypt będzie wspierał batch insert, checkpointy, ponawianie prób oraz szczegółowe logowanie postępu.
Oferuję **wycenę 8 500 zł netto** z przewidywanym czasem realizacji **3–4 tygodni**.
W pracy wykorzystam asyncio + aiohttp do równoległego pobierania danych, supabase-py do integracji z bazą, a także opracuję schemat SQL i system chunkingu dokumentów, zapewniając łatwe uruchomienie i pełną dokumentację.
Posiadam doświadczenie w Pythonie, asynchronicznych skryptach masowego pobierania danych oraz pracy z PostgreSQL/Supabase, co pozwala na stabilne i skalowalne wdrożenie całego procesu.
…
Chętnie umówię się na spotkanie online, aby przedstawić plan wdrożenia, sposób chunkowania dokumentów oraz konsultację w zakresie integracji z LLM i API.
-
2 dni820 PLN
216 2 dni820 PLNCześć!
Mam doświadczenie w Pythonie, asyncio i Supabase, pracowałem z dużymi danymi i API, gotowy jakościowo i szybko wykonać Twój projekt.
-
1 dzień1000 PLN
1562 7 0 1 dzień1000 PLNDzień dobry!
Nazywam się Roman i jestem w czołówce 5 deweloperów w kategorii „Sztuczna inteligencja i uczenie maszynowe” wśród ~1600 specjalistów na platformie.
Gwarantuję:
- Szybkie i jakościowe wykonanie zadania
- Ścisłe przestrzeganie terminów
- Regularny kontakt przez cały proces
Będę zadowolony, mogąc omówić szczegóły twojego projektu w prywatnych wiadomościach.
-
Oferta, która wygrała7 dni820 PLN
2248 63 2 2 Oferta, która wygrała7 dni820 PLNWitam
Mogę zrealizować twój projekt
Napiszę dobrą dokumentację
Dla łatwiejszego uruchomienia mogę zrobić kontener Docker
-
7 dni850 PLN
758 31 0 7 dni850 PLNDzień dobry!
Mam komercyjne doświadczenie w pracy z Pythonem 3+ lat.
Pracowałem z supabase i tworzyłem skrypty automatyzacji. Jestem gotów wykonać Twój projekt.
Proponuję ulepszenia z własnego doświadczenia - to wykorzystanie circuit breaker + retry do zapytań do API. A nie skrypt SQL do tworzenia tabel, a migracje. Również w kwestii optymalizacji danych mam kilka pomysłów, chętnie bym je omówił.
Mam tylko kilka pytań dotyczących części AI, nie do końca rozumiem, co jest wymagane.
-
2 dni820 PLN
205 2 dni820 PLNSzanowny Maximilianie,
Nazywam się Michał i jestem deweloperem z ogromnym doświadczeniem w tworzeniu aplikacji internetowych, automatyzacji i zbieraniu danych. Z przyjemnością chciałbym zaoferować swoje usługi w celu pomyślnego zrealizowania Państwa projektu.
Z Państwa specyfikacji rozumiem, że najlepszym rozwiązaniem dla Państwa będzie napisanie skryptu w Pythonie z wykorzystaniem następującego stosu: requests/selenium, sqlalchemy, asyncio/threading. Jestem profesjonalistą w dziedzinie automatyzacji, pisałem wiele projektów związanych z równoległym parsowaniem, dla mnie nie ma znaczenia, jak skomplikowane jest źródło, z którego należy wydobyć dane, zostaną one wydobyte z maksymalną prędkością i jakością. Do obejścia ochrony API będę używał proxy, na koniec dostarczę wypełnioną bazę danych stworzoną za pomocą sqlalchemy oraz cały kod, w razie potrzeby podłączę sieci neuronowe.
Jestem pewien, że będę w stanie zrealizować Państwa pomysły i doprowadzić projekt do pomyślnego zakończenia.
Byłbym wdzięczny za możliwość omówienia Państwa projektu bardziej szczegółowo i odpowiedzenia na wszelkie pytania.
-
3 dni820 PLN
1430 14 3 1 3 dni820 PLNWitam, zapoznałam się z twoim zadaniem i jestem zainteresowana jego realizacją, chciałabym z tobą współpracować. Zapraszam do rozmowy prywatnej w celu szczegółowej dyskusji.
-
1 dzień780 PLN
1328 6 0 1 dzień780 PLNDzień dobry, jestem gotów zająć się twoim projektem. Mam umiejętności w Pythonie.
-
6 dni900 PLN
475 2 0 6 dni900 PLNgotowy, aby ci pomóc
myślę, że może możesz użyć go zamiast pythona
wygląda lepiej w tym przypadku
-
11 dni799 PLN
981 6 3 11 dni799 PLNDzień dobry, zrobię wszystko jak mówicie. Mam nadzieję na współpracę, piszcie w prywatnych wiadomościach!
-
1 dzień820 PLN
162 1 dzień820 PLNDzień dobry.
Z zainteresowaniem zapoznałam się z Twoim projektem. Jestem pewna, że mogę wykonać efektywną i wysokiej jakości pracę zgodnie z Twoimi wymaganiami i oczekiwaniami. Posiadam ponad 8-letnie doświadczenie. Jestem gotowa omówić szczegóły i przystąpić do pracy. Czekam na Twoją odpowiedź.
-
2 dni820 PLN
316 1 0 2 dni820 PLNCześć, mam duże doświadczenie w tworzeniu stron internetowych. Jestem gotów zrobić to szybko i jakościowo. Piszesz w wiadomościach prywatnych – omówimy szczegóły.
-
3 dni1000 PLN
656 9 0 3 dni1000 PLNDobry wieczór, Maximilian!
Ogólnie zadanie jest zrozumiałe, aby uzyskać dokładną odpowiedź na temat terminów i ceny, chciałbym wyjaśnić kilka kwestii, które pojawiły się po analizie twojego zadania.
Pisz w prywatnych wiadomościach – omówimy szczegóły i twoje życzenia.
-
25 dni4000 PLN
4272 25 0 25 dni4000 PLNWitam! Proponuję zrealizować w języku Go, podzielić na sprinty i zacząć od prostego (odrzucić na pierwszych etapach wektoryzację, chunkowanie, ponowne próby), bo w ten sposób można nie zakończyć projektu. Minimalny start ceny.
-
1 dzień820 PLN
172 1 1 1 dzień820 PLNWitaj! Jestem gotów zrealizować ten projekt, mam duże doświadczenie w tworzeniu różnych aplikacji.
-
7 dni820 PLN
12784 4 2 7 dni820 PLNCześć,
Cieszę się, że mogę aplikować na stanowisko związane z asynchronicznym wczytywaniem dokumentów i integracją Supabase. Posiadając głębokie doświadczenie w Pythonie (3.8+), aiohttp, asyncio i supabase-py, mogę dostarczyć solidny, skalowalny pipeline ETL dostosowany do Twoich potrzeb API i bazy danych.
Wcześniej budowałem podobne systemy do przetwarzania dokumentów o dużej objętości, w tym paginację, grupowanie (1k–5k wstawień), odzyskiwanie oparte na punktach kontrolnych oraz przechowywanie metadanych JSONB w PostgreSQL. Rozumiem również znaczenie dzielenia i strukturyzowania dokumentów dla przyszłych wyszukiwań opartych na wektorach i integracji LLM.
Otrzymasz w pełni udokumentowane, gotowe do produkcji rozwiązanie — kompletne z skryptami schematów, szablonami .env, logami i logiką ponawiania — zaprojektowane z myślą o łatwości wdrożenia nawet przez osoby nietechniczne.
Czekam na możliwość wniesienia wkładu w Twój projekt.
… Z poważaniem,
Jeo Vincent Carretas
-
2 dni888 PLN
1251 35 1 3 2 dni888 PLNCześć, jestem tym, kogo potrzebujesz.
Mam duże doświadczenie w tworzeniu stron internetowych.
Napisz do mnie na prywatnej wiadomości, omówimy pracę.
-
2 dni820 PLN
342 2 dni820 PLNDzień dobry.
Jestem gotów wykonać twoje zadanie szybko i jakościowo.
Zalety:
- Łatwość użycia.
- Bezpłatne wsparcie przez 2 tygodnie po wykonaniu zamówienia i poprawie błędów.
- Przystępuję do pracy w dniu przyjęcia zamówienia i wykonuję w najkrótszym czasie.
… Będę zadowolony ze współpracy.
-
1 dzień820 PLN
3096 50 1 1 dzień820 PLNDzień dobry
Proszę pisać, jestem gotów wykonać Państwa pracę.
Będę zadowolony, mogąc szybko i jakościowo pomóc w Państwa zadaniu.
Aktualne zlecenia dla freelancerów w kategorii Bazy danych i SQL
Rozwój jądra Backend (Python), silnika FSM Telegram i integracja StripePoszukujemy doświadczonego programisty Backend (Middle/Senior) do stworzenia niezależnego rdzenia Headless produktu EdTech. System działa na modelu miesięcznej, ścisłej subskrypcji. Logika rdzenia musi być całkowicie izolowana od treści. Cała rozwój odbywa się wyłącznie w… Python, Bazy danych i SQL ∙ 1 godzina 19 minut temu ∙ 5 ofert |
Przywracanie Instagrama po zablokowaniu3 marca 2026 r. zablokowano Instagram z powodu naruszenia zasad. Uważam, że doszło do jakiegoś błędu, ponieważ strona była osobista z zdjęciami i filmami z prywatnych podróży. Nie pisałam komentarzy ani niczego innego. Wysłałam kilka razy odwołanie. Nie mogę pobrać swoich… Bazy danych i SQL, Programowanie stron internetowych ∙ 6 godzin 15 minut temu ∙ 4 oferty |
Należy załadować towary do odpowiednich kategorii i podkategorii z plików SQLStrona została stworzona na WP. Znajduje się w niej katalog produktów. Wgrywano towary z pliku pdf, częściowo wyszła kasza. Jest trzy pliki z wyraźnym podziałem kategorii, podkategorii i produktów w nich. W pliku PA.sql kategorie są ponumerowane, na przykład na stronie… Bazy danych i SQL, Programowanie stron internetowych ∙ 9 godzin 47 minut temu ∙ 28 ofert |
System CRM dla logistyki kolejowejStworzenie systemu CRM dla firmy logistycznej, głównie zajmującej się transportem kolejowym i drogowym, 1) Raportowanie finansowe 2) Przetwarzanie wniosków 3) Kontrahenci 4) Automatyczne wystawianie faktur i aktów zamknięcia, można stworzyć uproszczony system 1C poniżej… Bazy danych i SQL, Zarządzanie klientami i CRM ∙ 18 godzin 22 minuty temu ∙ 34 oferty |
Usunąć problem niepełnego importu danych z plików Excel specyfikacji Nowej Poczty do 1C:
164 PLN
Cel: Istnieje przetwarzanie w 1C dotyczące ładowania specyfikacji Nowej Poczty. Z nieznanych powodów przestało ładować niektóre dane tabelaryczne. Należy znaleźć przyczynę i usunąć problem niepełnego importu danych z plików Excel specyfikacji Nowej Poczty do 1C: Mały Biznes.… Administracja systemem i siecią, Bazy danych i SQL ∙ 3 dni 13 godzin temu ∙ 16 ofert |