Jest plik CSV z około 55 000 firm (ID, nazwa, lokalizacja) oraz gotowy, dokładnie skonfigurowany i przetestowany prompt do klasyfikacji w 14 kategoriach przemysłowych. W załączniku - zrzut ekranu części pliku CSV oraz plik tekstowy z promptem.
Potrzebne:
Na podstawie mojego CSV i promptu:
podzielić dane na partie po 50 firm;
wygenerować plik
requests.jsonlw formacie OpenAI Batch API dlaPOST /v1/responseskażdy wiersz JSONL powinien zawierać mój prompt plus 50 wierszy firm.
Sam załaduję
requests.jsonldo OpenAI, uruchomię Batch i załaduję plik z wynikamiresults.jsonl.Po tym należy:
przeanalizować
results.jsonl;wydobyć z odpowiedzi modelu pary
ID,ShortLabel(gdzie ShortLabel to jeden z 14 kodów lubUnknown);zwrócić ostateczny CSV z kolumnami
ID,ShortLabel;oddzielnie zaznaczyć problematyczne lub nieczytelne wiersze, jeśli takie będą.
Ważne warunki:
Dostęp do mojego klucza API OpenAI nie jest potrzebny, Batch uruchamiam sam.
Treść promptu nie może być zmieniana, maksymalnie minimalne kosmetyczne formatowanie.
Jednorazowe zadanie: wystarczy jednorazowe poprawne uruchomienie na wszystkich 55 000 wierszach.
Pożądane umiejętności:
Doświadczenie z Pythonem lub Node.js.
Umiejętność pracy z plikami JSONL.
Preferowane rzeczywiste doświadczenie z OpenAI API, idealnie z Batch API.
W odpowiedzi proszę podać:
Jakiego języka będziesz używać (Python lub Node).
Czy masz doświadczenie właśnie z OpenAI API / Batch.