Є CSV з приблизно 55 000 компаній (ID, назва, локація) і готовий чітко налаштований та відтестований prompt для класифікації в 14 індустріальних категорій. В додатку - скріншот частини файла CSV та текстовий файл з промптом.
Потрібно:
На основі мого CSV і prompt:
розбити дані на батчі по 50 компаній;
згенерувати файл
requests.jsonlу форматі OpenAI Batch API дляPOST /v1/responsesкожен рядок JSONL повинен містити мій prompt плюс 50 рядків компаній.
Я сам завантажу
requests.jsonlв OpenAI, запущу Batch і завантажу файл з результатамиresults.jsonl.Після цього потрібно:
розпарсити
results.jsonl;витягнути з відповідей моделі пари
ID,ShortLabel(де ShortLabel - один з 14 кодів абоUnknown);повернути фінальний CSV з колонками
ID,ShortLabel;окремо відмітити проблемні або нечитабельні рядки, якщо такі будуть.
Важливі умови:
Доступ до мого OpenAI API ключа не потрібен, Batch я запускаю сам.
Зміст prompt змінювати не можна, максимум мінімальне косметичне форматування.
Разова задача: достатньо одноразового коректного запуску на всіх 55 000 рядків.
Бажані навички:
Досвід з Python або Node.js.
Вміння працювати з JSONL файлами.
Бажано реальний досвід з OpenAI API, ідеально з Batch API.
У відгуку, будь ласка, вкажіть:
Яку мову будете використовувати (Python або Node).
Чи маєте досвід саме з OpenAI API / Batch.