Есть CSV с примерно 55 000 компаний (ID, название, локация) и готовый четко настроенный и протестированный prompt для классификации в 14 индустриальных категорий. В приложении - скриншот части файла CSV и текстовый файл с промптом.
Необходимо:
На основе моего CSV и prompt:
разбить данные на батчи по 50 компаний;
сгенерировать файл
requests.jsonlв формате OpenAI Batch API дляPOST /v1/responsesкаждая строка JSONL должна содержать мой prompt плюс 50 строк компаний.
Я сам загружу
requests.jsonlв OpenAI, запущу Batch и загружу файл с результатамиresults.jsonl.После этого нужно:
распарсить
results.jsonl;извлечь из ответов модели пары
ID,ShortLabel(где ShortLabel - один из 14 кодов илиUnknown);вернуть финальный CSV с колонками
ID,ShortLabel;отдельно отметить проблемные или нечитаемые строки, если такие будут.
Важные условия:
Доступ к моему OpenAI API ключу не нужен, Batch я запускаю сам.
Содержание prompt изменять нельзя, максимум минимальное косметическое форматирование.
Разовая задача: достаточно однократного корректного запуска на всех 55 000 строках.
Желательные навыки:
Опыт с Python или Node.js.
Умение работать с JSONL файлами.
Желателен реальный опыт с OpenAI API, идеально с Batch API.
В отклике, пожалуйста, укажите:
Какой язык будете использовать (Python или Node).
Есть ли у вас опыт именно с OpenAI API / Batch.