Eval-Lab — Регресія промптів і моделей
Веб-дашборд для регресійного тестування промптів і моделей. Прогін тестового набору через дві моделі/промпти — порівняння за 4 під-оцінками.
Що цікаво технічно:
— LLM-as-judge через 5 провайдерів (OpenRouter, Anthropic через tool-use, Gemini, Groq, mock)
— 4 під-оцінки кожного кейса: correctness, relevance, completeness, prompt_quality
— Cap фінального скору при поганому промпті — не дає сильній моделі замаскувати поганий промпт
— Per-provider throttle і retry з backoff + Retry-After
— Mock-режим для запуску без API ключів (CI-friendly, $0)
— Редакція секретів у логах
Стек: FastAPI, async SQLAlchemy, Alembic, httpx, Pydantic, vanilla JS, Docker.
Що цікаво технічно:
— LLM-as-judge через 5 провайдерів (OpenRouter, Anthropic через tool-use, Gemini, Groq, mock)
— 4 під-оцінки кожного кейса: correctness, relevance, completeness, prompt_quality
— Cap фінального скору при поганому промпті — не дає сильній моделі замаскувати поганий промпт
— Per-provider throttle і retry з backoff + Retry-After
— Mock-режим для запуску без API ключів (CI-friendly, $0)
— Редакція секретів у логах
Стек: FastAPI, async SQLAlchemy, Alembic, httpx, Pydantic, vanilla JS, Docker.