Eval-Lab — Регрессия промптов и моделей
Веб-дашборд для регрессионного тестирования промптов и моделей. Прогон тестового набора через две модели/промпты — сравнение по 4 под-оценкам.
Что интересно технически:
— LLM-as-judge через 5 провайдеров (OpenRouter, Anthropic через tool-use, Gemini, Groq, mock)
— 4 под-оценки каждого кейса: correctness, relevance, completeness, prompt_quality
— Cap финального скоринга при плохом промпте — не позволяет сильной модели замаскировать плохой промпт
— Per-provider throttle и retry с backoff + Retry-After
— Mock-режим для запуска без API ключей (CI-friendly, $0)
— Редактирование секретов в логах
Стек: FastAPI, async SQLAlchemy, Alembic, httpx, Pydantic, vanilla JS, Docker.
Что интересно технически:
— LLM-as-judge через 5 провайдеров (OpenRouter, Anthropic через tool-use, Gemini, Groq, mock)
— 4 под-оценки каждого кейса: correctness, relevance, completeness, prompt_quality
— Cap финального скоринга при плохом промпте — не позволяет сильной модели замаскировать плохой промпт
— Per-provider throttle и retry с backoff + Retry-After
— Mock-режим для запуска без API ключей (CI-friendly, $0)
— Редактирование секретов в логах
Стек: FastAPI, async SQLAlchemy, Alembic, httpx, Pydantic, vanilla JS, Docker.