Spaces:

duqing026
/

eval-matrix-agent

Sleeping

eval-matrix-agent / README.md

Trae Assistant

restore readme

68d8b90 6 days ago

1.87 kB

title: Eval Matrix Agent
emoji: ⚖️
colorFrom: blue
colorTo: indigo
sdk: docker
app_port: 7860
short_description: 企业级 LLM 评测与基准测试平台

Eval Matrix Agent - 企业级 LLM 评测平台

Eval Matrix Agent 是一个专为企业和开发者设计的 LLM（大语言模型）评测与基准测试 SaaS 平台。它能够帮助用户系统化地管理测试用例，运行自动化评测，并通过可视化报表分析不同模型的性能表现。

测试集管理 (Test Sets): 创建和管理不同场景的测试用例（Prompt + 预期结果 + 评分标准）。
自动化评测 (Auto Eval): 使用 "LLM-as-a-Judge" 模式，自动运行测试用例并由高智商模型（如 Qwen-2.5-7B-Instruct）进行打分和点评。
多维度分析 (Analytics): 提供仪表盘和雷达图，可视化展示模型的准确性、响应速度、安全性等指标。
历史记录 (Audit Logs): 完整保存每一次评测的输入、输出、评分和耗时，形成企业资产。

docker build -t eval-matrix-agent .
docker run -p 7860:7860 -v $(pwd)/instance:/app/instance eval-matrix-agent