Spaces:
Sleeping
Sleeping
| title: Eval Matrix Agent | |
| emoji: ⚖️ | |
| colorFrom: blue | |
| colorTo: indigo | |
| sdk: docker | |
| app_port: 7860 | |
| short_description: 企业级 LLM 评测与基准测试平台 | |
| # Eval Matrix Agent - 企业级 LLM 评测平台 | |
| Eval Matrix Agent 是一个专为企业和开发者设计的 LLM(大语言模型)评测与基准测试 SaaS 平台。它能够帮助用户系统化地管理测试用例,运行自动化评测,并通过可视化报表分析不同模型的性能表现。 | |
| ## 核心功能 | |
| 1. **测试集管理 (Test Sets)**: 创建和管理不同场景的测试用例(Prompt + 预期结果 + 评分标准)。 | |
| 2. **自动化评测 (Auto Eval)**: 使用 "LLM-as-a-Judge" 模式,自动运行测试用例并由高智商模型(如 Qwen-2.5-7B-Instruct)进行打分和点评。 | |
| 3. **多维度分析 (Analytics)**: 提供仪表盘和雷达图,可视化展示模型的准确性、响应速度、安全性等指标。 | |
| 4. **历史记录 (Audit Logs)**: 完整保存每一次评测的输入、输出、评分和耗时,形成企业资产。 | |
| ## 技术栈 | |
| - **Backend**: Python Flask, SQLite | |
| - **Frontend**: Vue.js 3, Tailwind CSS, ECharts | |
| - **AI Integration**: SiliconFlow API (Qwen/Qwen2.5-7B-Instruct) | |
| - **Deployment**: Docker | |
| ## 快速开始 | |
| ### 本地运行 | |
| 1. 安装依赖: | |
| ```bash | |
| pip install -r requirements.txt | |
| ``` | |
| 2. 运行应用: | |
| ```bash | |
| python app.py | |
| ``` | |
| 3. 访问: http://localhost:7860 | |
| ### Docker 运行 | |
| ```bash | |
| docker build -t eval-matrix-agent . | |
| docker run -p 7860:7860 -v $(pwd)/instance:/app/instance eval-matrix-agent | |
| ``` | |
| ## 商业价值 | |
| - **模型选型决策**: 通过客观数据帮助企业选择最适合业务场景的模型。 | |
| - **回归测试**: 在 Prompt 优化或模型更新后,快速验证是否引入了新的问题。 | |
| - **质量监控**: 持续监控线上模型的表现,建立质量护栏。 | |