Spaces:

duqing026
/

eval-matrix-agent

Sleeping

App Files Files Community

eval-matrix-agent / README.md

Trae Assistant

restore readme

68d8b90 8 days ago

preview code

raw

history blame contribute delete

1.87 kB

	---
	title: Eval Matrix Agent
	emoji: ⚖️
	colorFrom: blue
	colorTo: indigo
	sdk: docker
	app_port: 7860
	short_description: 企业级 LLM 评测与基准测试平台
	---

	# Eval Matrix Agent - 企业级 LLM 评测平台

	Eval Matrix Agent 是一个专为企业和开发者设计的 LLM（大语言模型）评测与基准测试 SaaS 平台。它能够帮助用户系统化地管理测试用例，运行自动化评测，并通过可视化报表分析不同模型的性能表现。

	## 核心功能

	1. 测试集管理 (Test Sets): 创建和管理不同场景的测试用例（Prompt + 预期结果 + 评分标准）。
	2. 自动化评测 (Auto Eval): 使用 "LLM-as-a-Judge" 模式，自动运行测试用例并由高智商模型（如 Qwen-2.5-7B-Instruct）进行打分和点评。
	3. 多维度分析 (Analytics): 提供仪表盘和雷达图，可视化展示模型的准确性、响应速度、安全性等指标。
	4. 历史记录 (Audit Logs): 完整保存每一次评测的输入、输出、评分和耗时，形成企业资产。

	## 技术栈

	- Backend: Python Flask, SQLite
	- Frontend: Vue.js 3, Tailwind CSS, ECharts
	- AI Integration: SiliconFlow API (Qwen/Qwen2.5-7B-Instruct)
	- Deployment: Docker

	## 快速开始

	### 本地运行

	1. 安装依赖:
	```bash
	pip install -r requirements.txt
	```

	2. 运行应用:
	```bash
	python app.py
	```

	3. 访问: http://localhost:7860

	### Docker 运行

	```bash
	docker build -t eval-matrix-agent .
	docker run -p 7860:7860 -v $(pwd)/instance:/app/instance eval-matrix-agent
	```

	## 商业价值

	- 模型选型决策: 通过客观数据帮助企业选择最适合业务场景的模型。
	- 回归测试: 在 Prompt 优化或模型更新后，快速验证是否引入了新的问题。
	- 质量监控: 持续监控线上模型的表现，建立质量护栏。