General-Level
commited on
Commit
·
4e57cb6
1
Parent(s):
0eb3766
resubmit README
Browse files
README.md
CHANGED
|
@@ -1,4 +1,3 @@
|
|
| 1 |
-
<<<<<<< HEAD
|
| 2 |
---
|
| 3 |
title: README
|
| 4 |
emoji: 🌍
|
|
@@ -132,82 +131,3 @@ If you find our benchmark useful in your research, please kindly consider citing
|
|
| 132 |
```
|
| 133 |
|
| 134 |
|
| 135 |
-
=======
|
| 136 |
-
# GenBench 评分系统 - 用户使用说明
|
| 137 |
-
|
| 138 |
-
本系统用于评估大模型在 General-Bench 多模态任务集上的表现,可完成预测、评分和最终得分计算。
|
| 139 |
-
|
| 140 |
-
## 环境准备
|
| 141 |
-
|
| 142 |
-
- Python 3.9 及以上
|
| 143 |
-
- 推荐提前安装依赖(如 pandas, numpy, openpyxl 等)
|
| 144 |
-
- Video Generation评测,需要按照video_generation_evaluation/README.md中的步骤安装依赖
|
| 145 |
-
- Video Comprehension评测,需要按照[sa2va](https://github.com/magic-research/Sa2VA)中的README.md中的步骤安装依赖。
|
| 146 |
-
|
| 147 |
-
## 数据集下载
|
| 148 |
-
|
| 149 |
-
- **Open Set(公开数据集)**:请从 [HuggingFace General-Bench-Openset](https://huggingface.co/datasets/General-Level/General-Bench-Openset) 下载全部数据,解压后放入 `General-Bench-Openset/` 目录。
|
| 150 |
-
- **Close Set(私有数据集)**:请从 [HuggingFace General-Bench-Closeset](https://huggingface.co/datasets/General-Level/General-Bench-Closeset) 下载全部数据,解压后放入 `General-Bench-Closeset/` 目录。
|
| 151 |
-
|
| 152 |
-
## 一键运行
|
| 153 |
-
|
| 154 |
-
请直接运行主脚本 `run.sh`,即可完成全部流程:
|
| 155 |
-
|
| 156 |
-
```bash
|
| 157 |
-
bash run.sh
|
| 158 |
-
```
|
| 159 |
-
|
| 160 |
-
该命令将依次完成:
|
| 161 |
-
1. 生成各模态预测结果
|
| 162 |
-
2. 计算各任务得分
|
| 163 |
-
3. 计算最终 Level 得分
|
| 164 |
-
|
| 165 |
-
## 分步运行(可选)
|
| 166 |
-
|
| 167 |
-
如只需运行部分步骤,可使用 `--step` 参数:
|
| 168 |
-
|
| 169 |
-
- 只运行第1步(生成预测):
|
| 170 |
-
```bash
|
| 171 |
-
bash run.sh --step 1
|
| 172 |
-
```
|
| 173 |
-
- 只运行第1、2步:
|
| 174 |
-
```bash
|
| 175 |
-
bash run.sh --step 12
|
| 176 |
-
```
|
| 177 |
-
- 只运行第2、3步:
|
| 178 |
-
```bash
|
| 179 |
-
bash run.sh --step 23
|
| 180 |
-
```
|
| 181 |
-
- 不加参数默认全部执行(等价于 `--step 123`)
|
| 182 |
-
|
| 183 |
-
- 步骤1:生成预测结果prediction.json,存在每一个数据集的annotation.json同级目录下
|
| 184 |
-
- 步骤2:计算每个任务的得分,存在outcome/{model_name}_result.xlsx中
|
| 185 |
-
- 步骤3:计算相关模型的Level得分
|
| 186 |
-
|
| 187 |
-
> **注意:**
|
| 188 |
-
> - 使用 **Close Set(私有数据集)** 时,只需运行 step1(即 `bash run.sh --step 1`),并将生成的 prediction.json 提交到系统。
|
| 189 |
-
> - 使用 **Open Set(公开数据集)** 时,需依次运行 step1、step2、step3(即 `bash run.sh --step 123`),完成全部评测流程。
|
| 190 |
-
|
| 191 |
-
## 结果查看
|
| 192 |
-
|
| 193 |
-
- 预测结果(prediction.json)会输出到每个任务对应的数据集文件夹下,与 annotation.json 同级。
|
| 194 |
-
- 评分结果(如 Qwen2.5-7B-Instruct_result.xlsx)会输出到 outcome/ 目录。
|
| 195 |
-
- 最终 Level 得分会直接在终端打印输出。
|
| 196 |
-
|
| 197 |
-
## 目录说明
|
| 198 |
-
|
| 199 |
-
- `General-Bench-Openset/`:公开数据集目录
|
| 200 |
-
- `General-Bench-Closeset/`:私有数据集目录
|
| 201 |
-
- `outcome/`:输出结果目录
|
| 202 |
-
- `references/`:参考模板目录
|
| 203 |
-
- `run.sh`:主运行脚本(推荐用户只用此脚本)
|
| 204 |
-
|
| 205 |
-
## 常见问题
|
| 206 |
-
|
| 207 |
-
- 如遇依赖缺失,请根据报错信息安装相应 Python 包。
|
| 208 |
-
- 如需自定义模型或数据路径,可编辑 `run.sh` 脚本中的相关变量。
|
| 209 |
-
|
| 210 |
-
---
|
| 211 |
-
|
| 212 |
-
如需进一步帮助,请联系系统维护者或查阅详细开发文档。
|
| 213 |
-
>>>>>>> 6f59817 (submit NLP Video Audio)
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
title: README
|
| 3 |
emoji: 🌍
|
|
|
|
| 131 |
```
|
| 132 |
|
| 133 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|