Commit
·
a0e926c
1
Parent(s):
97ca638
Update README.md
Browse files
README.md
CHANGED
|
@@ -188,6 +188,18 @@ STEM准确率:66.71
|
|
| 188 |
|
| 189 |
在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
|
| 190 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 191 |
## 其他语言
|
| 192 |
我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
|
| 193 |
### 日文基准
|
|
|
|
| 188 |
|
| 189 |
在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
|
| 190 |
|
| 191 |
+
## DPO 版本的 MT-Behch
|
| 192 |
+
| Model | MT-Bench |
|
| 193 |
+
| ------------------------- | ------------ |
|
| 194 |
+
| GPT-4 | 8.99 |
|
| 195 |
+
| GPT-3.5-Turbo | 7.94 |
|
| 196 |
+
| | |
|
| 197 |
+
| Zephyr-7b-β (Overfitting) | 7.34 |
|
| 198 |
+
| Zephyr-7b-α | 6.88 |
|
| 199 |
+
| | |
|
| 200 |
+
| **[CausalLM/14B-DPO-α](https://huggingface.co/CausalLM/14B-DPO-alpha)** | **7.618868** |
|
| 201 |
+
| **[CausalLM/7B-DPO-α](https://huggingface.co/CausalLM/7B-DPO-alpha)** | **7.038125** |
|
| 202 |
+
|
| 203 |
## 其他语言
|
| 204 |
我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
|
| 205 |
### 日文基准
|