Commit
·
bad0b37
1
Parent(s):
9099bd2
Update README.md
Browse files
README.md
CHANGED
|
@@ -5,26 +5,28 @@ language:
|
|
| 5 |
- ja
|
| 6 |
- de
|
| 7 |
model-index:
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
|
|
|
|
|
|
| 28 |
---
|
| 29 |
# miniG
|
| 30 |
|
|
@@ -60,4 +62,4 @@ Disclaimer: Please note that the model was trained on unfiltered internet data.
|
|
| 60 |
|
| 61 |
关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
|
| 62 |
|
| 63 |
-
免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。
|
|
|
|
| 5 |
- ja
|
| 6 |
- de
|
| 7 |
model-index:
|
| 8 |
+
- name: miniG
|
| 9 |
+
results:
|
| 10 |
+
- task:
|
| 11 |
+
type: text-generation
|
| 12 |
+
metrics:
|
| 13 |
+
- name: MMLU
|
| 14 |
+
type: MMLU
|
| 15 |
+
value: 85.45
|
| 16 |
+
- name: IFEval
|
| 17 |
+
type: IFEval
|
| 18 |
+
value: 74.22
|
| 19 |
+
- name: GSM8K (5-shot)
|
| 20 |
+
type: GSM8K (5-shot)
|
| 21 |
+
value: 75.89
|
| 22 |
+
- name: HumanEval
|
| 23 |
+
type: HumanEval
|
| 24 |
+
value: 79.88
|
| 25 |
+
- name: GPQA
|
| 26 |
+
type: GPQA
|
| 27 |
+
value: 37.37
|
| 28 |
+
license: agpl-3.0
|
| 29 |
+
pipeline_tag: text-generation
|
| 30 |
---
|
| 31 |
# miniG
|
| 32 |
|
|
|
|
| 62 |
|
| 63 |
关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
|
| 64 |
|
| 65 |
+
免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。
|