CausalLM
/

miniG

@@ -5,26 +5,28 @@ language:
 - ja
 - de
 model-index:
-  - name: miniG
-    results:
-      - task:
-          type: text-generation
-        metrics:
-          - name: MMLU
-            type: MMLU
-            value: 85.45
-          - name: IFEval
-            type: IFEval
-            value: 74.22
-          - name: GSM8K (5-shot)
-            type: GSM8K (5-shot)
-            value: 75.89
-          - name: HumanEval
-            type: HumanEval
-            value: 79.88
-          - name: GPQA
-            type: GPQA
-            value: 37.37
 ---
 # miniG
@@ -60,4 +62,4 @@ Disclaimer: Please note that the model was trained on unfiltered internet data.
 关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG)：一般来说，你不应该太过在意这些分数，因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试，一种快速检查，确保没有发生重大回退。事实上，如果你真的去阅读这些基准测试问题本身，你常常会发现自己会忍不住笑出声来，因为它们是多么无聊、低质量，甚至荒谬可笑。
-免责声明：请注意，该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选，仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此，您必须自行对模型进行安全检查，并在输出中实施关键词过滤。由于计算资源的限制，我们目前无法为伦理和安全考虑进行人类反馈的强化学习（RLHF），也不能对SFT样本进行限制性微调，以限制模型回答某些问题的能力。

 - ja
 - de
 model-index:
+- name: miniG
+  results:
+  - task:
+      type: text-generation
+    metrics:
+    - name: MMLU
+      type: MMLU
+      value: 85.45
+    - name: IFEval
+      type: IFEval
+      value: 74.22
+    - name: GSM8K (5-shot)
+      type: GSM8K (5-shot)
+      value: 75.89
+    - name: HumanEval
+      type: HumanEval
+      value: 79.88
+    - name: GPQA
+      type: GPQA
+      value: 37.37
+license: agpl-3.0
+pipeline_tag: text-generation
 ---
 # miniG
 关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG)：一般来说，你不应该太过在意这些分数，因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试，一种快速检查，确保没有发生重大回退。事实上，如果你真的去阅读这些基准测试问题本身，你常常会发现自己会忍不住笑出声来，因为它们是多么无聊、低质量，甚至荒谬可笑。
+免责声明：请注意，该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选，仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此，您必须自行对模型进行安全检查，并在输出中实施关键词过滤。由于计算资源的限制，我们目前无法为伦理和安全考虑进行人类反馈的强化学习（RLHF），也不能对SFT样本进行限制性微调，以限制模型回答某些问题的能力。