LLM360
/

CrystalChat

@@ -31,6 +31,31 @@ datasets:
 model-index:
 - name: CrystalChat
   results:
   - task:
       type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
@@ -64,9 +89,12 @@ model-index:
       type:  winogrande         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name:  Winogrande         # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 70.639       # Required. Example: 41.148
   - task:
       type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
@@ -145,30 +173,6 @@ model-index:
       - name: Accuracy (5 shot)
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 28.052       # Required. Example: 41.148
-  - task:
-      type: text-generation             # Required. Example: automatic-speech-recognition
-    dataset:
-      type: openai_humanneval          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: OpenAI HumanEval          # Required. A pretty name for the dataset. Example: Common Voice (French)
-    metrics:
-      - name: pass@1 (t=0.01)
-        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 31.707       # Required. Example: 41.148
-      - name: pass@10 (t=0.8)
-        type: pass@10
-        value: 65.755
-  - task:
-      type: text-generation             # Required. Example: automatic-speech-recognition
-    dataset:
-      type: mbpp          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Mostly Basic Python Problems (mbpp)          # Required. A pretty name for the dataset. Example: Common Voice (French)
-    metrics:
-      - name: pass@1 (t=0.01)
-        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 39.4      # Required. Example: 41.148
-      - name: pass@10 (t=0.8)
-        type: pass@10
-        value: 59.895
 ---
 # CrystalChat

 model-index:
 - name: CrystalChat
   results:
+  - task:
+      type: text-generation             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: openai_humanneval          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: OpenAI HumanEval          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: pass@1 (t=0.01)
+        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 31.707       # Required. Example: 41.148
+      - name: pass@10 (t=0.8)
+        type: pass@10
+        value: 65.755
+  - task:
+      type: text-generation             # Required. Example: automatic-speech-recognition
+    dataset:
+      type: mbpp          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
+      name: Mostly Basic Python Problems (mbpp)          # Required. A pretty name for the dataset. Example: Common Voice (French)
+    metrics:
+      - name: pass@1 (t=0.01)
+        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 39.4      # Required. Example: 41.148
+      - name: pass@10 (t=0.8)
+        type: pass@10
+        value: 59.895
   - task:
       type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
       type:  winogrande         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
       name:  Winogrande         # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
+      - name: accuracy (5 shot)
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 70.639       # Required. Example: 41.148
+      - name: accuracy (0 shot)
+        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
+        value: 68.114       # Required. Example: 41.148
   - task:
       type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
       - name: Accuracy (5 shot)
         type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
         value: 28.052       # Required. Example: 41.148
 ---
 # CrystalChat