LemiSt
/

SmolLM-135M-instruct-de-merged

@@ -15,9 +15,19 @@ model-index:
           type: mmlu
         metrics:
           - name: MMMLU(DE_DE) (0-Shot)
-            type: MMMLU(DE_DE) (0-Shot)
             value: 25.57
             verified: false
       - task:
           type: text-generation
         dataset:
@@ -25,29 +35,39 @@ model-index:
           type: arc
         metrics:
           - name: ARC Challenge (DE) (0-Shot)
-            type: ARC Challenge (DE) (0-Shot)
             value: 24.29
             verified: false
       - task:
           type: text-generation
         dataset:
           name: deutsche-telekom/Ger-RAG-eval
           type: Ger-RAG-eval
         metrics:
-          - name: Ger-RAG-eval Choose Context By Question
-            type: Ger-RAG-eval Task 1
             value: 25.2
             verified: false
-          - name: Ger-RAG-eval Choose Question By Context
-            type: Ger-RAG-eval Task 2
             value: 27.1
             verified: false
-          - name: Ger-RAG-eval Context Question Match
-            type: Ger-RAG-eval Task 3
             value: 50.9
             verified: false
-          - name: Ger-RAG-eval Question Answer Match
-            type: Ger-RAG-eval Task 4
             value: 50.0
             verified: false
 language:
@@ -155,7 +175,7 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map=device, torch_dtype=torch.bfloat16)
 messages = [
   {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
-  {"role": "user", "content": "Wie viele Hände hat ein normaler Mensch?"}
 ]
 inputs = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt", add_generation_prompt=True).to(device)
 outputs = model.generate(inputs, max_new_tokens=256, do_sample=True, temperature=0.4, top_p=0.9, repetition_penalty=1.1, top_k=512)

           type: mmlu
         metrics:
           - name: MMMLU(DE_DE) (0-Shot)
+            type: accuracy
             value: 25.57
             verified: false
+      - task:
+          type: text-generation
+        dataset:
+          name: openai/MMMLU
+          type: mmlu
+        metrics:
+          - name: MMMLU(DE_DE) (5-Shot)
+            type: accuracy
+            value: 24.88
+            verified: false
       - task:
           type: text-generation
         dataset:
           type: arc
         metrics:
           - name: ARC Challenge (DE) (0-Shot)
+            type: accuracy
             value: 24.29
             verified: false
+      - task:
+          type: text-generation
+        dataset:
+          name: alexandrainst/m_arc
+          type: arc
+        metrics:
+          - name: ARC Challenge (DE) (5-Shot)
+            type: accuracy
+            value: 24.38
+            verified: false
       - task:
           type: text-generation
         dataset:
           name: deutsche-telekom/Ger-RAG-eval
           type: Ger-RAG-eval
         metrics:
+          - name: Task 1
+            type: accuracy
             value: 25.2
             verified: false
+          - name: Task 2
+            type: accuracy
             value: 27.1
             verified: false
+          - name: Task 3
+            type: accuracy
             value: 50.9
             verified: false
+          - name: Task 4
+            type: accuracy
             value: 50.0
             verified: false
 language:
 model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map=device, torch_dtype=torch.bfloat16)
 messages = [
   {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
+  {"role": "user", "content": "Was ist der Sinn des Lebens?"}
 ]
 inputs = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt", add_generation_prompt=True).to(device)
 outputs = model.generate(inputs, max_new_tokens=256, do_sample=True, temperature=0.4, top_p=0.9, repetition_penalty=1.1, top_k=512)