andresnowak
/

MNLP_M3_mcqa_model

@@ -97,6 +97,19 @@ Answer:
 And the teseting was done on ``` [Letter]. [Text answer]```
 ### Second evaluation: (type 0)
 ```
@@ -117,6 +130,19 @@ Answer:
 And the teseting was done on ``` [Letter]. [Text answer]```
 ### Third evaluation: (type 2)
 ```
@@ -140,6 +166,19 @@ Your Response:
 And the teseting was done on ``` [Letter]. [Text answer]```
 ### First evaluation: (type 0)
 ```
@@ -160,6 +199,20 @@ Answer:
 And the teseting was done on ``` [Letter]```
 ### Framework versions

 And the teseting was done on ``` [Letter]. [Text answer]```
+| Benchmark        | Accuracy (Acc) | Normalized Accuracy (Acc Norm) |
+|------------------|----------------|-------------------------------|
+| ARC Challenge    | 63.90%         | 62.41%                        |
+| ARC Easy         | 81.64%         | 77.87%                        |
+| GPQA             | 31.92%         | 30.58%                        |
+| Math QA          | 31.84%         | 31.11%                        |
+| MCQA Evals       | 42.60%         | 38.44%                        |
+| MMLU             | 50.94%         | 50.94%                        |
+| MMLU Pro         | 15.19%         | 13.79%                        |
+| MuSR             | 53.04%         | 51.19%                        |
+| NLP4Education    | 44.49%         | 41.71%                        |
+| **Overall**      | **46.17%**     | **44.23%**                    |
 ### Second evaluation: (type 0)
 ```
 And the teseting was done on ``` [Letter]. [Text answer]```
+| Benchmark        | Accuracy (Acc) | Normalized Accuracy (Acc Norm) |
+|------------------|----------------|-------------------------------|
+| ARC Challenge    | 67.17%         | 64.51%                        |
+| ARC Easy         | 83.71%         | 79.57%                        |
+| GPQA             | 28.35%         | 28.79%                        |
+| Math QA          | 36.38%         | 34.66%                        |
+| MCQA Evals       | 45.06%         | 38.31%                        |
+| MMLU             | 50.68%         | 50.68%                        |
+| MMLU Pro         | 16.22%         | 14.31%                        |
+| MuSR             | 53.04%         | 51.19%                        |
+| NLP4Education    | 48.71%         | 44.18%                        |
+| **Overall**      | **47.70%**     | **45.13%**                    |
 ### Third evaluation: (type 2)
 ```
 And the teseting was done on ``` [Letter]. [Text answer]```
+| Benchmark        | Accuracy (Acc) | Normalized Accuracy (Acc Norm) |
+|------------------|----------------|-------------------------------|
+| ARC Challenge    | 49.97%         | 46.02%                        |
+| ARC Easy         | 63.34%         | 55.84%                        |
+| GPQA             | 17.41%         | 20.09%                        |
+| Math QA          | 29.90%         | 29.50%                        |
+| MCQA Evals       | 33.64%         | 32.47%                        |
+| MMLU             | 50.94%         | 50.94%                        |
+| MMLU Pro         | 14.09%         | 11.21%                        |
+| MuSR             | 53.04%         | 51.19%                        |
+| NLP4Education    | 38.47%         | 37.06%                        |
+| **Overall**      | **38.98%**     | **37.15%**                    |
 ### First evaluation: (type 0)
 ```
 And the teseting was done on ``` [Letter]```
+| Benchmark        | Accuracy (Acc) | Normalized Accuracy (Acc Norm) |
+|------------------|----------------|-------------------------------|
+| ARC Challenge    | 68.46%         | 68.46%                        |
+| ARC Easy         | 84.11%         | 84.11%                        |
+| GPQA             | 37.95%         | 37.95%                        |
+| Math QA          | 39.31%         | 39.31%                        |
+| MCQA Evals       | 45.06%         | 45.06%                        |
+| MMLU             | 50.75%         | 50.75%                        |
+| MMLU Pro         | 19.25%         | 19.25%                        |
+| MuSR             | 51.72%         | 51.72%                        |
+| NLP4Education    | 49.80%         | 49.80%                        |
+| **Overall**      | **49.60%**     | **49.60%**                    |
 ### Framework versions