fix: use correct rounding (#5)

Browse files

- fix: use correct rounding (b74b487796ba80c7f5e9c5ddfd6786eeab271a20)

Co-authored-by: William de Vazelhes <wdevazelhes@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +23 -23

README.md CHANGED Viewed

@@ -159,40 +159,40 @@ Falcon3-7B is trained on 256 H100 nodes (world size 2048).
             <td>MMLU (5-shot)</td>
             <td>31.1</td>
             <td>61.0</td>
-            <td>50.2</td>
-            <td>53.1</td>
             <td>42.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>11.7</td>
-            <td>28.5</td>
-            <td>21.4</td>
             <td>22.1</td>
-            <td>16.2</td>
         </tr>
         <tr>
             <td>IFEval</td>
-            <td>14.9</td>
-            <td>26.1</td>
             <td>24.2</td>
-            <td>20.4</td>
-            <td>25.3</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>6.6</td>
-            <td>62.3</td>
-            <td>31.1</td>
-            <td>25.6</td>
             <td>34.3</td>
         </tr>
         <tr>
             <td>MATH Lvl-5 (4-shot)</td>
-            <td>0.3</td>
-            <td>6.8</td>
-            <td>1.5</td>
             <td>2.6</td>
             <td>2.2</td>
         </tr>
@@ -203,12 +203,12 @@ Falcon3-7B is trained on 256 H100 nodes (world size 2048).
             <td>54.8</td>
             <td>54.1</td>
             <td>53.7</td>
-            <td>48.2</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
-            <td>24.3</td>
-            <td>28.2</td>
             <td>28.9</td>
             <td>25.5</td>
             <td>28.1</td>
@@ -217,22 +217,22 @@ Falcon3-7B is trained on 256 H100 nodes (world size 2048).
             <td>MUSR (0-shot)</td>
             <td>34.5</td>
             <td>35.5</td>
-            <td>34.8</td>
-            <td>42.8</td>
             <td>41.9</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>31.2</td>
             <td>41.1</td>
-            <td>34.3</td>
             <td>36.8</td>
-            <td>36.1</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
-            <td>74.6</td>
             <td>76.0</td>
             <td>77.5</td>
             <td>79.2</td>

             <td>MMLU (5-shot)</td>
             <td>31.1</td>
             <td>61.0</td>
+            <td>50.1</td>
+            <td>53.0</td>
             <td>42.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>11.7</td>
+            <td>28.4</td>
+            <td>21.3</td>
             <td>22.1</td>
+            <td>16.1</td>
         </tr>
         <tr>
             <td>IFEval</td>
+            <td>14.8</td>
+            <td>26.0</td>
             <td>24.2</td>
+            <td>20.3</td>
+            <td>25.2</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>6.6</td>
+            <td>62.2</td>
+            <td>31.0</td>
+            <td>25.5</td>
             <td>34.3</td>
         </tr>
         <tr>
             <td>MATH Lvl-5 (4-shot)</td>
+            <td>0.2</td>
+            <td>6.7</td>
+            <td>1.4</td>
             <td>2.6</td>
             <td>2.2</td>
         </tr>
             <td>54.8</td>
             <td>54.1</td>
             <td>53.7</td>
+            <td>48.1</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
+            <td>24.2</td>
+            <td>28.1</td>
             <td>28.9</td>
             <td>25.5</td>
             <td>28.1</td>
             <td>MUSR (0-shot)</td>
             <td>34.5</td>
             <td>35.5</td>
+            <td>34.7</td>
+            <td>42.7</td>
             <td>41.9</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>31.2</td>
             <td>41.1</td>
+            <td>34.2</td>
             <td>36.8</td>
+            <td>36.0</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
+            <td>74.5</td>
             <td>76.0</td>
             <td>77.5</td>
             <td>79.2</td>