FuseAI
/

FuseChat-Llama-3.1-8B-Instruct

@@ -267,118 +267,136 @@ We include more details and release our evaluation code at [FuseEval](https://gi
 The evaluation results of five series fused models are as follows, showing that our FuseChat-3.0 models achieved varying degrees of improvement across different target models. When selecting Llama-3.1-8B-Instruct as the target model, our fusion model **FuseChat-Llama-3.1-8B-Instruct achieved an average performance improvement of 6.8 points across 14 benchmarks. Notably, it showed significant improvements of 37.1 and 30.1 points on instruction-following test sets AlpacaEval-2 and Arena-Hard respectively**. Additionally, FuseChat-Llama-3.1-8B-Instruct outperformed AllenAI's recently released Llama-3.1-Tulu-3-8B model on all benchmarks except GSM8K and GPQA-Diamond. All these results demonstrate the effectiveness and success of FuseChat-3.0.
-### FuseChat-Llama-3.2-3B-Instruct Performance
 <table class="js-sort-table table hidden">
   <tr>
     <td class="js-sort-string"><strong>Benchmarks</strong></td>
-    <td class="js-sort-string"><strong>Llama-3.2-3B-Instruct</strong></td>
-    <td class="js-sort-string"><strong>FuseChat-Llama-3.2-3B-SFT</strong></td>
-    <td class="js-sort-string"><strong>FuseChat-Llama-3.2-3B-Instruct</strong></td>
   </tr>
   <tr>
     <td style="white-space: nowrap;">AlpacaEval-2 (LC %)</td>
-    <td>21.4</td>
-    <td>31.1</td>
-    <td><strong>54</strong></td>
   </tr>
   <tr>
     <td>Arena-Hard (WR %)</td>
-    <td>16.6</td>
-    <td>21.3</td>
-    <td><strong>30.2</strong></td>
   </tr>
   <tr>
     <td>MT-Bench</td>
-    <td>6.87</td>
-    <td>7.33</td>
-    <td><strong>7.66</strong></td>
   </tr>
   <tr>
     <td>AlignBench v1.1</td>
-    <td>3.83</td>
-    <td>5.5</td>
-    <td><strong>5.91</strong></td>
   </tr>
   <tr>
     <td>GSM8K</td>
-    <td>82</td>
-    <td><strong>82.8</strong></td>
-    <td>82</td>
   </tr>
   <tr>
     <td>MATH</td>
-    <td>51.4</td>
-    <td>52.9</td>
-    <td><strong>53.1</strong></td>
   </tr>
   <tr>
-    <td>AMC23</td>
-    <td>22.5</td>
-    <td>20</td>
-    <td><strong>35</strong></td>
   </tr>
   <tr>
     <td>LiveBench 0831</td>
-    <td>23.4</td>
-    <td>24.5</td>
-    <td><strong>24.9</strong></td>
   </tr>
   <tr>
     <td>MMLU-Pro</td>
-    <td>39.3</td>
-    <td><strong>40.3</strong></td>
-    <td>40.3</td>
   </tr>
   <tr>
     <td>MMLU-redux</td>
-    <td>58.5</td>
-    <td>58.2</td>
-    <td><strong>59</strong></td>
   </tr>
   <tr>
     <td>GPQA-Diamond</td>
-    <td>29.8</td>
-    <td>33.3</td>
-    <td><strong>33.8</strong></td>
   </tr>
   <tr>
     <td>HumanEval</td>
-    <td>61</td>
-    <td><strong>62.8</strong></td>
-    <td>60.4</td>
   </tr>
   <tr>
     <td>MBPP</td>
-    <td><strong>68.5</strong></td>
-    <td>67.5</td>
-    <td>67.5</td>
   </tr>
   <tr>
     <td>LiveCodeBench<br>2408-2411</td>
-    <td>8.3</td>
-    <td>7.1</td>
-    <td><strong>9</strong></td>
   </tr>
   <tr>
     <td>Average</td>
-    <td>35.2</td>
-    <td>36.8</td>
-    <td><strong>40.2</strong></td>
   </tr>
 </table>

 The evaluation results of five series fused models are as follows, showing that our FuseChat-3.0 models achieved varying degrees of improvement across different target models. When selecting Llama-3.1-8B-Instruct as the target model, our fusion model **FuseChat-Llama-3.1-8B-Instruct achieved an average performance improvement of 6.8 points across 14 benchmarks. Notably, it showed significant improvements of 37.1 and 30.1 points on instruction-following test sets AlpacaEval-2 and Arena-Hard respectively**. Additionally, FuseChat-Llama-3.1-8B-Instruct outperformed AllenAI's recently released Llama-3.1-Tulu-3-8B model on all benchmarks except GSM8K and GPQA-Diamond. All these results demonstrate the effectiveness and success of FuseChat-3.0.
+### FuseChat-Llama-3.1-8B-Instruct Performance
 <table class="js-sort-table table hidden">
   <tr>
     <td class="js-sort-string"><strong>Benchmarks</strong></td>
+    <td class="js-sort-string"><strong>Llama-3.1-8B-Instruct</strong></td>
+    <td class="js-sort-string"><strong>Llama-3.1-Tulu-3-8B</strong></td>
+    <td class="js-sort-string"><strong>FuseChat-Llama-3.1-8B-SFT</strong></td>
+    <td class="js-sort-string"><strong>FuseChat-Llama-3.1-8B-Instruct</strong></td>
   </tr>
   <tr>
     <td style="white-space: nowrap;">AlpacaEval-2 (LC %)</td>
+    <td>28.3</td>
+    <td>33.4</td>
+    <td>41.3</td>
+    <td><strong>65.4</strong></td>
   </tr>
   <tr>
     <td>Arena-Hard (WR %)</td>
+    <td>28.1</td>
+    <td>45.6</td>
+    <td>38.7</td>
+    <td><strong>58.2</strong></td>
   </tr>
   <tr>
     <td>MT-Bench</td>
+    <td>8.38</td>
+    <td>8.34</td>
+    <td>8.54</td>
+    <td><strong>9</strong></td>
   </tr>
   <tr>
     <td>AlignBench v1.1</td>
+    <td>4.61</td>
+    <td>6.2</td>
+    <td>6.25</td>
+    <td><strong>6.69</strong></td>
   </tr>
   <tr>
     <td>GSM8K</td>
+    <td>85.9</td>
+    <td><strong>88.6</strong></td>
+    <td>87</td>
+    <td>88</td>
   </tr>
   <tr>
     <td>MATH</td>
+    <td>50.7</td>
+    <td>47.5</td>
+    <td>54.7</td>
+    <td><strong>55.2</strong></td>
   </tr>
   <tr>
+    <td>AMC 23</td>
+    <td>25</td>
+    <td>25</td>
+    <td>30</td>
+    <td><strong>37.5</strong></td>
   </tr>
   <tr>
     <td>LiveBench 0831</td>
+    <td>27.6</td>
+    <td>30.1</td>
+    <td>30.2</td>
+    <td><strong>32</strong></td>
   </tr>
   <tr>
     <td>MMLU-Pro</td>
+    <td><strong>50</strong></td>
+    <td>42.9</td>
+    <td>47.8</td>
+    <td>49.2</td>
   </tr>
   <tr>
     <td>MMLU-redux</td>
+    <td>67.2</td>
+    <td>66.3</td>
+    <td>68.4</td>
+    <td><strong>69.2</strong></td>
   </tr>
   <tr>
     <td>GPQA-Diamond</td>
+    <td>33.8</td>
+    <td>35.9</td>
+    <td><strong>37.9</strong></td>
+    <td>34.9</td>
   </tr>
   <tr>
     <td>HumanEval</td>
+    <td>69.5</td>
+    <td>66.5</td>
+    <td>69.5</td>
+    <td><strong>71.3</strong></td>
   </tr>
   <tr>
     <td>MBPP</td>
+    <td><strong>75.4</strong></td>
+    <td>56.3</td>
+    <td>71.4</td>
+    <td>72</td>
   </tr>
   <tr>
     <td>LiveCodeBench<br>2408-2411</td>
+    <td>12.3</td>
+    <td>10.6</td>
+    <td>12.6</td>
+    <td><strong>13.1</strong></td>
   </tr>
   <tr>
     <td>Average</td>
+    <td>40.5</td>
+    <td>40.2</td>
+    <td>43.2</td>
+    <td><strong>47.3</strong></td>
   </tr>
 </table>