BAAI
/

Infinity-Instruct-3M-0613-Mistral-7B

@@ -18,6 +18,7 @@ language:
 Infinity-Instruct-3M-0613-Mistral-7B is an opensource supervised instruction tuning model without reinforcement learning from human feedback (RLHF). This model is just finetuned on [Infinity-Instruct-3M and Infinity-Instruct-0613](https://huggingface.co/datasets/BAAI/Infinity-Instruct) and showing favorable results on AlpacaEval 2.0 compared to Mixtral 8x7B v0.1, Gemini Pro, and GPT-3.5.
 ## **Training Details**
 <p align="center">
 <img src="fig/trainingflow.png">
 </p>
@@ -41,64 +42,16 @@ Thanks to [FlagScale](https://github.com/FlagOpen/FlagScale), we could concatena
 ## **Benchmark**
-<style type="text/css">
-.tg  {border-collapse:collapse;border-spacing:0;}
-.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
-  overflow:hidden;padding:10px 5px;word-break:normal;}
-.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
-  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
-.tg .tg-baqh{text-align:center;vertical-align:top}
-.tg .tg-amwm{font-weight:bold;text-align:center;vertical-align:top}
-.tg .tg-0lax{text-align:left;vertical-align:top}
-</style>
-<table class="tg"><thead>
-  <tr>
-    <th class="tg-amwm">Model</th>
-    <th class="tg-amwm">MT-Bench</th>
-    <th class="tg-amwm">AlpacaEval2.0</th>
-  </tr></thead>
-<tbody>
-  <tr>
-    <td class="tg-0lax">OpenHermes-2.5-Mistral-7B*</td>
-    <td class="tg-baqh">7.5</td>
-    <td class="tg-baqh">16.2</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">Mistral-7B-Instruct-v0.2</td>
-    <td class="tg-baqh">7.6</td>
-    <td class="tg-baqh">17.1</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">Llama-3-8B-Instruct</td>
-    <td class="tg-baqh">8.1</td>
-    <td class="tg-baqh">22.9</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">GPT 3.5 Turbo 0613</td>
-    <td class="tg-baqh">8.4</td>
-    <td class="tg-baqh">22.7</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">Mixtral 8x7B v0.1</td>
-    <td class="tg-baqh">8.3</td>
-    <td class="tg-baqh">23.7</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">Gemini Pro</td>
-    <td class="tg-baqh">--</td>
-    <td class="tg-baqh">24.4</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">InfInstruct-3M-Mistral-7B*</td>
-    <td class="tg-baqh">7.6</td>
-    <td class="tg-baqh">16.2</td>
-  </tr>
-  <tr>
-    <td class="tg-0lax">InfInstruct-3M-0613-Mistral-7B*</td>
-    <td class="tg-baqh">8.1</td>
-    <td class="tg-amwm">25.5</td>
-  </tr>
-</tbody></table>
 *denote the model is finetuned without reinforcement learning from human feedback (RLHF).
@@ -108,208 +61,9 @@ We evaluate Infinity-Instruct-3M-0613-Mistral-7B on the two most popular instruc
 We also evaluate Infinity-Instruct-3M-0613-Mistral-7B on diverse objective downstream tasks with [Opencompass](https://opencompass.org.cn):
-<style type="text/css">
-.tg  {border-collapse:collapse;border-spacing:0;}
-.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
-  overflow:hidden;padding:10px 5px;word-break:normal;}
-.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
-  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
-.tg .tg-baqh{text-align:center;vertical-align:top}
-.tg .tg-amwm{font-weight:bold;text-align:center;vertical-align:top}
-.tg .tg-nrix{text-align:center;vertical-align:middle}
-</style>
-<table class="tg"><thead>
-  <tr>
-    <th class="tg-amwm" colspan="2">Benchmark</th>
-    <th class="tg-amwm">Infinity-Instruct-3M-Mistral-7B</th>
-    <th class="tg-amwm">Infinity-Instruct-3M-0613-Mistral-7B</th>
-    <th class="tg-amwm">Mistral-7B-v0.1</th>
-    <th class="tg-amwm">mistral-7B instruction v0.2</th>
-    <th class="tg-amwm">teknium/OpenHermes-2.5-Mistral-7B</th>
-  </tr></thead>
-<tbody>
-  <tr>
-    <td class="tg-nrix" rowspan="7">GPT4ALL</td>
-    <td class="tg-baqh">ARC-c</td>
-    <td class="tg-amwm">82.37</td>
-    <td class="tg-baqh">83.30</td>
-    <td class="tg-baqh">69.15</td>
-    <td class="tg-baqh">73.22</td>
-    <td class="tg-baqh">78.31</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">ARC-e</td>
-    <td class="tg-amwm">92.42</td>
-    <td class="tg-baqh">90.65</td>
-    <td class="tg-baqh">79.54</td>
-    <td class="tg-baqh">82.01</td>
-    <td class="tg-baqh">88.54</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">Hellaswag</td>
-    <td class="tg-amwm">84.82</td>
-    <td class="tg-baqh">76.88</td>
-    <td class="tg-baqh">35.50</td>
-    <td class="tg-baqh">64.40</td>
-    <td class="tg-baqh">80.53</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">Winogrande</td>
-    <td class="tg-baqh">61.75</td>
-    <td class="tg-baqh">52.63</td>
-    <td class="tg-baqh">54.04</td>
-    <td class="tg-baqh">57.89</td>
-    <td class="tg-amwm">62.11</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">BoolQ</td>
-    <td class="tg-amwm">87.85</td>
-    <td class="tg-baqh">86.45</td>
-    <td class="tg-baqh">50.09</td>
-    <td class="tg-baqh">55.75</td>
-    <td class="tg-baqh">87.34</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">PIQA</td>
-    <td class="tg-amwm">87.11</td>
-    <td class="tg-baqh">86.13</td>
-    <td class="tg-baqh">60.39</td>
-    <td class="tg-baqh">72.36</td>
-    <td class="tg-baqh">80.14</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">OBQA</td>
-    <td class="tg-amwm">83.00</td>
-    <td class="tg-baqh">79.40</td>
-    <td class="tg-baqh">62.60</td>
-    <td class="tg-baqh">68.00</td>
-    <td class="tg-baqh">81.00</td>
-  </tr>
-  <tr>
-    <td class="tg-nrix" rowspan="4">Commonsense QA</td>
-    <td class="tg-baqh">MMLU</td>
-    <td class="tg-baqh">62.85</td>
-    <td class="tg-amwm">63.62</td>
-    <td class="tg-baqh">56.49</td>
-    <td class="tg-baqh">59.56</td>
-    <td class="tg-baqh">63.16</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">NQ</td>
-    <td class="tg-baqh">24.46</td>
-    <td class="tg-baqh">27.48</td>
-    <td class="tg-baqh">13.99</td>
-    <td class="tg-baqh">18.42</td>
-    <td class="tg-amwm">28.84</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">TriviaQA</td>
-    <td class="tg-baqh">60.85</td>
-    <td class="tg-amwm">64.06</td>
-    <td class="tg-baqh">63.99</td>
-    <td class="tg-baqh">59.21</td>
-    <td class="tg-baqh">63.72</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">GPQA</td>
-    <td class="tg-baqh">27.27</td>
-    <td class="tg-amwm">27.78</td>
-    <td class="tg-baqh">23.23</td>
-    <td class="tg-baqh">19.19</td>
-    <td class="tg-baqh">26.77</td>
-  </tr>
-  <tr>
-    <td class="tg-nrix" rowspan="4">MATH &amp; Reasoning</td>
-    <td class="tg-baqh">GSM8K</td>
-    <td class="tg-baqh">78.09</td>
-    <td class="tg-amwm">79.83</td>
-    <td class="tg-baqh">48.07</td>
-    <td class="tg-baqh">45.94</td>
-    <td class="tg-baqh">73.62</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">Math</td>
-    <td class="tg-amwm">28.38</td>
-    <td class="tg-baqh">23.30</td>
-    <td class="tg-baqh">11.76</td>
-    <td class="tg-baqh">9.46</td>
-    <td class="tg-baqh">17.32</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">BBH</td>
-    <td class="tg-baqh">59.61</td>
-    <td class="tg-amwm">61.07</td>
-    <td class="tg-baqh">56.65</td>
-    <td class="tg-baqh">49.15</td>
-    <td class="tg-baqh">60.41</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">DROP</td>
-    <td class="tg-amwm">68.17</td>
-    <td class="tg-baqh">65.62</td>
-    <td class="tg-baqh">3.06</td>
-    <td class="tg-baqh">6.98</td>
-    <td class="tg-baqh">64.49</td>
-  </tr>
-  <tr>
-    <td class="tg-nrix" rowspan="2">Code</td>
-    <td class="tg-baqh">HumanEval</td>
-    <td class="tg-baqh">50.61</td>
-    <td class="tg-amwm">51.22</td>
-    <td class="tg-baqh">14.02</td>
-    <td class="tg-baqh">32.93</td>
-    <td class="tg-baqh">43.29</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">MBPP</td>
-    <td class="tg-amwm">46.00</td>
-    <td class="tg-baqh">44.80</td>
-    <td class="tg-baqh">38.00</td>
-    <td class="tg-baqh">3.80</td>
-    <td class="tg-baqh">41.80</td>
-  </tr>
-  <tr>
-    <td class="tg-nrix" rowspan="4">Chinese</td>
-    <td class="tg-baqh">AGI Eval</td>
-    <td class="tg-amwm">42.24</td>
-    <td class="tg-baqh">40.43</td>
-    <td class="tg-baqh">27.92</td>
-    <td class="tg-baqh">35.78</td>
-    <td class="tg-baqh">36.32</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">c-eval</td>
-    <td class="tg-baqh">48.62</td>
-    <td class="tg-amwm">49.00</td>
-    <td class="tg-baqh">46.83</td>
-    <td class="tg-baqh">42.58</td>
-    <td class="tg-baqh">44.30</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">cmmlu</td>
-    <td class="tg-baqh">46.67</td>
-    <td class="tg-amwm">48.07</td>
-    <td class="tg-baqh">34.59</td>
-    <td class="tg-baqh">42.05</td>
-    <td class="tg-baqh">43.05</td>
-  </tr>
-  <tr>
-    <td class="tg-baqh">gaokao</td>
-    <td class="tg-baqh">12.54</td>
-    <td class="tg-baqh">14.48</td>
-    <td class="tg-baqh">13.24</td>
-    <td class="tg-baqh">12.10</td>
-    <td class="tg-amwm">15.00</td>
-  </tr>
-  <tr>
-    <td class="tg-amwm" colspan="2">AVERAGE</td>
-    <td class="tg-amwm">58.84</td>
-    <td class="tg-baqh">57.91</td>
-    <td class="tg-baqh">41.10</td>
-    <td class="tg-baqh">43.37</td>
-    <td class="tg-baqh">56.19</td>
-  </tr>
-</tbody></table>
 ## **How to use**

 Infinity-Instruct-3M-0613-Mistral-7B is an opensource supervised instruction tuning model without reinforcement learning from human feedback (RLHF). This model is just finetuned on [Infinity-Instruct-3M and Infinity-Instruct-0613](https://huggingface.co/datasets/BAAI/Infinity-Instruct) and showing favorable results on AlpacaEval 2.0 compared to Mixtral 8x7B v0.1, Gemini Pro, and GPT-3.5.
 ## **Training Details**
 <p align="center">
 <img src="fig/trainingflow.png">
 </p>
 ## **Benchmark**
+|            **Model**            | **MT-Bench** | **AlpacaEval2.0** |
+|:-------------------------------:|:------------:|:-----------------:|
+| OpenHermes-2.5-Mistral-7B*      |      7.5     |        16.2       |
+| Mistral-7B-Instruct-v0.2        |      7.6     |        17.1       |
+| Llama-3-8B-Instruct             |      8.1     |        22.9       |
+| GPT 3.5 Turbo 0613              |      8.4     |        22.7       |
+| Mixtral 8x7B v0.1               |      8.3     |        23.7       |
+| Gemini Pro                      |      --      |        24.4       |
+| InfInstruct-3M-Mistral-7B*      |      7.6     |        16.2       |
+| InfInstruct-3M-0613-Mistral-7B* |      8.1     |      **25.5**     |
 *denote the model is finetuned without reinforcement learning from human feedback (RLHF).
 We also evaluate Infinity-Instruct-3M-0613-Mistral-7B on diverse objective downstream tasks with [Opencompass](https://opencompass.org.cn):
+<p align="center">
+<img src="fig/result.png">
+</p>
 ## **How to use**