Infinigence
/

Megrez-3B-Instruct

@@ -35,17 +35,14 @@ Megrez-3B-Instruct是由无问芯穹（[Infinigence AI](https://cloud.infini-ai.
 * Training data: 3T tokens
 * Supported languages: Chinese & English
-在文本生成等具备生成多样性的任务上，我们推荐推理参数temperature=0.7；在数学、推理等任务上，我们推荐推理参数temperature=0.2
 ## 性能
 我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
-速度精度模型大小散点图如下，位置越靠近右上表明模型越好越快
-![MMLU](assets/mmlu.jpg) ![MTBench](assets/mtbench.jpg)
 ### 综合能力
 |         模型        | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval |  MBPP | GSM8K |  MATH |
 |:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
 | Megrez-3B-Instruct    |     Y    |       2.3       |       2329.4        |  84.8  | 74.7  | 72.8  |   46.1   |   78.7    | 71.0  | 65.5  | 28.3  |
@@ -104,7 +101,7 @@ Megrez-3B-Instruct是由无问芯穹（[Infinigence AI](https://cloud.infini-ai.
 |                       | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务  | 平均 |
 |-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
-| Megrez-3B-Instruct    |        39.67       |       55.53       |      24.51     |        62.52       |        68.5       |       66.73      |  52.91  |
 | GPT-3.5-Turbo-16k     |        50.5        |        33.7       |     21.25     |       48.15       |       54.1      |       54.1       |  43.63  |
 | ChatGLM3-6B-32k       |        51.3        |        45.7       |     23.65     |       55.05       |       56.2      |       56.2       |  48.02  |
 | InternLM2-Chat-7B-SFT |        47.3        |        45.2       |      25.3     |        59.9       |       67.2      |       43.5       |  48.07  |
@@ -120,7 +117,7 @@ Megrez-3B-Instruct是由无问芯穹（[Infinigence AI](https://cloud.infini-ai.
 | GLM-4-9B-Chat            | 7.72           |
 #### 大海捞针实验 (Needle In A Haystack - Pressure Test)
-关于Megrez-3B-Instruct在32K文本下的大海捞针压力测试结果
 ![NeedleTest](assets/needle_test.png)
 ## WebSearch
@@ -131,7 +128,6 @@ Megrez-3B-Instruct是由无问芯穹（[Infinigence AI](https://cloud.infini-ai.
 4. 一个模型两种用法：通过sys prompt区分WebSearch功能开启与否，兼顾LLM的高精度与WebSearch的用户体验，两种能力不乱窜
 我们对模型进行了针对性训练，使模型可以自动决策搜索调用时机，在搜索和对话中自动切换，并提供更好的总结效果。我们提供了完整的部署工程代码 ，用户可以基于该功能构建属于自己的Kimi或Perplexity，克服小模型常见的幻觉问题和知识储备不足的局限。
 ![WebSearchDemo](assets/websearch.gif)
 ## 快速上手
@@ -205,7 +201,6 @@ outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)
 ```
 ## 开源协议及使用声明
 - 协议：本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
 - 幻觉：大模型天然存在幻觉问题，用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容，推荐利用我们的WebSearch功能，详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。

 * Training data: 3T tokens
 * Supported languages: Chinese & English
 ## 性能
 我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
+速度精度模型大小散点图如下，位置越靠近右上表明模型越好越快。
+![MMLU](assets/mmlu.jpg)
+![MTBench](assets/mtbench.jpg)
 ### 综合能力
 |         模型        | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval |  MBPP | GSM8K |  MATH |
 |:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
 | Megrez-3B-Instruct    |     Y    |       2.3       |       2329.4        |  84.8  | 74.7  | 72.8  |   46.1   |   78.7    | 71.0  | 65.5  | 28.3  |
 |                       | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务  | 平均 |
 |-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
+| Megrez-3B-Instruct    |        39.7        |        55.5       |      24.5     |        62.5       |        68.5       |       66.7      |  52.9  |
 | GPT-3.5-Turbo-16k     |        50.5        |        33.7       |     21.25     |       48.15       |       54.1      |       54.1       |  43.63  |
 | ChatGLM3-6B-32k       |        51.3        |        45.7       |     23.65     |       55.05       |       56.2      |       56.2       |  48.02  |
 | InternLM2-Chat-7B-SFT |        47.3        |        45.2       |      25.3     |        59.9       |       67.2      |       43.5       |  48.07  |
 | GLM-4-9B-Chat            | 7.72           |
 #### 大海捞针实验 (Needle In A Haystack - Pressure Test)
+Megrez-3B-Instruct在32K文本下的大海捞针压力测试全部通过
 ![NeedleTest](assets/needle_test.png)
 ## WebSearch
 4. 一个模型两种用法：通过sys prompt区分WebSearch功能开启与否，兼顾LLM的高精度与WebSearch的用户体验，两种能力不乱窜
 我们对模型进行了针对性训练，使模型可以自动决策搜索调用时机，在搜索和对话中自动切换，并提供更好的总结效果。我们提供了完整的部署工程代码 ，用户可以基于该功能构建属于自己的Kimi或Perplexity，克服小模型常见的幻觉问题和知识储备不足的局限。
 ![WebSearchDemo](assets/websearch.gif)
 ## 快速上手
 print(outputs[0].outputs[0].text)
 ```
 ## 开源协议及使用声明
 - 协议：本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
 - 幻觉：大模型天然存在幻觉问题，用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容，推荐利用我们的WebSearch功能，详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。