Update README.md
Browse files
README.md
CHANGED
|
@@ -35,17 +35,14 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
| 35 |
* Training data: 3T tokens
|
| 36 |
* Supported languages: Chinese & English
|
| 37 |
|
| 38 |
-
在文本生成等具备生成多样性的任务上,我们推荐推理参数temperature=0.7;在数学、推理等任务上,我们推荐推理参数temperature=0.2
|
| 39 |
-
|
| 40 |
## 性能
|
| 41 |
我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
|
| 42 |
|
| 43 |
-
|
| 44 |
-

|
| 45 |
-
|
| 46 |
|
| 47 |
### 综合能力
|
| 48 |
-
|
| 49 |
| 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
|
| 50 |
|:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
|
| 51 |
| Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
|
|
@@ -104,7 +101,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
| 104 |
|
| 105 |
| | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
|
| 106 |
|-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
|
| 107 |
-
| Megrez-3B-Instruct | 39.
|
| 108 |
| GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
|
| 109 |
| ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
|
| 110 |
| InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
|
|
@@ -120,7 +117,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
| 120 |
| GLM-4-9B-Chat | 7.72 |
|
| 121 |
|
| 122 |
#### 大海捞针实验 (Needle In A Haystack - Pressure Test)
|
| 123 |
-
|
| 124 |

|
| 125 |
|
| 126 |
## WebSearch
|
|
@@ -131,7 +128,6 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
| 131 |
4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
|
| 132 |
|
| 133 |
我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
|
| 134 |
-
|
| 135 |

|
| 136 |
|
| 137 |
## 快速上手
|
|
@@ -205,7 +201,6 @@ outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
|
|
| 205 |
print(outputs[0].outputs[0].text)
|
| 206 |
```
|
| 207 |
|
| 208 |
-
|
| 209 |
## 开源协议及使用声明
|
| 210 |
- 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
|
| 211 |
- 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。
|
|
|
|
| 35 |
* Training data: 3T tokens
|
| 36 |
* Supported languages: Chinese & English
|
| 37 |
|
|
|
|
|
|
|
| 38 |
## 性能
|
| 39 |
我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
|
| 40 |
|
| 41 |
+
速度精度模型大小散点图如下,位置越靠近右上表明模型越好越快。
|
| 42 |
+

|
| 43 |
+

|
| 44 |
|
| 45 |
### 综合能力
|
|
|
|
| 46 |
| 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
|
| 47 |
|:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
|
| 48 |
| Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
|
|
|
|
| 101 |
|
| 102 |
| | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
|
| 103 |
|-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
|
| 104 |
+
| Megrez-3B-Instruct | 39.7 | 55.5 | 24.5 | 62.5 | 68.5 | 66.7 | 52.9 |
|
| 105 |
| GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
|
| 106 |
| ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
|
| 107 |
| InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
|
|
|
|
| 117 |
| GLM-4-9B-Chat | 7.72 |
|
| 118 |
|
| 119 |
#### 大海捞针实验 (Needle In A Haystack - Pressure Test)
|
| 120 |
+
Megrez-3B-Instruct在32K文本下的大海捞针压力测试全部通过
|
| 121 |

|
| 122 |
|
| 123 |
## WebSearch
|
|
|
|
| 128 |
4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
|
| 129 |
|
| 130 |
我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
|
|
|
|
| 131 |

|
| 132 |
|
| 133 |
## 快速上手
|
|
|
|
| 201 |
print(outputs[0].outputs[0].text)
|
| 202 |
```
|
| 203 |
|
|
|
|
| 204 |
## 开源协议及使用声明
|
| 205 |
- 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
|
| 206 |
- 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。
|