Infinigence
/

Megrez-3B-Instruct

Text Generation

Model card Files Files and versions

Megrez-3B-Instruct / README_SPEED.md

zhoudong

init

c571390 about 1 year ago

|

history blame contribute delete

1.63 kB

	## 测速结果的补充说明
	- GPU测速
	- 我们采用业界广泛使用的推理部署开源框架[vllm](https://github.com/vllm-project/vllm)进行推理速度测试
	- 实验配置为：max_num_seqs=8, prefill_tokens=128 and decode_tokens=128，测试设备为NVIDIA A100
	- vLLM的serving工作流并不存在batch_size的概念，这里采用max_num_seqs（每次迭代的最大序列数）来近似此概念。
	- 测试脚本详见 [throughput-benchmarking](https://github.com/infinigence/Infini-Megrez/tree/main?tab=readme-ov-file#throughput-benchmarking)
	- CPU测速
	- 与GPU不同，CPU上存在llama.cpp、Ollama、厂商自研等多种推理框架
	- 我们选择Intel [ipex-llm](https://github.com/intel-analytics/ipex-llm/tree/main/python/llm/example/CPU/vLLM-Serving)作为CPU推理引擎
	- 实验配置为：max_num_seqs=1 prefill_tokens=128 and decode_tokens=128，测试设备为Intel(R) Xeon(R) Platinum 8358P
	- 注意：Intel的ipex-llm方案仅支持qwen, baichuan, llama等结构，暂不支持MiniCPM系列
	- 手机平台测试
	- TBD
	- 嵌入式平台测试
	- 我们在瑞星微RK3576上进行了速度测试，选用厂商提供的[rknn-llm](https://github.com/airockchip/rknn-llm)框架

	## 测速结果汇总

	\| \| Megrez-3B \| Qwen2.5-3B \| MiniCPM3 \| MiniCPM-2B \|
	\|-----------------------\|-----------\|------------\|--------\|--------\|
	\| A100 (BF16) \| 1159.93 \| 1123.38 \| 455.44 \| 978.96 \|
	\| Intel(R) Xeon(R) Platinum 8358P (IPEX INT4) \| 27.49 \| 25.99 \| X \| 22.84 \|
	\| RK3576 (INT4) \| 8.79 \| 7.73 \| X \| 6.45 \|