add internvl3-5 c++ demo with Xet storage

Files changed (9) hide show

.gitattributes +2 -0
README.md +79 -0
assets/image_1.jpg +3 -0
internvl3-5-1b_tokenizer.txt +0 -0
main +3 -0
main_api +3 -0
post_config.json +14 -0
run_internvl_3-5_1b_448_ax650.sh +26 -0
vit-models/internvl_vit_model_1x448x448x3.axmodel +3 -0

.gitattributes CHANGED Viewed

@@ -42,3 +42,5 @@ main_axcl_x86 filter=lfs diff=lfs merge=lfs -text
 *.jpg filter=lfs diff=lfs merge=lfs -text
 *.mp4 filter=lfs diff=lfs merge=lfs -text
 internvl3-5_tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.jpg filter=lfs diff=lfs merge=lfs -text
 *.mp4 filter=lfs diff=lfs merge=lfs -text
 internvl3-5_tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+main filter=lfs diff=lfs merge=lfs -text
+main_api filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -78,6 +78,85 @@ pip install transformers==4.57.1
 #### Inference with AX650 Host, such as M4N-Dock(爱芯派Pro) or AX650 DEMO Board
 Interactive conversations using the `Gradio API`:
 ```bash

 #### Inference with AX650 Host, such as M4N-Dock(爱芯派Pro) or AX650 DEMO Board
+Interactive conversations using the `C++ Demo`:
+```sh
+./run_internvl_3-5_1b_448_ax650.sh
+```
+The log information is as follows:
+```bash
+root@ax650 ~/yongqiang/push_hugging_face/InternVL3_5-1B_GPTQ_INT4 # ./run_internvl_3-5_1b_448_ax650.sh
+[I][                            Init][ 135]: LLM init start
+[I][                            Init][ 137]: Total CMM:7915 MB
+tokenizer_type = 3
+  3% | ██                                |   1 /  31 [0.71s<21.92s, 1.41 count/s] tokenizer init ok[I][                            Init][  26]: LLaMaEmbedSelector use mmap
+  6% | ███                               |   2 /  31 [0.71s<11.05s, 2.81 count/s] embed_selector init ok[I][                            Init][ 182]: attr.axmodel_num:28
+100% | ████████████████████████████████ |  31 /  31 [2.06s<2.06s, 15.03 count/s] init post axmodel ok,remain_cmm(6940 MB)[I][                            Init][ 240]: image encoder feature outputs:0
+103% | ██████████████████████████████████ |  32 /  31 [2.32s<2.25s, 13.79 count/s] init vpm axmodel ok,remain_cmm(6588 MB)[I][                            Init][ 280]: image encoder input nhwc@uint8
+[I][                            Init][ 305]: image encoder output float32
+[I][                            Init][ 335]: max_token_len : 2047
+[I][                            Init][ 340]: kv_cache_size : 1024, kv_cache_num: 2047
+[I][                            Init][ 348]: prefill_token_num : 128
+[I][                            Init][ 352]: grp: 1, prefill_max_token_num : 1
+[I][                            Init][ 352]: grp: 2, prefill_max_token_num : 128
+[I][                            Init][ 352]: grp: 3, prefill_max_token_num : 256
+[I][                            Init][ 352]: grp: 4, prefill_max_token_num : 384
+[I][                            Init][ 352]: grp: 5, prefill_max_token_num : 512
+[I][                            Init][ 352]: grp: 6, prefill_max_token_num : 640
+[I][                            Init][ 352]: grp: 7, prefill_max_token_num : 768
+[I][                            Init][ 352]: grp: 8, prefill_max_token_num : 896
+[I][                            Init][ 352]: grp: 9, prefill_max_token_num : 1024
+[I][                            Init][ 356]: prefill_max_token_num : 1024
+[I][                     load_config][ 281]: load config:
+{
+    "enable_repetition_penalty": true,
+    "enable_temperature": true,
+    "enable_top_k_sampling": true,
+    "enable_top_p_sampling": false,
+    "penalty_window": 30,
+    "repetition_penalty": 1.2,
+    "temperature": 0.7,
+    "top_k": 10,
+    "top_p": 0.9
+}
+[I][                            Init][ 373]: LLM init ok
+[I][                            Init][ 375]: Left CMM:6588 MB
+Type "q" to exit, Ctrl+c to stop current running
+prompt(输入q退出) >> 介绍一下你自己
+image(回车键跳过) >>
+[I][                             Run][ 713]: input token num : 21, prefill_split_num : 1
+[I][                             Run][ 747]: input_num_token:21
+[I][                             Run][ 976]: ttft: 83.79 ms
+我被称为"语言模型-1.0"，来自上海人工智能实验室。我的开发团队致力于为用户提供高效、准确和个性化的AI服务。作为一款先进的自然语言处理（NLP）模型，我旨在帮助用户解决各种语言相关问题，并提供有用的信息和建议。我的设计目标是能够以自然流畅的方式与人类进行交互，无论是回答问题、提供建议还是执行任务。
+[N][                             Run][1102]: hit eos,avg 19.79 token/s
+prompt(输入q退出) >> 请你详细描述下面这幅图
+image(回车键跳过) >> assets/image_1.jpg
+[I][                     EncodeImage][ 481]: image encode time : 408.467987 ms, size : 1
+[I][                          Encode][ 636]: input_ids size:284
+[I][                          Encode][ 644]: offset 15
+[I][                          Encode][ 673]: img_embed.size:1, 262144
+[I][                          Encode][ 689]: out_embed size:290816
+[I][                          Encode][ 690]: input_ids size 284
+[I][                          Encode][ 692]: position_ids size:284
+[I][                             Run][ 713]: input token num : 284, prefill_split_num : 3
+[I][                             Run][ 747]: input_num_token:128
+[I][                             Run][ 747]: input_num_token:128
+[I][                             Run][ 747]: input_num_token:28
+[I][                             Run][ 976]: ttft: 270.76 ms
+这是一幅生动的图片，展示了一只大熊猫正在自然环境中觅食的情景。画面中，大熊猫正低头在植物丛中寻找食物。它的毛发呈白色，背部和腹部有黑色斑点。周围绿意盎然，各种灌木和植物环绕着它，显得生机勃勃。背景的木质结构可能是一把竹竿或长椅��进一步暗示这可能是动物园或野生动物保护区。整个场景充满了自然的气息，让人感受到大自然的可爱与生机。
+[N][                             Run][1102]: hit eos,avg 19.86 token/s
+prompt(输入q退出) >>
+```
 Interactive conversations using the `Gradio API`:
 ```bash

assets/image_1.jpg ADDED Viewed

Git LFS Details

SHA256: 08487494b8dc08d44bc36491adf3ab89ff30d13a3122da86f3cd67cad89eeee8
Pointer size: 131 Bytes
Size of remote file: 126 kB

internvl3-5-1b_tokenizer.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

main ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:398f459f13ef57ca361ebc356cae1c51420175c66dc3e0b5431a3696d1554022
+size 6804064

main_api ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c996e8093a3411655b8c3cfd45f340a94546ab2ebeb3cf2b0e2cc9150d58dd18
+size 6938952

post_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "enable_temperature" : true,
+    "temperature" : 0.7,
+    "enable_repetition_penalty" : true,
+    "repetition_penalty" : 1.2,
+    "penalty_window" : 30,
+    "enable_top_p_sampling" : false,
+    "top_p" : 0.9,
+    "enable_top_k_sampling" : true,
+    "top_k" : 10
+}

run_internvl_3-5_1b_448_ax650.sh ADDED Viewed

	@@ -0,0 +1,26 @@

+AXMODEL_DIR=./internvl3-5_axmodel/
+./main \
+--template_filename_axmodel "${AXMODEL_DIR}qwen3_p128_l%d_together.axmodel" \
+--axmodel_num 28 \
+--filename_image_encoder_axmodedl "./vit-models/internvl_vit_model_1x448x448x3.axmodel" \
+--bos 0 --eos 0 \
+--dynamic_load_axmodel_layer 0 \
+--use_mmap_load_embed 1 \
+--filename_tokenizer_model "internvl3-5-1b_tokenizer.txt" \
+--filename_post_axmodel "${AXMODEL_DIR}/qwen3_post.axmodel" \
+--use_topk 0 \
+--filename_tokens_embed "${AXMODEL_DIR}/model.embed_tokens.weight.bfloat16.bin" \
+--tokens_embed_num 151936 \
+--tokens_embed_size 1024 \
+--patch_size 14 \
+--use_mrope 0 \
+--temporal_patch_size 1 \
+--live_print 1 \
+--continue 1 \
+--video 0 \
+--img_width 448 \
+--img_height 448 \
+--vision_start_token_id 151652 \
+--use_mrope 0 \
+--post_config_path post_config.json

vit-models/internvl_vit_model_1x448x448x3.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb52f267bfeb722a12f34a4750bc85f933fe6a224a7a3e95ff2d581fd50bd330
+size 364894240