wli1995 commited on Mar 6

Commit

0c25383

verified ·

1 Parent(s): aad163c

update project

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +34 -0
.gitignore +1 -0
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision.axmodel → Qwen3-VL-2B-Instruct_vision.axmodel +0 -0
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_1280x736.axmodel → Qwen3-VL-2B-Instruct_vision_1280x736.axmodel +0 -0
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_640x640.axmodel → Qwen3-VL-2B-Instruct_vision_640x640.axmodel +0 -0
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_u8.axmodel → Qwen3-VL-2B-Instruct_vision_u8.axmodel +0 -0
README.md +227 -154
config.json +27 -0
gradio_demo.py +0 -262
axera_logo.png → image.png +2 -2
images/demo.jpg +0 -3
images/demo1.jpg +0 -3
images/recoAll_attractions_1.jpg +0 -3
images/recoAll_attractions_2.jpg +0 -3
images/recoAll_attractions_3.jpg +0 -3
images/recoAll_attractions_4.jpg +0 -3
images/ssd_car.jpg +0 -3
images/ssd_horse.jpg +0 -3
main_ax650 +0 -3
main_ax650_api +0 -3
main_axcl_aarch64 +0 -3
main_axcl_api_aarch64 +0 -3
main_axcl_api_x86 +0 -3
main_axcl_x86 +0 -3
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/model.embed_tokens.weight.bfloat16.bin → model.embed_tokens.weight.bfloat16.bin +0 -0
openai_cli.py +0 -66
post_config.json +6 -6
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l0_together.axmodel → qwen3_vl_text_p128_l0_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l10_together.axmodel → qwen3_vl_text_p128_l10_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l11_together.axmodel → qwen3_vl_text_p128_l11_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l12_together.axmodel → qwen3_vl_text_p128_l12_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l13_together.axmodel → qwen3_vl_text_p128_l13_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l14_together.axmodel → qwen3_vl_text_p128_l14_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l15_together.axmodel → qwen3_vl_text_p128_l15_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l16_together.axmodel → qwen3_vl_text_p128_l16_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l17_together.axmodel → qwen3_vl_text_p128_l17_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l18_together.axmodel → qwen3_vl_text_p128_l18_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l19_together.axmodel → qwen3_vl_text_p128_l19_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l1_together.axmodel → qwen3_vl_text_p128_l1_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l20_together.axmodel → qwen3_vl_text_p128_l20_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l21_together.axmodel → qwen3_vl_text_p128_l21_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l22_together.axmodel → qwen3_vl_text_p128_l22_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l23_together.axmodel → qwen3_vl_text_p128_l23_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l24_together.axmodel → qwen3_vl_text_p128_l24_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l25_together.axmodel → qwen3_vl_text_p128_l25_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l26_together.axmodel → qwen3_vl_text_p128_l26_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l27_together.axmodel → qwen3_vl_text_p128_l27_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l2_together.axmodel → qwen3_vl_text_p128_l2_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l3_together.axmodel → qwen3_vl_text_p128_l3_together.axmodel +2 -2
Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l4_together.axmodel → qwen3_vl_text_p128_l4_together.axmodel +2 -2

.gitattributes CHANGED Viewed

@@ -88,3 +88,37 @@ main_ax650_api filter=lfs diff=lfs merge=lfs -text
 main_axcl_api_x86 filter=lfs diff=lfs merge=lfs -text
 axera_logo.png filter=lfs diff=lfs merge=lfs -text
 main_axcl_api_aarch64 filter=lfs diff=lfs merge=lfs -text

 main_axcl_api_x86 filter=lfs diff=lfs merge=lfs -text
 axera_logo.png filter=lfs diff=lfs merge=lfs -text
 main_axcl_api_aarch64 filter=lfs diff=lfs merge=lfs -text
+Qwen3-VL-2B-Instruct_vision.axmodel filter=lfs diff=lfs merge=lfs -text
+Qwen3-VL-2B-Instruct_vision_1280x736.axmodel filter=lfs diff=lfs merge=lfs -text
+Qwen3-VL-2B-Instruct_vision_640x640.axmodel filter=lfs diff=lfs merge=lfs -text
+Qwen3-VL-2B-Instruct_vision_u8.axmodel filter=lfs diff=lfs merge=lfs -text
+image.png filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l0_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l10_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l11_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l12_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l13_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l14_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l15_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l16_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l17_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l18_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l19_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l1_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l20_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l21_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l22_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l23_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l24_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l25_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l26_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l27_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l2_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l3_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l4_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l5_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l6_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l7_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l8_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_p128_l9_together.axmodel filter=lfs diff=lfs merge=lfs -text
+qwen3_vl_text_post.axmodel filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ vision_cache

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision.axmodel → Qwen3-VL-2B-Instruct_vision.axmodel RENAMED Viewed

File without changes

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_1280x736.axmodel → Qwen3-VL-2B-Instruct_vision_1280x736.axmodel RENAMED Viewed

File without changes

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_640x640.axmodel → Qwen3-VL-2B-Instruct_vision_640x640.axmodel RENAMED Viewed

File without changes

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/Qwen3-VL-2B-Instruct_vision_u8.axmodel → Qwen3-VL-2B-Instruct_vision_u8.axmodel RENAMED Viewed

File without changes

README.md CHANGED Viewed

@@ -17,9 +17,9 @@ tags:
 - GPTQ
 ---
-# Qwen3-VL
-This version of Qwen3-VL-2B-Instruct has been converted to run on the Axera NPU using **w4a16** quantization.
 Compatible with Pulsar2 version: 5.0
@@ -66,184 +66,257 @@ The DDR capacity refers to the CMM memory that needs to be consumed. Ensure that
 ## How to use
-Download all files from this repository to the device
-**If you using AX650 Board**
-### Demo Run
-#### Image understand demo
-- input text
-```
-描述这张图片
 ```
-- input image
-![](./images/recoAll_attractions_1.jpg)
-```
-root@ax650 ~/Qwen3-VL-2B-Instruct-GPTQ-Int4 # bash run_image_ax650.sh
-[I][                            Init][ 156]: LLM init start
-[I][                            Init][ 158]: Total CMM:4353 MB
-[I][                            Init][  34]: connect http://127.0.0.1:8080 ok
-bos_id: -1, eos_id: 151645
-img_start_token: 151652
-img_context_token: 151655
-  3% | ██                                |   1 /  31 [0.01s<0.46s, 66.67 count/s] tokenizer init ok[I][                            Init][  26]: LLaMaEmbedSelector use mmap
-  6% | ███                               |   2 /  31 [0.02s<0.34s, 90.91 count/s] embed_selector init ok[I][                            Init][ 201]: attr.axmodel_num:28
-103% | ██████████████████████████████████ |  32 /  31 [34.03s<32.96s, 0.94 count/s] init vpm axmodel ok,remain_cmm(854 MB)[I][                            Init][ 266]: IMAGE_CONTEXT_TOKEN: 151655, IMAGE_START_TOKEN: 151652
-[I][                            Init][ 309]: image encoder output float32
-[I][                            Init][ 339]: max_token_len : 2047
-[I][                            Init][ 344]: kv_cache_size : 1024, kv_cache_num: 2047
-[I][                            Init][ 352]: prefill_token_num : 128
-[I][                            Init][ 356]: grp: 1, prefill_max_token_num : 1
-[I][                            Init][ 356]: grp: 2, prefill_max_token_num : 128
-[I][                            Init][ 356]: grp: 3, prefill_max_token_num : 256
-[I][                            Init][ 356]: grp: 4, prefill_max_token_num : 384
-[I][                            Init][ 356]: grp: 5, prefill_max_token_num : 512
-[I][                            Init][ 356]: grp: 6, prefill_max_token_num : 640
-[I][                            Init][ 356]: grp: 7, prefill_max_token_num : 768
-[I][                            Init][ 356]: grp: 8, prefill_max_token_num : 896
-[I][                            Init][ 356]: grp: 9, prefill_max_token_num : 1024
-[I][                            Init][ 356]: grp: 10, prefill_max_token_num : 1152
-[I][                            Init][ 360]: prefill_max_token_num : 1152
-[I][                            Init][ 372]: LLM init ok
-[I][                            Init][ 374]: Left CMM:854 MB
-Type "q" to exit, Ctrl+c to stop current running
-prompt >> 描述这张图片
-image >> images/recoAll_attractions_1.jpg
-[I][                     EncodeImage][ 440]: pixel_values size 1
-[I][                     EncodeImage][ 441]: grid_h 24 grid_w 24
-[I][                     EncodeImage][ 489]: image encode time : 237.778000 ms, size : 1
-[I][                          Encode][ 532]: input_ids size:168
-[I][                          Encode][ 540]: offset 15
-[I][                          Encode][ 569]: img_embed.size:1, 294912
-[I][                          Encode][ 583]: out_embed size:344064
-[I][                          Encode][ 584]: input_ids size 168
-[I][                          Encode][ 586]: position_ids size:168
-[I][                             Run][ 607]: input token num : 168, prefill_split_num : 2
-[I][                             Run][ 641]: input_num_token:128
-[I][                             Run][ 641]: input_num_token:40
-[I][                             Run][ 865]: ttft: 313.60 ms
-这是一张在埃及沙漠中拍摄的风景照片。画面中，三座巨大的金字塔在晴朗的天空下矗立，它们是古埃及文明的象征。这些金字塔由巨大的石块堆叠而成，表面因岁月侵蚀而显得斑驳。在金字塔的前方，有几个���影在沙地上行走，这为整个场景提供了比例感和尺度感。整个场景充满了历史的厚重感和神秘的氛围。
-[N][                             Run][ 992]: hit eos,avg 14.14 token/s
 ```
-#### Video understand demo
-- input text
 ```
-描述这个视频
 ```
-- input video
-./video
-```
-root@ax650 ~/Qwen3-VL-2B-Instruct-GPTQ-Int4 # bash run_video_ax650.sh
-[I][                            Init][ 156]: LLM init start
-[I][                            Init][ 158]: Total CMM:7884 MB
-[I][                            Init][  34]: connect http://127.0.0.1:8080 ok
-bos_id: -1, eos_id: 151645
-img_start_token: 151652
-img_context_token: 151656
-  3% | ██                                |   1 /  31 [0.01s<0.34s, 90.91 count/s] tokenizer init ok[I][                            Init][  26]: LLaMaEmbedSelector use mmap
-  6% | ███                               |   2 /  31 [0.01s<0.23s, 133.33 count/s] embed_selector init ok[I][                            Init][ 201]: attr.axmodel_num:28
-103% | ██████████████████████████████████ |  32 /  31 [32.37s<31.36s, 0.99 count/s] init vpm axmodel ok,remain_cmm(4385 MB)[I][                            Init][ 266]: IMAGE_CONTEXT_TOKEN: 151656, IMAGE_START_TOKEN: 151652
-[I][                            Init][ 309]: image encoder output float32
-[I][                            Init][ 339]: max_token_len : 2047
-[I][                            Init][ 344]: kv_cache_size : 1024, kv_cache_num: 2047
-[I][                            Init][ 352]: prefill_token_num : 128
-[I][                            Init][ 356]: grp: 1, prefill_max_token_num : 1
-[I][                            Init][ 356]: grp: 2, prefill_max_token_num : 128
-[I][                            Init][ 356]: grp: 3, prefill_max_token_num : 256
-[I][                            Init][ 356]: grp: 4, prefill_max_token_num : 384
-[I][                            Init][ 356]: grp: 5, prefill_max_token_num : 512
-[I][                            Init][ 356]: grp: 6, prefill_max_token_num : 640
-[I][                            Init][ 356]: grp: 7, prefill_max_token_num : 768
-[I][                            Init][ 356]: grp: 8, prefill_max_token_num : 896
-[I][                            Init][ 356]: grp: 9, prefill_max_token_num : 1024
-[I][                            Init][ 356]: grp: 10, prefill_max_token_num : 1152
-[I][                            Init][ 360]: prefill_max_token_num : 1152
-[I][                            Init][ 372]: LLM init ok
-[I][                            Init][ 374]: Left CMM:4385 MB
-Type "q" to exit, Ctrl+c to stop current running
-prompt >> 描述这个视频
-video >> video
-video/frame_0000.jpg
-video/frame_0008.jpg
-video/frame_0016.jpg
-video/frame_0024.jpg
-video/frame_0032.jpg
-video/frame_0040.jpg
-video/frame_0048.jpg
-video/frame_0056.jpg
-[I][                     EncodeImage][ 440]: pixel_values size 4
-[I][                     EncodeImage][ 441]: grid_h 24 grid_w 24
-[I][                     EncodeImage][ 489]: image encode time : 751.481018 ms, size : 4
-[I][                          Encode][ 532]: input_ids size:600
-[I][                          Encode][ 540]: offset 15
-[I][                          Encode][ 569]: img_embed.size:4, 294912
-[I][                          Encode][ 574]: offset:159
-[I][                          Encode][ 574]: offset:303
-[I][                          Encode][ 574]: offset:447
-[I][                          Encode][ 583]: out_embed size:1228800
-[I][                          Encode][ 584]: input_ids size 600
-[I][                          Encode][ 586]: position_ids size:600
-[I][                             Run][ 607]: input token num : 600, prefill_split_num : 5
-[I][                             Run][ 641]: input_num_token:128
-[I][                             Run][ 641]: input_num_token:128
-[I][                             Run][ 641]: input_num_token:128
-[I][                             Run][ 641]: input_num_token:128
-[I][                             Run][ 641]: input_num_token:88
-[I][                             Run][ 865]: ttft: 843.36 ms
-这是一段关于两只山地旱獭（也称“山地土拨鼠”）在山地环境中互动的视频。
-在画面中，两只山地旱獭正站在布满碎石的山坡上，背景是连绵起伏的山脉和蓝天。它们的毛色以灰、棕、黑相间，脸部和耳朵周围有明显的黑白条纹，显得非常可爱。
-这两只旱獭正在进行一场激烈的“拳击”或“格斗”游戏。它们的前爪高高举起，像在互相击打，但它们的姿势和动作表明它们可能是在进行一场激烈的“拳击”或“格斗”游戏。它们的嘴巴和前爪在空中挥舞，似乎在互相攻击或展示力量。
-整个场景充满了动感和活力，展现了这些小动物在自然环境中充满活力和趣味的一面。
-[N][                             Run][ 992]: hit eos,avg 14.16 token/s
 ```
-### Gradio demo
-#### install py depend
-```shell
-pip install -r requirements.txt
-```
-#### start openai style api server
-if the tokenizer server is not run in the same machine,please modify the tokenizer server ip in shell file.
-```shell
-# for axcl x86
-./run_axcl_x86_api.sh
-# for axcl aarch64
-./run_axcl_aarch64_api.sh
-# for ax650
-./run_ax650_api.sh
-```
-#### start gradio demo
-if the api server is not run in the same machine,please modify the api url in gradio web ui.
-```shell
-python gradio_demo.py
 ```
-![image](https://cdn-uploads.huggingface.co/production/uploads/64b7837c17570fdff9b906b9/Og9fPNi0chg768gicse7M.png)

 - GPTQ
 ---
+# Qwen3-VL-2B-Instruct-GPTQ-Int4
+This version of Qwen3-VL-2B-Instruct-GPTQ-Int4 has been converted to run on the Axera NPU using **w4a16** quantization.
 Compatible with Pulsar2 version: 5.0
 ## How to use
+## 安装 axllm
+方式一：克隆仓库后执行安装脚本：
+```shell
+git clone -b axllm https://github.com/AXERA-TECH/ax-llm.git
+cd ax-llm
+./install.sh
+```
+方式二：一行命令安装（默认分支 `axllm`）：
+```shell
+curl -fsSL https://raw.githubusercontent.com/AXERA-TECH/ax-llm/axllm/install.sh | bash
+```
+方式三：下载Github Actions CI 导出的可执行程序（适合没有编译环境的用户）：
+如果没有编译环境，请到：
+`https://github.com/AXERA-TECH/ax-llm/actions?query=branch%3Aaxllm`
+下载 **最新 CI 导出的可执行程序**（`axllm`），然后：
+```shell
+chmod +x axllm
+sudo mv axllm /usr/bin/axllm
 ```
+## 模型下载（Hugging Face）
+先创建模型目录并进入，然后下载到该目录：
+```shell
+mkdir -p AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
+cd AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
+hf download AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4 --local-dir .
+# structure of the downloaded files
+tree -L 3
+`-- AXERA-TECH
+    `-- Qwen3-VL-2B-Instruct-GPTQ-Int4
+        |-- Qwen3-VL-2B-Instruct_vision.axmodel
+        |-- Qwen3-VL-2B-Instruct_vision_1280x736.axmodel
+        |-- Qwen3-VL-2B-Instruct_vision_640x640.axmodel
+        |-- Qwen3-VL-2B-Instruct_vision_u8.axmodel
+        |-- README.md
+        |-- config.json
+        |-- image.png
+        |-- model.embed_tokens.weight.bfloat16.bin
+        |-- post_config.json
+        |-- qwen3_tokenizer.txt
+        |-- qwen3_vl_text_p128_l0_together.axmodel
+        ...
+        |-- qwen3_vl_text_p128_l9_together.axmodel
+        |-- qwen3_vl_text_post.axmodel
+        `-- vision_cache
+3 directories, 39 files
 ```
+## Inference with AX650 Host, such as M4N-Dock(爱芯派Pro) or AX650N DEMO Board
+### 运行（CLI）
+```shell
+root@ax650:~# axllm run AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4/
+[I][                            Init][ 138]: LLM init start
+tokenizer_type = 1
+ 96% | ███████████████████████████████   |  30 /  31 [11.50s<11.88s, 2.61 count/s] init post axmodel ok,remain_cmm(9563 MB)
+[I][                            Init][ 199]: max_token_len : 2047
+[I][                            Init][ 202]: kv_cache_size : 1024, kv_cache_num: 2047
+[I][                            Init][ 205]: prefill_token_num : 128
+[I][                            Init][ 209]: grp: 1, prefill_max_kv_cache_num : 1
+[I][                            Init][ 209]: grp: 2, prefill_max_kv_cache_num : 128
+[I][                            Init][ 209]: grp: 3, prefill_max_kv_cache_num : 256
+[I][                            Init][ 209]: grp: 4, prefill_max_kv_cache_num : 384
+[I][                            Init][ 209]: grp: 5, prefill_max_kv_cache_num : 512
+[I][                            Init][ 209]: grp: 6, prefill_max_kv_cache_num : 640
+[I][                            Init][ 209]: grp: 7, prefill_max_kv_cache_num : 768
+[I][                            Init][ 209]: grp: 8, prefill_max_kv_cache_num : 896
+[I][                            Init][ 209]: grp: 9, prefill_max_kv_cache_num : 1024
+[I][                            Init][ 209]: grp: 10, prefill_max_kv_cache_num : 1152
+[I][                            Init][ 214]: prefill_max_token_num : 1152
+[I][                            Init][  27]: LLaMaEmbedSelector use mmap
+100% | ████████████████████████████████ |  31 /  31 [11.50s<11.50s, 2.70 count/s] embed_selector init ok
+[W][                            Init][ 457]: Qwen-VL vision size override: cfg=448x448 bytes=1204224, model_input_bytes=884736 -> 384x384 (square).
+[I][                            Init][ 641]: Qwen-VL token ids: vision_start=151652 image_pad=151655 video_pad=151656
+[I][                            Init][ 666]: VisionModule init ok: type=Qwen3VL, tokens_per_block=144, embed_size=2048, out_dtype=fp32
+[I][                            Init][ 672]: VisionModule deepstack enabled: layers=3
+[I][                     load_config][ 282]: load config:
+{
+    "enable_repetition_penalty": false,
+    "enable_temperature": false,
+    "enable_top_k_sampling": false,
+    "enable_top_p_sampling": false,
+    "penalty_window": 20,
+    "repetition_penalty": 1.2,
+    "temperature": 0.9,
+    "top_k": 10,
+    "top_p": 0.8
+}
+[I][                            Init][ 272]: LLM init ok
+Type "q" to exit
+Ctrl+c to stop current running
+"reset" to reset kvcache
+"dd" to remove last conversation.
+"pp" to print history.
+VLM enabled: after each prompt, input image path (empty = text-only). Use "video:<frames_dir>" for video.
+----------------------------------------
+prompt >> who are you
+image >>
+[I][                      SetKVCache][ 406]: prefill_grpid:2 kv_cache_num:128 precompute_len:0 input_num_token:22
+[I][                      SetKVCache][ 408]: current prefill_max_token_num:1152
+[I][                      SetKVCache][ 409]: first run
+[I][                             Run][ 457]: input token num : 22, prefill_split_num : 1
+[I][                             Run][ 497]: prefill chunk p=0 history_len=0 grpid=1 kv_cache_num=0 input_tokens=22
+[I][                             Run][ 519]: prefill indices shape: p=0 idx_elems=384 idx_rows=3 pos_rows=0
+[I][                             Run][ 627]: ttft: 174.42 ms
+I am Qwen, a large-scale language model developed by the Tongyi Lab of Alibaba Group. I can answer questions, write stories, create essays, and more. I am designed to be helpful, harmless, and honest. I hope to assist you in any way I can!
+[N][                             Run][ 709]: hit eos,avg 10.48 token/s
+[I][                      GetKVCache][ 380]: precompute_len:79, remaining:1073
+prompt >> describe the image
+image >> ./AXERA-TECH/Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/image.png
+[I][                EncodeForContent][ 971]: Qwen-VL pixel_values[0] bytes=884736 min=0 max=241 (w=384 h=384 tp=2 ps=16 sm=2)
+[I][                EncodeForContent][ 994]: vision cache store: ./AXERA-TECH/Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/image.png
+[I][                      SetKVCache][ 406]: prefill_grpid:3 kv_cache_num:256 precompute_len:79 input_num_token:159
+[I][                      SetKVCache][ 408]: current prefill_max_token_num:1024
+[I][                             Run][ 457]: input token num : 159, prefill_split_num : 2
+[I][                             Run][ 497]: prefill chunk p=0 history_len=79 grpid=2 kv_cache_num=128 input_tokens=128
+[I][                             Run][ 519]: prefill indices shape: p=0 idx_elems=384 idx_rows=3 pos_rows=3
+[I][                             Run][ 497]: prefill chunk p=1 history_len=207 grpid=3 kv_cache_num=256 input_tokens=31
+[I][                             Run][ 519]: prefill indices shape: p=1 idx_elems=384 idx_rows=3 pos_rows=3
+[I][                             Run][ 627]: ttft: 379.97 ms
+This image depicts three astronauts in white space suits standing in a dense, leafy forest. The scene is set in a dark, shadowy environment, with the astronauts appearing to be in a natural, possibly alien, environment. The image has a monochromatic, almost grayscale color scheme, giving it a mysterious and somber atmosphere. The astronauts are positioned in the center of the frame, with one standing upright and the other two slightly bent, as if they are exploring or searching for something in the dense foliage. The overall mood of the image is mysterious and contemplative.
+[N][                             Run][ 709]: hit eos,avg 10.33 token/s
+[I][                      GetKVCache][ 380]: precompute_len:239, remaining:913
+prompt >> how many people in the image?
+image >>
+[I][                EncodeForContent][ 926]: vision cache hit (mem): ./AXERA-TECH/Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/image.png
+[I][                      SetKVCache][ 406]: prefill_grpid:4 kv_cache_num:384 precompute_len:239 input_num_token:74
+[I][                      SetKVCache][ 408]: current prefill_max_token_num:896
+[I][                             Run][ 457]: input token num : 74, prefill_split_num : 1
+[I][                             Run][ 497]: prefill chunk p=0 history_len=239 grpid=3 kv_cache_num=256 input_tokens=74
+[I][                             Run][ 519]: prefill indices shape: p=0 idx_elems=384 idx_rows=3 pos_rows=3
+[I][                             Run][ 627]: ttft: 193.78 ms
+This image depicts three astronauts in white space suits standing in a dense, leafy forest. The scene is set in a dark, shadowy environment, with the astronauts appearing to be in a natural, possibly alien, environment. The image has a monochromatic, almost grayscale color scheme, giving it a mysterious and somber atmosphere. The astronauts are positioned in the center of the frame, with one standing upright and the other two slightly bent, as if they are exploring or searching for something in the dense foliage. The overall mood of the image is mysterious and contemplative.
+[N][                             Run][ 709]: hit eos,avg 10.48 token/s
+[I][                      GetKVCache][ 380]: precompute_len:410, remaining:742
+prompt >> q
 ```
+### 启动服务（OpenAI 兼容）
+```shell
+root@ax650:~# axllm serve AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
+[I][                            Init][ 138]: LLM init start
+tokenizer_type = 1
+ 96% | ███████████████████████████████   |  30 /  31 [4.63s<4.79s, 6.47 count/s] init post axmodel ok,remain_cmm(9563 MB)
+[I][                            Init][ 199]: max_token_len : 2047
+[I][                            Init][ 202]: kv_cache_size : 1024, kv_cache_num: 2047
+[I][                            Init][ 205]: prefill_token_num : 128
+[I][                            Init][ 209]: grp: 1, prefill_max_kv_cache_num : 1
+[I][                            Init][ 209]: grp: 2, prefill_max_kv_cache_num : 128
+[I][                            Init][ 209]: grp: 3, prefill_max_kv_cache_num : 256
+[I][                            Init][ 209]: grp: 4, prefill_max_kv_cache_num : 384
+[I][                            Init][ 209]: grp: 5, prefill_max_kv_cache_num : 512
+[I][                            Init][ 209]: grp: 6, prefill_max_kv_cache_num : 640
+[I][                            Init][ 209]: grp: 7, prefill_max_kv_cache_num : 768
+[I][                            Init][ 209]: grp: 8, prefill_max_kv_cache_num : 896
+[I][                            Init][ 209]: grp: 9, prefill_max_kv_cache_num : 1024
+[I][                            Init][ 209]: grp: 10, prefill_max_kv_cache_num : 1152
+[I][                            Init][ 214]: prefill_max_token_num : 1152
+[I][                            Init][  27]: LLaMaEmbedSelector use mmap
+100% | ████████████████████████████████ |  31 /  31 [4.64s<4.64s, 6.69 count/s] embed_selector init ok
+[W][                            Init][ 457]: Qwen-VL vision size override: cfg=448x448 bytes=1204224, model_input_bytes=884736 -> 384x384 (square).
+[I][                            Init][ 641]: Qwen-VL token ids: vision_start=151652 image_pad=151655 video_pad=151656
+[I][                            Init][ 666]: VisionModule init ok: type=Qwen3VL, tokens_per_block=144, embed_size=2048, out_dtype=fp32
+[I][                            Init][ 672]: VisionModule deepstack enabled: layers=3
+[I][                     load_config][ 282]: load config:
+{
+    "enable_repetition_penalty": false,
+    "enable_temperature": false,
+    "enable_top_k_sampling": false,
+    "enable_top_p_sampling": false,
+    "penalty_window": 20,
+    "repetition_penalty": 1.2,
+    "temperature": 0.9,
+    "top_k": 10,
+    "top_p": 0.8
+}
+[I][                            Init][ 272]: LLM init ok
+Starting server on port 8000 with model 'AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4'...
+OpenAI API Server starting on http://0.0.0.0:8000
+Max concurrency: 1
+Models: AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
 ```
+### OpenAI 调用示例
+```python
+from openai import OpenAI
+API_URL = "http://127.0.0.1:8000/v1"
+MODEL = "AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4"
+messages = [
+    {"role": "system", "content": [{"type": "text", "text": "you are a helpful assistant."}]},
+    {"role": "user", "content": "hello"},
+]
+client = OpenAI(api_key="not-needed", base_url=API_URL)
+completion = client.chat.completions.create(
+    model=MODEL,
+    messages=messages,
+)
+print(completion.choices[0].message.content)
 ```
+### OpenAI 流式调用示例
+```python
+from openai import OpenAI
+API_URL = "http://127.0.0.1:8000/v1"
+MODEL = "AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4"
+messages = [
+    {"role": "system", "content": [{"type": "text", "text": "you are a helpful assistant."}]},
+    {"role": "user", "content": "hello"},
+]
+client = OpenAI(api_key="not-needed", base_url=API_URL)
+stream = client.chat.completions.create(
+    model=MODEL,
+    messages=messages,
+    stream=True,
+)
+print("assistant:")
+for ev in stream:
+    delta = getattr(ev.choices[0], "delta", None)
+    if delta and getattr(delta, "content", None):
+        print(delta.content, end="", flush=True)
+print("
+")
 ```

config.json CHANGED Viewed

	@@ -0,0 +1,27 @@

+{
+  "system_prompt": "you are a helpful assistant.",
+  "model_name": "AXERA-TECH/Qwen3-VL-2B-Instruct",
+  "url_tokenizer_model": "qwen3_tokenizer.txt",
+  "tokenizer_type": "Qwen3VL",
+  "post_config_path": "post_config.json",
+  "template_filename_axmodel": "qwen3_vl_text_p128_l%d_together.axmodel",
+  "axmodel_num": 28,
+  "filename_post_axmodel": "qwen3_vl_text_post.axmodel",
+  "filename_tokens_embed": "model.embed_tokens.weight.bfloat16.bin",
+  "tokens_embed_num": 151936,
+  "tokens_embed_size": 2048,
+  "use_mmap_load_embed": true,
+  "vlm_type": "Qwen3VL",
+  "filename_image_encoder_axmodel": "Qwen3-VL-2B-Instruct_vision.axmodel",
+  "vision_patch_size": 16,
+  "vision_temporal_patch_size": 2,
+  "vision_spatial_merge_size": 2,
+  "vision_fps": 1,
+  "vision_tokens_per_second": 1,
+  "vision_cache_dir": "vision_cache",
+  "use_mmap_load_layer": true,
+  "devices": [
+    0,
+    1
+  ]
+}

gradio_demo.py DELETED Viewed

@@ -1,262 +0,0 @@
-# gradio_chat_single_turn.py
-import re
-import subprocess
-import gradio as gr
-import base64, cv2, os, tempfile
-from openai import OpenAI
-import requests
-def get_all_local_ips():
-    result = subprocess.run(['ip', 'a'], capture_output=True, text=True)
-    output = result.stdout
-    # 匹配所有IPv4
-    ips = re.findall(r'inet (\d+\.\d+\.\d+\.\d+)', output)
-    # 过滤掉回环地址
-    real_ips = [ip for ip in ips if not ip.startswith('127.')]
-    return real_ips
-# ---------- Helpers ----------
-def img_to_data_url_from_cvframe(frame):
-    import base64, cv2
-    ok, buf = cv2.imencode(".jpg", frame, [int(cv2.IMWRITE_JPEG_QUALITY), 85])
-    b64 = base64.b64encode(buf).decode("ascii")
-    return f"data:image/jpeg;base64,{b64}"
-def img_to_data_url_from_path(img_path: str) -> str:
-    import cv2, base64
-    img = cv2.imread(img_path)
-    return img_to_data_url_from_cvframe(img)
-def video_to_data_urls(video_path: str, frame_stride: int = 30, max_frames: int = 8):
-    import cv2, base64
-    cap = cv2.VideoCapture(video_path)
-    total = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
-    if total / frame_stride > max_frames:
-        frame_stride = int(total/max_frames)
-    urls = []
-    idx = 0
-    first_preview = None
-    while len(urls) < max_frames and idx < total:
-        cap.set(cv2.CAP_PROP_POS_FRAMES, idx)
-        ret, frame = cap.read()
-        if not ret:
-            break
-        ok, buf = cv2.imencode(".jpg", frame, [int(cv2.IMWRITE_JPEG_QUALITY), 85])
-        if not ok:
-            break
-        b64 = base64.b64encode(buf).decode("ascii")
-        data_url = f"data:image/jpeg;base64,{b64}"
-        urls.append(data_url)
-        if first_preview is None:
-            first_preview = data_url
-        idx += frame_stride
-    cap.release()
-    return urls, first_preview
-def save_preview_image_from_data_url(data_url: str) -> str:
-    # 仅用于在 Chatbot 里显示缩略图
-    comma = data_url.find(",")
-    if comma == -1:
-        return ""
-    b64 = data_url[comma+1:]
-    raw = base64.b64decode(b64)
-    fd, tmp_path = tempfile.mkstemp(suffix=".jpg", prefix="preview_")
-    os.close(fd)
-    with open(tmp_path, "wb") as f:
-        f.write(raw)
-    return tmp_path
-def build_messages(prompt: str, image_path: str | None, video_path: str | None,
-                   prefer_video: bool, frame_stride: int, max_frames: int):
-    content = []
-    if prompt and prompt.strip():
-        content.append({"type": "text", "text": prompt.strip()})
-    if video_path and os.path.exists(video_path) and prefer_video:
-        urls, first_preview = video_to_data_urls(video_path, frame_stride=frame_stride, max_frames=max_frames)
-        content.append({"type": "image_url", "is_video":True, "image_url": urls})
-        media_desc = f"（视频抽帧：{len(urls)} 帧，步长 {frame_stride}）"
-        return {"role": "user", "content": content}, first_preview, media_desc
-    if image_path and os.path.exists(image_path):
-        u = img_to_data_url_from_path(image_path)
-        content.append({"type": "image_url", "image_url": u})
-        media_desc = "（已附带图片）"
-        return {"role": "user", "content": content}, u, media_desc
-    if video_path and os.path.exists(video_path):
-        urls, first_preview = video_to_data_urls(video_path, frame_stride=frame_stride, max_frames=max_frames)
-        content.append({"type": "image_url", "is_video":True, "image_url": urls})
-        media_desc = f"（视频抽帧：{len(urls)} 帧，步长 {frame_stride}）"
-        return {"role": "user", "content": content}, first_preview, media_desc
-    return {"role": "user", "content": content if content else [{"type": "text", "text": prompt or ""}]}, None, ""
-# ---------- Gradio callback (single-turn, stream) ----------
-def run_single_turn(prompt, image_file, video_file, prefer_video, frame_stride, max_frames,
-                    base_url, model, api_key, chatbot_state):
-    """
-    单轮：每次发送都会重置聊天历史，只显示本轮的 user/assistant 两个气泡。
-    """
-    try:
-        # 清空历史（单轮），构造用户气泡
-        chatbot_state = []
-        # 准备文件路径
-        image_path = image_file if isinstance(image_file, str) else (image_file.name if image_file else None)
-        video_path = video_file if isinstance(video_file, str) else (video_file.name if video_file else None)
-        # 构造 messages 和预览
-        messages, preview_data_url, media_desc = build_messages(
-            prompt=prompt or "",
-            image_path=image_path,
-            video_path=video_path,
-            prefer_video=bool(prefer_video),
-            frame_stride=int(frame_stride),
-            max_frames=int(max_frames),
-        )
-        # 组装用户气泡（Markdown）：文本 + 预览图/视频说明
-        user_md = (prompt or "").strip()
-        if media_desc:
-            user_md = (user_md + "\n\n" if user_md else "") + f"> {media_desc}"
-        if preview_data_url:
-            # user_md = (user_md + "\n\n" if user_md else "") + f"![preview]({preview_path})"
-            user_md = (user_md + "\n\n" if user_md else "") + f"![preview]({preview_data_url})"
-        chatbot_state.append((user_md or "(空提示)", ""))  # assistant 先空字符串，等待流式填充
-        yield chatbot_state  # 先把用户气泡渲染出来
-        # 调后端（流式）
-        client = OpenAI(api_key=api_key or "not-needed", base_url=base_url.strip())
-        stream = client.chat.completions.create(
-            model=model.strip(),
-            messages=messages,
-            stream=True,
-        )
-        bot_chunks = []
-        # 先补一个空 assistant 气泡
-        if len(chatbot_state) == 1:
-            chatbot_state[0] = (chatbot_state[0][0], "")
-            yield chatbot_state
-        # 逐 chunk 更新 assistant 气泡（Markdown）
-        for ev in stream:
-            delta = getattr(ev.choices[0], "delta", None)
-            if delta and getattr(delta, "content", None):
-                bot_chunks.append(delta.content)
-                chatbot_state[-1] = (chatbot_state[-1][0], "".join(bot_chunks))
-                yield chatbot_state
-        # 结束再确保收尾
-        chatbot_state[-1] = (chatbot_state[-1][0], "".join(bot_chunks) if bot_chunks else "(empty response)")
-        yield chatbot_state
-    except Exception as e:
-        chatbot_state.append((
-            chatbot_state[-1][0] if chatbot_state else "(request)",
-            f"**Error:** {e}"
-        ))
-        yield chatbot_state
-# ---------- Gradio UI ----------
-with gr.Blocks(css="""
-    #chat,
-    #chat * {
-        font-size: 18px !important;
-        line-height: 1.6 !important;
-    }
-    #chat .message,
-    #chat [data-testid="bot"],
-    #chat [data-testid="user"] {
-        font-size: 18px !important;
-    }
-""",title="AXERA Qwen3 VL") as demo:
-    axera_logo = img_to_data_url_from_path("./axera_logo.png")
-    gr.Markdown(
-        f"""
-        <div style="display: flex; align-items: center; gap: 10px;">
-            <img src="{axera_logo}" alt="axera_logo" style="height: 60px;">
-        </div>
-        """
-    )
-    chatbot = gr.Chatbot(
-        label="对话",
-        bubble_full_width=False,
-        height=500,
-        avatar_images=(None, None),  # 可替换头像
-        latex_delimiters=[{"left": "$$", "right": "$$", "display": True},
-                          {"left": "$", "right": "$", "display": False}],
-        show_copy_button=True,
-        render_markdown=True,
-        elem_id="chat"
-    )
-    with gr.Row():
-        with gr.Column(scale=2):
-            prompt = gr.Textbox(label="Prompt", placeholder="输入你的提示语", lines=2)
-            with gr.Row():
-                send_btn = gr.Button("发送 ▶️", variant="primary")
-                clear_btn = gr.Button("清空")
-                stop_btn = gr.Button("停止 ■", variant="stop")
-            with gr.Row():
-                image = gr.Image(type="filepath", label="上传图片（可选）")
-                video = gr.Video(label="上传视频（可选）")
-        with gr.Column(scale=1):
-            base_url = gr.Textbox(value="http://localhost:8000/v1", label="Base URL")
-            model = gr.Textbox(value="AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4", label="Model")
-            api_key = gr.Textbox(value="not-needed", label="API Key", type="password")
-            with gr.Row():
-                prefer_video = gr.Checkbox(True, label="如果有视频，优先使用视频抽帧")
-                frame_stride = gr.Slider(1, 90, value=30, step=1, label="视频抽帧间隔")
-                max_frames = gr.Slider(1, 8, value=8, step=1, label="最多抽帧数")
-    # 单轮对话需要一个 state 来承载当前这轮的气泡
-    state = gr.State([])
-    send_btn.click(
-        fn=run_single_turn,
-        inputs=[prompt, image, video, prefer_video, frame_stride, max_frames, base_url, model, api_key, state],
-        outputs=chatbot,
-        show_progress=True,
-        queue=True,
-    )
-    def stop_stream(base_url):
-        url = f"{base_url.strip()}/stop"
-        response = requests.get(url)
-        if response.status_code == 200:
-            print("Stream stopped successfully")
-        else:
-            print(f"Failed to stop stream: {response.status_code} - {response.text}")
-    stop_btn.click(
-        fn=stop_stream,
-        inputs=[base_url],
-        outputs=chatbot,
-        show_progress=True,
-        queue=True,
-    )
-    def clear_all():
-        return [], "", None, None, True, 30, 8
-    clear_btn.click(clear_all, None, [chatbot, prompt, image, video, prefer_video, frame_stride, max_frames])
-if __name__ == "__main__":
-    ips = get_all_local_ips()
-    for ip in ips:
-        print(f"* Running on local URL:  http://{ip}:7860")
-    ip = "0.0.0.0"
-    demo.launch(server_name=ip, server_port=7860)

axera_logo.png → image.png RENAMED Viewed

File without changes

images/demo.jpg DELETED Viewed

Git LFS Details

SHA256: 344d5f0e43bfd6a4a6ed655dc9c3dc76a2a6ecb1de3afeee998e61722378e8b3
Pointer size: 130 Bytes
Size of remote file: 64.5 kB

images/demo1.jpg DELETED Viewed

Git LFS Details

SHA256: 8d6156cbaa86cf0f4a9ebbfc8c2bf307dcf6fc64e32176d69333f6f7c7b294c5
Pointer size: 131 Bytes
Size of remote file: 101 kB

images/recoAll_attractions_1.jpg DELETED Viewed

Git LFS Details

SHA256: 0072430513e76580c4134b78e452a1fb729112fe5725d1f8481e697c7b5cd4a1
Pointer size: 130 Bytes
Size of remote file: 73.3 kB

images/recoAll_attractions_2.jpg DELETED Viewed

Git LFS Details

SHA256: 28acba6c284d06039ca57c9ce182094baafa8a48b49068dc44482a6d643689cc
Pointer size: 131 Bytes
Size of remote file: 105 kB

images/recoAll_attractions_3.jpg DELETED Viewed

Git LFS Details

SHA256: f308b3ebb1855b74768d9a24a256616f683ba59e52c238326501f4008a3ab9a4
Pointer size: 130 Bytes
Size of remote file: 59.4 kB

images/recoAll_attractions_4.jpg DELETED Viewed

Git LFS Details

SHA256: e47e13a69c16073e221b143a43263fcbe956bcfeb8ad47fddbdbc03a2b6f7261
Pointer size: 131 Bytes
Size of remote file: 115 kB

images/ssd_car.jpg DELETED Viewed

Git LFS Details

SHA256: 92d459a39a9eef03956257cf9fec84114d9e5df8fb9c0662fb257488cdd4f365
Pointer size: 130 Bytes
Size of remote file: 50.5 kB

images/ssd_horse.jpg DELETED Viewed

Git LFS Details

SHA256: ed22f6b4c8c33e50e391e089ede14e8fa9402c623b09dbcf010e804770698fbb
Pointer size: 131 Bytes
Size of remote file: 123 kB

main_ax650 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bd12cddc400cd3ffb78af4a4512211af28c33f98993b9c7447aab8d8f29d7893
-size 6821432

main_ax650_api DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:390236f0fef17d46c1bdf0b26f831335fe0e5ede1c10814c1462fdd360b1b984
-size 6935688

main_axcl_aarch64 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a0ded679af8f4fb115b04977d4bc4ecc63783f98d3b239cd3a73de19a6cd19ed
-size 1952752

main_axcl_api_aarch64 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c90d9dfae62b17ef4681f103c62b483e96a862e900a364673e57bc91d078c63d
-size 2105232

main_axcl_api_x86 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:67be73d1a6a4c17ee6b73222d3c5988fa10d2dbcf71515f6dad090a561dcc252
-size 2202296

main_axcl_x86 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1113a46767e5cc6c0a53172c5973848a40c65f379a428b3efc64a9fb6f6fb212
-size 2062240

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/model.embed_tokens.weight.bfloat16.bin → model.embed_tokens.weight.bfloat16.bin RENAMED Viewed

File without changes

openai_cli.py DELETED Viewed

@@ -1,66 +0,0 @@
-import base64
-import glob
-from openai import OpenAI
-import cv2
-BASE_URL = "http://localhost:8000/v1"
-def img_to_data_url(img_path: str):
-    img = cv2.imread(img_path)
-    if img is None:
-        raise FileNotFoundError(f"Cannot read image: {img_path}")
-    ok, buf = cv2.imencode(".jpg", img)
-    if not ok:
-        raise RuntimeError("cv2.imencode failed")
-    b64 = base64.b64encode(buf).decode("ascii")
-    return f"data:image/jpeg;base64,{b64}"
-def test(openai_messages):
-    client = OpenAI(api_key="not-needed", base_url=BASE_URL)
-    stream = client.chat.completions.create(
-        model="AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4",
-        messages=openai_messages,
-        stream=True,
-    )
-    out_chunks = []
-    for ev in stream:
-        delta = ev.choices[0].delta
-        if delta and delta.content:
-            out_chunks.append(delta.content)
-            print(delta.content, end="", flush=True)
-    print()
-    assistant_text = "".join(out_chunks).strip()
-def test_image():
-    image_data = img_to_data_url("../demo_cv308/frame_0075.jpg")
-    openai_messages = {
-        "role": "user",
-        "content": [
-            {"type": "text", "text": "描述一下这张图片"},
-            {"type": "image_url", "image_url": image_data},
-        ],
-    }
-    test(openai_messages)
-def test_video():
-    image_list = glob.glob("../demo_cv308/*.jpg")
-    image_list.sort()
-    image_data_list = [img_to_data_url(img) for img in image_list]
-    openai_messages = {
-        "role": "user",
-        "content": [
-            {"type": "text", "text": "描述一下这个视频"},
-            {"type": "image_url", "is_video":True, "image_url": image_data_list},
-        ],
-    }
-    test(openai_messages)
-test_video()

post_config.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "enable_temperature" : true,
-    "temperature" : 0.7,
     "enable_repetition_penalty" : false,
-    "repetition_penalty" : 1,
-    "penalty_window" : 30,
     "enable_top_p_sampling" : false,
     "top_p" : 0.8,
-    "enable_top_k_sampling" : true,
-    "top_k" : 20
 }

 {
+    "enable_temperature" : false,
+    "temperature" : 0.9,
     "enable_repetition_penalty" : false,
+    "repetition_penalty" : 1.2,
+    "penalty_window" : 20,
     "enable_top_p_sampling" : false,
     "top_p" : 0.8,
+    "enable_top_k_sampling" : false,
+    "top_k" : 10
 }

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l0_together.axmodel → qwen3_vl_text_p128_l0_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fa23909b5fc8dc47cbaa428c250f40afa8276555e17ed670a4208447292b2dc
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:b42363b13c67753e20e80a90d51dacc6f04280a3da992b601ab09547f308c3f5
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l10_together.axmodel → qwen3_vl_text_p128_l10_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f89d3c6531aa6b15d01cd5938c88aa4147be70e54f3ba329bee7994174d409a3
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0133beae7b5d7b109557df15c6f5d6a738eded2ae1feef1f94c983699f74623
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l11_together.axmodel → qwen3_vl_text_p128_l11_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f76c70f7f51bacceb07f6bfcbdd7f49b9e214d0617b2cac8cb918c5b72108076
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:2faf54778f2e20ea363e189f0a0a9f9acaa1337cf30109092ffb48418c485072
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l12_together.axmodel → qwen3_vl_text_p128_l12_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc49889a03f8ea03ef779e4c4bb476abbe7b293adc5a9ea332d1d84dd92a7c8
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:073dab1c7c2c91f2a0fd23cc3b1553df6c6f35f1841c1358265f56be5659c53f
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l13_together.axmodel → qwen3_vl_text_p128_l13_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9091cce989a3f58d4a92fca91a5fbfecd0eec594e69f5083693ed1da50372d7
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b76578926bb45565be1bdc55f36fc074528e2835185195c69a3099f088e78c1
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l14_together.axmodel → qwen3_vl_text_p128_l14_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f338dfaef7d7212564dc0ec2a56875b525082645a82e6fdff1749559dd3a80f9
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:a12b5b73debb37c8c2ad8a2ea16b39bfc7b3000d0323be8e8c9cb89fb214ba54
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l15_together.axmodel → qwen3_vl_text_p128_l15_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39ccdb8e387ba9eac4863fe441bdb5cc331468eccade98ba2ad9e6c80cfecb6d
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:20c7ff4026d78f6e6dd7f3075283aeba63d5ea81aca1eedfa0f7210fe20f9e9b
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l16_together.axmodel → qwen3_vl_text_p128_l16_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:524503e1d3730d0430844b53b510862ae46564385b33d32934f5d82eb9ee06a6
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:93519605f2bbb6c2e9558cacfc4655e6c2d93ae33c50f1f7e0d4d41b448a1649
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l17_together.axmodel → qwen3_vl_text_p128_l17_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8fc419e080ac76f2a5a68c998f6f2441686da16e07d3a5ab2bfd82095056cf0
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dbe9d98f015d52fa8e3083d666ce4438a7ed3160e9f1eac3fde94bc7fcfa30e
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l18_together.axmodel → qwen3_vl_text_p128_l18_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c69713b772b88ed151af4cd1cc3f45048443240bf6c8d0bc18616162be7b6f1a
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:05c421f9457cb19cf3e4bc7c8b503f5f6e50358a664d1865a78640dd1fad8835
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l19_together.axmodel → qwen3_vl_text_p128_l19_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfe2cddae863d9851d2815618c81b2b06d6de37c3efff6db9b2f0d48fd8bf4d2
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e1d98fa8ac199f64471f7535ab64de18ad99bf4cdfdc08e79d83635cda7cebb
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l1_together.axmodel → qwen3_vl_text_p128_l1_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bb4888f253aabbd88d01b2ec0a3c59f33bad391c81e435d0a2f0b8dea0a36ba
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:07823cd8b49a8b33bc006ae750782e317580494575bc317babd7abff55441eba
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l20_together.axmodel → qwen3_vl_text_p128_l20_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dc0c4467d632e50a9009c080810a5ee52ac55cf8885ccaaca07b6981d6d9f0e
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:62512c13b3509d6d77595616fe64804927d15e3738dd768ac6e88581c6235146
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l21_together.axmodel → qwen3_vl_text_p128_l21_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86b3c6d14cb14ff16c385bf9ae4e6edb3745d2bf354d05b181b4dd251400ad94
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb01c185abe5eadf91f07829db2cd05121b8b05624bf9bdb145a770e2e55620a
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l22_together.axmodel → qwen3_vl_text_p128_l22_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:600c5e941149b60fb9284b23484b1dc793cb2d4cb42be6dfbeeb5ceaf5b3fe9d
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:84a8454d97e489645b33144f88cdd56ffbad8362f1300f72d6f1b7f3cf3d75b2
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l23_together.axmodel → qwen3_vl_text_p128_l23_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81cb89308687a02a5fdc205dff6b7c5b4b40c94e6b5d751094db734cd75da7cd
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce9e3219f96c8f7615fdb799141d1045620ea69fb77489248200c6bb3b2a2c6
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l24_together.axmodel → qwen3_vl_text_p128_l24_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d052a26ee314b7e04b554d124391b44dccfd0765ee28071f5cf388b2e90ee269
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e47988815b6b3b330584a934bb2cd889da3ed5a57ae0e75ed34dba31d676471
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l25_together.axmodel → qwen3_vl_text_p128_l25_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c082d514711a688511fa02b0805993bebc3f2fc803698de59493dbf3ccabfb02
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0d03c2cb43adb58329ce66d45f8abe579d55c6dc0c551f67ef2e6821520bd1a
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l26_together.axmodel → qwen3_vl_text_p128_l26_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2954728201ab57e5465ba452800abae12c5edf326d566f3ccece09319657e431
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:cccaa3a03ba1a2902834ef825f06ca2b1a5f0326a5e0544b98fba4454f9c8b1b
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l27_together.axmodel → qwen3_vl_text_p128_l27_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79d7494e99fafef52a0e828fee9d9ae937d4c0647c1e925f85def4a01b2a7d2f
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:a12ad8c0cf98016faf93cd5d4fdf99d0c563d2a922b1f1d78baae56387ccf010
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l2_together.axmodel → qwen3_vl_text_p128_l2_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c74ef565209dfec1f2da192c3ad7f40070a2dd9ca855c80762baa6ed9a1f6cb6
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:84b296fb9b14d24aa740c2fbfa54b2bd3ae7973a161ac9cb24c45b2372143892
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l3_together.axmodel → qwen3_vl_text_p128_l3_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dec86ba41ea44e6dd865de61bfe7af41771530714f1146b72191494b5f21263a
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5033f1fe491462b8f44f5e117c261955b63535e3272b0cd784a59c97d073319
+size 46539431

Qwen3-VL-2B-Instruct-AX650-c128_p1152-int4/qwen3_vl_text_p128_l4_together.axmodel → qwen3_vl_text_p128_l4_together.axmodel RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3c7b6cc7ac5da4ae3f6e6999d7a3e5bc7ef51dfc03a768fd688096e4676b463
-size 40098826

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b67c490399d843fa68821a0f38180c300f32333113c0a1c8cd5729bcefd8a56
+size 46539431