添加视频理解

Files changed (15) hide show

.gitattributes +9 -0
Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/Qwen2.5-VL-7B-Instruct_vision_video.axmodel +3 -0
README.md +78 -0
main_axcl +1 -1
qwen2_tokenizer_video_308.py +243 -0
run_qwen2_5vl_image.sh +2 -2
run_qwen2_5vl_video.sh +20 -0
video/frame_0000.jpg +3 -0
video/frame_0008.jpg +3 -0
video/frame_0016.jpg +3 -0
video/frame_0024.jpg +3 -0
video/frame_0032.jpg +3 -0
video/frame_0040.jpg +3 -0
video/frame_0048.jpg +3 -0
video/frame_0056.jpg +3 -0

.gitattributes CHANGED Viewed

@@ -39,3 +39,12 @@ images/ filter=lfs diff=lfs merge=lfs -text
 images/attractions filter=lfs diff=lfs merge=lfs -text
 Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/model.embed_tokens.weight.float32.bin filter=lfs diff=lfs merge=lfs -text
 Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/model.embed_tokens.weight.npy filter=lfs diff=lfs merge=lfs -text

 images/attractions filter=lfs diff=lfs merge=lfs -text
 Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/model.embed_tokens.weight.float32.bin filter=lfs diff=lfs merge=lfs -text
 Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/model.embed_tokens.weight.npy filter=lfs diff=lfs merge=lfs -text
+Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/Qwen2.5-VL-7B-Instruct_vision_video.axmodel filter=lfs diff=lfs merge=lfs -text
+video/frame_0040.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0048.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0056.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0000.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0008.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0016.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0024.jpg filter=lfs diff=lfs merge=lfs -text
+video/frame_0032.jpg filter=lfs diff=lfs merge=lfs -text

Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280/Qwen2.5-VL-7B-Instruct_vision_video.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:515bee1a5f016714ab231f78bd9b3c002a599c26006bde73a1bf7820142ead9c
+size 749446691

README.md CHANGED Viewed

	@@ -161,3 +161,81 @@ images/attractions/recoAll_attractions_4.jpg
161
162	```
163

 ```
+#### Video understand demo
+Please pre-process the image of the video file into a 308x308 size picture
+##### start tokenizer server for image understand demo
+```
+python qwen2_tokenizer_video_308.py --port 12345
+```
+##### run video understand demo
+```
+(base) axera@dell:~/lhj/Qwen2.5-VL-7B-Instruct$ bash run_qwen2_5vl_video.sh
+[I][                            Init][ 162]: LLM init start
+[I][                            Init][ 267]: IMAGE_CONTEXT_TOKEN: 151656, IMAGE_START_TOKEN: 151652
+[I][                            Init][ 328]: image encoder output float32
+[I][                            Init][ 340]: max_token_len : 2047
+[I][                            Init][ 343]: kv_cache_size : 512, kv_cache_num: 2047
+[I][                            Init][ 351]: prefill_token_num : 128
+[I][                            Init][ 355]: grp: 1, prefill_max_token_num : 1
+[I][                            Init][ 355]: grp: 2, prefill_max_token_num : 128
+[I][                            Init][ 355]: grp: 3, prefill_max_token_num : 256
+[I][                            Init][ 355]: grp: 4, prefill_max_token_num : 384
+[I][                            Init][ 355]: grp: 5, prefill_max_token_num : 512
+[I][                            Init][ 355]: grp: 6, prefill_max_token_num : 640
+[I][                            Init][ 355]: grp: 7, prefill_max_token_num : 768
+[I][                            Init][ 355]: grp: 8, prefill_max_token_num : 896
+[I][                            Init][ 355]: grp: 9, prefill_max_token_num : 1024
+[I][                            Init][ 355]: grp: 10, prefill_max_token_num : 1152
+[I][                            Init][ 355]: grp: 11, prefill_max_token_num : 1280
+[I][                            Init][ 359]: prefill_max_token_num : 1280
+[I][                     load_config][ 282]: load config:
+{
+    "enable_repetition_penalty": false,
+    "enable_temperature": true,
+    "enable_top_k_sampling": true,
+    "enable_top_p_sampling": false,
+    "penalty_window": 30,
+    "repetition_penalty": 2,
+    "temperature": 0.1,
+    "top_k": 10,
+    "top_p": 0.8
+}
+[I][                            Init][ 456]: LLM init ok
+Type "q" to exit, Ctrl+c to stop current running
+prompt >> 描述这个视频的内容
+image >> video
+video/frame_0000.jpg
+video/frame_0008.jpg
+video/frame_0016.jpg
+video/frame_0024.jpg
+video/frame_0032.jpg
+video/frame_0040.jpg
+video/frame_0048.jpg
+video/frame_0056.jpg
+[I][                          Encode][ 528]: pixel_values,size:4
+[I][                          Encode][ 554]: image encode time : 1546.058960 ms, size : 4
+[I][                          Encode][ 596]: input_ids size:509
+[I][                          Encode][ 604]: offset 15
+[I][                          Encode][ 620]: img_embed.size:4, 433664
+[I][                          Encode][ 625]: offset:136
+[I][                          Encode][ 625]: offset:257
+[I][                          Encode][ 625]: offset:378
+[I][                          Encode][ 634]: out_embed size:1824256
+[I][                          Encode][ 636]: position_ids size:509
+[I][                             Run][ 655]: input token num : 509, prefill_split_num : 4
+[I][                             Run][ 689]: input_num_token:128
+[I][                             Run][ 689]: input_num_token:128
+[I][                             Run][ 689]: input_num_token:128
+[I][                             Run][ 689]: input_num_token:125
+[I][                             Run][ 826]: ttft: 5081.97 ms
+这张图片展示了两只土拨鼠在户外的山地环境中进行互动。它们似乎在进行一种类似打斗的行为，可能是在争夺领地或展示攻击性。背景是蓝天和山脉，环境看起来非常自然和开阔。土拨鼠的毛色主要是棕色和灰色，带有白色的斑纹。它们的姿势和动作显示出它们正在积极地互动。
+[N][                             Run][ 979]: hit eos,avg 2.08 token/s
+```

main_axcl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3a919e04631a954bb3fe7162d9ebf024ca32dccc960f3f1f6fc6bd7d84a326
 size 1893800

 version https://git-lfs.github.com/spec/v1
+oid sha256:679931c70377d4bba0b3eb9a7e7be8b51289ad7ae23e96092bffd8019b1719ee
 size 1893800

qwen2_tokenizer_video_308.py ADDED Viewed

	@@ -0,0 +1,243 @@

+from transformers import AutoTokenizer, PreTrainedTokenizerFast
+from transformers.tokenization_utils_base import AddedToken
+from http.server import HTTPServer, BaseHTTPRequestHandler
+import json
+import argparse
+def _prompt_split_image(
+    image_seq_len,
+    image_rows,
+    image_cols,
+    fake_token_around_image,
+    image_token,
+    global_img_token,
+):
+    """Prompt with expanded image tokens for when the image is split into patches."""
+    text_split_images = ""
+    for n_h in range(image_rows):
+        for n_w in range(image_cols):
+            text_split_images += (
+                f"{fake_token_around_image}"
+                + f"<row_{n_h + 1}_col_{n_w + 1}>"
+                + f"{image_token}" * image_seq_len
+            )
+        text_split_images += "\n"
+    text_split_images += (
+        f"\n{fake_token_around_image}"
+        + f"{global_img_token}"
+        + f"{image_token}" * image_seq_len
+        + f"{fake_token_around_image}"
+    )
+    return text_split_images
+def _prompt_single_image(
+    image_seq_len, fake_token_around_image, image_token, global_img_token
+):
+    """Prompt with expanded image tokens for a single image."""
+    return (
+        f"{fake_token_around_image}"
+        + f"{global_img_token}"
+        + f"{image_token}" * image_seq_len
+        + f"{fake_token_around_image}"
+    )
+def get_image_prompt_string(
+    image_rows,
+    image_cols,
+    image_seq_len,
+    fake_token_around_image,
+    image_token,
+    global_img_token,
+):
+    if image_rows == 0 and image_cols == 0:
+        return _prompt_single_image(
+            image_seq_len,
+            fake_token_around_image=fake_token_around_image,
+            image_token=image_token,
+            global_img_token=global_img_token,
+        )
+    return _prompt_split_image(
+        image_seq_len,
+        image_rows,
+        image_cols,
+        fake_token_around_image,
+        image_token,
+        global_img_token,
+    )
+class Tokenizer_Http():
+    def __init__(self):
+        path = 'qwen2_5_vl_7b_tokenizer'
+        self.tokenizer = AutoTokenizer.from_pretrained(path,
+                                                       trust_remote_code=True,
+                                                       use_fast=False)
+    def encode(self, content):
+        text = [f'<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n{content}<|im_end|>\n<|im_start|>assistant\n']
+        input_ids = self.tokenizer(text)
+        return input_ids["input_ids"][0]
+    def encode_vpm(self, content="描述一下这个视频的内容"):
+        # official implementation
+        text = f"<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|video_pad|><|vision_end|>{content}<|im_end|>\n<|im_start|>assistant\n"
+        output_kwargs = {'text_kwargs': {'padding': True, 'return_tensors': 'pt'}, 'images_kwargs': {'return_tensors': 'pt'}, 'audio_kwargs': {'padding': True, 'return_tensors': 'pt'}, 'videos_kwargs': {'return_tensors': 'pt'}, 'common_kwargs': {'return_tensors': 'pt'}}
+        text_inputs = self.tokenizer(text, **output_kwargs["text_kwargs"])
+        return text_inputs["input_ids"].tolist()[0]
+    def decode(self, token_ids):
+        return self.tokenizer.decode(token_ids,
+                                     clean_up_tokenization_spaces=False)
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+    @property
+    def bos_token(self):
+        return self.tokenizer.bos_token
+    @property
+    def eos_token(self):
+        return self.tokenizer.eos_token
+    @property
+    def img_start_token(self):
+        return self.tokenizer.encode("<|vision_start|>")[0]
+    @property
+    def img_context_token(self):
+        return self.tokenizer.encode("<|video_pad|>")[0]
+tokenizer = Tokenizer_Http()
+print(tokenizer.bos_id, tokenizer.bos_token, tokenizer.eos_id,
+      tokenizer.eos_token)
+token_ids = tokenizer.encode_vpm()
+# [151644, 8948, 198, 56568, 104625, 100633, 104455, 104800, 101101, 32022, 102022, 99602, 100013, 9370, 90286, 21287, 42140, 53772, 35243, 26288, 104949, 3837, 105205, 109641, 67916, 30698, 11, 54851, 46944, 115404, 42192, 99441, 100623, 48692, 100168, 110498, 1773, 151645, 151644, 872, 198,
+# 151646,
+# 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648, 151648,
+# 151647,
+# 198, 5501, 7512, 279, 2168, 19620, 13, 151645, 151644, 77091, 198]
+# 118
+print(token_ids)
+print(len(token_ids))
+token_ids = tokenizer.encode("hello world")
+# [151644, 8948, 198, 56568, 104625, 100633, 104455, 104800, 101101, 32022, 102022, 99602, 100013, 9370, 90286, 21287, 42140, 53772, 35243, 26288, 104949, 3837, 105205, 109641, 67916, 30698, 11, 54851, 46944, 115404, 42192, 99441, 100623, 48692, 100168, 110498, 1773, 151645, 151644, 872, 198, 14990, 1879, 151645, 151644, 77091, 198]
+# 47
+print(token_ids)
+print(len(token_ids))
+class Request(BaseHTTPRequestHandler):
+    #通过类继承，新定义类
+    timeout = 5
+    server_version = 'Apache'
+    def do_GET(self):
+        print(self.path)
+        #在新类中定义get的内容（当客户端向该服务端使用get请求时，本服务端将如下运行）
+        self.send_response(200)
+        self.send_header("type", "get")  #设置响应头，可省略或设置多个
+        self.end_headers()
+        if self.path == '/bos_id':
+            bos_id = tokenizer.bos_id
+            # print(bos_id)
+            # to json
+            if bos_id is None:
+                msg = json.dumps({'bos_id': -1})
+            else:
+                msg = json.dumps({'bos_id': bos_id})
+        elif self.path == '/eos_id':
+            eos_id = tokenizer.eos_id
+            if eos_id is None:
+                msg = json.dumps({'eos_id': -1})
+            else:
+                msg = json.dumps({'eos_id': eos_id})
+        elif self.path == '/img_start_token':
+            img_start_token = tokenizer.img_start_token
+            if img_start_token is None:
+                msg = json.dumps({'img_start_token': -1})
+            else:
+                msg = json.dumps({'img_start_token': img_start_token})
+        elif self.path == '/img_context_token':
+            img_context_token = tokenizer.img_context_token
+            if img_context_token is None:
+                msg = json.dumps({'img_context_token': -1})
+            else:
+                msg = json.dumps({'img_context_token': img_context_token})
+        else:
+            msg = 'error'
+        print(msg)
+        msg = str(msg).encode()  #转为str再转为byte格式
+        self.wfile.write(msg)  #将byte格式的信息返回给客户端
+    def do_POST(self):
+        #在新类中定义post的内容（当客户端向该服务端使用post请求时，本服务端将如下运行）
+        data = self.rfile.read(int(
+            self.headers['content-length']))  #获取从客户端传入的参数（byte格式）
+        data = data.decode()  #将byte格式转为str格式
+        self.send_response(200)
+        self.send_header("type", "post")  #设置响应头，可省略或设置多个
+        self.end_headers()
+        if self.path == '/encode':
+            req = json.loads(data)
+            print(req)
+            prompt = req['text']
+            b_img_prompt = False
+            if 'img_prompt' in req:
+                b_img_prompt = req['img_prompt']
+            if b_img_prompt:
+                token_ids = tokenizer.encode_vpm(prompt)
+            else:
+                token_ids = tokenizer.encode(prompt)
+            if token_ids is None:
+                msg = json.dumps({'token_ids': -1})
+            else:
+                msg = json.dumps({'token_ids': token_ids})
+        elif self.path == '/decode':
+            req = json.loads(data)
+            token_ids = req['token_ids']
+            text = tokenizer.decode(token_ids)
+            if text is None:
+                msg = json.dumps({'text': ""})
+            else:
+                msg = json.dumps({'text': text})
+        else:
+            msg = 'error'
+        print(msg)
+        msg = str(msg).encode()  #转为str再转为byte格式
+        self.wfile.write(msg)  #将byte格式的信息返回给客户端
+if __name__ == "__main__":
+    args = argparse.ArgumentParser()
+    args.add_argument('--host', type=str, default='localhost')
+    args.add_argument('--port', type=int, default=8080)
+    args = args.parse_args()
+    host = (args.host, args.port)  #设定地址与端口号，'localhost'等价于'127.0.0.1'
+    print('http://%s:%s' % host)
+    server = HTTPServer(host, Request)  #根据地址端口号和新定义的类，创建服务器实例
+    server.serve_forever()  #开启服务

run_qwen2_5vl_image.sh CHANGED Viewed

@@ -5,7 +5,7 @@ AXMODEL_DIR=./Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280
 --axmodel_num 28 \
 --filename_image_encoder_axmodedl "${AXMODEL_DIR}/Qwen2.5-VL-7B-Instruct_vision.axmodel" \
 --use_mmap_load_embed 1 \
---filename_tokenizer_model "http://10.122.86.184:8091" \
 --filename_post_axmodel "${AXMODEL_DIR}/qwen2_5_vl_post.axmodel" \
 --filename_tokens_embed "${AXMODEL_DIR}/model.embed_tokens.weight.bfloat16.bin" \
 --tokens_embed_num 152064 \
@@ -20,4 +20,4 @@ AXMODEL_DIR=./Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280
 # What are these attractions? Please give their names in Chinese and English
-# assets/attractions

 --axmodel_num 28 \
 --filename_image_encoder_axmodedl "${AXMODEL_DIR}/Qwen2.5-VL-7B-Instruct_vision.axmodel" \
 --use_mmap_load_embed 1 \
+--filename_tokenizer_model "http://127.0.0.1:8091" \
 --filename_post_axmodel "${AXMODEL_DIR}/qwen2_5_vl_post.axmodel" \
 --filename_tokens_embed "${AXMODEL_DIR}/model.embed_tokens.weight.bfloat16.bin" \
 --tokens_embed_num 152064 \
 # What are these attractions? Please give their names in Chinese and English
+# images/attractions

run_qwen2_5vl_video.sh ADDED Viewed

	@@ -0,0 +1,20 @@

+AXMODEL_DIR=./Qwen2.5-VL-7B-Instruct-AX650-chunk_prefill_1280
+./main_axcl \
+--template_filename_axmodel "${AXMODEL_DIR}/qwen2_5_vl_p128_l%d_together.axmodel" \
+--axmodel_num 28 \
+--filename_image_encoder_axmodedl "${AXMODEL_DIR}/Qwen2.5-VL-7B-Instruct_vision_video.axmodel" \
+--use_mmap_load_embed 1 \
+--filename_tokenizer_model "http://127.0.0.1:8090" \
+--filename_post_axmodel "${AXMODEL_DIR}/qwen2_5_vl_post.axmodel" \
+--filename_tokens_embed "${AXMODEL_DIR}/model.embed_tokens.weight.bfloat16.bin" \
+--tokens_embed_num 152064 \
+--tokens_embed_size 3584 \
+--live_print 1 \
+--video 1 \
+--img_width 308 \
+--img_height 308 \
+--vision_start_token_id 151652 \
+--post_config_path post_config.json \
+--devices 0,1,2,3,4,5,6,7