Skywork
/

SkyworkVL-2B

@@ -55,8 +55,6 @@ We provide an example code to run `SkyworkVL-2B` using `transformers`
 ### Model Loading
-#### 16-bit(bf16 / fp16)
 ```python
 import torch
 from transformers import AutoTokenizer, AutoModel
@@ -69,21 +67,6 @@ model = AutoModel.from_pretrained(
     trust_remote_code=True).eval().cuda()
 ```
-#### BNB 8-bit Quantization
-```python
-import torch
-from transformers import AutoTokenizer, AutoModel
-path = "Skywork/SkyworkVL-2B"
-model = AutoModel.from_pretrained(
-    path,
-    torch_dtype=torch.bfloat16,
-    load_in_8bit=True,
-    low_cpu_mem_usage=True,
-    use_flash_attn=True,
-    trust_remote_code=True).eval()
-```
 ### Inference with Transformers
@@ -221,66 +204,11 @@ question = 'Can you explain quantum mechanics to me?'
 response, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)
 print(f'User: {question}\nAssistant: {response}')
-# single-image single-round conversation (单张图片单轮对话)
 question = '<image>\nWhat do you see in this image?'
 response = model.chat(tokenizer, pixel_values, question, generation_config)
 print(f'User: {question}\nAssistant: {response}')
-# single-image multi-round conversation (单张图片多轮对话)
-question = '<image>\nCan you provide a detailed description of the image?'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-question = 'Based on the image, can you create a short story?'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=history, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-# multi-image multi-round conversation, combined images (多张图片多轮对话, 拼接图片)
-pixel_values1 = load_image('./demo/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
-pixel_values2 = load_image('./demo/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
-pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
-question = '<image>\nDescribe the two images in detail.'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config,
-                               history=None, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-question = 'What are the main differences between these two images?'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config,
-                               history=history, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-# multi-image multi-round conversation, separate images (多张图片多轮对话, 分割图片)
-pixel_values1 = load_image('./demo/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
-pixel_values2 = load_image('./demo/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
-pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
-num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
-question = 'Image-1: <image>\nImage-2: <image>\nDescribe the two images in detail.'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config,
-                               num_patches_list=num_patches_list,
-                               history=None, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-question = 'What are the similarities between these two images?'
-response, history = model.chat(tokenizer, pixel_values, question, generation_config,
-                               num_patches_list=num_patches_list,
-                               history=history, return_history=True)
-print(f'User: {question}\nAssistant: {response}')
-# batch inference, single image per sample (批量推理, 每条数据一张图片)
-pixel_values1 = load_image('./demo/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
-pixel_values2 = load_image('./demo/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
-num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
-pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
-questions = ['<image>\nDescribe the image in detail.'] * len(num_patches_list)
-responses = model.batch_chat(tokenizer, pixel_values,
-                             num_patches_list=num_patches_list,
-                             questions=questions,
-                             generation_config=generation_config)
-for question, response in zip(questions, responses):
-    print(f'User: {question}\nAssistant: {response}')
 ```
 ## Citation

 ### Model Loading
 ```python
 import torch
 from transformers import AutoTokenizer, AutoModel
     trust_remote_code=True).eval().cuda()
 ```
 ### Inference with Transformers
 response, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)
 print(f'User: {question}\nAssistant: {response}')
+# image-text conversation (单张图片单轮对话)
 question = '<image>\nWhat do you see in this image?'
 response = model.chat(tokenizer, pixel_values, question, generation_config)
 print(f'User: {question}\nAssistant: {response}')
 ```
 ## Citation