InternVL_2_5_HiCo_R16

@@ -5,9 +5,11 @@ library_name: transformers
 license: apache-2.0
 metrics:
 - accuracy
 tags:
 - multimodal
-pipeline_tag: video-text-to-text
 model-index:
 - name: InternVL2.5_HiCo_R16
   results:
@@ -61,7 +63,6 @@ model-index:
       value: 64.9
       name: accuracy
       verified: true
 ---
 # 📕InternVL2.5_HiCo_R16⚡
@@ -233,7 +234,8 @@ with torch.no_grad():
   pixel_values, num_patches_list = load_video(video_path, num_segments=num_segments, max_num=1, get_frame_by_duration=False)
   pixel_values = pixel_values.to(torch.bfloat16).to(model.device)
-  video_prefix = "".join([f"Frame{i+1}: <image>\n" for i in range(len(num_patches_list))])
   # single-turn conversation
   question1 = "Describe this video in detail."
   question = video_prefix + question1

 license: apache-2.0
 metrics:
 - accuracy
+pipeline_tag: video-text-to-text
 tags:
 - multimodal
+- video-understanding
+- long-context
 model-index:
 - name: InternVL2.5_HiCo_R16
   results:
       value: 64.9
       name: accuracy
       verified: true
 ---
 # 📕InternVL2.5_HiCo_R16⚡
   pixel_values, num_patches_list = load_video(video_path, num_segments=num_segments, max_num=1, get_frame_by_duration=False)
   pixel_values = pixel_values.to(torch.bfloat16).to(model.device)
+  video_prefix = "".join([f"Frame{i+1}: <image>
+" for i in range(len(num_patches_list))])
   # single-turn conversation
   question1 = "Describe this video in detail."
   question = video_prefix + question1