OpenGVLab
/

InternVideo2_5_Chat_8B

Video-Text-to-Text

feature-extraction

Eval Results (legacy)

Model card Files Files and versions

ynhe commited on Feb 18, 2025

Commit

6dd8f38

·

verified ·

1 Parent(s): e0fa7fc

Update demo.py

Files changed (1) hide show

demo.py +3 -1

demo.py CHANGED Viewed

@@ -10,8 +10,10 @@ from transformers import AutoModel, AutoTokenizer
 model_path = 'OpenGVLab/InternVideo2_5_Chat_8B'
 tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
-model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()
 def build_transform(input_size):
     MEAN, STD = IMAGENET_MEAN, IMAGENET_STD

 model_path = 'OpenGVLab/InternVideo2_5_Chat_8B'
 tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda().to(torch.bfloat16)
+IMAGENET_MEAN = (0.485, 0.456, 0.406)
+IMAGENET_STD = (0.229, 0.224, 0.225)
 def build_transform(input_size):
     MEAN, STD = IMAGENET_MEAN, IMAGENET_STD