damerajee
/

GPT-Vision

Vision Language Model

Model card Files Files and versions

damerajee commited on Jul 29, 2024

Commit

0bfb94e

·

verified ·

1 Parent(s): 3423e05

Update modeling_gpt2vision.py

Files changed (1) hide show

modeling_gpt2vision.py +2 -2

modeling_gpt2vision.py CHANGED Viewed

@@ -63,7 +63,7 @@ class GPT2Vision(PreTrainedModel):
             text,
             padding='max_length',
             truncation=True,
-            max_length=768,
             return_tensors="pt",
         ).to(device)
@@ -98,7 +98,7 @@ class GPT2Vision(PreTrainedModel):
     def generate(self, question, image, max_new_tokens=30, **kwargs):
-        prompt = f"\n\nQuestion:<image>{question}\n\nAnswer:"
         batch = {"image": [image], "text": prompt}
         encoded_batch = self.tokenize_encode(batch, self.device)
         inputs_embeds, attention_mask = self.preprocess_inputs(encoded_batch)

             text,
             padding='max_length',
             truncation=True,
+            max_length=384,
             return_tensors="pt",
         ).to(device)
     def generate(self, question, image, max_new_tokens=30, **kwargs):
+        prompt = f"\nQuestion:<image>{question}\nAnswer:"
         batch = {"image": [image], "text": prompt}
         encoded_batch = self.tokenize_encode(batch, self.device)
         inputs_embeds, attention_mask = self.preprocess_inputs(encoded_batch)