damerajee
/

GPT-Vision

Vision Language Model

Model card Files Files and versions

damerajee commited on Aug 5, 2024

Commit

6fecfe9

·

verified ·

1 Parent(s): 8c71b78

Update modeling_gpt2vision.py

Files changed (1) hide show

modeling_gpt2vision.py +4 -1

modeling_gpt2vision.py CHANGED Viewed

@@ -75,7 +75,7 @@ class GPT2Vision(PreTrainedModel):
         # Tokenize the question
         prompt = f"{IMAGE_TOKEN}Question: {question}\nAnswer:"
-        encoded_input = self.tokenizer(prompt, return_tensors="pt", padding=True, truncation=True)
         batch = {
             "pixel_values": img_embs,
@@ -84,6 +84,9 @@ class GPT2Vision(PreTrainedModel):
         }
         inputs_embeds, attention_mask, input_ids = self.preprocess_inputs(batch)
         output_sequences = self.language_model.generate(
             inputs_embeds=inputs_embeds,

         # Tokenize the question
         prompt = f"{IMAGE_TOKEN}Question: {question}\nAnswer:"
+        encoded_input = self.tokenizer(prompt, return_tensors="pt", padding=True, truncation=True,max_length=720)
         batch = {
             "pixel_values": img_embs,
         }
         inputs_embeds, attention_mask, input_ids = self.preprocess_inputs(batch)
+        print("inputs_embeds",inputs_embeds.size())
+        print("attention_mask",attention_mask.size())
         output_sequences = self.language_model.generate(
             inputs_embeds=inputs_embeds,