damerajee
/

GPT-Vision

Vision Language Model

Model card Files Files and versions

damerajee commited on Jul 29, 2024

Commit

fedec36

·

verified ·

1 Parent(s): a135c25

Update modeling_gpt2vision.py

Files changed (1) hide show

modeling_gpt2vision.py +1 -1

modeling_gpt2vision.py CHANGED Viewed

@@ -61,6 +61,7 @@ class GPT2Vision(PreTrainedModel):
         if isinstance(text, str):
             text = [text]
         input_texts = [f"{IMAGE_TOKEN}{t}" for t in text]
         text_inputs = self.tokenizer(
             input_texts,
             padding='max_length',
@@ -86,7 +87,6 @@ class GPT2Vision(PreTrainedModel):
         attention_mask = batch['attention_mask'].to(self.device)
         img_embs = self.vision_encoder(images, device=self.device)
-        print("img_embs",img_embs)
         img_embs = self.mlp(img_embs)
         tok_embs = self.language_model.get_input_embeddings()(input_ids)

         if isinstance(text, str):
             text = [text]
         input_texts = [f"{IMAGE_TOKEN}{t}" for t in text]
+        print(input_texts)
         text_inputs = self.tokenizer(
             input_texts,
             padding='max_length',
         attention_mask = batch['attention_mask'].to(self.device)
         img_embs = self.vision_encoder(images, device=self.device)
         img_embs = self.mlp(img_embs)
         tok_embs = self.language_model.get_input_embeddings()(input_ids)