damerajee
/

GPT-Vision

Vision Language Model

Model card Files Files and versions

damerajee commited on Jul 23, 2024

Commit

d9b9660

·

verified ·

1 Parent(s): 3f50ae4

Update modeling_gpt2vision.py

Files changed (1) hide show

modeling_gpt2vision.py +4 -17

modeling_gpt2vision.py CHANGED Viewed

@@ -2,18 +2,8 @@ import torch
 import torch.nn as nn
 from transformers import PreTrainedModel, AutoTokenizer
 from .configuration_gpt2vision import GPT2VisionConfig, GPT2Config
-import sys
-print(sys.path)
-try:
-    from .vision_encoder import VisionEncoder
-except ImportError as e:
-    print(f"Error importing VisionEncoder: {e}")
-    print("Current directory contents:")
-    import os
-    print(os.listdir('./'))
 IMAGE_TOKEN = "<image>"
@@ -22,7 +12,6 @@ ANSWER_EOS = "<|endoftext|>"
 def resize_token_embeds(model_name="openai-community/gpt2"):
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     new_tokens={
-        "pad_token": "<pad>",
         "additional_special_tokens": [IMAGE_TOKEN]
     }
     tokenizer.add_special_tokens(new_tokens)
@@ -30,8 +19,6 @@ def resize_token_embeds(model_name="openai-community/gpt2"):
 tokenizer = resize_token_embeds()
-print("tokenizer",tokenizer)
 def create_labels(input_ids, tokenizer, attention_mask):
     labels = input_ids.clone()
@@ -121,7 +108,7 @@ class GPT2Vision(PreTrainedModel):
             input_texts,
             padding='max_length',
             truncation=True,
-            max_length=384,
             return_tensors="pt",
             pad_to_multiple_of=8,
         ).to(device)
@@ -178,7 +165,7 @@ class GPT2Vision(PreTrainedModel):
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             max_new_tokens=max_new_tokens,
-            pad_token_id=self.tokenizer.pad_token_id,
             eos_token_id=self.tokenizer.eos_token_id,
             **kwargs
         )

 import torch.nn as nn
 from transformers import PreTrainedModel, AutoTokenizer
 from .configuration_gpt2vision import GPT2VisionConfig, GPT2Config
+from .vision_encoder import VisionEncoder
+from .modeling_gpt2 import GPT2LMHeadModel
 IMAGE_TOKEN = "<image>"
 def resize_token_embeds(model_name="openai-community/gpt2"):
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     new_tokens={
         "additional_special_tokens": [IMAGE_TOKEN]
     }
     tokenizer.add_special_tokens(new_tokens)
 tokenizer = resize_token_embeds()
 def create_labels(input_ids, tokenizer, attention_mask):
     labels = input_ids.clone()
             input_texts,
             padding='max_length',
             truncation=True,
+            max_length=768,
             return_tensors="pt",
             pad_to_multiple_of=8,
         ).to(device)
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             max_new_tokens=max_new_tokens,
+            pad_token_id=self.tokenizer.eos_token_id,
             eos_token_id=self.tokenizer.eos_token_id,
             **kwargs
         )