Upload VisionPixtralEncoderDecoder

Files changed (3) hide show

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
     "VisionPixtralEncoderDecoder"
   ],
   "auto_map": {
     "AutoModel": "modeling.VisionPixtralEncoderDecoder"
   },
   "decoder": {
@@ -36,10 +37,10 @@
     "architectures": [
       "PixtralVisionModelBatch"
     ],
     "auto_map": {
       "AutoModel": "modeling.PixtralVisionModelBatch"
     },
-    "attention_dropout": 0.0,
     "head_dim": 64,
     "hidden_act": "silu",
     "hidden_size": 1024,

     "VisionPixtralEncoderDecoder"
   ],
   "auto_map": {
+    "AutoConfig": "configuration.VisionPixtralEncoderDecoderConfig",
     "AutoModel": "modeling.VisionPixtralEncoderDecoder"
   },
   "decoder": {
     "architectures": [
       "PixtralVisionModelBatch"
     ],
+    "attention_dropout": 0.0,
     "auto_map": {
       "AutoModel": "modeling.PixtralVisionModelBatch"
     },
     "head_dim": 64,
     "hidden_act": "silu",
     "hidden_size": 1024,

generation_config.json CHANGED Viewed

@@ -4,6 +4,5 @@
   "decoder_start_token_id": 2,
   "eos_token_id": 2,
   "pad_token_id": 1,
-  "transformers_version": "4.51.3",
-  "use_cache": true
 }

   "decoder_start_token_id": 2,
   "eos_token_id": 2,
   "pad_token_id": 1,
+  "transformers_version": "4.51.3"
 }

modeling.py CHANGED Viewed

@@ -13,7 +13,7 @@ from transformers.models.pixtral.modeling_pixtral import apply_rotary_pos_emb, P
 from transformers.modeling_attn_mask_utils import _prepare_4d_attention_mask
 from transformers.modeling_outputs import BaseModelOutput
-from pixtral_encoder_decoder.config import PixtralVisionModelBatchConfig, VisionPixtralEncoderDecoderConfig
 def position_ids_in_meshgrid_batch(patch_embeds, max_width):

 from transformers.modeling_attn_mask_utils import _prepare_4d_attention_mask
 from transformers.modeling_outputs import BaseModelOutput
+from pixtral_encoder_decoder.configuration import PixtralVisionModelBatchConfig, VisionPixtralEncoderDecoderConfig
 def position_ids_in_meshgrid_batch(patch_embeds, max_width):