Upload VisionPixtralEncoderDecoder

Files changed (3) hide show

config.json CHANGED Viewed

@@ -2,20 +2,13 @@
   "architectures": [
     "VisionPixtralEncoderDecoder"
   ],
-  "auto_map": {
-    "AutoConfig": "configuration.VisionPixtralEncoderDecoderConfig",
-    "AutoModel": "modeling.VisionPixtralEncoderDecoder",
-    "AutoConfig": "configuration.PixtralVisionModelBatchConfig",
-    "AutoModel": "modeling.PixtralVisionModelBatch"
-  },
   "decoder": {
-    "_attn_implementation_autoset": true,
     "activation_dropout": 0.0,
     "activation_function": "relu",
     "add_cross_attention": true,
     "attention_dropout": 0.0,
     "classifier_dropout": 0.0,
-    "cross_attention_hidden_size": 1024,
     "d_model": 1024,
     "decoder_attention_heads": 16,
     "decoder_ffn_dim": 4096,
@@ -36,13 +29,10 @@
   },
   "encoder": {
     "_attn_implementation_autoset": true,
     "architectures": [
-      "PixtralVisionModelBatch"
     ],
-    "auto_map": {
-      "AutoConfig": "configuration.PixtralVisionModelBatchConfig",
-      "AutoModel": "modeling.PixtralVisionModelBatch"
-    },
     "attention_dropout": 0.0,
     "head_dim": 64,
     "hidden_act": "silu",
@@ -61,7 +51,7 @@
     "torch_dtype": "float32"
   },
   "is_encoder_decoder": true,
-  "model_type": "vision_pixtral_encoder_decoder",
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
   "transformers_version": "4.51.3"

   "architectures": [
     "VisionPixtralEncoderDecoder"
   ],
   "decoder": {
     "activation_dropout": 0.0,
     "activation_function": "relu",
     "add_cross_attention": true,
     "attention_dropout": 0.0,
     "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": 768,
     "d_model": 1024,
     "decoder_attention_heads": 16,
     "decoder_ffn_dim": 4096,
   },
   "encoder": {
     "_attn_implementation_autoset": true,
+    "_name_or_path": "pixtral-vision",
     "architectures": [
+      "PixtralVisionModel"
     ],
     "attention_dropout": 0.0,
     "head_dim": 64,
     "hidden_act": "silu",
     "torch_dtype": "float32"
   },
   "is_encoder_decoder": true,
+  "model_type": "vision-encoder-decoder",
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
   "transformers_version": "4.51.3"

generation_config.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
   "_from_model_config": true,
   "bos_token_id": 0,
-  "decoder_start_token_id": 0,
   "eos_token_id": 2,
   "pad_token_id": 1,
-  "transformers_version": "4.51.3"
 }

 {
   "_from_model_config": true,
   "bos_token_id": 0,
+  "decoder_start_token_id": 2,
   "eos_token_id": 2,
   "pad_token_id": 1,
+  "transformers_version": "4.51.3",
+  "use_cache": false
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e5153c6c3b48b4b6b75b5bbf7f2b0f0e413cced9f0d213525f23f6323f1c3dd
-size 2832038364

 version https://git-lfs.github.com/spec/v1
+oid sha256:46d0f12a41becf763629a128b3310725829fd63f8f8420568bdee03bafb28edb
+size 2810021492