ZinengTang
/

image-qformer

Model card Files Files and versions

ZinengTang commited on May 3, 2024

Commit

08dd609

·

verified ·

1 Parent(s): 2908f6a

Update config.json

Files changed (1) hide show

config.json +45 -49

config.json CHANGED Viewed

@@ -7,57 +7,53 @@
   "model_type": "blip-2",
   "num_query_tokens": 32,
   "qformer_config": {
-    {
-      "architectures": [
-        "Blip2QFormerModel"
-      ],
-      "num_query_tokens": 32,
-      "attention_probs_dropout_prob": 0.1,
-      "classifier_dropout": null,
-      "cross_attention_frequency": 2,
-      "encoder_hidden_size": 1408,
-      "hidden_act": "gelu",
-      "hidden_dropout_prob": 0.1,
-      "hidden_size": 768,
-      "initializer_range": 0.02,
-      "intermediate_size": 3072,
-      "layer_norm_eps": 1e-12,
-      "max_position_embeddings": 512,
-      "model_type": "blip_2_qformer",
-      "num_attention_heads": 12,
-      "num_hidden_layers": 12,
-      "pad_token_id": 0,
-      "position_embedding_type": "absolute",
-      "torch_dtype": "float32",
-      "transformers_version": "4.34.1",
-      "vocab_size": 30522
-    }
   },
   "torch_dtype": "float32",
   "transformers_version": "4.34.1",
   "vision_config": {
-    {
-      "architectures": [
-        "Blip2VisionModel"
-      ],
-      "attention_dropout": 0.0,
-      "dropout": 0.0,
-      "hidden_act": "gelu",
-      "hidden_size": 1408,
-      "image_size": 224,
-      "initializer_factor": 1.0,
-      "initializer_range": 1e-10,
-      "intermediate_size": 6144,
-      "layer_norm_eps": 1e-06,
-      "model_type": "blip_2_vision_model",
-      "num_attention_heads": 16,
-      "num_channels": 3,
-      "num_hidden_layers": 39,
-      "patch_size": 14,
-      "projection_dim": 512,
-      "qkv_bias": true,
-      "torch_dtype": "float32",
-      "transformers_version": "4.34.1"
-    }
   }
-}

   "model_type": "blip-2",
   "num_query_tokens": 32,
   "qformer_config": {
+    "architectures": [
+      "Blip2QFormerModel"
+    ],
+    "num_query_tokens": 32,
+    "attention_probs_dropout_prob": 0.1,
+    "classifier_dropout": null,
+    "cross_attention_frequency": 2,
+    "encoder_hidden_size": 1408,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 512,
+    "model_type": "blip_2_qformer",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "torch_dtype": "float32",
+    "transformers_version": "4.34.1",
+    "vocab_size": 30522
   },
   "torch_dtype": "float32",
   "transformers_version": "4.34.1",
   "vision_config": {
+    "architectures": [
+      "Blip2VisionModel"
+    ],
+    "attention_dropout": 0.0,
+    "dropout": 0.0,
+    "hidden_act": "gelu",
+    "hidden_size": 1408,
+    "image_size": 224,
+    "initializer_factor": 1.0,
+    "initializer_range": 1e-10,
+    "intermediate_size": 6144,
+    "layer_norm_eps": 1e-06,
+    "model_type": "blip_2_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 39,
+    "patch_size": 14,
+    "projection_dim": 512,
+    "qkv_bias": true,
+    "torch_dtype": "float32",
+    "transformers_version": "4.34.1"
   }
+}