phonghoccode
/

vilt-finetuned-cocoqa

Question Answering

Model card Files Files and versions

phonghoccode commited on Jan 4

Commit

c76f76b

·

verified ·

1 Parent(s): bf5d202

Fine-tuned ViLT on COCO-QA dataset

Files changed (2) hide show

config.json +2 -41
model.safetensors +2 -2

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "architectures": [
-    "BlipForQuestionAnswering"
   ],
   "attention_probs_dropout_prob": 0.0,
   "dtype": "float32",
@@ -440,8 +440,6 @@
     "429": "canoe"
   },
   "image_size": 384,
-  "image_text_hidden_size": 256,
-  "initializer_factor": 1.0,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
@@ -876,56 +874,19 @@
     "zebras": 38,
     "zoo": 180
   },
-  "label_smoothing": 0.0,
   "layer_norm_eps": 1e-12,
-  "logit_scale_init_value": 2.6592,
   "max_image_length": -1,
   "max_position_embeddings": 40,
   "modality_type_vocab_size": 2,
-  "model_type": "blip",
   "num_attention_heads": 12,
   "num_channels": 3,
   "num_hidden_layers": 12,
   "num_images": -1,
   "patch_size": 32,
-  "projection_dim": 512,
   "qkv_bias": true,
-  "text_config": {
-    "attention_probs_dropout_prob": 0.0,
-    "dtype": "float32",
-    "encoder_hidden_size": 768,
-    "hidden_act": "gelu",
-    "hidden_dropout_prob": 0.0,
-    "hidden_size": 768,
-    "initializer_range": 0.02,
-    "intermediate_size": 3072,
-    "label_smoothing": 0.0,
-    "layer_norm_eps": 1e-12,
-    "max_position_embeddings": 512,
-    "model_type": "blip_text_model",
-    "num_attention_heads": 8,
-    "num_hidden_layers": 12,
-    "projection_dim": 768,
-    "use_cache": true,
-    "vocab_size": 30524
-  },
   "tie_word_embeddings": false,
   "transformers_version": "4.57.1",
   "type_vocab_size": 2,
-  "vision_config": {
-    "attention_dropout": 0.0,
-    "dtype": "float32",
-    "hidden_act": "gelu",
-    "hidden_size": 768,
-    "image_size": 384,
-    "initializer_range": 1e-10,
-    "intermediate_size": 3072,
-    "layer_norm_eps": 1e-05,
-    "model_type": "blip_vision_model",
-    "num_attention_heads": 12,
-    "num_hidden_layers": 12,
-    "patch_size": 16,
-    "projection_dim": 512
-  },
   "vocab_size": 30522
 }

 {
   "architectures": [
+    "ViltForQuestionAnswering"
   ],
   "attention_probs_dropout_prob": 0.0,
   "dtype": "float32",
     "429": "canoe"
   },
   "image_size": 384,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
     "zebras": 38,
     "zoo": 180
   },
   "layer_norm_eps": 1e-12,
   "max_image_length": -1,
   "max_position_embeddings": 40,
   "modality_type_vocab_size": 2,
+  "model_type": "vilt",
   "num_attention_heads": 12,
   "num_channels": 3,
   "num_hidden_layers": 12,
   "num_images": -1,
   "patch_size": 32,
   "qkv_bias": true,
   "tie_word_embeddings": false,
   "transformers_version": "4.57.1",
   "type_vocab_size": 2,
   "vocab_size": 30522
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90e8aad5da725191db28ac93afc48f58ad37af604ccdd78457567825b65daf06
-size 1445022200

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b0bbf2791f8e4a97d0553e514e957b018859635fc8f4363fd6f6a47fa88dd15
+size 453785512