Update model

Files changed (3) hide show

config.json CHANGED Viewed

@@ -5,6 +5,10 @@
     "BEiT3ForVietnameseVisualQuestionAnswering"
   ],
   "attention_dropout": 0.0,
   "bert_init": false,
   "checkpoint_activations": false,
   "ddp_rank": 0,

     "BEiT3ForVietnameseVisualQuestionAnswering"
   ],
   "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_vivqa.ViVQAConfig",
+    "AutoModel": "modeling_vivqa.BEiT3ForVietnameseVisualQuestionAnswering"
+  },
   "bert_init": false,
   "checkpoint_activations": false,
   "ddp_rank": 0,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cb2dc4bd763c7d99faf17e93d2501d1dfcb077a91b3881db447a96bf42fbbcd
 size 4911309508

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f5d2c605437bfec5f62512ec5bd54851ff49d5f056bdc794cd5e5e4a45b11f4
 size 4911309508

modeling_vivqa.py CHANGED Viewed

@@ -37,8 +37,8 @@ class Blip2EfficientExtractor(nn.Module):
         self.model_blip2.eval()
         # Efficientnet
-        self.model_efficient = EfficientNet.from_pretrained('efficientnet-b7', advprop=True).to(self.device)
-        self.model_efficient.eval()
         self.pooling1 = nn.AdaptiveAvgPool2d((1, 32))
         self.pooling2 = nn.AdaptiveAvgPool2d((1, 768))
@@ -46,7 +46,7 @@ class Blip2EfficientExtractor(nn.Module):
         global_features = self.model_blip2.extract_features(samples={"image": images}, mode="image").image_embeds
-        local_features = self.model_efficient.extract_features(images)
         local_features = self.pooling1(local_features)
         local_features = local_features.permute(0, 3, 2, 1)
         local_features = self.pooling2(local_features)

         self.model_blip2.eval()
         # Efficientnet
+        self.model_efficientnet = EfficientNet.from_pretrained('efficientnet-b7', advprop=True).to(self.device)
+        self.model_efficientnet.eval()
         self.pooling1 = nn.AdaptiveAvgPool2d((1, 32))
         self.pooling2 = nn.AdaptiveAvgPool2d((1, 768))
         global_features = self.model_blip2.extract_features(samples={"image": images}, mode="image").image_embeds
+        local_features = self.model_efficientnet.extract_features(images)
         local_features = self.pooling1(local_features)
         local_features = local_features.permute(0, 3, 2, 1)
         local_features = self.pooling2(local_features)