INVERTO
/

bird-captioning-cub200

@@ -12,6 +12,15 @@ class BirdCaptioningModel(nn.Module, PyTorchModelHubMixin):
         self.classifier = nn.Linear(self.hidden_size, num_classes)
     def forward(self, pixel_values, input_ids=None, attention_mask=None):
         outputs = self.base_model(
             pixel_values=pixel_values,
             decoder_input_ids=input_ids,

         self.classifier = nn.Linear(self.hidden_size, num_classes)
     def forward(self, pixel_values, input_ids=None, attention_mask=None):
+        if input_ids is None:
+            batch_size = pixel_values.shape[0]
+            input_ids = torch.full(
+                (batch_size, 1),
+                self.base_model.config.decoder_start_token_id,
+                device=pixel_values.device
+            )
+            attention_mask = torch.ones_like(input_ids)
         outputs = self.base_model(
             pixel_values=pixel_values,
             decoder_input_ids=input_ids,