aehrc
/

medicap

@@ -173,7 +173,6 @@ class MedICapEncoderDecoderModel(VisionEncoderDecoderModel):
                 return_dict=return_dict,
                 **kwargs_encoder,
             )  # CvT does not support output_attentions.
-            assert decoder_inputs_embeds.shape[1] == 1
             decoder_inputs_embeds = torch.cat([encoder_outputs[0], decoder_inputs_embeds], dim=1)
             if decoder_attention_mask is not None:
                 decoder_attention_mask = torch.cat(
@@ -182,8 +181,8 @@ class MedICapEncoderDecoderModel(VisionEncoderDecoderModel):
                         decoder_attention_mask
                     ],
                     dim=1,
-                )
         decoder_outputs = self.decoder(
             attention_mask=decoder_attention_mask,
             inputs_embeds=decoder_inputs_embeds,
@@ -249,15 +248,6 @@ class MedICapEncoderDecoderModel(VisionEncoderDecoderModel):
         input_dict['past_key_values'] = decoder_inputs['past_key_values']
         input_dict['decoder_attention_mask'] = decoder_inputs['attention_mask'] if 'attention_mask' in decoder_inputs else None
-        # if torch.is_tensor(decoder_attention_mask):
-        #     decoder_attention_mask = torch.cat(
-        #         [
-        #             torch.ones(encoder_outputs[0].shape[:-1], dtype=decoder_attention_mask.dtype, device=self.device),
-        #             decoder_attention_mask
-        #         ],
-        #         dim=1,
-        #     )
         return input_dict
     def tokenize_captions_teacher_forcing(

                 return_dict=return_dict,
                 **kwargs_encoder,
             )  # CvT does not support output_attentions.
             decoder_inputs_embeds = torch.cat([encoder_outputs[0], decoder_inputs_embeds], dim=1)
             if decoder_attention_mask is not None:
                 decoder_attention_mask = torch.cat(
                         decoder_attention_mask
                     ],
                     dim=1,
+                )
         decoder_outputs = self.decoder(
             attention_mask=decoder_attention_mask,
             inputs_embeds=decoder_inputs_embeds,
         input_dict['past_key_values'] = decoder_inputs['past_key_values']
         input_dict['decoder_attention_mask'] = decoder_inputs['attention_mask'] if 'attention_mask' in decoder_inputs else None
         return input_dict
     def tokenize_captions_teacher_forcing(