lambertxiao
/

Vision-Language-Vision-Captioner-Qwen2.5-3B

feature-extraction

image-captioning

vision-language

Model card Files Files and versions

lambertxiao commited on Jul 15, 2025

Commit

10abe26

·

verified ·

1 Parent(s): 17c91d1

Update De_DiffusionV2_stage2.py

Files changed (1) hide show

De_DiffusionV2_stage2.py +12 -1

De_DiffusionV2_stage2.py CHANGED Viewed

@@ -285,7 +285,18 @@ class CLIPDecoder(nn.Module):
         """
         decoder_hidden_states = self.get_conditional_context(images, batch_size)
         context_embeds = self.VLV_model.language_proj(decoder_hidden_states)
-        clip_text_embeds = self.VLV_model.text_encoder(inputs_embeds=context_embeds).last_hidden_state
         # clip_text_embeds = clip_text_embeds.to(self._dtype)
         clip_text_embeds = self.mlp(clip_text_embeds)
         clip_text_embeds_attention_mask = torch.ones(

         """
         decoder_hidden_states = self.get_conditional_context(images, batch_size)
         context_embeds = self.VLV_model.language_proj(decoder_hidden_states)
+        # Create attention mask for context_embeds
+        context_attention_mask = torch.ones(
+            (batch_size, context_embeds.shape[1]),
+            dtype=torch.long,
+            device=self.device
+        )
+        clip_text_embeds = self.VLV_model.text_encoder(
+            inputs_embeds=context_embeds,
+            attention_mask=context_attention_mask
+        ).last_hidden_state
         # clip_text_embeds = clip_text_embeds.to(self._dtype)
         clip_text_embeds = self.mlp(clip_text_embeds)
         clip_text_embeds_attention_mask = torch.ones(