BiliSakura
/

BitDance-14B-16x-diffusers

@@ -17,6 +17,13 @@ from .constants import SUPPORTED_IMAGE_SIZES
 PromptType = Union[str, List[str]]
 class BitDanceDiffusionPipeline(DiffusionPipeline):
     model_cpu_offload_seq = "text_encoder->projector->diffusion_head->autoencoder"
@@ -130,6 +137,8 @@ class BitDanceDiffusionPipeline(DiffusionPipeline):
     def _decode_tokens_to_image(self, image_latents: torch.Tensor, image_size: Tuple[int, int], ps: int = 1) -> torch.Tensor:
         h, w = image_size
         image_latents = rearrange(image_latents, "b (h w p1 p2) c -> b c (h p1) (w p2)", h=h // ps, w=w // ps, p1=ps, p2=ps)
         return self.autoencoder.decode(image_latents)
     @torch.no_grad()
@@ -183,7 +192,7 @@ class BitDanceDiffusionPipeline(DiffusionPipeline):
             pkv_c = outputs_c.past_key_values
             bi_attn_mask = torch.ones(
-                (input_embeds_cond.shape[0], 1, step_width, step_width + pkv_c[0][0].shape[2]),
                 dtype=torch.bool,
                 device=device,
             )
@@ -201,11 +210,16 @@ class BitDanceDiffusionPipeline(DiffusionPipeline):
             if guidance_scale > 1.0 and input_embeds_uncond is not None:
                 outputs_u = model(inputs_embeds=input_embeds_uncond[:, :-step_width, :], use_cache=True)
                 pkv_u = outputs_u.past_key_values
                 outputs_u = model(
                     inputs_embeds=input_embeds_uncond[:, -step_width:, :],
                     past_key_values=pkv_u,
                     use_cache=True,
-                    attention_mask=bi_attn_mask,
                 )
                 pkv_u = outputs_u.past_key_values
                 hidden_u = outputs_u.last_hidden_state[:, -step_width:]
@@ -235,7 +249,7 @@ class BitDanceDiffusionPipeline(DiffusionPipeline):
                 model_input = curr_embeds + pos_slice
                 bi_attn_mask = torch.ones(
-                    (model_input.shape[0], 1, model_input.shape[1], model_input.shape[1] + pkv_c[0][0].shape[2]),
                     dtype=torch.bool,
                     device=device,
                 )
@@ -249,11 +263,16 @@ class BitDanceDiffusionPipeline(DiffusionPipeline):
                 hidden_c = outputs_c.last_hidden_state[:, -step_width:]
                 if guidance_scale > 1.0 and hidden_u is not None and pkv_u is not None:
                     outputs_u = model(
                         inputs_embeds=model_input[num_images_per_prompt:],
                         past_key_values=pkv_u,
                         use_cache=True,
-                        attention_mask=bi_attn_mask[num_images_per_prompt:],
                     )
                     pkv_u = outputs_u.past_key_values
                     hidden_u = outputs_u.last_hidden_state[:, -step_width:]

 PromptType = Union[str, List[str]]
+def _get_pkv_seq_len(past_key_values) -> int:
+    """Get cached sequence length from past_key_values (tuple or DynamicCache)."""
+    if hasattr(past_key_values, "get_seq_length"):
+        return past_key_values.get_seq_length()
+    return past_key_values[0][0].shape[2]
 class BitDanceDiffusionPipeline(DiffusionPipeline):
     model_cpu_offload_seq = "text_encoder->projector->diffusion_head->autoencoder"
     def _decode_tokens_to_image(self, image_latents: torch.Tensor, image_size: Tuple[int, int], ps: int = 1) -> torch.Tensor:
         h, w = image_size
         image_latents = rearrange(image_latents, "b (h w p1 p2) c -> b c (h p1) (w p2)", h=h // ps, w=w // ps, p1=ps, p2=ps)
+        ae_dtype = next(self.autoencoder.parameters()).dtype
+        image_latents = image_latents.to(dtype=ae_dtype)
         return self.autoencoder.decode(image_latents)
     @torch.no_grad()
             pkv_c = outputs_c.past_key_values
             bi_attn_mask = torch.ones(
+                (input_embeds_cond.shape[0], 1, step_width, step_width + _get_pkv_seq_len(pkv_c)),
                 dtype=torch.bool,
                 device=device,
             )
             if guidance_scale > 1.0 and input_embeds_uncond is not None:
                 outputs_u = model(inputs_embeds=input_embeds_uncond[:, :-step_width, :], use_cache=True)
                 pkv_u = outputs_u.past_key_values
+                bi_attn_mask_u = torch.ones(
+                    (input_embeds_uncond.shape[0], 1, step_width, step_width + _get_pkv_seq_len(pkv_u)),
+                    dtype=torch.bool,
+                    device=device,
+                )
                 outputs_u = model(
                     inputs_embeds=input_embeds_uncond[:, -step_width:, :],
                     past_key_values=pkv_u,
                     use_cache=True,
+                    attention_mask=bi_attn_mask_u,
                 )
                 pkv_u = outputs_u.past_key_values
                 hidden_u = outputs_u.last_hidden_state[:, -step_width:]
                 model_input = curr_embeds + pos_slice
                 bi_attn_mask = torch.ones(
+                    (model_input.shape[0], 1, model_input.shape[1], model_input.shape[1] + _get_pkv_seq_len(pkv_c)),
                     dtype=torch.bool,
                     device=device,
                 )
                 hidden_c = outputs_c.last_hidden_state[:, -step_width:]
                 if guidance_scale > 1.0 and hidden_u is not None and pkv_u is not None:
+                    bi_attn_mask_u = torch.ones(
+                        (model_input.shape[0], 1, model_input.shape[1], model_input.shape[1] + _get_pkv_seq_len(pkv_u)),
+                        dtype=torch.bool,
+                        device=device,
+                    )
                     outputs_u = model(
                         inputs_embeds=model_input[num_images_per_prompt:],
                         past_key_values=pkv_u,
                         use_cache=True,
+                        attention_mask=bi_attn_mask_u[num_images_per_prompt:],
                     )
                     pkv_u = outputs_u.past_key_values
                     hidden_u = outputs_u.last_hidden_state[:, -step_width:]