linoyts
/

ltx2-audio-video-conditioning

video-generation

video-conditioning

Model card Files Files and versions

Update pipeline.py

#3

by linoyts HF Staff - opened 16 days ago

base: refs/heads/main

←

from: refs/pr/3

Discussion Files changed

Files changed (1) hide show

pipeline.py +4 -2

pipeline.py CHANGED Viewed

@@ -1233,8 +1233,10 @@ class LTX2ConditionPipeline(DiffusionPipeline, FromSingleFileMixin, LTX2LoraLoad
         # If we have concat conditioning, extend video_coords with concat_positions
         if concat_positions is not None:
-            # video_coords is [B, 3, base_num_tokens]
-            # concat_positions is [B, 3, concat_num_tokens]
             video_coords = torch.cat([video_coords, concat_positions], dim=2)
         audio_coords = self.transformer.audio_rope.prepare_audio_coords(

         # If we have concat conditioning, extend video_coords with concat_positions
         if concat_positions is not None:
+            # video_coords is [B, 3, base_num_tokens, 2]
+            # concat_positions is [B, 3, concat_num_tokens] - need to expand to 4D
+            # Add the last dimension by expanding to match video_coords shape
+            concat_positions = concat_positions.unsqueeze(-1).expand(-1, -1, -1, video_coords.shape[-1])
             video_coords = torch.cat([video_coords, concat_positions], dim=2)
         audio_coords = self.transformer.audio_rope.prepare_audio_coords(