Spaces:

roll-ai
/

Dove

Paused

engrjaved commited on Nov 5, 2025

Commit

b89c2e0

1 Parent(s): 3fe3503

offload text_encoder and transformer to CPU

Files changed (1) hide show

inference_script.py CHANGED Viewed

@@ -405,6 +405,8 @@ def process_video(
     video = video.to(pipe.vae.device, dtype=pipe.vae.dtype)
     latent_dist = pipe.vae.encode(video).latent_dist
     latent = latent_dist.sample() * pipe.vae.config.scaling_factor
     patch_size_t = pipe.transformer.config.patch_size_t
     if patch_size_t is not None:
@@ -471,7 +473,8 @@ def process_video(
     # offload text encoder to CPU
     pipe.text_encoder.to("cpu")
     # Predict noise
     predicted_noise = pipe.transformer(
         hidden_states=latent,

     video = video.to(pipe.vae.device, dtype=pipe.vae.dtype)
     latent_dist = pipe.vae.encode(video).latent_dist
     latent = latent_dist.sample() * pipe.vae.config.scaling_factor
+    pipe.text_encoder.to("cuda")
     patch_size_t = pipe.transformer.config.patch_size_t
     if patch_size_t is not None:
     # offload text encoder to CPU
     pipe.text_encoder.to("cpu")
+    pipe.transformer.to("cuda")
     # Predict noise
     predicted_noise = pipe.transformer(
         hidden_states=latent,