Spaces:

Kunbyte
/

DRA-Ctrl

Running on Zero

App Files Files Community

caohy666 commited on Jun 17, 2025

Commit

8e7659c

1 Parent(s): 8748eeb

<fix> move transformer init to process_image_and_text.

Browse files

Files changed (1) hide show

app.py +7 -5

app.py CHANGED Viewed

@@ -52,9 +52,6 @@ def init_basemodel():
     global transformer, scheduler, vae, text_encoder, text_encoder_2, tokenizer, tokenizer_2, image_processor
     # init models
-    transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
-                                                                 subfolder="transformer",
-                                                                 inference_subject_driven=task in ['subject_driven'])
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae")
@@ -72,11 +69,9 @@ def init_basemodel():
     device = "cuda" if torch.cuda.is_available() else "cpu"
     weight_dtype = torch.bfloat16
-    transformer.requires_grad_(False)
     vae.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder_2.requires_grad_(False).to(device, dtype=weight_dtype)
-    transformer.to(device, dtype=weight_dtype)
     vae.enable_tiling()
     vae.enable_slicing()
@@ -85,6 +80,13 @@ def init_basemodel():
 def process_image_and_text(condition_image, target_prompt, condition_image_prompt, task, random_seed, inpainting, fill_x1, fill_x2, fill_y1, fill_y2):
     # set up the model
     if pipe is None or current_task != task:
         # insert LoRA
         lora_config = LoraConfig(
             r=16,

     global transformer, scheduler, vae, text_encoder, text_encoder_2, tokenizer, tokenizer_2, image_processor
     # init models
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae")
     device = "cuda" if torch.cuda.is_available() else "cpu"
     weight_dtype = torch.bfloat16
     vae.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder_2.requires_grad_(False).to(device, dtype=weight_dtype)
     vae.enable_tiling()
     vae.enable_slicing()
 def process_image_and_text(condition_image, target_prompt, condition_image_prompt, task, random_seed, inpainting, fill_x1, fill_x2, fill_y1, fill_y2):
     # set up the model
     if pipe is None or current_task != task:
+        # init transformer
+        transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
+                                                                     subfolder="transformer",
+                                                                     inference_subject_driven=task in ['subject_driven'])
+        transformer.requires_grad_(False)
+        transformer.to("cuda" if torch.cuda.is_available() else "cpu", dtype=torch.bfloat16)
         # insert LoRA
         lora_config = LoraConfig(
             r=16,