jbilcke-hf
/

HunyuanVideo-HFIE

@@ -110,6 +110,12 @@ class EndpointHandler:
             # self.image_to_video.text_encoder_2 = self.image_to_video.text_encoder_2.half()
             # self.image_to_video.transformer = self.image_to_video.transformer.to(torch.bfloat16)
             # self.image_to_video.vae = self.image_to_video.vae.half()
         else:
             # Initialize text-to-video pipeline
             self.text_to_video = HunyuanVideoPipeline.from_pretrained(
@@ -124,6 +130,14 @@ class EndpointHandler:
             self.text_to_video.transformer = self.text_to_video.transformer.to(torch.bfloat16)
             self.text_to_video.vae = self.text_to_video.vae.half()
             # enable FasterCache
             # those values are coming from here:
@@ -336,21 +350,8 @@ class EndpointHandler:
                         config.input_image_quality,
                     )
                     generation_kwargs["image"] = processed_image
-                    apply_enhance_a_video(self.image_to_video.transformer, EnhanceAVideoConfig(
-                        weight=config.enhance_a_video_weight if config.enable_enhance_a_video else 0.0,
-                        num_frames_callback=lambda: (config.num_frames - 1),
-                        _attention_type=1
-                    ))
                     frames = self.image_to_video(**generation_kwargs).frames
                 else:
-                    apply_enhance_a_video(self.text_to_video.transformer, EnhanceAVideoConfig(
-                        weight=config.enhance_a_video_weight if config.enable_enhance_a_video else 0.0,
-                        num_frames_callback=lambda: (config.num_frames - 1),
-                        _attention_type=1
-                    ))
                     frames = self.text_to_video(**generation_kwargs).frames

             # self.image_to_video.text_encoder_2 = self.image_to_video.text_encoder_2.half()
             # self.image_to_video.transformer = self.image_to_video.transformer.to(torch.bfloat16)
             # self.image_to_video.vae = self.image_to_video.vae.half()
+            # apply_enhance_a_video(self.image_to_video.transformer, EnhanceAVideoConfig(
+            #     weight=config.enhance_a_video_weight if config.enable_enhance_a_video else 0.0,
+            #     num_frames_callback=lambda: (config.num_frames - 1),
+            #     _attention_type=1
+            # ))
         else:
             # Initialize text-to-video pipeline
             self.text_to_video = HunyuanVideoPipeline.from_pretrained(
             self.text_to_video.transformer = self.text_to_video.transformer.to(torch.bfloat16)
             self.text_to_video.vae = self.text_to_video.vae.half()
+            # apply_enhance_a_video(self.text_to_video.transformer, EnhanceAVideoConfig(
+            #     # weight=config.enhance_a_video_weight if config.enable_enhance_a_video else 0.0,
+            #     weight=config.enhance_a_video_weight,
+            #     num_frames_callback=lambda: (config.num_frames - 1),
+            #     _attention_type=1
+            # ))
             # enable FasterCache
             # those values are coming from here:
                         config.input_image_quality,
                     )
                     generation_kwargs["image"] = processed_image
                     frames = self.image_to_video(**generation_kwargs).frames
                 else:
                     frames = self.text_to_video(**generation_kwargs).frames