FramePack

Build error

App Files Files Community

Fabrice-TIERCELIN commited on Jun 3, 2025

Commit

b138ec9

verified ·

1 Parent(s): a6e5759

Finish merge

Browse files

Files changed (1) hide show

app.py +25 -25

app.py CHANGED Viewed

@@ -43,11 +43,10 @@ from diffusers_helper.clip_vision import hf_clip_vision_encode
 from diffusers_helper.bucket_tools import find_nearest_bucket
 from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, HunyuanVideoTransformer3DModel, HunyuanVideoPipeline
 if torch.cuda.device_count() > 0:
     free_mem_gb = get_cuda_free_memory_gb(gpu)
     high_vram = free_mem_gb > 60
     print(f'Free VRAM {free_mem_gb} GB')
     print(f'High-VRAM Mode: {high_vram}')
@@ -56,37 +55,37 @@ if torch.cuda.device_count() > 0:
     tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer')
     tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer_2')
     vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='vae', torch_dtype=torch.float16).cpu()
     feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
     image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=torch.float16).cpu()
     transformer = HunyuanVideoTransformer3DModelPacked.from_pretrained('lllyasviel/FramePack_F1_I2V_HY_20250503', torch_dtype=torch.bfloat16).cpu()
     vae.eval()
     text_encoder.eval()
     text_encoder_2.eval()
     image_encoder.eval()
     transformer.eval()
     if not high_vram:
         vae.enable_slicing()
         vae.enable_tiling()
     transformer.high_quality_fp32_output_for_inference = True
     print('transformer.high_quality_fp32_output_for_inference = True')
     transformer.to(dtype=torch.bfloat16)
     vae.to(dtype=torch.float16)
     image_encoder.to(dtype=torch.float16)
     text_encoder.to(dtype=torch.float16)
     text_encoder_2.to(dtype=torch.float16)
     vae.requires_grad_(False)
     text_encoder.requires_grad_(False)
     text_encoder_2.requires_grad_(False)
     image_encoder.requires_grad_(False)
     transformer.requires_grad_(False)
     if not high_vram:
         # DynamicSwapInstaller is same as huggingface's enable_sequential_offload but 3x faster
         DynamicSwapInstaller.install_model(transformer, device=gpu)
@@ -337,7 +336,7 @@ def worker(input_image, prompts, n_prompt, seed, total_second_length, latent_win
             load_model_as_complete(text_encoder_2, target_device=gpu)
         prompt_parameters = []
         for prompt_part in prompts:
             prompt_parameters.append(encode_prompt(prompt_part, n_prompt))
@@ -512,18 +511,18 @@ def get_duration(input_image, prompt, t2v, n_prompt, randomize_seed, seed, total
 @spaces.GPU(duration=get_duration)
-def process(input_image, prompt,
-            t2v=False,
             n_prompt="",
             randomize_seed=True,
-            seed=31337,
-            total_second_length=5,
-            latent_window_size=9,
-            steps=25,
-            cfg=1.0,
-            gs=10.0,
-            rs=0.0,
-            gpu_memory_preservation=6,
             use_teacache=True,
             mp4_crf=16
            ):
@@ -895,7 +894,6 @@ def process_video(input_video, prompt, n_prompt, randomize_seed, seed, batch, re
             yield output_filename, gr.update(visible=False), desc+' Video complete.', '', gr.update(interactive=True), gr.update(interactive=False)
             break
 def end_process():
     stream.input_queue.push('end')
@@ -926,7 +924,8 @@ adapted from the official code repo [FramePack](https://github.com/lllyasviel/Fr
             t2v = gr.Checkbox(label="Do text-to-video (ignored for video extension)", value=False)
             with gr.Row():
-                start_button = gr.Button(value="Start Generation", variant="primary")
                 end_button = gr.Button(value="End Generation", variant="stop", interactive=False)
             total_second_length = gr.Slider(label="Video Length to Generate (seconds)", minimum=1, maximum=120, value=2, step=0.1)
@@ -984,6 +983,7 @@ adapted from the official code repo [FramePack](https://github.com/lllyasviel/Fr
     ips = [input_image, prompt, t2v, n_prompt, randomize_seed, seed, total_second_length, latent_window_size, steps, cfg, gs, rs, gpu_memory_preservation, use_teacache, mp4_crf]
     ips_video = [input_video, prompt, n_prompt, randomize_seed, seed, batch, resolution, total_second_length, latent_window_size, steps, cfg, gs, rs, gpu_memory_preservation, use_teacache, no_resize, mp4_crf, num_clean_frames, vae_batch]
     start_button.click(fn=process, inputs=ips, outputs=[result_video, preview_image, progress_desc, progress_bar, start_button, end_button])
     end_button.click(fn=end_process)
     with gr.Row(elem_id="image_examples", visible=False):
@@ -1093,7 +1093,7 @@ adapted from the official code repo [FramePack](https://github.com/lllyasviel/Fr
         run_on_click = True,
         fn = process_video,
 	    inputs = ips_video,
-	    outputs = [result_video, preview_image, progress_desc, progress_bar, start_button, end_button],
         cache_examples = True,
     )
@@ -1108,7 +1108,7 @@ adapted from the official code repo [FramePack](https://github.com/lllyasviel/Fr
         prompt_debug_value = prompt_debug_data
         total_second_length_debug_value = total_second_length_debug_data
         return []
     input_image_debug.upload(
         fn=handle_field_debug_change,
         inputs=[input_image_debug, input_video_debug, prompt_debug, total_second_length_debug],

 from diffusers_helper.bucket_tools import find_nearest_bucket
 from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, HunyuanVideoTransformer3DModel, HunyuanVideoPipeline
 if torch.cuda.device_count() > 0:
     free_mem_gb = get_cuda_free_memory_gb(gpu)
     high_vram = free_mem_gb > 60
     print(f'Free VRAM {free_mem_gb} GB')
     print(f'High-VRAM Mode: {high_vram}')
     tokenizer = LlamaTokenizerFast.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer')
     tokenizer_2 = CLIPTokenizer.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='tokenizer_2')
     vae = AutoencoderKLHunyuanVideo.from_pretrained("hunyuanvideo-community/HunyuanVideo", subfolder='vae', torch_dtype=torch.float16).cpu()
     feature_extractor = SiglipImageProcessor.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='feature_extractor')
     image_encoder = SiglipVisionModel.from_pretrained("lllyasviel/flux_redux_bfl", subfolder='image_encoder', torch_dtype=torch.float16).cpu()
     transformer = HunyuanVideoTransformer3DModelPacked.from_pretrained('lllyasviel/FramePack_F1_I2V_HY_20250503', torch_dtype=torch.bfloat16).cpu()
     vae.eval()
     text_encoder.eval()
     text_encoder_2.eval()
     image_encoder.eval()
     transformer.eval()
     if not high_vram:
         vae.enable_slicing()
         vae.enable_tiling()
     transformer.high_quality_fp32_output_for_inference = True
     print('transformer.high_quality_fp32_output_for_inference = True')
     transformer.to(dtype=torch.bfloat16)
     vae.to(dtype=torch.float16)
     image_encoder.to(dtype=torch.float16)
     text_encoder.to(dtype=torch.float16)
     text_encoder_2.to(dtype=torch.float16)
     vae.requires_grad_(False)
     text_encoder.requires_grad_(False)
     text_encoder_2.requires_grad_(False)
     image_encoder.requires_grad_(False)
     transformer.requires_grad_(False)
     if not high_vram:
         # DynamicSwapInstaller is same as huggingface's enable_sequential_offload but 3x faster
         DynamicSwapInstaller.install_model(transformer, device=gpu)
             load_model_as_complete(text_encoder_2, target_device=gpu)
         prompt_parameters = []
         for prompt_part in prompts:
             prompt_parameters.append(encode_prompt(prompt_part, n_prompt))
 @spaces.GPU(duration=get_duration)
+def process(input_image, prompt,
+            t2v=False,
             n_prompt="",
             randomize_seed=True,
+            seed=31337,
+            total_second_length=5,
+            latent_window_size=9,
+            steps=25,
+            cfg=1.0,
+            gs=10.0,
+            rs=0.0,
+            gpu_memory_preservation=6,
             use_teacache=True,
             mp4_crf=16
            ):
             yield output_filename, gr.update(visible=False), desc+' Video complete.', '', gr.update(interactive=True), gr.update(interactive=False)
             break
 def end_process():
     stream.input_queue.push('end')
             t2v = gr.Checkbox(label="Do text-to-video (ignored for video extension)", value=False)
             with gr.Row():
+                start_button = gr.Button(value="Generate from image", variant="primary")
+                start_button_video = gr.Button(value="Generate from video", variant="primary")
                 end_button = gr.Button(value="End Generation", variant="stop", interactive=False)
             total_second_length = gr.Slider(label="Video Length to Generate (seconds)", minimum=1, maximum=120, value=2, step=0.1)
     ips = [input_image, prompt, t2v, n_prompt, randomize_seed, seed, total_second_length, latent_window_size, steps, cfg, gs, rs, gpu_memory_preservation, use_teacache, mp4_crf]
     ips_video = [input_video, prompt, n_prompt, randomize_seed, seed, batch, resolution, total_second_length, latent_window_size, steps, cfg, gs, rs, gpu_memory_preservation, use_teacache, no_resize, mp4_crf, num_clean_frames, vae_batch]
     start_button.click(fn=process, inputs=ips, outputs=[result_video, preview_image, progress_desc, progress_bar, start_button, end_button])
+    start_button_video.click(fn=process_video, inputs=ips_video, outputs=[result_video, preview_image, progress_desc, progress_bar, start_button_video, end_button])
     end_button.click(fn=end_process)
     with gr.Row(elem_id="image_examples", visible=False):
         run_on_click = True,
         fn = process_video,
 	    inputs = ips_video,
+	    outputs = [result_video, preview_image, progress_desc, progress_bar, start_button_video, end_button],
         cache_examples = True,
     )
         prompt_debug_value = prompt_debug_data
         total_second_length_debug_value = total_second_length_debug_data
         return []
     input_image_debug.upload(
         fn=handle_field_debug_change,
         inputs=[input_image_debug, input_video_debug, prompt_debug, total_second_length_debug],