SUPIR

Runtime error

App Files Files Community

Fabrice-TIERCELIN commited on Jul 3, 2025

Commit

7c17dfa

verified ·

1 Parent(s): a6ede4c

List

Browse files

Files changed (1) hide show

app.py +27 -27

app.py CHANGED Viewed

@@ -375,10 +375,10 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
         llama_vec, llama_attention_mask = crop_or_pad_yield_mask(llama_vec, length=512)
         llama_vec_n, llama_attention_mask_n = crop_or_pad_yield_mask(llama_vec_n, length=512)
-        llama_vec = llama_vec.to(transformer.dtype)
-        llama_vec_n = llama_vec_n.to(transformer.dtype)
-        clip_l_pooler = clip_l_pooler.to(transformer.dtype)
-        clip_l_pooler_n = clip_l_pooler_n.to(transformer.dtype)
         return [llama_vec, clip_l_pooler, llama_vec_n, clip_l_pooler_n, llama_attention_mask, llama_attention_mask_n]
     total_latent_sections = (total_second_length * fps_number) / (latent_window_size * 4)
@@ -396,7 +396,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
         # Clean GPU
         if not high_vram:
             unload_complete_models(
-                text_encoder, text_encoder_2, image_encoder, vae, transformer
             )
         # Text encoding
@@ -461,7 +461,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
         # Dtype
-        image_encoder_last_hidden_state = image_encoder_last_hidden_state.to(transformer.dtype)
         # Sampling
@@ -529,7 +529,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
                     history_pixels = soft_append_bcthw(vae_decode(real_history_latents, vae).cpu(), history_pixels, overlapped_frames)
             if not high_vram:
-                unload_complete_models(text_encoder, text_encoder_2, image_encoder, vae, transformer)
             if enable_preview or section_index == (0 if first_section_index == (total_latent_sections - 1) else (total_latent_sections - 1)):
                 output_filename = os.path.join(outputs_folder, f'{job_id}_{total_generated_latent_frames}.mp4')
@@ -557,12 +557,12 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
             if not high_vram:
                 unload_complete_models()
-                move_model_to_device_with_memory_preservation(transformer, target_device=gpu, preserved_memory_gb=gpu_memory_preservation)
             if use_teacache:
-                transformer.initialize_teacache(enable_teacache=True, num_steps=steps)
             else:
-                transformer.initialize_teacache(enable_teacache=False)
             if forward:
                 clean_latents_4x, clean_latents_2x, clean_latents_1x = history_latents[:, :, -(16 + 2 + 1):, :, :].split([16, 2, 1], dim=2)
@@ -572,7 +572,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
                 clean_latents = torch.cat([clean_latents_1x, start_latent], dim=2)
             generated_latents = sample_hunyuan(
-                transformer=transformer,
                 sampler='unipc',
                 width=width,
                 height=height,
@@ -602,7 +602,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
                 callback=callback,
             )
-            [total_generated_latent_frames, history_latents, history_pixels] = post_process(forward, generated_latents, total_generated_latent_frames, history_latents, high_vram, transformer, gpu, vae, history_pixels, latent_window_size, enable_preview, section_index, total_latent_sections, outputs_folder, mp4_crf, stream)
             if not forward:
                 if section_index > 0:
@@ -626,7 +626,7 @@ def worker(input_image, image_position, prompts, n_prompt, seed, resolution, tot
         if not high_vram:
             unload_complete_models(
-                text_encoder, text_encoder_2, image_encoder, vae, transformer
             )
     stream.output_queue.push(('end', None))
@@ -681,10 +681,10 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
         llama_vec, llama_attention_mask = crop_or_pad_yield_mask(llama_vec, length=512)
         llama_vec_n, llama_attention_mask_n = crop_or_pad_yield_mask(llama_vec_n, length=512)
-        llama_vec = llama_vec.to(transformer.dtype)
-        llama_vec_n = llama_vec_n.to(transformer.dtype)
-        clip_l_pooler = clip_l_pooler.to(transformer.dtype)
-        clip_l_pooler_n = clip_l_pooler_n.to(transformer.dtype)
         return [llama_vec, clip_l_pooler, llama_vec_n, clip_l_pooler_n, llama_attention_mask, llama_attention_mask_n]
     stream.output_queue.push(('progress', (None, '', make_progress_bar_html(0, 'Starting ...'))))
@@ -704,7 +704,7 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
         # Clean GPU
         if not high_vram:
             unload_complete_models(
-                text_encoder, text_encoder_2, image_encoder, vae, transformer
             )
         # Text encoding
@@ -740,7 +740,7 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
         image_encoder_last_hidden_state = image_encoder_output.last_hidden_state
         # Dtype
-        image_encoder_last_hidden_state = image_encoder_last_hidden_state.to(transformer.dtype)
         if enable_preview:
             def callback(d):
@@ -852,17 +852,17 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
                 if not high_vram:
                     unload_complete_models()
-                    move_model_to_device_with_memory_preservation(transformer, target_device=gpu, preserved_memory_gb=gpu_memory_preservation)
                 if use_teacache:
-                    transformer.initialize_teacache(enable_teacache=True, num_steps=steps)
                 else:
-                    transformer.initialize_teacache(enable_teacache=False)
                 [max_frames, clean_latents, clean_latents_2x, clean_latents_4x, latent_indices, clean_latents, clean_latent_indices, clean_latent_2x_indices, clean_latent_4x_indices] = compute_latent(history_latents, latent_window_size, num_clean_frames, start_latent)
                 generated_latents = sample_hunyuan(
-                    transformer=transformer,
                     sampler='unipc',
                     width=width,
                     height=height,
@@ -895,7 +895,7 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
                 history_latents = torch.cat([history_latents, generated_latents.to(history_latents)], dim=2)
                 if not high_vram:
-                    offload_model_from_device_for_memory_preservation(transformer, target_device=gpu, preserved_memory_gb=8)
                     load_model_as_complete(vae, target_device=gpu)
                 if history_pixels is None:
@@ -909,7 +909,7 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
                     history_pixels = soft_append_bcthw(history_pixels, vae_decode(real_history_latents, vae).cpu(), overlapped_frames)
                 if not high_vram:
-                    unload_complete_models(text_encoder, text_encoder_2, image_encoder, vae, transformer)
                 if enable_preview or section_index == total_latent_sections - 1:
                     output_filename = os.path.join(outputs_folder, f'{job_id}_{total_generated_latent_frames}.mp4')
@@ -941,7 +941,7 @@ def worker_video(input_video, prompts, n_prompt, seed, batch, resolution, total_
         if not high_vram:
             unload_complete_models(
-                text_encoder, text_encoder_2, image_encoder, vae, transformer
             )
     stream.output_queue.push(('end', None))
@@ -1182,7 +1182,7 @@ def process_video(input_video, prompt, n_prompt, randomize_seed, seed, auto_allo
         high_vram = False
         vae.enable_slicing()
         vae.enable_tiling()
-        DynamicSwapInstaller.install_model(transformer, device=gpu)
         DynamicSwapInstaller.install_model(text_encoder, device=gpu)
     # 20250508 pftq: automatically set distilled cfg to 1 if cfg is used

         llama_vec, llama_attention_mask = crop_or_pad_yield_mask(llama_vec, length=512)
         llama_vec_n, llama_attention_mask_n = crop_or_pad_yield_mask(llama_vec_n, length=512)
+        llama_vec = llama_vec.to(transformer[0].dtype)
+        llama_vec_n = llama_vec_n.to(transformer[0].dtype)
+        clip_l_pooler = clip_l_pooler.to(transformer[0].dtype)
+        clip_l_pooler_n = clip_l_pooler_n.to(transformer[0].dtype)
         return [llama_vec, clip_l_pooler, llama_vec_n, clip_l_pooler_n, llama_attention_mask, llama_attention_mask_n]
     total_latent_sections = (total_second_length * fps_number) / (latent_window_size * 4)
         # Clean GPU
         if not high_vram:
             unload_complete_models(
+                text_encoder, text_encoder_2, image_encoder, vae, transformer[0]
             )
         # Text encoding
         # Dtype
+        image_encoder_last_hidden_state = image_encoder_last_hidden_state.to(transformer[0].dtype)
         # Sampling
                     history_pixels = soft_append_bcthw(vae_decode(real_history_latents, vae).cpu(), history_pixels, overlapped_frames)
             if not high_vram:
+                unload_complete_models(text_encoder, text_encoder_2, image_encoder, vae, transformer[0])
             if enable_preview or section_index == (0 if first_section_index == (total_latent_sections - 1) else (total_latent_sections - 1)):
                 output_filename = os.path.join(outputs_folder, f'{job_id}_{total_generated_latent_frames}.mp4')
             if not high_vram:
                 unload_complete_models()
+                move_model_to_device_with_memory_preservation(transformer[0], target_device=gpu, preserved_memory_gb=gpu_memory_preservation)
             if use_teacache:
+                transformer[0].initialize_teacache(enable_teacache=True, num_steps=steps)
             else:
+                transformer[0].initialize_teacache(enable_teacache=False)
             if forward:
                 clean_latents_4x, clean_latents_2x, clean_latents_1x = history_latents[:, :, -(16 + 2 + 1):, :, :].split([16, 2, 1], dim=2)
                 clean_latents = torch.cat([clean_latents_1x, start_latent], dim=2)
             generated_latents = sample_hunyuan(
+                transformer=transformer[0],
                 sampler='unipc',
                 width=width,
                 height=height,
                 callback=callback,
             )
+            [total_generated_latent_frames, history_latents, history_pixels] = post_process(forward, generated_latents, total_generated_latent_frames, history_latents, high_vram, transformer[0], gpu, vae, history_pixels, latent_window_size, enable_preview, section_index, total_latent_sections, outputs_folder, mp4_crf, stream)
             if not forward:
                 if section_index > 0:
         if not high_vram:
             unload_complete_models(
+                text_encoder, text_encoder_2, image_encoder, vae, transformer[0]
             )
     stream.output_queue.push(('end', None))
         llama_vec, llama_attention_mask = crop_or_pad_yield_mask(llama_vec, length=512)
         llama_vec_n, llama_attention_mask_n = crop_or_pad_yield_mask(llama_vec_n, length=512)
+        llama_vec = llama_vec.to(transformer[0].dtype)
+        llama_vec_n = llama_vec_n.to(transformer[0].dtype)
+        clip_l_pooler = clip_l_pooler.to(transformer[0].dtype)
+        clip_l_pooler_n = clip_l_pooler_n.to(transformer[0].dtype)
         return [llama_vec, clip_l_pooler, llama_vec_n, clip_l_pooler_n, llama_attention_mask, llama_attention_mask_n]
     stream.output_queue.push(('progress', (None, '', make_progress_bar_html(0, 'Starting ...'))))
         # Clean GPU
         if not high_vram:
             unload_complete_models(
+                text_encoder, text_encoder_2, image_encoder, vae, transformer[0]
             )
         # Text encoding
         image_encoder_last_hidden_state = image_encoder_output.last_hidden_state
         # Dtype
+        image_encoder_last_hidden_state = image_encoder_last_hidden_state.to(transformer[0].dtype)
         if enable_preview:
             def callback(d):
                 if not high_vram:
                     unload_complete_models()
+                    move_model_to_device_with_memory_preservation(transformer[0], target_device=gpu, preserved_memory_gb=gpu_memory_preservation)
                 if use_teacache:
+                    transformer[0].initialize_teacache(enable_teacache=True, num_steps=steps)
                 else:
+                    transformer[0].initialize_teacache(enable_teacache=False)
                 [max_frames, clean_latents, clean_latents_2x, clean_latents_4x, latent_indices, clean_latents, clean_latent_indices, clean_latent_2x_indices, clean_latent_4x_indices] = compute_latent(history_latents, latent_window_size, num_clean_frames, start_latent)
                 generated_latents = sample_hunyuan(
+                    transformer=transformer[0],
                     sampler='unipc',
                     width=width,
                     height=height,
                 history_latents = torch.cat([history_latents, generated_latents.to(history_latents)], dim=2)
                 if not high_vram:
+                    offload_model_from_device_for_memory_preservation(transformer[0], target_device=gpu, preserved_memory_gb=8)
                     load_model_as_complete(vae, target_device=gpu)
                 if history_pixels is None:
                     history_pixels = soft_append_bcthw(history_pixels, vae_decode(real_history_latents, vae).cpu(), overlapped_frames)
                 if not high_vram:
+                    unload_complete_models(text_encoder, text_encoder_2, image_encoder, vae, transformer[0])
                 if enable_preview or section_index == total_latent_sections - 1:
                     output_filename = os.path.join(outputs_folder, f'{job_id}_{total_generated_latent_frames}.mp4')
         if not high_vram:
             unload_complete_models(
+                text_encoder, text_encoder_2, image_encoder, vae, transformer[0]
             )
     stream.output_queue.push(('end', None))
         high_vram = False
         vae.enable_slicing()
         vae.enable_tiling()
+        DynamicSwapInstaller.install_model(transformer[0], device=gpu)
         DynamicSwapInstaller.install_model(text_encoder, device=gpu)
     # 20250508 pftq: automatically set distilled cfg to 1 if cfg is used