SeedVR2-3B-Image-Upscale

Running on Zero

App Files Files Community

bbqhan commited on 15 days ago

Commit

f14231d

verified ·

1 Parent(s): 1f79de4

Update app.py

Browse files

Files changed (1) hide show

app.py +219 -471

app.py CHANGED Viewed

@@ -2,189 +2,139 @@ import spaces
 import subprocess
 import os
 import torch
-import mediapy
-from einops import rearrange
-from omegaconf import OmegaConf
-import datetime
-from tqdm import tqdm
 import gc
 from data.image.transforms.divisible_crop import DivisibleCrop
 from data.image.transforms.na_resize import NaResize
 if os.path.exists("./projects/video_diffusion_sr/color_fix.py"):
     from projects.video_diffusion_sr.color_fix import wavelet_reconstruction
-    use_colorfix=True
 else:
     use_colorfix = False
-    print('Note!!!!!! Color fix is not avaliable!')
-from torchvision.transforms import Compose, Lambda, Normalize
-import argparse
-from PIL import Image
-from common.distributed import (
-    get_device,
-    init_torch,
-)
-from common.distributed.advanced import (
-    get_data_parallel_rank,
-    get_data_parallel_world_size,
-    get_sequence_parallel_rank,
-    get_sequence_parallel_world_size,
-    init_sequence_parallel,
-)
 from projects.video_diffusion_sr.infer import VideoDiffusionInfer
 from common.config import load_config
 from common.distributed.ops import sync_data
 from common.seed import set_seed
-from common.partition import partition_by_groups, partition_by_size
-import gradio as gr
-from pathlib import Path
-from urllib.parse import urlparse
-from torch.hub import download_url_to_file, get_dir
-import shlex
-import uuid
-import mimetypes
-import torchvision.transforms as T
 os.environ["MASTER_ADDR"] = "127.0.0.1"
 os.environ["MASTER_PORT"] = "12355"
 os.environ["RANK"] = str(0)
 os.environ["WORLD_SIZE"] = str(1)
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
 def load_file_from_url(url, model_dir=None, progress=True, file_name=None):
-    """Load file from http url, will download models if necessary.
-    Reference: https://github.com/1adrianb/face-alignment/blob/master/face_alignment/utils.py
-    Args:
-        url (str): URL to be downloaded.
-        model_dir (str): The path to save the downloaded model. Should be a full path. If None, use pytorch hub_dir.
-            Default: None.
-        progress (bool): Whether to show the download progress. Default: True.
-        file_name (str): The downloaded file name. If None, use the file name in the url. Default: None.
-    Returns:
-        str: The path to the downloaded file.
-    """
-    if model_dir is None:  # use the pytorch hub_dir
         hub_dir = get_dir()
         model_dir = os.path.join(hub_dir, 'checkpoints')
     os.makedirs(model_dir, exist_ok=True)
     parts = urlparse(url)
-    filename = os.path.basename(parts.path)
-    if file_name is not None:
-        filename = file_name
     cached_file = os.path.abspath(os.path.join(model_dir, filename))
     if not os.path.exists(cached_file):
-        print(f'Downloading: "{url}" to {cached_file}
-')
         download_url_to_file(url, cached_file, hash_prefix=None, progress=progress)
     return cached_file
-# os.system("pip freeze")
 ckpt_dir = Path('./ckpts')
-if not ckpt_dir.exists():
-	ckpt_dir.mkdir()
 pretrain_model_url = {
-	'vae': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/ema_vae.pth',
-	'dit': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/seedvr2_ema_3b.pth',
     'pos_emb': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/pos_emb.pt',
     'neg_emb': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/neg_emb.pt',
     'apex': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/apex-0.1-cp310-cp310-linux_x86_64.whl'
 }
-# download weights
 if not os.path.exists('./ckpts/seedvr2_ema_3b.pth'):
-	load_file_from_url(url=pretrain_model_url['dit'], model_dir='./ckpts/', progress=True, file_name=None)
 if not os.path.exists('./ckpts/ema_vae.pth'):
-	load_file_from_url(url=pretrain_model_url['vae'], model_dir='./ckpts/', progress=True, file_name=None)
 if not os.path.exists('./pos_emb.pt'):
-	load_file_from_url(url=pretrain_model_url['pos_emb'], model_dir='./', progress=True, file_name=None)
 if not os.path.exists('./neg_emb.pt'):
-	load_file_from_url(url=pretrain_model_url['neg_emb'], model_dir='./', progress=True, file_name=None)
 if not os.path.exists('./apex-0.1-cp310-cp310-linux_x86_64.whl'):
-	load_file_from_url(url=pretrain_model_url['apex'], model_dir='./', progress=True, file_name=None)
-subprocess.run(shlex.split("pip install apex-0.1-cp310-cp310-linux_x86_64.whl"))
-print(f"✅ setup completed Apex")
-# download images
-torch.hub.download_url_to_file(
-	'https://huggingface.co/datasets/Iceclear/SeedVR_VideoDemos/resolve/main/seedvr_videos_crf23/aigc1k/23_1_lq.mp4',
-	'01.mp4')
-torch.hub.download_url_to_file(
-	'https://huggingface.co/datasets/Iceclear/SeedVR_VideoDemos/resolve/main/seedvr_videos_crf23/aigc1k/28_1_lq.mp4',
-	'02.mp4')
-torch.hub.download_url_to_file(
-	'https://huggingface.co/datasets/Iceclear/SeedVR_VideoDemos/resolve/main/seedvr_videos_crf23/aigc1k/2_1_lq.mp4',
-	'03.mp4')
-def configure_sequence_parallel(sp_size):
-    if sp_size > 1:
-        init_sequence_parallel(sp_size)
 @spaces.GPU(duration=100)
-def configure_runner(sp_size):
     config_path = os.path.join('./configs_3b', 'main.yaml')
     config = load_config(config_path)
     runner = VideoDiffusionInfer(config)
     OmegaConf.set_readonly(runner.config, False)
-    init_torch(cudnn_benchmark=False, timeout=datetime.timedelta(seconds=3600))
-    configure_sequence_parallel(sp_size)
     runner.configure_dit_model(device="cuda", checkpoint='./ckpts/seedvr2_ema_3b.pth')
     runner.configure_vae_model()
-    # Set memory limit.
     if hasattr(runner.vae, "set_memory_limit"):
         runner.vae.set_memory_limit(**runner.config.vae.memory_limit)
     return runner
 @spaces.GPU(duration=100)
 def generation_step(runner, text_embeds_dict, cond_latents):
     def _move_to_cuda(x):
         return [i.to(torch.device("cuda")) for i in x]
     noises = [torch.randn_like(latent) for latent in cond_latents]
     aug_noises = [torch.randn_like(latent) for latent in cond_latents]
-    print(f"Generating with noise shape: {noises[0].size()}.")
     noises, aug_noises, cond_latents = sync_data((noises, aug_noises, cond_latents), 0)
-    noises, aug_noises, cond_latents = list(
-        map(lambda x: _move_to_cuda(x), (noises, aug_noises, cond_latents))
-    )
     cond_noise_scale = 0.1
     def _add_noise(x, aug_noise):
-        t = (
-            torch.tensor([1000.0], device=torch.device("cuda"))
-            * cond_noise_scale
-        )
         shape = torch.tensor(x.shape[1:], device=torch.device("cuda"))[None]
         t = runner.timestep_transform(t, shape)
-        print(
-            f"Timestep shifting from"
-            f" {1000.0 * cond_noise_scale} to {t}."
-        )
         x = runner.schedule.forward(x, aug_noise, t)
         return x
     conditions = [
-        runner.get_condition(
-            noise,
-            task="sr",
-            latent_blur=_add_noise(latent_blur, aug_noise),
-        )
         for noise, aug_noise, latent_blur in zip(noises, aug_noises, cond_latents)
     ]
@@ -196,383 +146,181 @@ def generation_step(runner, text_embeds_dict, cond_latents):
             **text_embeds_dict,
         )
     samples = [
-        (
-            rearrange(video[:, None], "c t h w -> t c h w")
-            if video.ndim == 3
-            else rearrange(video, "c t h w -> t c h w")
-        )
         for video in video_tensors
     ]
-    del video_tensors
     return samples
 @spaces.GPU(duration=100)
-def generation_loop(image_path='./test_images', seed=666, res_h=1280, res_w=720, sp_size=1):
-    runner = configure_runner(1)
-    def _extract_text_embeds():
-        # Text encoder forward.
-        positive_prompts_embeds = []
-        for texts_pos in tqdm(original_images_local):
-            text_pos_embeds = torch.load('pos_emb.pt')
-            text_neg_embeds = torch.load('neg_emb.pt')
-            positive_prompts_embeds.append(
-                {"texts_pos": [text_pos_embeds], "texts_neg": [text_neg_embeds]}
-            )
-        gc.collect()
-        torch.cuda.empty_cache()
-        return positive_prompts_embeds
-    def process_image(image_path):
-        media_type, _ = mimetypes.guess_type(image_path)
-        is_image = media_type and media_type.startswith("image")
-        if not is_image:
-            return None
-        img = Image.open(image_path).convert("RGB")
-        img_tensor = T.ToTensor()(img).unsqueeze(0)  # (1, C, H, W)
-        video = img_tensor.permute(0, 1, 2, 3)  # (T=1, C, H, W)
-        print(f"Read Image size: {video.size()}")
-        output_dir = 'output/' + str(uuid.uuid4()) + '.png'
-        return video, output_dir
-    # get test prompts
-    original_images = [image_path.split('/')[-1]]
-    # divide the prompts into different groups
-    original_images_group = original_images
-    original_images_local = original_images_group
-    original_images_local = partition_by_size(original_images_local, 1)
-    # pre-extract the text embeddings
-    positive_prompts_embeds = _extract_text_embeds()
-    video_transform = Compose(
-        [
-            NaResize(
-                resolution=(
-                    res_h * res_w
-                )
-                ** 0.5,
-                mode="area",
-                # Upsample image, model only trained for high res.
-                downsample_only=False,
-            ),
-            Lambda(lambda x: torch.clamp(x, 0.0, 1.0)),
-            DivisibleCrop((16, 16)),
-            Normalize(0.5, 0.5),
-            rearrange("t c h w -> c t h w"),
-        ]
     )
-    # generation loop
-    for images, text_embeds in tqdm(zip(original_images_local, positive_prompts_embeds)):
-        # read condition latents
-        cond_latents = []
-        for image in images:
-            video, output_dir = process_image(image)
-            if video is None:
-                continue
-            cond_latents.append(video_transform(video.to(torch.device("cuda"))))
-        ori_lengths = [video.size(1) for video in cond_latents]
-        input_videos = cond_latents
-        # runner.dit.to("cpu")
-        print(f"Encoding images: {list(map(lambda x: x.size(), cond_latents))}")
-        # runner.vae.to(torch.device("cuda"))
-        cond_latents = runner.vae_encode(cond_latents)
-        # runner.vae.to("cpu")
-        # runner.dit.to(torch.device("cuda"))
-        for i, emb in enumerate(text_embeds["texts_pos"]):
-            text_embeds["texts_pos"][i] = emb.to(torch.device("cuda"))
-        for i, emb in enumerate(text_embeds["texts_neg"]):
-            text_embeds["texts_neg"][i] = emb.to(torch.device("cuda"))
-        samples = generation_step(runner, text_embeds, cond_latents=cond_latents)
-        # runner.dit.to("cpu")
-        del cond_latents
-        # dump samples to the output directory
-        for path, input, sample, ori_length in zip(
-            images, input_videos, samples, ori_lengths
-        ):
-            if ori_length < sample.shape[0]:
-                sample = sample[:ori_length]
-            # color fix
-            input = (
-                rearrange(input[:, None], "c t h w -> t c h w")
-                if input.ndim == 3
-                else rearrange(input, "c t h w -> t c h w")
-            )
-            if use_colorfix:
-                sample = wavelet_reconstruction(
-                    sample.to("cpu"), input[: sample.size(0)].to("cpu")
-                )
-            else:
-                sample = sample.to("cpu")
-            sample = (
-                rearrange(sample[:, None], "t c h w -> t h w c")
-                if sample.ndim == 3
-                else rearrange(sample, "t c h w -> t h w c")
-            )
-            sample = sample.clip(-1, 1).mul_(0.5).add_(0.5).mul_(255).round()
-            sample = sample.to(torch.uint8).numpy()
-            if is_image:
-                mediapy.write_image(output_dir, sample[0])
-            else:
-                mediapy.write_video(
-                    output_dir, sample, fps=24
                 )
-        # print(f"Generated image size: {sample.shape}")
-        gc.collect()
-        torch.cuda.empty_cache()
-        return output_dir, output_dir, output_dir
-with gr.Blocks(title="SeedVR2: Professional Image Upscaler") as demo:
-    # Top logo and title with orange theme
-    gr.HTML("""
-        <div style='text-align:center; margin-bottom: 20px;'>
-            <img src='https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/assets/seedvr_logo.png' style='height:50px;' alt='SeedVR logo'/>
         </div>
-        <p><b>SeedVR2 Image Upscaler</b> - Professional AI-powered image enhancement and upscaling</p>
-        <p style="color: #ff6600; font-weight: bold;">🔥 Experience state-of-the-art image restoration with advanced diffusion technology</p>
-    """)
-    # Interface with orange theme
-    with gr.Row():
-        input_image = gr.Image(label="Upload Image", type="filepath", height=400)
-        seed = gr.Number(label="Random Seed", value=666, info="Control the randomness of the upscaling process")
-        res_h = gr.Slider(label="Output Height", minimum=512, maximum=4096, step=64, value=1280, info="Higher resolution for better quality")
-        res_w = gr.Slider(label="Output Width", minimum=512, maximum=4096, step=64, value=720, info="Higher resolution for better quality")
-    with gr.Row():
-        output_image = gr.Image(label="Upscaled Image", height=400)
-        download_link = gr.File(label="Download Output")
-    run_button = gr.Button("Upscale Image", variant="primary", size="lg")
-    run_button.click(fn=generation_loop, inputs=[input_image, seed, res_h, res_w], outputs=[output_image, download_link, download_link])
-    # Examples
-    gr.Examples(
-        examples=[
-            ["./01.mp4", 4, 1280, 720],
-            ["./02.mp4", 4, 1280, 720],
-            ["./03.mp4", 4, 1280, 720],
-        ],
-        inputs=[input_image, seed, res_h, res_w]
     )
-    # Article/Footer with orange accents
-    gr.HTML("""
-        <hr style="border-color: #ff6600;">
-        <p>If you find SeedVR helpful, please ⭐ the
-        <a href='https://github.com/ByteDance-Seed/SeedVR' target='_blank'>
-        <b>GitHub repository</b></a>:</p>
-        <a href="https://github.com/ByteDance-Seed/SeedVR" target="_blank">
-            <img src="https://img.shields.io/github/stars/ByteDance-Seed/SeedVR?style=social" alt="GitHub Stars">
-        </a>
-        <h4 style="color: #ff6600;">Features</h4>
-        <p>🎨 <b>High-Resolution Upscaling</b> - Transform low-quality images to stunning high-resolution masterpieces<br>
-        🚀 <b>AI-Powered Enhancement</b> - Advanced diffusion technology for superior image restoration<br>
-        🎯 <b>Customizable Output</b> - Control resolution and seed for personalized results</p>
-        <h4 style="color: #ff6600;">Limitations</h4>
-        <p>For best results, use images with moderate degradation. Extreme cases may require additional processing.</p>
-        <h4 style="color: #ff6600;">Citation</h4>
-        <pre style="font-size: 12px; background-color: #fff5f5; padding: 10px; border-radius: 5px; border: 1px solid #ff6600;">
-        @article{wang2025seedvr2,
-            title={SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training},
-            author={Wang, Jianyi and Lin, Shanchuan and Lin, Zhijie and Ren, Yuxi and Wei, Meng and Yue, Zongsheng and Zhou, Shangchen and Chen, Hao and Zhao, Yang and Yang, Ceyuan and Xiao, Xuefeng and Loy, Chen Change and Jiang, Lu},
-            booktitle={arXiv preprint arXiv:2506.05301},
-            year={2025}
-        }
-        </pre>
-        <h4 style="color: #ff6600;">License</h4>
-        <p>Licensed under the
-        <a href="http://www.apache.org/licenses/LICENSE-2.0" target="_blank">Apache 2.0 License</a>.</p>
-        <h4 style="color: #ff6600;">Contact</h4>
-        <p>Email: <b>iceclearwjy@gmail.com</b></p>
-        <p style="text-align:center;">
-        <img src="https://visitor-badge.laobi.icu/badge?page_id=ByteDance-Seed/SeedVR" alt="visitors">
-        </p>
-    """)
-# Launch with orange theme and modern Gradio 6 configuration
-demo.launch(
-    theme=gr.themes.Soft(
-        primary_hue="orange",
-        secondary_hue="orange",
-        neutral_hue="slate",
-        font=gr.themes.GoogleFont("Inter"),
-        text_size="lg",
-        spacing_size="lg",
-        radius_size="md"
-    ).set(
-        button_primary_background_fill="*primary_600",
-        button_primary_background_fill_hover="*primary_700",
-        block_title_text_weight="600",
-        block_label_text_weight="500",
-        input_background_fill="*surface_100",
-        output_background_fill="*surface_100",
-        input_border_color="*border_color",
-        output_border_color="*border_color",
-        input_text_color="*text_color",
-        output_text_color="*text_color",
-        block_background_fill="*surface_50",
-        block_border_color="*border_color",
-        block_border_width="1px",
-        block_border_radius="8px",
-        block_shadow="*shadow_medium",
-        block_padding="16px",
-        block_title_text_size="lg",
-        block_label_text_size="md",
-        input_padding="12px",
-        output_padding="12px",
-        button_text_size="md",
-        button_padding="12px 24px",
-        button_border_radius="6px",
-        button_border_width="1px",
-        button_border_color="*primary_600",
-        button_text_weight="500",
-        slider_track_color="*primary_600",
-        slider_handle_color="*primary_600",
-        slider_handle_size="20px",
-        slider_track_height="6px",
-        slider_track_radius="3px",
-        slider_handle_border_width="2px",
-        slider_handle_border_color="*primary_600",
-        slider_handle_border_radius="50%",
-        slider_handle_shadow="*shadow_small",
-        slider_handle_transition="all 0.2s ease",
-        slider_handle_hover_background_fill="*primary_700",
-        slider_handle_hover_border_color="*primary_700",
-        slider_handle_active_background_fill="*primary_700",
-        slider_handle_active_border_color="*primary_700",
-        slider_handle_active_shadow="*shadow_small",
-        slider_handle_active_transform="scale(1.1)",
-        slider_handle_active_transition="all 0.2s ease",
-        slider_handle_active_border_radius="50%",
-        slider_handle_active_box_shadow="0 0 0 2px *primary_600",
-        slider_handle_active_box_shadow_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_active="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_transition="all 0.2s ease",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_active_active_active_active_active_hover="0 0 0 2px *primary_700",
-        slider_handle_active_box_shadow_active_active_active_active_active_active_activity_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active_active

 import subprocess
 import os
 import torch
+import uuid
 import gc
+import shutil
+import argparse
+from pathlib import Path
+from urllib.parse import urlparse
+from torch.hub import download_url_to_file, get_dir
+import shlex
+import gradio as gr
+from PIL import Image
+import numpy as np
+from omegaconf import OmegaConf
+from einops import rearrange
+from torchvision.transforms import Compose, Lambda, Normalize
+import torchvision.transforms as T
+# --- Project Specific Imports (Assumed to be present in repo) ---
 from data.image.transforms.divisible_crop import DivisibleCrop
 from data.image.transforms.na_resize import NaResize
+# Note: Keeping Rearrange in case it's a specific wrapper, though typically einops suffices
+from data.video.transforms.rearrange import Rearrange
 if os.path.exists("./projects/video_diffusion_sr/color_fix.py"):
     from projects.video_diffusion_sr.color_fix import wavelet_reconstruction
+    use_colorfix = True
 else:
     use_colorfix = False
+from common.distributed import init_torch
 from projects.video_diffusion_sr.infer import VideoDiffusionInfer
 from common.config import load_config
 from common.distributed.ops import sync_data
 from common.seed import set_seed
+from common.partition import partition_by_size
+# --- Environment Setup ---
 os.environ["MASTER_ADDR"] = "127.0.0.1"
 os.environ["MASTER_PORT"] = "12355"
 os.environ["RANK"] = str(0)
 os.environ["WORLD_SIZE"] = str(1)
+# Install Flash Attention if missing
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
+# --- Model & Resource Downloading ---
 def load_file_from_url(url, model_dir=None, progress=True, file_name=None):
+    if model_dir is None:
         hub_dir = get_dir()
         model_dir = os.path.join(hub_dir, 'checkpoints')
     os.makedirs(model_dir, exist_ok=True)
     parts = urlparse(url)
+    filename = file_name if file_name else os.path.basename(parts.path)
     cached_file = os.path.abspath(os.path.join(model_dir, filename))
     if not os.path.exists(cached_file):
+        print(f'Downloading: "{url}" to {cached_file}\n')
         download_url_to_file(url, cached_file, hash_prefix=None, progress=progress)
     return cached_file
 ckpt_dir = Path('./ckpts')
+ckpt_dir.mkdir(exist_ok=True)
 pretrain_model_url = {
+    'vae': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/ema_vae.pth',
+    'dit': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/seedvr2_ema_3b.pth',
     'pos_emb': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/pos_emb.pt',
     'neg_emb': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/neg_emb.pt',
     'apex': 'https://huggingface.co/ByteDance-Seed/SeedVR2-3B/resolve/main/apex-0.1-cp310-cp310-linux_x86_64.whl'
 }
+# Download Weights
 if not os.path.exists('./ckpts/seedvr2_ema_3b.pth'):
+    load_file_from_url(url=pretrain_model_url['dit'], model_dir='./ckpts/')
 if not os.path.exists('./ckpts/ema_vae.pth'):
+    load_file_from_url(url=pretrain_model_url['vae'], model_dir='./ckpts/')
 if not os.path.exists('./pos_emb.pt'):
+    load_file_from_url(url=pretrain_model_url['pos_emb'], model_dir='./')
 if not os.path.exists('./neg_emb.pt'):
+    load_file_from_url(url=pretrain_model_url['neg_emb'], model_dir='./')
 if not os.path.exists('./apex-0.1-cp310-cp310-linux_x86_64.whl'):
+    load_file_from_url(url=pretrain_model_url['apex'], model_dir='./')
+    subprocess.run(shlex.split("pip install apex-0.1-cp310-cp310-linux_x86_64.whl"))
+# --- Core Inference Logic ---
 @spaces.GPU(duration=100)
+def configure_runner():
+    """Initializes the model runner singleton."""
     config_path = os.path.join('./configs_3b', 'main.yaml')
     config = load_config(config_path)
     runner = VideoDiffusionInfer(config)
     OmegaConf.set_readonly(runner.config, False)
+    # Standard init for single GPU
+    init_torch(cudnn_benchmark=False)
     runner.configure_dit_model(device="cuda", checkpoint='./ckpts/seedvr2_ema_3b.pth')
     runner.configure_vae_model()
     if hasattr(runner.vae, "set_memory_limit"):
         runner.vae.set_memory_limit(**runner.config.vae.memory_limit)
     return runner
 @spaces.GPU(duration=100)
 def generation_step(runner, text_embeds_dict, cond_latents):
+    """Executes the diffusion generation step."""
     def _move_to_cuda(x):
         return [i.to(torch.device("cuda")) for i in x]
+    # Generate noise
     noises = [torch.randn_like(latent) for latent in cond_latents]
     aug_noises = [torch.randn_like(latent) for latent in cond_latents]
+    # Sync and move
     noises, aug_noises, cond_latents = sync_data((noises, aug_noises, cond_latents), 0)
+    noises, aug_noises, cond_latents = list(map(_move_to_cuda, (noises, aug_noises, cond_latents)))
     cond_noise_scale = 0.1
     def _add_noise(x, aug_noise):
+        t = torch.tensor([1000.0], device=torch.device("cuda")) * cond_noise_scale
         shape = torch.tensor(x.shape[1:], device=torch.device("cuda"))[None]
         t = runner.timestep_transform(t, shape)
         x = runner.schedule.forward(x, aug_noise, t)
         return x
     conditions = [
+        runner.get_condition(noise, task="sr", latent_blur=_add_noise(latent_blur, aug_noise))
         for noise, aug_noise, latent_blur in zip(noises, aug_noises, cond_latents)
     ]
             **text_embeds_dict,
         )
+    # Output formatting
     samples = [
+        (rearrange(video[:, None], "c t h w -> t c h w") if video.ndim == 3
+         else rearrange(video, "c t h w -> t c h w"))
         for video in video_tensors
     ]
     return samples
+def get_text_embeds():
+    """Loads static text embeddings."""
+    text_pos = torch.load('pos_emb.pt')
+    text_neg = torch.load('neg_emb.pt')
+    return {"texts_pos": [text_pos], "texts_neg": [text_neg]}
 @spaces.GPU(duration=100)
+def upscale_image(image_path, seed=666, cfg_scale=1.0):
+    if not image_path:
+        return None, None
+    # Initialize runner
+    runner = configure_runner()
+    # Configure Diffusion
+    runner.config.diffusion.cfg.scale = cfg_scale
+    runner.config.diffusion.cfg.rescale = 0.0
+    runner.config.diffusion.timesteps.sampling.steps = 1 # One-step generation
+    runner.configure_diffusion()
+    # Seed
+    seed = int(seed) % (2**32)
+    set_seed(seed, same_across_ranks=True)
+    os.makedirs('output/', exist_ok=True)
+    output_filename = f'output/{uuid.uuid4()}.png'
+    # Prepare Transforms
+    # Note: Model is optimized for 2560x1440 area equivalent
+    video_transform = Compose([
+        NaResize(resolution=(2560 * 1440) ** 0.5, mode="area", downsample_only=False),
+        Lambda(lambda x: torch.clamp(x, 0.0, 1.0)),
+        DivisibleCrop((16, 16)),
+        Normalize(0.5, 0.5),
+        Rearrange("t c h w -> c t h w"),
+    ])
+    # Load and Preprocess Image
+    img = Image.open(image_path).convert("RGB")
+    img_tensor = T.ToTensor()(img).unsqueeze(0)  # (1, C, H, W)
+    # Model expects (C, T, H, W), for image T=1
+    video_input = img_tensor.permute(0, 1, 2, 3)
+    cond_latents = [video_transform(video_input.to(torch.device("cuda")))]
+    input_tensor = cond_latents[0] # Keep for colorfix ref
+    # Encode
+    cond_latents = runner.vae_encode(cond_latents)
+    # Get Embeddings
+    text_embeds = get_text_embeds()
+    for k in ["texts_pos", "texts_neg"]:
+        text_embeds[k] = [emb.to(torch.device("cuda")) for emb in text_embeds[k]]
+    # Inference
+    samples = generation_step(runner, text_embeds, cond_latents=cond_latents)
+    # Post-process
+    sample = samples[0]
+    # Handle tensor shaping for colorfix
+    input_ref = (
+        rearrange(input_tensor[:, None], "c t h w -> t c h w")
+        if input_tensor.ndim == 3
+        else rearrange(input_tensor, "c t h w -> t c h w")
     )
+    if use_colorfix:
+        sample = wavelet_reconstruction(sample.to("cpu"), input_ref[:sample.size(0)].to("cpu"))
+    else:
+        sample = sample.to("cpu")
+    # Final normalization
+    sample = (
+        rearrange(sample[:, None], "t c h w -> t h w c")
+        if sample.ndim == 3
+        else rearrange(sample, "t c h w -> t h w c")
+    )
+    sample = sample.clip(-1, 1).mul_(0.5).add_(0.5).mul_(255).round()
+    sample = sample.to(torch.uint8).numpy()
+    # Save
+    result_image = Image.fromarray(sample[0])
+    result_image.save(output_filename)
+    # Cleanup
+    del runner, cond_latents, samples
+    gc.collect()
+    torch.cuda.empty_cache()
+    return result_image, output_filename
+# --- Gradio UI ---
+# Custom CSS for the "Top Tier" look
+custom_css = """
+.gradio-container {
+    font-family: 'Inter', sans-serif;
+}
+h1 {
+    text-align: center;
+    color: #FF7043;
+    font-weight: 800;
+}
+.contain {
+    background-color: #FAFAFA;
+}
+button.primary {
+    background: linear-gradient(45deg, #FF7043, #FFAB91);
+    border: none;
+    box-shadow: 0 4px 15px rgba(255, 112, 67, 0.3);
+}
+"""
+theme = gr.themes.Soft(
+    primary_hue="orange",
+    secondary_hue="slate",
+    neutral_hue="stone",
+    radius_size=gr.themes.sizes.RADIUS_LG,
+).set(
+    button_primary_background_fill="#FF7043",
+    button_primary_background_fill_hover="#F4511E",
+    button_primary_text_color="white",
+)
+with gr.Blocks(theme=theme, css=custom_css, title="SeedVR2 Image Upscaler") as demo:
+    with gr.Column(variant="panel"):
+        gr.Markdown(
+            """
+            # 🍊 SeedVR2 Image Upscaler
+            ### Professional One-Step Restoration & Upscaling
+            """
+        )
+    with gr.Row(equal_height=True):
+        with gr.Column(scale=1):
+            with gr.Group():
+                input_image = gr.Image(
+                    label="Input Image",
+                    type="filepath",
+                    height=400,
+                    sources=["upload", "clipboard"]
                 )
+                with gr.Accordion("Advanced Settings", open=False):
+                    seed_input = gr.Number(label="Seed", value=666, precision=0)
+                    cfg_input = gr.Slider(label="CFG Scale", minimum=0.0, maximum=10.0, value=1.0, step=0.1)
+                run_btn = gr.Button("✨ Upscale Image", variant="primary", size="lg")
+        with gr.Column(scale=1):
+            output_image = gr.Image(label="Restored Result", interactive=False, height=400)
+            download_file = gr.File(label="Download High-Res")
+    run_btn.click(
+        fn=upscale_image,
+        inputs=[input_image, seed_input, cfg_input],
+        outputs=[output_image, download_file]
+    )
+    gr.Markdown(
+        """
+        <div style="text-align: center; opacity: 0.6; margin-top: 20px; font-size: 0.8em;">
+        Powered by SeedVR2 | One-Step Diffusion Model
         </div>
+        """
     )
+demo.queue()
+demo.launch()