VOID-api

Sleeping

sam-motamed commited on Mar 21

Commit

9743ceb

verified ·

1 Parent(s): bad41bb

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ import imageio
 import mediapy as media
 import spaces
 import gradio as gr
-from huggingface_hub import hf_hub_download
 from safetensors.torch import load_file
 from diffusers import DDIMScheduler
 from PIL import Image
@@ -52,8 +52,11 @@ NEG_PROMPT = (
 # ── model loading (once at startup, lives in CPU RAM between GPU requests) ─────
 print("Loading VOID pipeline …")
 transformer = CogVideoXTransformer3DModel.from_pretrained(
-    BASE_MODEL_ID,
     subfolder="transformer",
     low_cpu_mem_usage=True,
     torch_dtype=torch.float8_e4m3fn,  # qfloat8 to save VRAM
@@ -78,13 +81,13 @@ if state_dict[param_name].size(1) != transformer.state_dict()[param_name].size(1
 transformer.load_state_dict(state_dict, strict=False)
 vae = AutoencoderKLCogVideoX.from_pretrained(
-    BASE_MODEL_ID, subfolder="vae"
 ).to(WEIGHT_DTYPE)
-tokenizer    = T5Tokenizer.from_pretrained(BASE_MODEL_ID, subfolder="tokenizer")
 text_encoder = T5EncoderModel.from_pretrained(
-    BASE_MODEL_ID, subfolder="text_encoder", torch_dtype=WEIGHT_DTYPE
 )
-scheduler = DDIMScheduler.from_pretrained(BASE_MODEL_ID, subfolder="scheduler")
 pipeline = CogVideoXFunInpaintPipeline(
     vae=vae,

 import mediapy as media
 import spaces
 import gradio as gr
+from huggingface_hub import hf_hub_download, snapshot_download
 from safetensors.torch import load_file
 from diffusers import DDIMScheduler
 from PIL import Image
 # ── model loading (once at startup, lives in CPU RAM between GPU requests) ─────
 print("Loading VOID pipeline …")
+# Download base model to local cache (custom from_pretrained needs a local path)
+base_model_path = snapshot_download(repo_id=BASE_MODEL_ID)
 transformer = CogVideoXTransformer3DModel.from_pretrained(
+    base_model_path,
     subfolder="transformer",
     low_cpu_mem_usage=True,
     torch_dtype=torch.float8_e4m3fn,  # qfloat8 to save VRAM
 transformer.load_state_dict(state_dict, strict=False)
 vae = AutoencoderKLCogVideoX.from_pretrained(
+    base_model_path, subfolder="vae"
 ).to(WEIGHT_DTYPE)
+tokenizer    = T5Tokenizer.from_pretrained(base_model_path, subfolder="tokenizer")
 text_encoder = T5EncoderModel.from_pretrained(
+    base_model_path, subfolder="text_encoder", torch_dtype=WEIGHT_DTYPE
 )
+scheduler = DDIMScheduler.from_pretrained(base_model_path, subfolder="scheduler")
 pipeline = CogVideoXFunInpaintPipeline(
     vae=vae,