Spaces:

TSXu
/

UniCalli_Dev

Running on Zero

Tianshuo-Xu commited on Mar 15

Commit

5a8be65

1 Parent(s): 46e86e6

fix zerogpu cuda fork init

Files changed (2) hide show

.gitignore CHANGED Viewed

@@ -12,5 +12,7 @@ build/
 *.pt
 *.pth
 *.ckpt
-*.safetensors
 *.log

 *.pt
 *.pth
 *.ckpt
 *.log
+*safetensors
+internvl_embedding
+*.ttf

app.py CHANGED Viewed

@@ -190,12 +190,6 @@ _cached_model_dir = preload_model_files()
 print("="*50)
-# ============================================================
-# FP8 Quantization (works with FA3)
-# ============================================================
-from torchao.quantization import quantize_, Float8DynamicActivationFloat8WeightConfig
 def init_generator():
     """Initialize the generator (without optimization - that's done separately)"""
     global generator, _cached_model_dir, _preloaded_embedding, _preloaded_tokenizer
@@ -249,9 +243,9 @@ def parse_font_style(font_style: str) -> str:
     return None
-# Initialize the generator globally BEFORE zeroGPU functions so weights are memory-mapped
-logger.info("Initializing generator globally...")
-generator = init_generator()
 def _get_generation_duration(text, font, author, num_steps, start_seed, num_images):
@@ -277,7 +271,12 @@ def run_generation(text, font, author, num_steps, start_seed, num_images):
         pass
     # Step 1: Load model
-    logger.info("Models are already globally initialized and managed by ZeroGPU.")
     gen = generator
     # ZeroGPU automatically maps these to the acquired GPU during execution.
     # We must also correctly update internal Python attributes so runtime-generated latents go to GPU.

 print("="*50)
 def init_generator():
     """Initialize the generator (without optimization - that's done separately)"""
     global generator, _cached_model_dir, _preloaded_embedding, _preloaded_tokenizer
     return None
+# IMPORTANT:
+# Do NOT initialize generator globally at import time in ZeroGPU Spaces.
+# Keep it lazy inside the @spaces.GPU worker to avoid any pre-fork CUDA side effects.
 def _get_generation_duration(text, font, author, num_steps, start_seed, num_images):
         pass
     # Step 1: Load model
+    global generator
+    if generator is None:
+        logger.info("Initializing generator lazily inside GPU worker...")
+        generator = init_generator()
+    logger.info("Using initialized generator in ZeroGPU worker.")
     gen = generator
     # ZeroGPU automatically maps these to the acquired GPU during execution.
     # We must also correctly update internal Python attributes so runtime-generated latents go to GPU.