Spaces:

adowu
/

ACE-Step-Training

Running

App Files Files Community

pedroapfilho commited on Feb 11

Commit

b0a0560

unverified ·

1 Parent(s): 0db63ea

Fix meta tensor crash: force CPU device context during model init

Browse files

ZeroGPU redirects all tensor creation to meta device at the torch
level, which breaks ResidualFSQ assertions. Wrapping from_pretrained
in torch.device('cpu') overrides this redirection.

Also removes boot diagnostics from app.py.

Files changed (2) hide show

acestep/handler.py +12 -8
app.py +16 -30

acestep/handler.py CHANGED Viewed

@@ -488,14 +488,18 @@ class AceStepHandler:
                 for candidate in attn_candidates:
                     try:
                         logger.info(f"[initialize_service] Attempting to load model with attention implementation: {candidate}")
-                        self.model = AutoModel.from_pretrained(
-                            acestep_v15_checkpoint_path,
-                            trust_remote_code=True,
-                            attn_implementation=candidate,
-                            torch_dtype=self.dtype,
-                            low_cpu_mem_usage=False,  # Disable memory-efficient weight loading
-                            _fast_init=False,  # Disable fast initialization (prevents meta device)
-                        )
                         attn_implementation = candidate
                         break
                     except Exception as e:

                 for candidate in attn_candidates:
                     try:
                         logger.info(f"[initialize_service] Attempting to load model with attention implementation: {candidate}")
+                        # Force CPU device context to override ZeroGPU's meta device
+                        # redirection. ResidualFSQ asserts on tensor values during
+                        # __init__, which fails on meta tensors.
+                        with torch.device("cpu"):
+                            self.model = AutoModel.from_pretrained(
+                                acestep_v15_checkpoint_path,
+                                trust_remote_code=True,
+                                attn_implementation=candidate,
+                                torch_dtype=self.dtype,
+                                low_cpu_mem_usage=False,
+                                _fast_init=False,
+                            )
                         attn_implementation = candidate
                         break
                     except Exception as e:

app.py CHANGED Viewed

@@ -6,36 +6,22 @@ A comprehensive music generation system with three main interfaces:
 3. LoRA Training Studio
 """
-import sys
-print("[BOOT] app.py starting imports...", flush=True)
-try:
-    import gradio as gr
-    print("[BOOT] gradio OK", flush=True)
-    import torch
-    import numpy as np
-    from pathlib import Path
-    import json
-    from typing import Optional, List, Tuple
-    import spaces
-    print("[BOOT] stdlib + spaces OK", flush=True)
-    from src.ace_step_engine import ACEStepEngine
-    from src.timeline_manager import TimelineManager
-    from src.lora_trainer import download_hf_dataset
-    from src.audio_processor import AudioProcessor
-    from src.utils import setup_logging, load_config
-    print("[BOOT] src imports OK", flush=True)
-    from acestep.training.dataset_builder import DatasetBuilder
-    from acestep.training.configs import LoRAConfig, TrainingConfig
-    from acestep.training.trainer import LoRATrainer as FabricLoRATrainer
-    print("[BOOT] acestep.training imports OK", flush=True)
-except Exception as e:
-    print(f"[BOOT] IMPORT FAILED: {e}", flush=True)
-    import traceback
-    traceback.print_exc()
-    sys.exit(1)
 # Setup
 logger = setup_logging()

 3. LoRA Training Studio
 """
+import gradio as gr
+import torch
+import numpy as np
+from pathlib import Path
+import json
+from typing import Optional, List, Tuple
+import spaces
+from src.ace_step_engine import ACEStepEngine
+from src.timeline_manager import TimelineManager
+from src.lora_trainer import download_hf_dataset
+from src.audio_processor import AudioProcessor
+from src.utils import setup_logging, load_config
+from acestep.training.dataset_builder import DatasetBuilder
+from acestep.training.configs import LoRAConfig, TrainingConfig
+from acestep.training.trainer import LoRATrainer as FabricLoRATrainer
 # Setup
 logger = setup_logging()