Spaces:

HuggingFaceM4
/

faster-qwen3-tts-demo

Running on A10G

andito HF Staff commited on Feb 26

Commit

083bc11

1 Parent(s): 88969e9

Fix stale model ref race, add ACTIVE_MODELS env var, hide unavailable modes

- server.py: resolve model inside run_generation() after lock is held,
not before queuing — prevents using an evicted model's CUDA graphs
- talker_graph.py: raise clear RuntimeError in prefill_kv() when
prefill exceeds max_seq_len instead of cryptic CUDA device-side assert
- server.py + index.html: ACTIVE_MODELS env var filters available models;
mode rows (Custom, Voice Design) hidden entirely when no models available
- Dockerfile: set ACTIVE_MODELS=Qwen/Qwen3-TTS-12Hz-1.7B-Base for Space

Files changed (3) hide show

Dockerfile +1 -0
index.html +46 -12
server.py +19 -3

Dockerfile CHANGED Viewed

@@ -3,6 +3,7 @@ FROM nvidia/cuda:12.6.3-cudnn-runtime-ubuntu22.04
 ENV DEBIAN_FRONTEND=noninteractive
 ENV PYTHONUNBUFFERED=1
 ENV MODEL_CACHE_SIZE=5
 ENV HOME=/tmp
 ENV TORCHINDUCTOR_CACHE_DIR=/tmp/torch_inductor

 ENV DEBIAN_FRONTEND=noninteractive
 ENV PYTHONUNBUFFERED=1
 ENV MODEL_CACHE_SIZE=5
+ENV ACTIVE_MODELS=Qwen/Qwen3-TTS-12Hz-1.7B-Base
 ENV HOME=/tmp
 ENV TORCHINDUCTOR_CACHE_DIR=/tmp/torch_inductor

index.html CHANGED Viewed

@@ -772,13 +772,7 @@ body {
     <div class="s-section">Model</div>
     <div class="s-row">
       <label>Model</label>
-      <select id="modelSel">
-        <option value="Qwen/Qwen3-TTS-12Hz-0.6B-Base">0.6B Base</option>
-        <option value="Qwen/Qwen3-TTS-12Hz-1.7B-Base">1.7B Base</option>
-        <option value="Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice">0.6B CustomVoice</option>
-        <option value="Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice" selected>1.7B CustomVoice</option>
-        <option value="Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign">1.7B VoiceDesign</option>
-      </select>
       <button class="s-btn" id="loadBtn" onclick="loadModel()">Load</button>
     </div>
@@ -906,8 +900,11 @@ window.addEventListener('load', async () => {
   initTheme();
   autoGrow($('voiceInstr'));
   await fetchStatus();
-  if (!loadedModel) {
-    $('modelSel').value = 'Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice';
     loadModel();
   }
   loadMics();
@@ -1036,11 +1033,11 @@ async function transcribeRef() {
 async function fetchStatus() {
   try {
     const d = await fetch('/status').then(r => r.json());
     if (d.loaded && d.model) {
       // Only trust loadedModel when the server confirms it's actually loaded
       loadedModel = d.model;
-      const sel = $('modelSel');
-      for (const o of sel.options) if (o.value === d.model) { o.selected = true; break; }
     }
     populateSpeakers(d.speakers || []);
     renderPresetRefs(d.preset_refs || []);
@@ -1100,7 +1097,7 @@ function updateModeRows() {
 }
 // ── Arcade mode loader ─────────────────────────────────────────────────────────
-const MODE_MODELS = {
   voice_clone: [
     { id: 'Qwen/Qwen3-TTS-12Hz-0.6B-Base',         name: '0.6B Base',         sub: 'Fastest · RTF ~4×' },
     { id: 'Qwen/Qwen3-TTS-12Hz-1.7B-Base',         name: '1.7B Base',         sub: 'Higher quality · RTF ~3.5×' },
@@ -1113,9 +1110,46 @@ const MODE_MODELS = {
     { id: 'Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign',  name: '1.7B VoiceDesign',  sub: 'Describe any voice' },
   ],
 };
 const MODE_LABELS = { voice_clone: 'Clone', custom: 'Custom', voice_design: 'Voice Design' };
 let loaderMode = null;
 let loaderSelectedModel = null;
 function onModeRowClick(mode) {
   const rowMap = { voice_clone: 'rowClone', custom: 'rowChar', voice_design: 'rowCustom' };

     <div class="s-section">Model</div>
     <div class="s-row">
       <label>Model</label>
+      <select id="modelSel"></select>
       <button class="s-btn" id="loadBtn" onclick="loadModel()">Load</button>
     </div>
   initTheme();
   autoGrow($('voiceInstr'));
   await fetchStatus();
+  if (!loadedModel && availableModels.length > 0) {
+    // Prefer CustomVoice as default (richer demo), fall back to first available
+    const preferred = availableModels.find(m => m.includes('CustomVoice'))
+      || availableModels[0];
+    $('modelSel').value = preferred;
     loadModel();
   }
   loadMics();
 async function fetchStatus() {
   try {
     const d = await fetch('/status').then(r => r.json());
+    applyAvailableModels(d.available_models || []);
     if (d.loaded && d.model) {
       // Only trust loadedModel when the server confirms it's actually loaded
       loadedModel = d.model;
+      $('modelSel').value = d.model;
     }
     populateSpeakers(d.speakers || []);
     renderPresetRefs(d.preset_refs || []);
 }
 // ── Arcade mode loader ─────────────────────────────────────────────────────────
+const ALL_MODE_MODELS = {
   voice_clone: [
     { id: 'Qwen/Qwen3-TTS-12Hz-0.6B-Base',         name: '0.6B Base',         sub: 'Fastest · RTF ~4×' },
     { id: 'Qwen/Qwen3-TTS-12Hz-1.7B-Base',         name: '1.7B Base',         sub: 'Higher quality · RTF ~3.5×' },
     { id: 'Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign',  name: '1.7B VoiceDesign',  sub: 'Describe any voice' },
   ],
 };
+// Filtered at runtime by available_models from /status
+let MODE_MODELS = ALL_MODE_MODELS;
 const MODE_LABELS = { voice_clone: 'Clone', custom: 'Custom', voice_design: 'Voice Design' };
 let loaderMode = null;
 let loaderSelectedModel = null;
+let availableModels = [];
+function applyAvailableModels(available) {
+  availableModels = available || [];
+  const avail = new Set(availableModels);
+  // Rebuild model selector options
+  const sel = $('modelSel');
+  const prev = sel.value;
+  sel.innerHTML = '';
+  for (const [mode, models] of Object.entries(ALL_MODE_MODELS)) {
+    for (const m of models) {
+      if (!avail.has(m.id)) continue;
+      const opt = document.createElement('option');
+      opt.value = m.id;
+      opt.textContent = m.name;
+      sel.appendChild(opt);
+    }
+  }
+  // Restore selection if still available, else pick first
+  if (avail.has(prev)) sel.value = prev;
+  else if (sel.options.length > 0) sel.value = sel.options[0].value;
+  // Filter MODE_MODELS to available only
+  MODE_MODELS = {};
+  for (const [mode, models] of Object.entries(ALL_MODE_MODELS)) {
+    MODE_MODELS[mode] = models.filter(m => avail.has(m.id));
+  }
+  // Hide mode rows that have no available models; show those that do
+  const modeRows = { voice_clone: 'rowClone', custom: 'rowChar', voice_design: 'rowCustom' };
+  for (const [mode, rowId] of Object.entries(modeRows)) {
+    $(rowId).style.display = MODE_MODELS[mode].length > 0 ? '' : 'none';
+  }
+}
 function onModeRowClick(mode) {
   const rowMap = { voice_clone: 'rowClone', custom: 'rowChar', voice_design: 'rowCustom' };

server.py CHANGED Viewed

@@ -44,7 +44,7 @@ except ImportError:
 from nano_parakeet import from_pretrained as _parakeet_from_pretrained
-AVAILABLE_MODELS = [
     "Qwen/Qwen3-TTS-12Hz-0.6B-Base",
     "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
     "Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice",
@@ -52,6 +52,13 @@ AVAILABLE_MODELS = [
     "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
 ]
 BASE_DIR = Path(__file__).resolve().parent
 # Assets that need to be downloaded at runtime go to a writable directory.
 # /app is read-only in HF Spaces; fall back to /tmp.
@@ -325,7 +332,6 @@ async def generate_stream(
     if not _active_model_name or _active_model_name not in _model_cache:
         raise HTTPException(status_code=400, detail="Model not loaded. Click 'Load' first.")
-    model = _model_cache[_active_model_name]
     tmp_path = None
     tmp_is_cached = False
@@ -345,6 +351,13 @@ async def generate_stream(
     def run_generation():
         try:
             t0 = time.perf_counter()
             total_audio_s = 0.0
             voice_clone_ms = 0.0
@@ -522,7 +535,6 @@ async def generate_non_streaming(
     if not _active_model_name or _active_model_name not in _model_cache:
         raise HTTPException(status_code=400, detail="Model not loaded. Click 'Load' first.")
-    model = _model_cache[_active_model_name]
     tmp_path = None
     tmp_is_cached = False
@@ -538,6 +550,10 @@ async def generate_non_streaming(
         tmp_is_cached = True
     def run():
         t0 = time.perf_counter()
         if mode == "voice_clone":
             audio_list, sr = model.generate_voice_clone(

 from nano_parakeet import from_pretrained as _parakeet_from_pretrained
+_ALL_MODELS = [
     "Qwen/Qwen3-TTS-12Hz-0.6B-Base",
     "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
     "Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice",
     "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
 ]
+_active_models_env = os.environ.get("ACTIVE_MODELS", "")
+if _active_models_env:
+    _allowed = {m.strip() for m in _active_models_env.split(",") if m.strip()}
+    AVAILABLE_MODELS = [m for m in _ALL_MODELS if m in _allowed]
+else:
+    AVAILABLE_MODELS = list(_ALL_MODELS)
 BASE_DIR = Path(__file__).resolve().parent
 # Assets that need to be downloaded at runtime go to a writable directory.
 # /app is read-only in HF Spaces; fall back to /tmp.
     if not _active_model_name or _active_model_name not in _model_cache:
         raise HTTPException(status_code=400, detail="Model not loaded. Click 'Load' first.")
     tmp_path = None
     tmp_is_cached = False
     def run_generation():
         try:
+            # Resolve the model after the generation lock is held so we always
+            # use the currently active model, not a stale reference captured
+            # before a concurrent /load request changed the active model.
+            model = _model_cache.get(_active_model_name)
+            if model is None:
+                raise RuntimeError("No model loaded. Please load a model first.")
             t0 = time.perf_counter()
             total_audio_s = 0.0
             voice_clone_ms = 0.0
     if not _active_model_name or _active_model_name not in _model_cache:
         raise HTTPException(status_code=400, detail="Model not loaded. Click 'Load' first.")
     tmp_path = None
     tmp_is_cached = False
         tmp_is_cached = True
     def run():
+        # Resolve the model after the generation lock is held.
+        model = _model_cache.get(_active_model_name)
+        if model is None:
+            raise RuntimeError("No model loaded. Please load a model first.")
         t0 = time.perf_counter()
         if mode == "voice_clone":
             audio_list, sr = model.generate_voice_clone(