Spaces:

ASLP-lab
/

VoiceSculptor

Running on Zero

App Files Files Community

Huakang Chen commited on 17 days ago

Commit

07cdf55

1 Parent(s): 3ba0af4

update app.py

Browse files

Files changed (1) hide show

app.py +87 -83

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import traceback
 import gradio as gr
 import numpy as np
 import pyrootutils
@@ -32,6 +32,38 @@ PARAFORMER_REPO_ID = "funasr/Paraformer-large"
 LOGO_URL = "https://raw.githubusercontent.com/ASLP-lab/VoiceSculptor/main/assets/logo.png"
 def normalize_text_final(user_input: str) -> str:
     return ChnNormedText(raw_text=user_input).normalize()
@@ -101,7 +133,7 @@ def get_asr(asr_model: Paraformer, wav_list: list[np.ndarray]) -> list[str]:
                 texts.append("")
         return texts
 def inference_batch(
     model: LLM,
     codec_model: XCodec2Model,
@@ -183,37 +215,61 @@ def inference_batch(
         return audios
 def build_app():
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    logger.info(f"✅ Loading models on device={device}")
-    # ===== LLaSA =====
-    tokenizer = AutoTokenizer.from_pretrained(LLASA_MODEL_ID)
-    model = LLM(
-        model=LLASA_MODEL_ID,
-        gpu_memory_utilization=0.90,
-        max_model_len=2048,
-        enable_prefix_caching=True,
-        dtype="auto",
-        quantization=None,
-        enforce_eager=False,
-        kv_cache_dtype="auto",
-    )
-    # ===== XCodec2 =====
-    codec_model = XCodec2Model.from_pretrained(XCODEC_MODEL_ID).eval().to(device)
-    # ===== Paraformer =====
-    paraformer_dir = snapshot_download(
-        repo_id=PARAFORMER_REPO_ID,
-        local_dir="checkpoints/Paraformer-large",
-        local_dir_use_symlinks=False,
-    )
-    asr_model = Paraformer(paraformer_dir, batch_size=5, quantize=True)
-    logger.info("✅ Models loaded: VoiceSculptor + xcodec2 + Paraformer")
     INSTRUCT_TEMPLATES = {
         "自定义": "",
@@ -263,58 +319,6 @@ def build_app():
         "ASMR-气声耳语": "现在，让我在你耳边轻声细语。听到我的声音了吗？放松你的头皮，感受每一个毛孔都在呼吸。",
     }
-    def build_control_tags(age, gender, pitch, pitch_var, volume, speed, emo):
-        tag_map = {
-            "小孩": "<|小孩|>", "青年": "<|青年|>", "中年": "<|中年|>", "老年": "<|老年|>",
-            "男性": "<|男性|>", "女性": "<|女性|>",
-            "音调很高": "<|音调很高|>", "音调较高": "<|音调较高|>", "音调中等": "<|音调中等|>",
-            "音调较低": "<|音调较低|>", "音调很低": "<|音调很低|>",
-            "音调变化很强": "<|音调变化很强|>", "音调变化较强": "<|音调变化较强|>", "音调变化一般": "<|音调变化一般|>",
-            "音调变化较弱": "<|音调变化较弱|>", "音调变化很弱": "<|音调变化很弱|>",
-            "音量很大": "<|音量很大|>", "音量较大": "<|音量较大|>", "音量中等": "<|音量中等|>",
-            "音量较小": "<|音量较小|>", "音量很小": "<|音量很小|>",
-            "语速很快": "<|语速很快|>", "语速较快": "<|语速较快|>", "语速中等": "<|语速中等|>",
-            "语速较慢": "<|语速较慢|>", "语速很慢": "<|语速很慢|>",
-            "开心": "<|开心|>", "生气": "<|生气|>", "难过": "<|难过|>", "惊讶": "<|惊讶|>", "厌恶": "<|厌恶|>", "害怕": "<|害怕|>",
-        }
-        tags = []
-        for v in [gender, age, speed, volume, pitch, pitch_var, emo]:
-            if v != "不指定":
-                tags.append(tag_map[v])
-        return "".join(tags)
-    def inference_select_best3(refined_text, instruct_text, age, gender, pitch, pitch_var, volume, speed, emo):
-        control_tags = build_control_tags(age, gender, pitch, pitch_var, volume, speed, emo)
-        try:
-            audios5 = inference_batch(
-                model=model,
-                codec_model=codec_model,
-                device=device,
-                tokenizer=tokenizer,
-                refined_text=refined_text,
-                instruct_text=instruct_text,
-                control_tags=control_tags,
-                batch_size=5,
-            )
-            wav_list = [wav for (_, wav) in audios5]
-            asr_texts = get_asr(asr_model, wav_list)
-            refined_text_norm = normalize_text_final(refined_text)
-            gt_texts = [refined_text_norm] * len(asr_texts)
-            wers = compute_wers(gt_texts, asr_texts, lang="zh")
-            for i, (hyp, w) in enumerate(zip(asr_texts, wers)):
-                logger.info(f"[ASR/WER] idx={i} wer={w:.4f}  gt='{refined_text_norm}'  asr='{hyp}'")
-            best_idx = np.argsort(np.array(wers))[:3].tolist()
-            logger.info(f"[ASR/WER] best_idx={best_idx} best_wers={[float(wers[i]) for i in best_idx]}")
-            best3 = [audios5[i] for i in best_idx]
-            return best3[0], best3[1], best3[2]
-        except Exception as e:
-            logger.error(f"推理/ASR/WER 失败: {e}", exc_info=True)
-            logger.error("错误详细信息:\n" + traceback.format_exc())
-            return None, None, None
     THEME = gr.themes.Soft(
                 primary_hue="orange",
                 secondary_hue="cyan",

 import os
 import traceback
+import spaces
 import gradio as gr
 import numpy as np
 import pyrootutils
 LOGO_URL = "https://raw.githubusercontent.com/ASLP-lab/VoiceSculptor/main/assets/logo.png"
+model = None
+codec_model = None
+asr_model = None
+tokenizer = None
+@spaces.GPU
+def load_models():
+    global model, codec_model, asr_model, tokenizer
+    # 只有当模型为空时才加载
+    if tokenizer is None:
+        tokenizer = AutoTokenizer.from_pretrained(LLASA_MODEL_ID)
+    if model is None:
+        logger.info("🚀 Loading vLLM model on GPU...")
+        model = LLM(
+            model=LLASA_MODEL_ID,
+            gpu_memory_utilization=0.8,
+            max_model_len=2048,
+            enforce_eager=True,
+            device="cuda"
+        )
+    if codec_model is None:
+        logger.info("🚀 Loading XCodec2...")
+        codec_model = XCodec2Model.from_pretrained(XCODEC_MODEL_ID).eval().to("cuda")
+    if asr_model is None:
+        logger.info("🚀 Loading Paraformer...")
+        paraformer_dir = snapshot_download(repo_id=PARAFORMER_REPO_ID, local_dir="checkpoints/Paraformer-large")
+        asr_model = Paraformer(paraformer_dir, batch_size=5, quantize=True)
 def normalize_text_final(user_input: str) -> str:
     return ChnNormedText(raw_text=user_input).normalize()
                 texts.append("")
         return texts
+@spaces.GPU
 def inference_batch(
     model: LLM,
     codec_model: XCodec2Model,
         return audios
+def build_control_tags(age, gender, pitch, pitch_var, volume, speed, emo):
+    tag_map = {
+        "小孩": "<|小孩|>", "青年": "<|青年|>", "中年": "<|中年|>", "老年": "<|老年|>",
+        "男性": "<|男性|>", "女性": "<|女性|>",
+        "音调很高": "<|音调很高|>", "音调较高": "<|音调较高|>", "音调中等": "<|音调中等|>",
+        "音调较低": "<|音调较低|>", "音调很低": "<|音调很低|>",
+        "音调变化很强": "<|音调变化很强|>", "音调变化较强": "<|音调变化较强|>", "音调变化一般": "<|音调变化一般|>",
+        "音调变化较弱": "<|音调变化较弱|>", "音调变化很弱": "<|音调变化很弱|>",
+        "音量很大": "<|音量很大|>", "音量较大": "<|音量较大|>", "音量中等": "<|音量中等|>",
+        "音量较小": "<|音量较小|>", "音量很小": "<|音量很小|>",
+        "语速很快": "<|语速很快|>", "语速较快": "<|语速较快|>", "语速中等": "<|语速中等|>",
+        "语速较慢": "<|语速较慢|>", "语速很慢": "<|语速很慢|>",
+        "开心": "<|开心|>", "生气": "<|生气|>", "难过": "<|难过|>", "惊讶": "<|惊讶|>", "厌恶": "<|厌恶|>", "害怕": "<|害怕|>",
+    }
+    tags = []
+    for v in [gender, age, speed, volume, pitch, pitch_var, emo]:
+        if v != "不指定":
+            tags.append(tag_map[v])
+    return "".join(tags)
+@spaces.GPU(duration=120)
+def inference_select_best3(refined_text, instruct_text, age, gender, pitch, pitch_var, volume, speed, emo):
+    load_models()
+    control_tags = build_control_tags(age, gender, pitch, pitch_var, volume, speed, emo)
+    try:
+        audios5 = inference_batch(
+            model=model,
+            codec_model=codec_model,
+            device='cuda',
+            tokenizer=tokenizer,
+            refined_text=refined_text,
+            instruct_text=instruct_text,
+            control_tags=control_tags,
+            batch_size=5,
+        )
+        wav_list = [wav for (_, wav) in audios5]
+        asr_texts = get_asr(asr_model, wav_list)
+        refined_text_norm = normalize_text_final(refined_text)
+        gt_texts = [refined_text_norm] * len(asr_texts)
+        wers = compute_wers(gt_texts, asr_texts, lang="zh")
+        for i, (hyp, w) in enumerate(zip(asr_texts, wers)):
+            logger.info(f"[ASR/WER] idx={i} wer={w:.4f}  gt='{refined_text_norm}'  asr='{hyp}'")
+        best_idx = np.argsort(np.array(wers))[:3].tolist()
+        logger.info(f"[ASR/WER] best_idx={best_idx} best_wers={[float(wers[i]) for i in best_idx]}")
+        best3 = [audios5[i] for i in best_idx]
+        return best3[0], best3[1], best3[2]
+    except Exception as e:
+        logger.error(f"推理/ASR/WER 失败: {e}", exc_info=True)
+        logger.error("错误详细信息:\n" + traceback.format_exc())
+        return None, None, None
 def build_app():
     INSTRUCT_TEMPLATES = {
         "自定义": "",
         "ASMR-气声耳语": "现在，让我在你耳边轻声细语。听到我的声音了吗？放松你的头皮，感受每一个毛孔都在呼吸。",
     }
     THEME = gr.themes.Soft(
                 primary_hue="orange",
                 secondary_hue="cyan",