Spaces:

simler
/

Genie-TTS

Sleeping

App Files Files Community

simler commited on Feb 6

Commit

aa9a7de

1 Parent(s): f7dfda2

Add multi-character support and god model

Browse files

Files changed (25) hide show

app.py +85 -34
config.json → models/base/config.json +1 -1
prompt_encoder_fp16.bin → models/base/prompt_encoder_fp16.bin +0 -0
prompt_encoder_fp32.onnx → models/base/prompt_encoder_fp32.onnx +0 -0
models/base/prompt_wav.json +7 -0
ref.wav → models/base/ref.wav +0 -0
t2s_encoder_fp32.bin → models/base/t2s_encoder_fp32.bin +0 -0
t2s_encoder_fp32.onnx → models/base/t2s_encoder_fp32.onnx +0 -0
t2s_first_stage_decoder_fp32.onnx → models/base/t2s_first_stage_decoder_fp32.onnx +0 -0
t2s_shared_fp16.bin → models/base/t2s_shared_fp16.bin +0 -0
t2s_stage_decoder_fp32.onnx → models/base/t2s_stage_decoder_fp32.onnx +0 -0
vits_fp16.bin → models/base/vits_fp16.bin +0 -0
vits_fp32.onnx → models/base/vits_fp32.onnx +0 -0
models/god/config.json +9 -0
models/god/prompt_encoder_fp16.bin +3 -0
models/god/prompt_encoder_fp32.onnx +3 -0
prompt_wav.json → models/god/prompt_wav.json +1 -1
models/god/ref.wav +3 -0
models/god/t2s_encoder_fp32.bin +3 -0
models/god/t2s_encoder_fp32.onnx +3 -0
models/god/t2s_first_stage_decoder_fp32.onnx +3 -0
models/god/t2s_shared_fp16.bin +3 -0
models/god/t2s_stage_decoder_fp32.onnx +3 -0
models/god/vits_fp16.bin +3 -0
models/god/vits_fp32.onnx +3 -0

app.py CHANGED Viewed

@@ -1,63 +1,97 @@
 import builtins
 import os
-# 🔴 核心：在所有 import 之前，必须先劫持 input，否则导入 genie_tts 时会因为 input 阻塞导致崩溃
 builtins.input = lambda prompt="": "y"
 os.environ["GENIE_DATA_DIR"] = "/app/GenieData"
-# 🔴 核心：在导入之前，必须先确保数据已下载
-from huggingface_hub import snapshot_download
 if not os.path.exists("/app/GenieData/G2P"):
     print("📦 Downloading GenieData Assets...")
     snapshot_download(repo_id="High-Logic/Genie", allow_patterns=["GenieData/*"], local_dir="/app", local_dir_use_symlinks=False)
-# 现在可以安全地 import 了
-import shutil
-import io
-import time
-import uvicorn
-from fastapi import FastAPI, UploadFile, File, Form, HTTPException
-from fastapi.responses import StreamingResponse
 import genie_tts
-# ---------------------------------------------------------
-# 服务器设置
-# ---------------------------------------------------------
 app = FastAPI()
-DEFAULT_REF_PATH = "/app/ref.wav"
-DEFAULT_REF_TEXT = "琴是个称职的好团长。看到她认真工作的样子，就连我也忍不住想要多帮她一把。"
-print("⚡ Starting Genie Engine...")
-genie_tts.load_character("Default", "/app", "zh")
 @app.post("/upload_and_tts")
 async def upload_and_tts(
     prompt_text: str = Form(...),
     text: str = Form(...),
     language: str = Form("zh"),
     file: UploadFile = File(...)
 ):
     try:
-        # 使用时间戳文件名强行刷新缓存
         ts = int(time.time() * 1000)
-        save_path = f"/app/ref_{ts}.wav"
         with open(save_path, "wb") as buffer:
             shutil.copyfileobj(file.file, buffer)
-        print(f"🔥 [Custom] Loaded new unique audio: {save_path}")
-        genie_tts.set_reference_audio("Default", save_path, prompt_text, language)
-        out_path = f"/app/out_{ts}.wav"
-        genie_tts.tts("Default", text, save_path=out_path, play=False)
-        # 定义生成器，在发送完后尝试清理临时文件（可选）
         def iterfile():
             with open(out_path, "rb") as f:
                 yield from f
-            # 这里的清理可以防止占用过多存储空间
-            try: os.remove(save_path); os.remove(out_path)
             except: pass
         return StreamingResponse(iterfile(), media_type="audio/wav")
@@ -66,16 +100,33 @@ async def upload_and_tts(
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts")
-async def safe_tts(data: dict):
-    print(f"🛡️ [Reset] Back to standard Qin voice.")
     try:
-        genie_tts.set_reference_audio("Default", DEFAULT_REF_PATH, DEFAULT_REF_TEXT, "zh")
-        out_path = "/app/out_std.wav"
-        genie_tts.tts("Default", data.get("text", ""), save_path=out_path, play=False)
         return StreamingResponse(open(out_path, "rb"), media_type="audio/wav")
     except Exception as e:
-        print(f"❌ Error in std tts: {e}")
-        raise HTTPException(status_code=404, detail=str(e))
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 import builtins
 import os
+import shutil
+import io
+import time
+import uvicorn
+from fastapi import FastAPI, UploadFile, File, Form, HTTPException
+from fastapi.responses import StreamingResponse
+from huggingface_hub import snapshot_download
+# 🔴 核心：在所有 import 之前，必须先劫持 input
 builtins.input = lambda prompt="": "y"
+# 适配 Space 路径，本地运行时请确保此目录存在
 os.environ["GENIE_DATA_DIR"] = "/app/GenieData"
+# 下载环境
 if not os.path.exists("/app/GenieData/G2P"):
     print("📦 Downloading GenieData Assets...")
     snapshot_download(repo_id="High-Logic/Genie", allow_patterns=["GenieData/*"], local_dir="/app", local_dir_use_symlinks=False)
 import genie_tts
 app = FastAPI()
+# 角色模型存放根目录
+MODELS_ROOT = "/app/models"
+os.makedirs(MODELS_ROOT, exist_ok=True)
+# 默认设置（加载 models/base 和 models/god）
+genie_tts.load_character("Base", "/app/models/base", "zh")
+genie_tts.load_character("god", "/app/models/god", "zh")
+# 记录每个角色的默认参考音频
+REF_CACHE = {
+    "Base": {
+        "path": "/app/models/base/ref.wav",
+        "text": "琴是个称职的好团长。看到她认真工作的样子，就连我也忍不住想要多帮她一把。",
+        "lang": "zh"
+    },
+    "god": {
+        "path": "/app/models/god/ref.wav",
+        "text": "很多人的一生，写于纸上也不过几行，大多都是些无聊的故事啊。",
+        "lang": "zh"
+    }
+}
+@app.post("/load_model")
+async def load_model(character_name: str = Form(...), model_path: str = Form(...), language: str = Form("zh")):
+    """
+    动态加载新模型 API
+    model_path: 相对于 /app 的路径，例如 "models/my_character"
+    """
+    full_path = os.path.join("/app", model_path)
+    if not os.path.exists(full_path):
+        raise HTTPException(status_code=404, detail=f"Model path not found: {full_path}")
+    try:
+        print(f"📦 Loading character: {character_name} from {full_path}")
+        genie_tts.load_character(character_name, full_path, language)
+        return {"status": "success", "message": f"Character '{character_name}' loaded."}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
 @app.post("/upload_and_tts")
 async def upload_and_tts(
+    character_name: str = Form("Default"),
     prompt_text: str = Form(...),
     text: str = Form(...),
     language: str = Form("zh"),
     file: UploadFile = File(...)
 ):
+    """
+    上传临时参考音频并生成语音
+    """
     try:
         ts = int(time.time() * 1000)
+        save_path = f"/tmp/ref_{ts}.wav"
+        os.makedirs("/tmp", exist_ok=True)
         with open(save_path, "wb") as buffer:
             shutil.copyfileobj(file.file, buffer)
+        print(f"🔥 [Custom] Using temp audio for {character_name}: {save_path}")
+        genie_tts.set_reference_audio(character_name, save_path, prompt_text, language)
+        out_path = f"/tmp/out_{ts}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False)
         def iterfile():
             with open(out_path, "rb") as f:
                 yield from f
+            try:
+                os.remove(save_path)
+                os.remove(out_path)
             except: pass
         return StreamingResponse(iterfile(), media_type="audio/wav")
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts")
+async def dynamic_tts(
+    text: str = Form(...),
+    character_name: str = Form("Default"),
+    prompt_text: str = Form(None),
+    prompt_lang: str = Form("zh"),
+    use_default_ref: bool = Form(True)
+):
+    """
+    通用 TTS 接口，支持切换已加载的角色
+    """
     try:
+        # 如果提供了 prompt_text 且不是用默认参考，则尝试更新该角色的参考（假设已经有 ref.wav 在该角色目录下）
+        # 这里为了简化，如果没传特定音频，就用 REF_CACHE 里的
+        ref_info = REF_CACHE.get(character_name, REF_CACHE["Default"])
+        # 允许通过 API 动态覆盖当前参考文本（不换音频文件）
+        final_text = prompt_text if prompt_text else ref_info["text"]
+        genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
+        out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False)
         return StreamingResponse(open(out_path, "rb"), media_type="audio/wav")
     except Exception as e:
+        print(f"❌ Error: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
 if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=7860)

config.json → models/base/config.json RENAMED Viewed

@@ -1,6 +1,6 @@
 {
     "version": "2.0",
-    "model_type": "GPT-SoVITS-V2",
     "gpt_path": "/app/t2s_stage_decoder_fp32.onnx",
     "sovits_path": "/app/vits_fp32.onnx",
     "first_stage_path": "/app/t2s_first_stage_decoder_fp32.onnx",

 {
     "version": "2.0",
+    "model_type": "GPT-SoVITS-V2ProPlus",
     "gpt_path": "/app/t2s_stage_decoder_fp32.onnx",
     "sovits_path": "/app/vits_fp32.onnx",
     "first_stage_path": "/app/t2s_first_stage_decoder_fp32.onnx",

prompt_encoder_fp16.bin → models/base/prompt_encoder_fp16.bin RENAMED Viewed

File without changes

prompt_encoder_fp32.onnx → models/base/prompt_encoder_fp32.onnx RENAMED Viewed

File without changes

models/base/prompt_wav.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "default": {
+        "wav_path": "ref.wav",
+        "prompt_text": "琴是个称职的好团长。看到她认真工作的样子，就连我也忍不住想要多帮她一把。",
+        "prompt_lang": "zh"
+    }
+}

ref.wav → models/base/ref.wav RENAMED Viewed

File without changes

t2s_encoder_fp32.bin → models/base/t2s_encoder_fp32.bin RENAMED Viewed

File without changes

t2s_encoder_fp32.onnx → models/base/t2s_encoder_fp32.onnx RENAMED Viewed

File without changes

t2s_first_stage_decoder_fp32.onnx → models/base/t2s_first_stage_decoder_fp32.onnx RENAMED Viewed

File without changes

t2s_shared_fp16.bin → models/base/t2s_shared_fp16.bin RENAMED Viewed

File without changes

t2s_stage_decoder_fp32.onnx → models/base/t2s_stage_decoder_fp32.onnx RENAMED Viewed

File without changes

vits_fp16.bin → models/base/vits_fp16.bin RENAMED Viewed

File without changes

vits_fp32.onnx → models/base/vits_fp32.onnx RENAMED Viewed

File without changes

models/god/config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "version": "2.0",
+    "model_type": "GPT-SoVITS-V2ProPlus",
+    "gpt_path": "./t2s_stage_decoder_fp32.onnx",
+    "sovits_path": "./vits_fp32.onnx",
+    "first_stage_path": "./t2s_first_stage_decoder_fp32.onnx",
+    "cnhubert_base": "/app/GenieData/chinese-hubert-base/chinese-hubert-base.onnx",
+    "bert": "/app/GenieData/chinese-roberta-wwm-ext-large/chinese-roberta-wwm-ext-large.onnx"
+}

models/god/prompt_encoder_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:121a5877a97347e5969a175329fc62a06d53a73fb639f760c48b82bb32c40168
+size 44262912

models/god/prompt_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4a3d8c1e385a17aecb7bd9c5ede5707ba390f85c3eb49b388deeaaaf53d2748
+size 44464

prompt_wav.json → models/god/prompt_wav.json RENAMED Viewed

@@ -1,7 +1,7 @@
 {
     "default": {
         "wav_path": "ref.wav",
-        "prompt_text": "我今天就不写了！开干！烦死了，哎呀干不完的活",
         "prompt_lang": "zh"
     }
 }

 {
     "default": {
         "wav_path": "ref.wav",
+        "prompt_text": "很多人的一生，写于纸上也不过几行，大多都是些无聊的故事啊。",
         "prompt_lang": "zh"
     }
 }

models/god/ref.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87fd8dccc7109220edee84f1748d55c6d3ea2e6429dc041159367895be6d47c7
+size 84716

models/god/t2s_encoder_fp32.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74af327b9cbd6f4cbc1f1137586b0cebcf360ffa141f75ad59b63b25db7c5eab
+size 11465732

models/god/t2s_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6eb1acd47c8e6d36b777886981a49122e8e070a5eb9888d458fb188dc139f75
+size 14568

models/god/t2s_first_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868f395999508905128c5325c5db4f4b37b2e70e04d6e2719fec64cbb60ee7f9
+size 416803

models/god/t2s_shared_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a01da3c9cbd46c82fcc7bbb1a07d3c7a2d4fcb0a234fdd7055397ad07682752a
+size 153413634

models/god/t2s_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f02881c517423deb610f86d5441bd9825937c5069f3887cacefa1e9dc403b0d
+size 417625

models/god/vits_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f21017aa6c0076a2bcd379fe591b70f3f8aec4f1e8c920f1ed40965d73a03da0
+size 124345856

models/god/vits_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f918e08a1bfecc568de4cc5dc96135cb8baf37a07f4eb4ec9258a4854fcd3f3
+size 1611210