Spaces:

simler
/

Genie-TTS-testing

Sleeping

App Files Files Community

simler commited on 25 days ago

Commit

34b41f0

verified ·

1 Parent(s): dcfada7

Upload 28 files

Browse files

Files changed (28) hide show

.gitattributes +36 -35
Dockerfile +22 -0
README.md +10 -10
app.py +132 -0
models/base/config.json +9 -0
models/base/prompt_encoder_fp16.bin +3 -0
models/base/prompt_encoder_fp32.onnx +3 -0
models/base/prompt_wav.json +7 -0
models/base/ref.wav +0 -0
models/base/t2s_encoder_fp32.bin +3 -0
models/base/t2s_encoder_fp32.onnx +3 -0
models/base/t2s_first_stage_decoder_fp32.onnx +3 -0
models/base/t2s_shared_fp16.bin +3 -0
models/base/t2s_stage_decoder_fp32.onnx +3 -0
models/base/vits_fp16.bin +3 -0
models/base/vits_fp32.onnx +3 -0
models/god/config.json +9 -0
models/god/prompt_encoder_fp16.bin +3 -0
models/god/prompt_encoder_fp32.onnx +3 -0
models/god/prompt_wav.json +7 -0
models/god/ref.wav +0 -0
models/god/t2s_encoder_fp32.bin +3 -0
models/god/t2s_encoder_fp32.onnx +3 -0
models/god/t2s_first_stage_decoder_fp32.onnx +3 -0
models/god/t2s_shared_fp16.bin +3 -0
models/god/t2s_stage_decoder_fp32.onnx +3 -0
models/god/vits_fp16.bin +3 -0
models/god/vits_fp32.onnx +3 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,36 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+ref.wav filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,22 @@

+FROM python:3.10-slim
+WORKDIR /app
+# 安装 FFmpeg 和基础编译工具
+RUN apt-get update && apt-get install -y \
+    git ffmpeg build-essential cmake libmecab-dev mecab-ipadic-utf8 \
+    && rm -rf /var/lib/apt/lists/*
+# 安装所有必要库
+RUN pip install --no-cache-dir \
+    git+https://github.com/High-Logic/Genie-TTS.git \
+    python-multipart uvicorn fastapi
+# 镜像权限处理
+COPY . /app
+RUN chmod -R 777 /app
+EXPOSE 7860
+# 使用直接启动模式
+CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
----
-title: Genie TTS Testing
-emoji: 🏆
-colorFrom: pink
-colorTo: purple
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: Genie TTS
+emoji: 🌍
+colorFrom: yellow
+colorTo: green
+sdk: docker
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,132 @@

+import builtins
+import os
+import shutil
+import io
+import time
+import uvicorn
+from fastapi import FastAPI, UploadFile, File, Form, HTTPException
+from fastapi.responses import StreamingResponse
+from huggingface_hub import snapshot_download
+# 🔴 核心：在所有 import 之前，必须先劫持 input
+builtins.input = lambda prompt="": "y"
+# 适配 Space 路径，本地运行时请确保此目录存在
+os.environ["GENIE_DATA_DIR"] = "/app/GenieData"
+# 下载环境
+if not os.path.exists("/app/GenieData/G2P"):
+    print("📦 Downloading GenieData Assets...")
+    snapshot_download(repo_id="High-Logic/Genie", allow_patterns=["GenieData/*"], local_dir="/app", local_dir_use_symlinks=False)
+import genie_tts
+app = FastAPI()
+# 角色模型存放根目录
+MODELS_ROOT = "/app/models"
+os.makedirs(MODELS_ROOT, exist_ok=True)
+# 默认设置（加载 models/base 和 models/god）
+genie_tts.load_character("Base", "/app/models/base", "zh")
+genie_tts.load_character("god", "/app/models/god", "zh")
+# 记录每个角色的默认参考音频
+REF_CACHE = {
+    "Base": {
+        "path": "/app/models/base/ref.wav",
+        "text": "琴是个称职的好团长。看到她认真工作的样子，就连我也忍不住想要多帮她一把。",
+        "lang": "zh"
+    },
+    "god": {
+        "path": "/app/models/god/ref.wav",
+        "text": "很多人的一生，写于纸上也不过几行，大多都是些无聊的故事啊。",
+        "lang": "zh"
+    }
+}
+@app.post("/load_model")
+async def load_model(character_name: str = Form(...), model_path: str = Form(...), language: str = Form("zh")):
+    """
+    动态加载新模型 API
+    model_path: 相对于 /app 的路径，例如 "models/my_character"
+    """
+    full_path = os.path.join("/app", model_path)
+    if not os.path.exists(full_path):
+        raise HTTPException(status_code=404, detail=f"Model path not found: {full_path}")
+    try:
+        print(f"📦 Loading character: {character_name} from {full_path}")
+        genie_tts.load_character(character_name, full_path, language)
+        return {"status": "success", "message": f"Character '{character_name}' loaded."}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+@app.post("/upload_and_tts")
+async def upload_and_tts(
+    character_name: str = Form("Default"),
+    prompt_text: str = Form(...),
+    text: str = Form(...),
+    language: str = Form("zh"),
+    file: UploadFile = File(...)
+):
+    """
+    上传临时参考音频并生成语音
+    """
+    try:
+        ts = int(time.time() * 1000)
+        save_path = f"/tmp/ref_{ts}.wav"
+        os.makedirs("/tmp", exist_ok=True)
+        with open(save_path, "wb") as buffer:
+            shutil.copyfileobj(file.file, buffer)
+        print(f"🔥 [Custom] Using temp audio for {character_name}: {save_path}")
+        genie_tts.set_reference_audio(character_name, save_path, prompt_text, language)
+        out_path = f"/tmp/out_{ts}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False)
+        def iterfile():
+            with open(out_path, "rb") as f:
+                yield from f
+            try:
+                os.remove(save_path)
+                os.remove(out_path)
+            except: pass
+        return StreamingResponse(iterfile(), media_type="audio/wav")
+    except Exception as e:
+        print(f"❌ Error in upload/tts: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@app.post("/tts")
+async def dynamic_tts(
+    text: str = Form(...),
+    character_name: str = Form("Default"),
+    prompt_text: str = Form(None),
+    prompt_lang: str = Form("zh"),
+    use_default_ref: bool = Form(True)
+):
+    """
+    通用 TTS 接口，支持切换已加载的角色
+    """
+    try:
+        # 如果提供了 prompt_text 且不是用默认参考，则尝试更新该角色的参考（假设已经有 ref.wav 在该角色目录下）
+        # 这里为了简化，如果没传特定音频，就用 REF_CACHE 里的
+        ref_info = REF_CACHE.get(character_name, REF_CACHE["Default"])
+        # 允许通过 API 动态覆盖当前参考文本（不换音频文件）
+        final_text = prompt_text if prompt_text else ref_info["text"]
+        genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
+        out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False)
+        return StreamingResponse(open(out_path, "rb"), media_type="audio/wav")
+    except Exception as e:
+        print(f"❌ Error: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=7860)

models/base/config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "version": "2.0",
+    "model_type": "GPT-SoVITS-V2ProPlus",
+    "gpt_path": "/app/t2s_stage_decoder_fp32.onnx",
+    "sovits_path": "/app/vits_fp32.onnx",
+    "first_stage_path": "/app/t2s_first_stage_decoder_fp32.onnx",
+    "cnhubert_base": "/app/GenieData/chinese-hubert-base/chinese-hubert-base.onnx",
+    "bert": "/app/GenieData/chinese-roberta-wwm-ext-large/chinese-roberta-wwm-ext-large.onnx"
+}

models/base/prompt_encoder_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f02368fe1ab5ab43893a37e3034fa40fa30a0b74d84f319fb6ea30bc07c58604
+size 44262912

models/base/prompt_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4a3d8c1e385a17aecb7bd9c5ede5707ba390f85c3eb49b388deeaaaf53d2748
+size 44464

models/base/prompt_wav.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "default": {
+        "wav_path": "ref.wav",
+        "prompt_text": "琴是个称职的好团长。看到她认真工作的样子，就连我也忍不住想要多帮她一把。",
+        "prompt_lang": "zh"
+    }
+}

models/base/ref.wav ADDED Viewed

Binary file (96.2 kB). View file

models/base/t2s_encoder_fp32.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:928625cb99c00f83e6d7f1bbc2973c86f3fb6e3027e8835995d25617a153ff62
+size 11465732

models/base/t2s_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6eb1acd47c8e6d36b777886981a49122e8e070a5eb9888d458fb188dc139f75
+size 14568

models/base/t2s_first_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868f395999508905128c5325c5db4f4b37b2e70e04d6e2719fec64cbb60ee7f9
+size 416803

models/base/t2s_shared_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9692aabc4830f673de998bcfbe71fad253ee8cf821d8ada2b0e4ddde42ebd30f
+size 153413634

models/base/t2s_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f02881c517423deb610f86d5441bd9825937c5069f3887cacefa1e9dc403b0d
+size 417625

models/base/vits_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee040162fc7abe857b8f233e4ae72cfffd786993188a95957a3e406bd499f8f9
+size 124345856

models/base/vits_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f918e08a1bfecc568de4cc5dc96135cb8baf37a07f4eb4ec9258a4854fcd3f3
+size 1611210

models/god/config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "version": "2.0",
+    "model_type": "GPT-SoVITS-V2ProPlus",
+    "gpt_path": "./t2s_stage_decoder_fp32.onnx",
+    "sovits_path": "./vits_fp32.onnx",
+    "first_stage_path": "./t2s_first_stage_decoder_fp32.onnx",
+    "cnhubert_base": "/app/GenieData/chinese-hubert-base/chinese-hubert-base.onnx",
+    "bert": "/app/GenieData/chinese-roberta-wwm-ext-large/chinese-roberta-wwm-ext-large.onnx"
+}

models/god/prompt_encoder_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:121a5877a97347e5969a175329fc62a06d53a73fb639f760c48b82bb32c40168
+size 44262912

models/god/prompt_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4a3d8c1e385a17aecb7bd9c5ede5707ba390f85c3eb49b388deeaaaf53d2748
+size 44464

models/god/prompt_wav.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "default": {
+        "wav_path": "ref.wav",
+        "prompt_text": "很多人的一生，写于纸上也不过几行，大多都是些无聊的故事啊。",
+        "prompt_lang": "zh"
+    }
+}

models/god/ref.wav ADDED Viewed

Binary file (84.7 kB). View file

models/god/t2s_encoder_fp32.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74af327b9cbd6f4cbc1f1137586b0cebcf360ffa141f75ad59b63b25db7c5eab
+size 11465732

models/god/t2s_encoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6eb1acd47c8e6d36b777886981a49122e8e070a5eb9888d458fb188dc139f75
+size 14568

models/god/t2s_first_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868f395999508905128c5325c5db4f4b37b2e70e04d6e2719fec64cbb60ee7f9
+size 416803

models/god/t2s_shared_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a01da3c9cbd46c82fcc7bbb1a07d3c7a2d4fcb0a234fdd7055397ad07682752a
+size 153413634

models/god/t2s_stage_decoder_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f02881c517423deb610f86d5441bd9825937c5069f3887cacefa1e9dc403b0d
+size 417625

models/god/vits_fp16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f21017aa6c0076a2bcd379fe591b70f3f8aec4f1e8c920f1ed40965d73a03da0
+size 124345856

models/god/vits_fp32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f918e08a1bfecc568de4cc5dc96135cb8baf37a07f4eb4ec9258a4854fcd3f3
+size 1611210