Spaces:

biosn2
/

test1234

Build error

App Files Files Community

biosn2 commited on Sep 7, 2025

Commit

fda2eb7

verified ·

1 Parent(s): 05dad15

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +57 -132

app.py CHANGED Viewed

@@ -1,11 +1,8 @@
-import json
 import os
 import sys
-import threading
 import time
 import subprocess
-from huggingface_hub import snapshot_download
 import warnings
 warnings.filterwarnings("ignore", category=FutureWarning)
 warnings.filterwarnings("ignore", category=UserWarning)
@@ -14,7 +11,7 @@ import argparse
 parser = argparse.ArgumentParser(description="IndexTTS WebUI")
 parser.add_argument("--verbose", action="store_true", default=False, help="Enable verbose mode")
 parser.add_argument("--port", type=int, default=7860, help="Port to run the web UI on")
-parser.add_argument("--host", type=str, default="127.0.0.1", help="Host to run the web UI on")
 parser.add_argument("--model_dir", type=str, default="checkpoints", help="Model checkpoints directory")
 cmd_args = parser.parse_args()
@@ -22,164 +19,92 @@ current_dir = os.path.dirname(os.path.abspath(__file__))
 sys.path.append(current_dir)
 sys.path.append(os.path.join(current_dir, "indextts"))
-MODE = 'local'
-snapshot_download("IndexTeam/IndexTTS-1.5", local_dir="checkpoints")
-if not os.path.exists(cmd_args.model_dir):
-    print(f"Model directory {cmd_args.model_dir} does not exist. Please download the model first.")
-    sys.exit(1)
-for file in [
-    "bigvgan_generator.pth",
-    "bpe.model",
-    "gpt.pth",
-    "config.yaml",
-]:
     file_path = os.path.join(cmd_args.model_dir, file)
     if not os.path.exists(file_path):
-        print(f"Required file {file_path} does not exist. Please download it.")
-        sys.exit(1)
 import gradio as gr
-import pandas as pd
 from indextts.infer import IndexTTS
-from tools.i18n.i18n import I18nAuto
-i18n = I18nAuto(language="zh_CN")
-tts = IndexTTS(model_dir=cmd_args.model_dir, cfg_path=os.path.join(cmd_args.model_dir, "config.yaml"),)
-os.makedirs("outputs/tasks", exist_ok=True)
-os.makedirs("prompts", exist_ok=True)
-# ----------------- 核心修改：保证 WAV 格式 & 打印进度 -----------------
 def ensure_wav(file_path):
     """将非 WAV 音频转换为 WAV"""
-    if not file_path.lower().endswith(".wav"):
         wav_path = file_path.rsplit(".", 1)[0] + ".wav"
         subprocess.run(["ffmpeg", "-y", "-i", file_path, wav_path], check=True)
         return wav_path
     return file_path
 def progress_print(step, total, info=""):
-    """生成音频进度打印到终端"""
     percent = int(step / total * 100)
     print(f"\r[{percent}%] {info}", end="", flush=True)
-def gen_single(prompt, text, infer_mode, max_text_tokens_per_sentence=120, sentences_bucket_max_size=4,
-                *args, progress=gr.Progress()):
-    prompt = ensure_wav(prompt)
-    output_path = os.path.join("outputs", f"spk_{int(time.time())}.wav")
-    tts.gr_progress = progress
-    tts.print_progress = progress_print  # 将进度打印到终端
-    do_sample, top_p, top_k, temperature, \
-        length_penalty, num_beams, repetition_penalty, max_mel_tokens = args
     kwargs = {
         "do_sample": bool(do_sample),
         "top_p": float(top_p),
         "top_k": int(top_k) if int(top_k) > 0 else None,
         "temperature": float(temperature),
-        "length_penalty": float(length_penalty),
-        "num_beams": num_beams,
         "repetition_penalty": float(repetition_penalty),
         "max_mel_tokens": int(max_mel_tokens),
     }
-    if infer_mode == "普通推理":
-        output = tts.infer(prompt, text, output_path, verbose=cmd_args.verbose,
-                           max_text_tokens_per_sentence=int(max_text_tokens_per_sentence),
-                           **kwargs)
-    else:
-        output = tts.infer_fast(prompt, text, output_path, verbose=cmd_args.verbose,
-            max_text_tokens_per_sentence=int(max_text_tokens_per_sentence),
-            sentences_bucket_max_size=int(sentences_bucket_max_size),
-            **kwargs)
-    print("\n生成完成:", output_path)
-    return gr.update(value=output, visible=True)
-def update_prompt_audio():
-    return gr.update(interactive=True)
-# ----------------- Gradio UI -----------------
 with gr.Blocks(title="IndexTTS Demo") as demo:
-    mutex = threading.Lock()
-    gr.HTML('''
-    <h2><center>IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System</h2>
-    <h2><center>(一款工业级可控且高效的零样本文本转语音系统)</h2>
-    ''')
-    with gr.Tab("音频生成"):
         with gr.Row():
-            os.makedirs("prompts", exist_ok=True)
-            prompt_audio = gr.Audio(label="参考音频", key="prompt_audio",
-                                    sources=["upload","microphone"], type="filepath")
-            with gr.Column():
-                input_text_single = gr.TextArea(label="文本", key="input_text_single", placeholder="请输入目标文本", info="当前模型版本{}".format(tts.model_version or "1.0"))
-                infer_mode = gr.Radio(choices=["普通推理", "批次推理"], label="推理模式", info="批次推理：更适合长句，性能翻倍", value="普通推理")
-                gen_button = gr.Button("生成语音", key="gen_button", interactive=True)
-            output_audio = gr.Audio(label="生成结果", visible=True, key="output_audio")
-        with gr.Accordion("高级生成参数设置", open=False):
-            with gr.Row():
-                with gr.Column(scale=1):
-                    gr.Markdown("**GPT2 采样设置** _参数会影响音频多样性和生成速度_")
-                    with gr.Row():
-                        do_sample = gr.Checkbox(label="do_sample", value=True)
-                        temperature = gr.Slider(label="temperature", minimum=0.1, maximum=2.0, value=1.0, step=0.1)
-                    with gr.Row():
-                        top_p = gr.Slider(label="top_p", minimum=0.0, maximum=1.0, value=0.8, step=0.01)
-                        top_k = gr.Slider(label="top_k", minimum=0, maximum=100, value=30, step=1)
-                        num_beams = gr.Slider(label="num_beams", value=3, minimum=1, maximum=10, step=1)
-                    with gr.Row():
-                        repetition_penalty = gr.Number(label="repetition_penalty", precision=None, value=10.0, minimum=0.1, maximum=20.0, step=0.1)
-                        length_penalty = gr.Number(label="length_penalty", precision=None, value=0.0, minimum=-2.0, maximum=2.0, step=0.1)
-                    max_mel_tokens = gr.Slider(label="max_mel_tokens", value=600, minimum=50, maximum=tts.cfg.gpt.max_mel_tokens, step=10)
-                with gr.Column(scale=2):
-                    gr.Markdown("**分句设置**")
-                    with gr.Row():
-                        max_text_tokens_per_sentence = gr.Slider(label="分句最大Token数", value=120, minimum=20, maximum=tts.cfg.gpt.max_text_tokens, step=2)
-                        sentences_bucket_max_size = gr.Slider(label="分句分桶的最大容量", value=4, minimum=1, maximum=16, step=1)
-                    with gr.Accordion("预览分句结果", open=True) as sentences_settings:
-                        sentences_preview = gr.Dataframe(headers=["序号", "分句内容", "Token数"], key="sentences_preview", wrap=True)
-            advanced_params = [
-                do_sample, top_p, top_k, temperature,
-                length_penalty, num_beams, repetition_penalty, max_mel_tokens,
-            ]
-    input_text_single.change(
-        lambda text, max_tokens_per_sentence: {
-            sentences_preview: gr.update(value=[
-                [i, ''.join(s), len(s)] for i, s in enumerate(
-                    tts.tokenizer.split_sentences(tts.tokenizer.tokenize(text), int(max_tokens_per_sentence))
-                )
-            ]) if text else gr.update(value=pd.DataFrame([], columns=["序号","分句内容","Token数"]))
-        },
-        inputs=[input_text_single, max_text_tokens_per_sentence],
-        outputs=[sentences_preview]
-    )
-    max_text_tokens_per_sentence.change(
-        lambda text, max_tokens_per_sentence: {
-            sentences_preview: gr.update(value=[
-                [i, ''.join(s), len(s)] for i, s in enumerate(
-                    tts.tokenizer.split_sentences(tts.tokenizer.tokenize(text), int(max_tokens_per_sentence))
-                )
-            ]) if text else gr.update(value=pd.DataFrame([], columns=["序号","分句内容","Token数"]))
-        },
-        inputs=[input_text_single, max_text_tokens_per_sentence],
-        outputs=[sentences_preview]
     )
-    prompt_audio.upload(update_prompt_audio, inputs=[], outputs=[gen_button])
-    gen_button.click(gen_single,
-                     inputs=[prompt_audio, input_text_single, infer_mode,
-                             max_text_tokens_per_sentence, sentences_bucket_max_size,
-                             *advanced_params],
-                     outputs=[output_audio])
-def main():
-    demo.launch(server_name="0.0.0.0", server_port=cmd_args.port)
 if __name__ == "__main__":
-    main()

 import os
 import sys
 import time
 import subprocess
+import threading
 import warnings
 warnings.filterwarnings("ignore", category=FutureWarning)
 warnings.filterwarnings("ignore", category=UserWarning)
 parser = argparse.ArgumentParser(description="IndexTTS WebUI")
 parser.add_argument("--verbose", action="store_true", default=False, help="Enable verbose mode")
 parser.add_argument("--port", type=int, default=7860, help="Port to run the web UI on")
+parser.add_argument("--host", type=str, default="0.0.0.0", help="Host to run the web UI on")
 parser.add_argument("--model_dir", type=str, default="checkpoints", help="Model checkpoints directory")
 cmd_args = parser.parse_args()
 sys.path.append(current_dir)
 sys.path.append(os.path.join(current_dir, "indextts"))
+# --- 检查模型 ---
+from huggingface_hub import snapshot_download
+snapshot_download("IndexTeam/IndexTTS-1.5", local_dir=cmd_args.model_dir)
+for file in ["bigvgan_generator.pth","bpe.model","gpt.pth","config.yaml"]:
     file_path = os.path.join(cmd_args.model_dir, file)
     if not os.path.exists(file_path):
+        raise FileNotFoundError(f"{file_path} 不存在，请下载模型")
+# --- 导入模块 ---
 import gradio as gr
 from indextts.infer import IndexTTS
+tts = IndexTTS(model_dir=cmd_args.model_dir, cfg_path=os.path.join(cmd_args.model_dir, "config.yaml"))
+os.makedirs("outputs", exist_ok=True)
+# --- 工具函数 ---
 def ensure_wav(file_path):
     """将非 WAV 音频转换为 WAV"""
+    if file_path and not file_path.lower().endswith(".wav"):
         wav_path = file_path.rsplit(".", 1)[0] + ".wav"
         subprocess.run(["ffmpeg", "-y", "-i", file_path, wav_path], check=True)
         return wav_path
     return file_path
 def progress_print(step, total, info=""):
     percent = int(step / total * 100)
     print(f"\r[{percent}%] {info}", end="", flush=True)
+# --- 普通推理 ---
+def generate_audio(prompt_audio, text,
+                   do_sample=True, top_p=0.8, top_k=30, temperature=1.0,
+                   num_beams=3, repetition_penalty=10.0, length_penalty=0.0, max_mel_tokens=600):
+    prompt_audio = ensure_wav(prompt_audio)
+    output_path = os.path.join("outputs", "out.wav")  # 固定输出文件名
     kwargs = {
         "do_sample": bool(do_sample),
         "top_p": float(top_p),
         "top_k": int(top_k) if int(top_k) > 0 else None,
         "temperature": float(temperature),
+        "num_beams": int(num_beams),
         "repetition_penalty": float(repetition_penalty),
+        "length_penalty": float(length_penalty),
         "max_mel_tokens": int(max_mel_tokens),
     }
+    tts.print_progress = progress_print  # 打印进度到终端
+    print(f"\n>> start inference for text: {text}")
+    try:
+        tts.infer(prompt_audio, text, output_path, verbose=cmd_args.verbose, **kwargs)
+        print(f"\n>> generated wav file: {output_path}")
+        return output_path
+    except Exception as e:
+        print(f"\n>> generation failed: {e}")
+        return f"生成失败: {e}"
+# --- Gradio UI ---
 with gr.Blocks(title="IndexTTS Demo") as demo:
+    gr.Markdown("## IndexTTS - 普通推理 (参考音频必填)")
+    with gr.Row():
+        prompt_audio = gr.Audio(label="参考音频", source="upload", type="filepath")
+        text_input = gr.TextArea(label="文本", placeholder="请输入目标文本")
+        gen_button = gr.Button("生成语音")
+        output_audio = gr.Audio(label="生成结果")
+    with gr.Accordion("高级参数", open=False):
         with gr.Row():
+            do_sample = gr.Checkbox(label="do_sample", value=True)
+            temperature = gr.Slider(label="temperature", minimum=0.1, maximum=2.0, value=1.0, step=0.1)
+        with gr.Row():
+            top_p = gr.Slider(label="top_p", minimum=0.0, maximum=1.0, value=0.8, step=0.01)
+            top_k = gr.Slider(label="top_k", minimum=0, maximum=100, value=30, step=1)
+            num_beams = gr.Slider(label="num_beams", minimum=1, maximum=10, value=3, step=1)
+        with gr.Row():
+            repetition_penalty = gr.Number(label="repetition_penalty", value=10.0, step=0.1)
+            length_penalty = gr.Number(label="length_penalty", value=0.0, step=0.1)
+            max_mel_tokens = gr.Slider(label="max_mel_tokens", minimum=50, maximum=600, value=600, step=10)
+    gen_button.click(
+        generate_audio,
+        inputs=[prompt_audio, text_input, do_sample, top_p, top_k, temperature,
+                num_beams, repetition_penalty, length_penalty, max_mel_tokens],
+        outputs=[output_audio]
     )
+# --- 启动 ---
 if __name__ == "__main__":
+    demo.launch(server_name=cmd_args.host, server_port=cmd_args.port)