Spaces:

simler
/

Genie-TTS-testing

Running

App Files Files Community

antigravity commited on 16 days ago

Commit

8f40bf2

1 Parent(s): b611ed5

feat: add speed control support

Browse files

Files changed (5) hide show

app.py +5 -3
genie_tts/Core/Inference.py +42 -1
genie_tts/Core/TTSPlayer.py +2 -1
genie_tts/Internal.py +8 -2
genie_tts/Utils/Shared.py +2 -1

app.py CHANGED Viewed

@@ -101,6 +101,7 @@ async def upload_and_tts(
     text: str = Form(...),
     language: str = Form("zh"),
     text_lang: str = Form(None),
     file: UploadFile = File(...)
 ):
     """
@@ -127,7 +128,7 @@ async def upload_and_tts(
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
@@ -161,7 +162,8 @@ async def dynamic_tts(
     character_name: str = Form("Base"),
     prompt_text: str = Form(None),
     prompt_lang: str = Form("zh"),
-    text_lang: str = Form(None),  # 新增：目标文本语言（跨语言TTS）
     use_default_ref: bool = Form(True)
 ):
     """
@@ -183,7 +185,7 @@ async def dynamic_tts(
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang)
         # 🟢 同样增加文件等待
         wait_time = 0

     text: str = Form(...),
     language: str = Form("zh"),
     text_lang: str = Form(None),
+    speed: float = Form(1.0),  # 语速调节（0.5-2.0）
     file: UploadFile = File(...)
 ):
     """
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
     character_name: str = Form("Base"),
     prompt_text: str = Form(None),
     prompt_lang: str = Form("zh"),
+    text_lang: str = Form(None),
+    speed: float = Form(1.0),  # 语速调节（0.5-2.0）
     use_default_ref: bool = Form(True)
 ):
     """
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed)
         # 🟢 同样增加文件等待
         wait_time = 0

genie_tts/Core/Inference.py CHANGED Viewed

@@ -9,6 +9,43 @@ from ..GetPhonesAndBert import get_phones_and_bert
 MAX_T2S_LEN = 1000
 class GENIE:
     def __init__(self):
         self.stop_event: threading.Event = threading.Event()
@@ -23,7 +60,8 @@ class GENIE:
             vocoder: ort.InferenceSession,
             prompt_encoder: Optional[ort.InferenceSession],
             language: str = 'japanese',
-            text_language: str = None,  # 新增：目标文本语言，默认使用参考音频语言
     ) -> Optional[np.ndarray]:
         # 如果未指定 text_language，则使用参考音频的语言
         actual_text_language = text_language if text_language else language
@@ -46,6 +84,9 @@ class GENIE:
             first_eos_index = eos_indices[-1][0]
             semantic_tokens = semantic_tokens[..., :first_eos_index]
         if prompt_encoder is None:
             return vocoder.run(None, {
                 "text_seq": text_seq,

 MAX_T2S_LEN = 1000
+def stretch_semantic_tokens(tokens: np.ndarray, speed: float) -> np.ndarray:
+    """
+    语义 Token 插值（最近邻），用于实现语速调节。
+    借鉴自 AstraTTS 的 StretchSemanticTokens 算法。
+    Args:
+        tokens: 原始 semantic tokens [1, 1, T]
+        speed: 语速系数，>1 加速，<1 减速
+    Returns:
+        插值后的 tokens
+    """
+    if tokens is None or tokens.size == 0:
+        return tokens
+    if abs(speed - 1.0) < 0.01:
+        return tokens
+    # 提取原始 token 序列（去除批次维度）
+    original = tokens.flatten()
+    original_len = len(original)
+    # 计算新长度
+    new_len = int(round(original_len / speed))
+    if new_len < 1:
+        new_len = 1
+    # 最近邻插值
+    result = np.zeros(new_len, dtype=original.dtype)
+    for i in range(new_len):
+        old_idx = int(i * speed)
+        if old_idx >= original_len:
+            old_idx = original_len - 1
+        result[i] = original[old_idx]
+    # 恢复原始形状 [1, 1, new_len]
+    return result.reshape(1, 1, -1)
 class GENIE:
     def __init__(self):
         self.stop_event: threading.Event = threading.Event()
             vocoder: ort.InferenceSession,
             prompt_encoder: Optional[ort.InferenceSession],
             language: str = 'japanese',
+            text_language: str = None,
+            speed: float = 1.0,  # 语速调节
     ) -> Optional[np.ndarray]:
         # 如果未指定 text_language，则使用参考音频的语言
         actual_text_language = text_language if text_language else language
             first_eos_index = eos_indices[-1][0]
             semantic_tokens = semantic_tokens[..., :first_eos_index]
+        # 🔥 语速调节：在 vocoder 前对 semantic tokens 进行插值
+        semantic_tokens = stretch_semantic_tokens(semantic_tokens, speed)
         if prompt_encoder is None:
             return vocoder.run(None, {
                 "text_seq": text_seq,

genie_tts/Core/TTSPlayer.py CHANGED Viewed

@@ -93,7 +93,8 @@ class TTSPlayer:
                     vocoder=gsv_model.VITS,
                     prompt_encoder=gsv_model.PROMPT_ENCODER,
                     language=gsv_model.LANGUAGE,
-                    text_language=context.current_text_language,  # 新增：跨语言TTS支持
                 )
                 if audio_chunk is not None:

                     vocoder=gsv_model.VITS,
                     prompt_encoder=gsv_model.PROMPT_ENCODER,
                     language=gsv_model.LANGUAGE,
+                    text_language=context.current_text_language,
+                    speed=context.current_speed,  # 🔥 语速调节
                 )
                 if audio_chunk is not None:

genie_tts/Internal.py CHANGED Viewed

@@ -193,7 +193,8 @@ async def tts_async(
         play: bool = False,
         split_sentence: bool = False,
         save_path: Union[str, PathLike, None] = None,
-        text_language: str = None,  # 新增：目标文本语言，用于跨语言TTS
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
@@ -242,6 +243,8 @@ async def tts_async(
     )
     # 设置目标文本语言（跨语言TTS）
     context.current_text_language = normalize_language(text_language) if text_language else None
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
@@ -269,7 +272,8 @@ def tts(
         play: bool = False,
         split_sentence: bool = True,
         save_path: Union[str, PathLike, None] = None,
-        text_language: str = None,  # 新增：目标文本语言，用于跨语言TTS
 ) -> None:
     """
     Synchronously generates speech from text.
@@ -303,6 +307,8 @@ def tts(
     )
     # 设置目标文本语言（跨语言TTS）
     context.current_text_language = normalize_language(text_language) if text_language else None
     tts_player.start_session(
         play=play,

         play: bool = False,
         split_sentence: bool = False,
         save_path: Union[str, PathLike, None] = None,
+        text_language: str = None,
+        speed: float = 1.0,  # 语速调节（0.5-2.0）
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
     )
     # 设置目标文本语言（跨语言TTS）
     context.current_text_language = normalize_language(text_language) if text_language else None
+    # 设置语速
+    context.current_speed = speed
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
         play: bool = False,
         split_sentence: bool = True,
         save_path: Union[str, PathLike, None] = None,
+        text_language: str = None,
+        speed: float = 1.0,  # 语速调节（0.5-2.0）
 ) -> None:
     """
     Synchronously generates speech from text.
     )
     # 设置目标文本语言（跨语言TTS）
     context.current_text_language = normalize_language(text_language) if text_language else None
+    # 设置语速
+    context.current_speed = speed
     tts_player.start_session(
         play=play,

genie_tts/Utils/Shared.py CHANGED Viewed

@@ -8,7 +8,8 @@ class Context:
     def __init__(self):
         self.current_speaker: str = ''
         self.current_prompt_audio: Optional['ReferenceAudio'] = None
-        self.current_text_language: Optional[str] = None  # 新增：目标文本语言（跨语言TTS）
 context: Context = Context()

     def __init__(self):
         self.current_speaker: str = ''
         self.current_prompt_audio: Optional['ReferenceAudio'] = None
+        self.current_text_language: Optional[str] = None  # 目标文本语言（跨语言TTS）
+        self.current_speed: float = 1.0  # 语速调节（0.5-2.0）
 context: Context = Context()