Spaces:

simler
/

Genie-TTS-testing

Running

antigravity commited on 4 days ago

Commit

e081c7f

1 Parent(s): 35881ba

feat: add fragment_interval API parameter for adjustable sentence gap

Files changed (4) hide show

app.py CHANGED Viewed

@@ -101,7 +101,8 @@ async def upload_and_tts(
     text: str = Form(...),
     language: str = Form("zh"),
     text_lang: str = Form(None),
-    speed: float = Form(1.0),  # 语速调节（0.5-2.0）
     file: UploadFile = File(...)
 ):
     """
@@ -128,7 +129,7 @@ async def upload_and_tts(
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
@@ -165,7 +166,8 @@ async def dynamic_tts(
     prompt_text: str = Form(None),
     prompt_lang: str = Form("zh"),
     text_lang: str = Form(None),
-    speed: float = Form(1.0),  # 语速调节（0.5-2.0）
     use_default_ref: bool = Form(True)
 ):
     """
@@ -187,7 +189,7 @@ async def dynamic_tts(
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed)
         # 🟢 等待文件生成（最多等5秒）
         wait_time = 0

     text: str = Form(...),
     language: str = Form("zh"),
     text_lang: str = Form(None),
+    speed: float = Form(1.0),
+    fragment_interval: float = Form(0.3),  # 句子间隔时长（秒）
     file: UploadFile = File(...)
 ):
     """
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
     prompt_text: str = Form(None),
     prompt_lang: str = Form("zh"),
     text_lang: str = Form(None),
+    speed: float = Form(1.0),
+    fragment_interval: float = Form(0.3),  # 句子间隔时长（秒）
     use_default_ref: bool = Form(True)
 ):
     """
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval)
         # 🟢 等待文件生成（最多等5秒）
         wait_time = 0

genie_tts/Core/TTSPlayer.py CHANGED Viewed

@@ -150,8 +150,8 @@ class TTSPlayer:
     def _save_session_audio(self):
         try:
-            # 🔥 修复：在音频块之间添加静音填充，实现自然过渡（参考 GPT-SoVITS fragment_interval）
-            fragment_interval = 0.3  # 句子间隔时长（秒）
             zero_padding = np.zeros(int(self.sample_rate * fragment_interval), dtype=np.float32)
             padded_chunks = []

     def _save_session_audio(self):
         try:
+            # 🔥 句子间静音间隔（从 context 读取，支持 API 动态调节）
+            fragment_interval = context.current_fragment_interval
             zero_padding = np.zeros(int(self.sample_rate * fragment_interval), dtype=np.float32)
             padded_chunks = []

genie_tts/Internal.py CHANGED Viewed

@@ -194,7 +194,8 @@ async def tts_async(
         split_sentence: bool = False,
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
-        speed: float = 1.0,  # 语速调节（0.5-2.0）
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
@@ -245,6 +246,8 @@ async def tts_async(
     context.current_text_language = normalize_language(text_language) if text_language else None
     # 设置语速
     context.current_speed = speed
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
@@ -273,7 +276,8 @@ def tts(
         split_sentence: bool = True,
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
-        speed: float = 1.0,  # 语速调节（0.5-2.0）
 ) -> None:
     """
     Synchronously generates speech from text.
@@ -309,6 +313,8 @@ def tts(
     context.current_text_language = normalize_language(text_language) if text_language else None
     # 设置语速
     context.current_speed = speed
     tts_player.start_session(
         play=play,

         split_sentence: bool = False,
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
+        speed: float = 1.0,
+        fragment_interval: float = 0.3,  # 句子间隔时长（秒）
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
     context.current_text_language = normalize_language(text_language) if text_language else None
     # 设置语速
     context.current_speed = speed
+    # 设置句子间隔
+    context.current_fragment_interval = fragment_interval
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
         split_sentence: bool = True,
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
+        speed: float = 1.0,
+        fragment_interval: float = 0.3,  # 句子间隔时长（秒）
 ) -> None:
     """
     Synchronously generates speech from text.
     context.current_text_language = normalize_language(text_language) if text_language else None
     # 设置语速
     context.current_speed = speed
+    # 设置句子间隔
+    context.current_fragment_interval = fragment_interval
     tts_player.start_session(
         play=play,

genie_tts/Utils/Shared.py CHANGED Viewed

@@ -10,6 +10,7 @@ class Context:
         self.current_prompt_audio: Optional['ReferenceAudio'] = None
         self.current_text_language: Optional[str] = None  # 目标文本语言（跨语言TTS）
         self.current_speed: float = 1.0  # 语速调节（0.5-2.0）
 context: Context = Context()

         self.current_prompt_audio: Optional['ReferenceAudio'] = None
         self.current_text_language: Optional[str] = None  # 目标文本语言（跨语言TTS）
         self.current_speed: float = 1.0  # 语速调节（0.5-2.0）
+        self.current_fragment_interval: float = 0.3  # 句子间隔时长（秒）
 context: Context = Context()