Spaces:

simler
/

Genie-TTS-testing

Sleeping

App Files Files Community

antigravity commited on 14 days ago

Commit

82f54c3

1 Parent(s): e081c7f

feat: add fade_duration API parameter for smooth fade in/out transitions

Browse files

Files changed (4) hide show

app.py +6 -4
genie_tts/Core/TTSPlayer.py +19 -1
genie_tts/Internal.py +8 -2
genie_tts/Utils/Shared.py +1 -0

app.py CHANGED Viewed

@@ -102,7 +102,8 @@ async def upload_and_tts(
     language: str = Form("zh"),
     text_lang: str = Form(None),
     speed: float = Form(1.0),
-    fragment_interval: float = Form(0.3),  # 句子间隔时长（秒）
     file: UploadFile = File(...)
 ):
     """
@@ -129,7 +130,7 @@ async def upload_and_tts(
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
@@ -167,7 +168,8 @@ async def dynamic_tts(
     prompt_lang: str = Form("zh"),
     text_lang: str = Form(None),
     speed: float = Form(1.0),
-    fragment_interval: float = Form(0.3),  # 句子间隔时长（秒）
     use_default_ref: bool = Form(True)
 ):
     """
@@ -189,7 +191,7 @@ async def dynamic_tts(
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
-        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval)
         # 🟢 等待文件生成（最多等5秒）
         wait_time = 0

     language: str = Form("zh"),
     text_lang: str = Form(None),
     speed: float = Form(1.0),
+    fragment_interval: float = Form(0.3),
+    fade_duration: float = Form(0.0),  # 淡入淡出时长（秒）
     file: UploadFile = File(...)
 ):
     """
         out_path = f"/tmp/out_{ts}.wav"
         # 🟢 执行 TTS
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval, fade_duration=fade_duration)
         # 🟢 关键：强制等待文件出现（最多等5秒）
         wait_time = 0
     prompt_lang: str = Form("zh"),
     text_lang: str = Form(None),
     speed: float = Form(1.0),
+    fragment_interval: float = Form(0.3),
+    fade_duration: float = Form(0.0),  # 淡入淡出时长（秒）
     use_default_ref: bool = Form(True)
 ):
     """
         genie_tts.set_reference_audio(character_name, ref_info["path"], final_text, prompt_lang)
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang, speed=speed, fragment_interval=fragment_interval, fade_duration=fade_duration)
         # 🟢 等待文件生成（最多等5秒）
         wait_time = 0

genie_tts/Core/TTSPlayer.py CHANGED Viewed

@@ -152,11 +152,29 @@ class TTSPlayer:
         try:
             # 🔥 句子间静音间隔（从 context 读取，支持 API 动态调节）
             fragment_interval = context.current_fragment_interval
             zero_padding = np.zeros(int(self.sample_rate * fragment_interval), dtype=np.float32)
             padded_chunks = []
             for i, chunk in enumerate(self._session_audio_chunks):
-                padded_chunks.append(chunk)
                 # 在除最后一块外的每块后面添加静音
                 if i < len(self._session_audio_chunks) - 1:
                     padded_chunks.append(zero_padding)

         try:
             # 🔥 句子间静音间隔（从 context 读取，支持 API 动态调节）
             fragment_interval = context.current_fragment_interval
+            fade_duration = context.current_fade_duration
+            # 淡入淡出处理函数
+            def apply_fade(audio: np.ndarray, fade_samples: int) -> np.ndarray:
+                if fade_samples <= 0 or len(audio) < fade_samples * 2:
+                    return audio
+                audio = audio.copy().flatten()
+                # 淡入（开头）
+                fade_in = np.linspace(0, 1, fade_samples)
+                audio[:fade_samples] *= fade_in
+                # 淡出（结尾）
+                fade_out = np.linspace(1, 0, fade_samples)
+                audio[-fade_samples:] *= fade_out
+                return audio
+            fade_samples = int(self.sample_rate * fade_duration)
             zero_padding = np.zeros(int(self.sample_rate * fragment_interval), dtype=np.float32)
             padded_chunks = []
             for i, chunk in enumerate(self._session_audio_chunks):
+                # 对每个音频块应用淡入淡出
+                processed_chunk = apply_fade(chunk, fade_samples) if fade_duration > 0 else chunk.flatten()
+                padded_chunks.append(processed_chunk)
                 # 在除最后一块外的每块后面添加静音
                 if i < len(self._session_audio_chunks) - 1:
                     padded_chunks.append(zero_padding)

genie_tts/Internal.py CHANGED Viewed

@@ -195,7 +195,8 @@ async def tts_async(
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
         speed: float = 1.0,
-        fragment_interval: float = 0.3,  # 句子间隔时长（秒）
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
@@ -248,6 +249,8 @@ async def tts_async(
     context.current_speed = speed
     # 设置句子间隔
     context.current_fragment_interval = fragment_interval
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
@@ -277,7 +280,8 @@ def tts(
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
         speed: float = 1.0,
-        fragment_interval: float = 0.3,  # 句子间隔时长（秒）
 ) -> None:
     """
     Synchronously generates speech from text.
@@ -315,6 +319,8 @@ def tts(
     context.current_speed = speed
     # 设置句子间隔
     context.current_fragment_interval = fragment_interval
     tts_player.start_session(
         play=play,

         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
         speed: float = 1.0,
+        fragment_interval: float = 0.3,
+        fade_duration: float = 0.0,  # 淡入淡出时长（秒）
 ) -> AsyncIterator[bytes]:
     """
     Asynchronously generates speech from text and yields audio chunks.
     context.current_speed = speed
     # 设置句子间隔
     context.current_fragment_interval = fragment_interval
+    # 设置淡入淡出
+    context.current_fade_duration = fade_duration
     # 3. 使用新的回调接口启动 TTS 会话
     tts_player.start_session(
         save_path: Union[str, PathLike, None] = None,
         text_language: str = None,
         speed: float = 1.0,
+        fragment_interval: float = 0.3,
+        fade_duration: float = 0.0,  # 淡入淡出时长（秒）
 ) -> None:
     """
     Synchronously generates speech from text.
     context.current_speed = speed
     # 设置句子间隔
     context.current_fragment_interval = fragment_interval
+    # 设置淡入淡出
+    context.current_fade_duration = fade_duration
     tts_player.start_session(
         play=play,

genie_tts/Utils/Shared.py CHANGED Viewed

@@ -11,6 +11,7 @@ class Context:
         self.current_text_language: Optional[str] = None  # 目标文本语言（跨语言TTS）
         self.current_speed: float = 1.0  # 语速调节（0.5-2.0）
         self.current_fragment_interval: float = 0.3  # 句子间隔时长（秒）
 context: Context = Context()

         self.current_text_language: Optional[str] = None  # 目标文本语言（跨语言TTS）
         self.current_speed: float = 1.0  # 语速调节（0.5-2.0）
         self.current_fragment_interval: float = 0.3  # 句子间隔时长（秒）
+        self.current_fade_duration: float = 0.0  # 淡入淡出时长（秒），0 表示不使用
 context: Context = Context()