Spaces:

LTTEAM
/

Clone

Paused

App Files Files Community

LTTEAM commited on Jul 30, 2025

Commit

5c5adf3

verified ·

1 Parent(s): 1a0bd0a

Update app.py

Browse files

Files changed (1) hide show

app.py +112 -57

app.py CHANGED Viewed

@@ -3,13 +3,15 @@ import sys
 import importlib
 import json
 import asyncio
 from datetime import datetime
 import torch
 import gradio as gr
 import pydub
 import edge_tts
-import srt
 # --- 1) Đảm bảo src/ có trong Python path để import ChatterboxVC ---
 script_dir = os.path.dirname(os.path.abspath(__file__))
@@ -46,11 +48,15 @@ def yield_vc_updates(log_msg=None, audio_data=None, file_list=None, log_append=T
     log_update = gr.update(value="\n".join(global_log_messages_vc))
     # audio output
-    audio_update = gr.update(visible=(audio_data is not None),
-                             value=audio_data if audio_data is not None else None)
     # file-download output
-    files_update = gr.update(visible=(file_list is not None),
-                             value=file_list if file_list is not None else [])
     yield log_update, audio_update, files_update
@@ -69,7 +75,7 @@ def load_edge_tts_voices(json_path="voices.json"):
 edge_choices, edge_code_map = load_edge_tts_voices()
-# --- 5) TTS Edge với rate & volume ---
 async def _edge_tts_async(text, disp, rate_pct, vol_pct):
     code = edge_code_map.get(disp)
     rate_str = f"{rate_pct:+d}%"
@@ -82,37 +88,86 @@ def run_edge_tts(text, disp, rate_pct, vol_pct):
     path = asyncio.run(_edge_tts_async(text, disp, rate_pct, vol_pct))
     return path, path
-# --- 6) Sinh audio từ SRT (có rate & vol) ---
-def synthesize_srt_audio(srt_path: str, disp_voice: str, work_dir: str,
-                         rate_pct: int, vol_pct: int) -> str:
-    with open(srt_path, "r", encoding="utf-8") as f:
-        subs = list(srt.parse(f.read()))
-    combined = pydub.AudioSegment.empty()
-    current_ms = 0
-    for sub in subs:
-        start_ms = int(sub.start.total_seconds() * 1000)
-        end_ms   = int(sub.end.total_seconds()   * 1000)
-        dur_ms   = end_ms - start_ms
-        # silence until start
-        if start_ms > current_ms:
-            combined += pydub.AudioSegment.silent(duration=start_ms - current_ms)
-        tmp_wav, _ = run_edge_tts(sub.content, disp_voice, rate_pct, vol_pct)
-        tts_audio = pydub.AudioSegment.from_file(tmp_wav)
-        # crop/pad để match dur
-        if len(tts_audio) > dur_ms:
-            tts_audio = tts_audio[:dur_ms]
         else:
-            tts_audio += pydub.AudioSegment.silent(duration=dur_ms - len(tts_audio))
-        combined += tts_audio
-        current_ms = end_ms
     out_path = os.path.join(work_dir, "srt_source.wav")
-    combined.export(out_path, format="wav")
     return out_path
 # --- 7) Voice Conversion chính ---
@@ -174,9 +229,9 @@ def generate_vc(
                     os.remove(tmp)
                     yield from yield_vc_updates(f"Xử lý đoạn {i+1}/{len(chunks)}")
                 # ghép lại
-                combined = pydub.AudioSegment.empty()
                 for p in temp_paths:
-                    combined += pydub.AudioSegment.from_file(p)
                 final = os.path.join(work_dir, "combined.wav")
                 combined.export(final, format="wav")
                 outputs.append(final)
@@ -192,7 +247,7 @@ def generate_vc(
         yield from yield_vc_updates(f"Lỗi: {e}")
         raise
-    # cuốn cùng: luôn trả về cả audio đầu tiên và danh sách files cho download
     first = outputs[0] if outputs else None
     yield from yield_vc_updates(log_msg=None, audio_data=first, file_list=outputs)
@@ -288,18 +343,18 @@ with gr.Blocks(title="Chuyển Giọng Nói AI") as demo:
     # Toggle SRT
     def toggle_srt(v):
         return (
-            gr.update(visible=v),   # srt_file
-            gr.update(visible=v),   # srt_voice
-            gr.update(visible=v),   # srt_rate
-            gr.update(visible=v),   # srt_vol
-            gr.update(visible=not v), # use_edge
-            gr.update(visible=not v), # edge_text
-            gr.update(visible=not v), # edge_voice
-            gr.update(visible=not v), # edge_rate
-            gr.update(visible=not v), # edge_vol
-            gr.update(visible=not v), # gen_edge_btn
-            gr.update(visible=not v), # edge_audio
-            gr.update(visible=not v)  # src_audio
         )
     use_srt.change(
         fn=toggle_srt,
@@ -314,13 +369,13 @@ with gr.Blocks(title="Chuyển Giọng Nói AI") as demo:
     # Toggle Edge TTS
     def toggle_edge(v):
         return (
-            gr.update(visible=v),   # edge_text
-            gr.update(visible=v),   # edge_voice
-            gr.update(visible=v),   # edge_rate
-            gr.update(visible=v),   # edge_vol
-            gr.update(visible=v),   # gen_edge_btn
-            gr.update(visible=v),   # edge_audio
-            gr.update(visible=not v)  # src_audio
         )
     use_edge.change(
         fn=toggle_edge,

 import importlib
 import json
 import asyncio
+import tempfile
 from datetime import datetime
 import torch
 import gradio as gr
 import pydub
 import edge_tts
+import pysrt
+from pydub import AudioSegment
 # --- 1) Đảm bảo src/ có trong Python path để import ChatterboxVC ---
 script_dir = os.path.dirname(os.path.abspath(__file__))
     log_update = gr.update(value="\n".join(global_log_messages_vc))
     # audio output
+    audio_update = gr.update(
+        visible=(audio_data is not None),
+        value=audio_data if audio_data is not None else None
+    )
     # file-download output
+    files_update = gr.update(
+        visible=(file_list is not None),
+        value=file_list if file_list is not None else []
+    )
     yield log_update, audio_update, files_update
 edge_choices, edge_code_map = load_edge_tts_voices()
+# --- 5) TTS Edge với rate & volume (cho trường hợp nhập text trực tiếp) ---
 async def _edge_tts_async(text, disp, rate_pct, vol_pct):
     code = edge_code_map.get(disp)
     rate_str = f"{rate_pct:+d}%"
     path = asyncio.run(_edge_tts_async(text, disp, rate_pct, vol_pct))
     return path, path
+# --- 6) TTS from SRT sử dụng pysrt + chia nhỏ text nếu quá dài ---
+async def _tts_save_segment(text: str, voice_code: str, rate_pct: int, vol_pct: int, path: str) -> bool:
+    """
+    Save một đoạn text thành file audio bằng Edge TTS.
+    Trả về True nếu có audio, False nếu bị NoAudioReceived.
+    """
+    rate_str = f"{rate_pct:+d}%"
+    vol_str  = f"{vol_pct:+d}%"
+    try:
+        await edge_tts.Communicate(text, voice=voice_code, rate=rate_str, volume=vol_str).save(path)
+        return True
+    except edge_tts.exceptions.NoAudioReceived:
+        # segment quá ngắn, bỏ qua
+        return False
+async def _generate_audio_from_srt(
+    srt_path: str,
+    tmp_dir: str,
+    out_path: str,
+    voice_code: str,
+    rate_pct: int,
+    vol_pct: int
+):
+    """
+    Đọc file .srt, chia nhỏ text nếu >200 ký tự, gọi Edge TTS từng phần,
+    ghép các segment và export thành file WAV.
+    """
+    subs = pysrt.open(srt_path, encoding='utf-8')
+    segments = []
+    for i, sub in enumerate(subs):
+        text = sub.text.replace('\n', ' ')
+        # nếu text quá dài, chia nhỏ
+        if len(text) > 200:
+            parts = [text[k:k+200] for k in range(0, len(text), 200)]
         else:
+            parts = [text]
+        seg = AudioSegment.silent(duration=0)
+        for j, part in enumerate(parts):
+            seg_path = os.path.join(tmp_dir, f"seg_{i}_{j}.wav")
+            ok = await _tts_save_segment(part, voice_code, rate_pct, vol_pct, seg_path)
+            if ok:
+                seg += AudioSegment.from_file(seg_path)
+        segments.append(seg)
+    # ghép tất cả segments và export
+    if segments:
+        combined = segments[0]
+        for seg in segments[1:]:
+            combined += seg
+        combined.export(out_path, format="wav")
+def synthesize_srt_audio(
+    srt_path: str,
+    disp_voice: str,
+    work_dir: str,
+    rate_pct: int,
+    vol_pct: int
+) -> str:
+    """
+    Wrapper đồng bộ để sinh file WAV từ SRT bằng Edge TTS,
+    trả về đường dẫn file WAV để đưa vào pipeline clone voice.
+    """
+    # lấy mã giọng từ map
+    voice_code = edge_code_map.get(disp_voice)
+    # tạo tmp dir và định nghĩa output path
+    tmp_dir = tempfile.mkdtemp()
     out_path = os.path.join(work_dir, "srt_source.wav")
+    # chạy event loop bất đồng bộ
+    loop = asyncio.new_event_loop()
+    asyncio.set_event_loop(loop)
+    loop.run_until_complete(
+        _generate_audio_from_srt(
+            srt_path, tmp_dir, out_path,
+            voice_code, rate_pct, vol_pct
+        )
+    )
     return out_path
 # --- 7) Voice Conversion chính ---
                     os.remove(tmp)
                     yield from yield_vc_updates(f"Xử lý đoạn {i+1}/{len(chunks)}")
                 # ghép lại
+                combined = AudioSegment.empty()
                 for p in temp_paths:
+                    combined += AudioSegment.from_file(p)
                 final = os.path.join(work_dir, "combined.wav")
                 combined.export(final, format="wav")
                 outputs.append(final)
         yield from yield_vc_updates(f"Lỗi: {e}")
         raise
+    # trả về audio đầu tiên và danh sách file để download
     first = outputs[0] if outputs else None
     yield from yield_vc_updates(log_msg=None, audio_data=first, file_list=outputs)
     # Toggle SRT
     def toggle_srt(v):
         return (
+            gr.update(visible=v),    # srt_file
+            gr.update(visible=v),    # srt_voice
+            gr.update(visible=v),    # srt_rate
+            gr.update(visible=v),    # srt_vol
+            gr.update(visible=not v),# use_edge
+            gr.update(visible=not v),# edge_text
+            gr.update(visible=not v),# edge_voice
+            gr.update(visible=not v),# edge_rate
+            gr.update(visible=not v),# edge_vol
+            gr.update(visible=not v),# gen_edge_btn
+            gr.update(visible=not v),# edge_audio
+            gr.update(visible=not v) # src_audio
         )
     use_srt.change(
         fn=toggle_srt,
     # Toggle Edge TTS
     def toggle_edge(v):
         return (
+            gr.update(visible=v),    # edge_text
+            gr.update(visible=v),    # edge_voice
+            gr.update(visible=v),    # edge_rate
+            gr.update(visible=v),    # edge_vol
+            gr.update(visible=v),    # gen_edge_btn
+            gr.update(visible=v),    # edge_audio
+            gr.update(visible=not v) # src_audio
         )
     use_edge.change(
         fn=toggle_edge,