Spaces:

Rezfars
/

Ttsvaghii

Runtime error

App Files Files Community

Rezfars commited on Nov 10, 2025

Commit

2a11e16

verified ·

1 Parent(s): 6b4ac8f

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -73

app.py CHANGED Viewed

@@ -1,93 +1,75 @@
-import os
 import tempfile
-import numpy as np
-from TTS.utils.download import download_url
-from TTS.utils.synthesizer import Synthesizer
 from pydub import AudioSegment
 import gradio as gr
-# فقط دو مدل با کیفیت بالا
-MODEL_INFO = {
-    "VITS Male": ["best_model_65633.pth", "config-0.json", "https://huggingface.co/Kamtera/persian-tts-male-vits/resolve/main/"],
-    "VITS Female (Best)": ["checkpoint_48000.pth", "config-2.json", "https://huggingface.co/Kamtera/persian-tts-female-vits/resolve/main/"]
 }
-MAX_TXT_LEN = 800
-synthesizers = {}  # برای lazy loading
-# دانلود مدل‌ها اگر موجود نیستند
-for model_name, (model_file, config_file, url) in MODEL_INFO.items():
-    if not os.path.exists(model_name):
-        os.makedirs(model_name)
-    download_url(url + model_file, model_name, "best_model.pth")
-    download_url(url + config_file, model_name, "config.json")
-# تابع lazy load
-def get_synthesizer(model_name):
-    if model_name not in synthesizers:
-        synthesizers[model_name] = Synthesizer(
-            model_name + "/best_model.pth",
-            model_name + "/config.json"
-        )
-    return synthesizers[model_name]
-# تبدیل numpy به AudioSegment
-def numpy_to_audiosegment(wav: np.ndarray, sample_rate: int):
-    if wav.dtype != np.float32:
-        wav = wav.astype(np.float32) / np.max(np.abs(wav))
-    audio_int16 = (wav * 32767).astype(np.int16)
-    return AudioSegment(
-        audio_int16.tobytes(),
-        frame_rate=sample_rate,
-        sample_width=2,
-        channels=1
-    )
-# تابع TTS دیالوگ
-def tts_dialogue(texts: str):
-    lines = texts.strip().split("\n")
     audio_segments = []
     for line in lines:
         if ':' not in line:
             continue
         speaker, text = line.split(":", 1)
-        text = text.strip()[:MAX_TXT_LEN]
-        # انتخاب مدل بر اساس گوینده
-        if "مرد" in speaker:
-            model_name = "VITS Male"
         else:
-            model_name = "VITS Female (Best)"
-        synthesizer = get_synthesizer(model_name)
-        wav, sr = synthesizer.tts(text)
-        segment = numpy_to_audiosegment(wav, sr)
-        audio_segments.append(segment)
-    if not audio_segments:
         return None
-    # چسباندن با crossfade کوتاه
-    final_audio = audio_segments[0]
-    for segment in audio_segments[1:]:
-        final_audio = final_audio.append(segment, crossfade=50)
-    # ذخیره نهایی
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
-        final_audio.export(fp.name, format="wav")
-        return fp.name
-# Gradio interface
-iface = gr.Interface(
-    fn=tts_dialogue,
-    inputs=gr.Textbox(
-        label="Enter Dialogue (use 'مرد:' and 'زن:' as prefixes)",
-        lines=10,
-        placeholder="مرد: سلام\nزن: سلام، خوبی؟"
-    ),
-    outputs=gr.Audio(label="Generated Dialogue", type='filepath'),
-    title="🗣️ Persian TTS Dialogue 🗣️",
-    description="Convert a Persian dialogue between two speakers into speech.",
-)
-iface.launch(share=False)

 import tempfile
+import asyncio
 from pydub import AudioSegment
+import edge_tts
 import gradio as gr
+# بهترین مدل های TTS فارسی (با کیفیت بالا)
+language_dict = {
+    "Persian": {
+        "Dilara (Female)": "fa-IR-DilaraNeural",  # بهترین مدل زنانه
+        "Farid (Male)": "fa-IR-FaridNeural"       # بهترین مدل مردانه
+    }
 }
+# تابع async برای تولید گفتار
+async def tts_dialogue_persian(dialogue_text):
+    lines = dialogue_text.strip().split("\n")
     audio_segments = []
     for line in lines:
         if ':' not in line:
             continue
         speaker, text = line.split(":", 1)
+        text = text.strip()
+        # انتخاب بهترین مدل براساس پیشوند
+        if "زن" in speaker:
+            voice = language_dict["Persian"]["Dilara (Female)"]
         else:
+            voice = language_dict["Persian"]["Farid (Male)"]
+        communicate = edge_tts.Communicate(text, voice)
+        # ذخیره موقت و تبدیل به AudioSegment
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
+            tmp_path = tmp_file.name
+            await communicate.save(tmp_path)
+            segment = AudioSegment.from_file(tmp_path)
+            audio_segments.append(segment)
+    # ترکیب تمام قطعات صوتی
+    if audio_segments:
+        final_audio = sum(audio_segments)
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
+            final_path = tmp_file.name
+            final_audio.export(final_path, format="mp3")
+        return final_path
+    else:
         return None
+# Wrapper برای استفاده در Gradio
+def tts_dialogue_wrapper(dialogue_text):
+    return asyncio.run(tts_dialogue_persian(dialogue_text))
+# رابط Gradio
+with gr.Blocks(title="Persian TTS Dialogue") as demo:
+    gr.HTML("<center><h1>Persian TTS Dialogue (Edge TTS)</h1></center>")
+    gr.Markdown("Use 'زن:' and 'مرد:' as prefixes for lines to select voice.")
+    with gr.Row():
+        with gr.Column():
+            input_text = gr.Textbox(
+                lines=10,
+                label="Input Dialogue",
+                placeholder="مرد: سلام\nزن: سلام، خوبی؟"
+            )
+            run_btn = gr.Button(value="Generate Audio", variant="primary")
+        with gr.Column():
+            output_audio = gr.Audio(type="filepath", label="Generated Dialogue")
+    run_btn.click(tts_dialogue_wrapper, inputs=[input_text], outputs=[output_audio])
+if __name__ == "__main__":
+    demo.queue().launch(share=True)