Spaces:

EnDevSols
/

Urdu-TTS

Runtime error

App Files Files Community

Mudassir-75 commited on Feb 19, 2025

Commit

d4af064

verified ·

1 Parent(s): 6013333

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -40

app.py CHANGED Viewed

@@ -1,49 +1,57 @@
 import gradio as gr
 import torch
 from transformers import VitsModel, AutoTokenizer
-import scipy.io.wavfile as wav
-import numpy as np
-import tempfile
-# MMS-TTS اردو ماڈل لوڈ کریں
-model_name = "facebook/mms-tts-urd-script_devanagari"
 model = VitsModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-# متن کو آواز میں تبدیل کرنے کا فنکشن
-def text_to_speech(urdu_text):
-    # ان پٹ کی جانچ کریں
-    if not urdu_text.strip():
-        return "براہِ مہربانی، درست اردو متن درج کریں۔"
-    # ٹوکنائزیشن
-    inputs = tokenizer(urdu_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
-    # ٹوکنائزیشن کے بعد ان پٹ کی جانچ
-    if inputs["input_ids"].size(1) == 0:
-        return "ٹوکنائزیشن کے بعد ان پٹ خالی ہے۔ براہِ مہربانی، متن کی جانچ کریں اور دوبارہ کوشش کریں۔"
-    # input_ids کو LongTensor میں تبدیل کریں
-    inputs["input_ids"] = inputs["input_ids"].to(torch.long)
     with torch.no_grad():
-        output = model(**inputs).waveform.squeeze().numpy()
-    # آڈیو کو عارضی فائل میں محفوظ کریں
-    temp_wav_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
-    wav.write(temp_wav_file.name, model.config.sampling_rate, output)
-    return temp_wav_file.name  # پلے بیک اور ڈاؤن لوڈ کے لیے فائل کا راستہ واپس کریں
-# Gradio انٹرفیس
-iface = gr.Interface(
-    fn=text_to_speech,
-    inputs=gr.Textbox(label="اردو متن درج کریں", placeholder="یہاں اردو متن درج کریں"),
-    outputs=gr.Audio(label="تخلیق شدہ آواز"),
-    title="اردو ٹیکسٹ ٹو اسپیچ (MMS-TTS)",
-    description="یہ ایپلیکیشن آپ کے اردو متن کو مصنوعی آواز میں تبدیل کرتی ہے۔",
-    theme="default"
-)
-# ایپ لانچ کریں
-iface.launch()

 import gradio as gr
 import torch
 from transformers import VitsModel, AutoTokenizer
+# 1. Load the model (Nastaliq-based) and tokenizer
+#    This checkpoint is intended for Urdu text in its traditional (Nastaliq) script.
+model_name = "facebook/mms-tts-urd"
 model = VitsModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# 2. Define the inference function
+def generate_urdu_speech(urdu_text):
+    # Tokenize the input text
+    inputs = tokenizer(urdu_text, return_tensors="pt")
+    # Perform inference with the model
     with torch.no_grad():
+        output = model(**inputs).waveform
+    # Convert PyTorch tensor to NumPy array
+    waveform = output.squeeze().cpu().numpy()
+    sample_rate = model.config.sampling_rate
+    # Gradio’s Audio component expects (sample_rate, audio_data)
+    return (sample_rate, waveform)
+# 3. Build the Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("""
+    # Urdu TTS Demo (Nastaliq Script)
+    Enter text in Urdu (Nastaliq) script, and this demo will synthesize speech using the Facebook MMS TTS model for Urdu.
+    """)
+    # Text input for Urdu (Nastaliq)
+    text_input = gr.Textbox(
+        label="Enter Urdu text",
+        placeholder="مثال کے طور پر...",
+        lines=3
+    )
+    # Audio output
+    audio_output = gr.Audio(label="Generated Urdu Speech", type="numpy")
+    # Generate button
+    generate_button = gr.Button("Generate Speech")
+    # Wire up the button to the function
+    generate_button.click(
+        fn=generate_urdu_speech,
+        inputs=text_input,
+        outputs=audio_output
+    )
+# 4. Launch the Gradio app
+if __name__ == "__main__":
+    demo.launch()