Spaces:

Senath
/

iVoiceSeamless

Runtime error

App Files Files Community

Senath commited on May 28, 2025

Commit

5ca0193

verified ·

1 Parent(s): 61e4fb2

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -38

app.py CHANGED Viewed

@@ -1,53 +1,45 @@
 import gradio as gr
-import torch
 import torchaudio
 from transformers import AutoProcessor, SeamlessM4TModel
-# Load the processor and model
-processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
 model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")
-# Define the translation function
-def translate(input_text, input_audio, source_lang, target_lang):
-    outputs = {}
-    if input_text:
-        # Process text input
-        text_inputs = processor(text=input_text, src_lang=source_lang, return_tensors="pt")
-        generated = model.generate(**text_inputs, tgt_lang=target_lang)
-        outputs["Translated Text"] = processor.decode(generated[0], skip_special_tokens=True)
-        # Generate speech from text
-        audio_output = model.generate(**text_inputs, tgt_lang=target_lang, generate_speech=True)
-        outputs["Translated Audio"] = (16000, audio_output[0].cpu().numpy())
-    elif input_audio:
-        # Process audio input
-        waveform, sample_rate = torchaudio.load(input_audio)
-        if sample_rate != 16000:
-            waveform = torchaudio.functional.resample(waveform, orig_freq=sample_rate, new_freq=16000)
-        audio_inputs = processor(audios=waveform.squeeze().numpy(), return_tensors="pt")
-        generated = model.generate(**audio_inputs, tgt_lang=target_lang)
-        outputs["Translated Text"] = processor.decode(generated[0], skip_special_tokens=True)
-        # Generate speech from audio
-        audio_output = model.generate(**audio_inputs, tgt_lang=target_lang, generate_speech=True)
-        outputs["Translated Audio"] = (16000, audio_output[0].cpu().numpy())
-    else:
-        outputs["Error"] = "Please provide either text or audio input."
-    return outputs.get("Translated Text", ""), outputs.get("Translated Audio", None)
-# Define the Gradio interface
-iface = gr.Interface(
     fn=translate,
     inputs=[
-        gr.Textbox(label="Input Text"),
-        gr.Audio(source="upload", type="filepath", label="Input Audio"),
-        gr.Textbox(label="Source Language (e.g., 'eng')"),
-        gr.Textbox(label="Target Language (e.g., 'hin')")
     ],
     outputs=[
         gr.Textbox(label="Translated Text"),
-        gr.Audio(label="Translated Audio")
     ],
-    title="iVoice Seamless Translator",
-    description="Translate text or speech into another language with both text and speech outputs."
 )
-iface.launch()

 import gradio as gr
 import torchaudio
+import torch
 from transformers import AutoProcessor, SeamlessM4TModel
+# Load model and processor
 model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")
+processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
+def translate(text_input, audio_file, target_lang):
+    results = []
+    if text_input:
+        text_inputs = processor(text=text_input, return_tensors="pt")
+        audio_out = model.generate(**text_inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
+        results.append(("Translated from text", audio_out))
+    if audio_file:
+        audio_waveform, sr = torchaudio.load(audio_file)
+        audio_waveform = torchaudio.functional.resample(audio_waveform, sr, 16000)
+        audio_inputs = processor(audios=audio_waveform, return_tensors="pt")
+        audio_out = model.generate(**audio_inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
+        results.append(("Translated from audio", audio_out))
+    combined_text = "\n".join([r[0] for r in results])
+    combined_audio = torch.tensor(results[0][1]) if results else None
+    return combined_text, (16000, combined_audio)
+demo = gr.Interface(
     fn=translate,
     inputs=[
+        gr.Textbox(label="Input Text", placeholder="Enter text to translate (optional)"),
+        gr.Audio(type="filepath", label="Input Audio (optional)"),
+        gr.Dropdown(choices=["eng", "hin", "spa", "fra", "por"], label="Target Language", value="hin")
     ],
     outputs=[
         gr.Textbox(label="Translated Text"),
+        gr.Audio(label="Translated Speech")
     ],
+    title="SeamlessM4T Translation",
+    description="Enter text or audio, choose a target language, and get translation + speech."
 )
+if __name__ == "__main__":
+    demo.launch()