Spaces:

Senath
/

iVoiceSeamless

Sleeping

App Files Files Community

Senath commited on Jun 2, 2025

Commit

48bd16f

verified ·

1 Parent(s): e8bbdcb

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -29

app.py CHANGED Viewed

@@ -12,39 +12,44 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 processor = AutoProcessor.from_pretrained(MODEL_NAME)
 model = SeamlessM4TModel.from_pretrained(MODEL_NAME).to(device).eval()
-# Gradio-compatible function using single input list (required for /run/predict to work)
-def translate(inputs):
-    try:
-        text_input, audio_input, source_lang, target_lang, auto_detect = inputs
-        src = None if auto_detect else source_lang
-        translated_text = ""
-        translated_audio = None
-        if text_input:
-            proc_inputs = processor(text=text_input, src_lang=src, return_tensors="pt").to(device)
-            speech = model.generate(**proc_inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
-            text_tokens = model.generate(**proc_inputs, tgt_lang=target_lang, generate_speech=False)
-            translated_text = processor.decode(text_tokens[0].tolist()[0], skip_special_tokens=True)
-            translated_audio = (16000, speech)
-        elif audio_input:
-            waveform, sr = torchaudio.load(audio_input)
-            waveform = torchaudio.functional.resample(waveform, sr, 16000)
-            proc_inputs = processor(audios=waveform, src_lang=src, return_tensors="pt").to(device)
-            speech = model.generate(**proc_inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
-            text_tokens = model.generate(**proc_inputs, tgt_lang=target_lang, generate_speech=False)
-            translated_text = processor.decode(text_tokens[0].tolist()[0], skip_special_tokens=True)
-            translated_audio = (16000, speech)
-        else:
-            translated_text = "No input provided."
-        return [translated_text, translated_audio]
-    except Exception as e:
-        return [f"Error: {str(e)}", None]
-# Gradio Interface
 iface = gr.Interface(
     fn=translate,
     inputs=[
@@ -52,7 +57,7 @@ iface = gr.Interface(
         gr.Audio(type="filepath", label="Input Audio (optional)"),
         gr.Textbox(label="Source Language (e.g. eng)"),
         gr.Textbox(label="Target Language (e.g. fra)"),
-        gr.Checkbox(label="Auto-detect source language", value=True)
     ],
     outputs=[
         gr.Textbox(label="Translated Text"),
@@ -61,4 +66,4 @@ iface = gr.Interface(
     title="iVoice Translate (Text + Speech)"
 ).queue()
-iface.launch()

 processor = AutoProcessor.from_pretrained(MODEL_NAME)
 model = SeamlessM4TModel.from_pretrained(MODEL_NAME).to(device).eval()
+# Main translation function
+def translate(text_input, audio_input, source_lang, target_lang, auto_detect):
+    src = None if auto_detect else source_lang
+    translated_text = None
+    translated_audio = None
+    # If text is provided
+    if text_input:
+        inputs = processor(text=text_input, src_lang=src, return_tensors="pt").to(device)
+        # Generate speech
+        speech = model.generate(**inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
+        # Generate text
+        text_tokens = model.generate(**inputs, tgt_lang=target_lang, generate_speech=False)
+        translated_text = processor.decode(text_tokens[0].tolist()[0], skip_special_tokens=True)
+        translated_audio = (16000, speech)
+    # If audio is provided
+    elif audio_input:
+        waveform, sr = torchaudio.load(audio_input)
+        waveform = torchaudio.functional.resample(waveform, sr, 16000)
+        inputs = processor(audios=waveform, src_lang=src, return_tensors="pt").to(device)
+        # Generate speech
+        speech = model.generate(**inputs, tgt_lang=target_lang)[0].cpu().numpy().squeeze()
+        # Generate text
+        text_tokens = model.generate(**inputs, tgt_lang=target_lang, generate_speech=False)
+        translated_text = processor.decode(text_tokens[0].tolist()[0], skip_special_tokens=True)
+        translated_audio = (16000, speech)
+    if translated_text or translated_audio:
+        return translated_text or "", translated_audio
+    return "No input provided.", None
 iface = gr.Interface(
     fn=translate,
     inputs=[
         gr.Audio(type="filepath", label="Input Audio (optional)"),
         gr.Textbox(label="Source Language (e.g. eng)"),
         gr.Textbox(label="Target Language (e.g. fra)"),
+        gr.Checkbox(label="Auto-detect source language")
     ],
     outputs=[
         gr.Textbox(label="Translated Text"),
     title="iVoice Translate (Text + Speech)"
 ).queue()
+iface.launch()  # <== Add this line and remove the entire if __name__ == "__main__"