Spaces:

PlotweaverModel
/

Live-Football-Commentary

Sleeping

App Files Files Community

PlotweaverModel commited on Apr 7

Commit

7f24b54

verified ·

1 Parent(s): 9cf39bc

app file update

Browse files

Files changed (1) hide show

app.py +37 -19

app.py CHANGED Viewed

@@ -114,28 +114,45 @@ def transcribe(audio_array, sample_rate=16000):
     return result["text"].strip()
-def translate_sentence(text, max_length=256):
-    """MT: Single sentence English to Yoruba."""
     inputs = mt_tokenizer(text, return_tensors="pt", truncation=True).to(DEVICE)
     with torch.no_grad():
-        output_ids = mt_model.generate(
-            **inputs,
-            max_length=max_length,
-            forced_bos_token_id=tgt_lang_id,
-            repetition_penalty=1.5,
-            no_repeat_ngram_size=3,
-            num_beams=4,
-            early_stopping=True,
-        )
     return mt_tokenizer.decode(output_ids[0], skip_special_tokens=True)
-def translate_text(text):
     """Split and translate sentence by sentence."""
     sentences = split_into_sentences(text)
     if not sentences:
         return ""
-    translations = [translate_sentence(s) for s in sentences]
     return ' '.join(translations)
@@ -158,8 +175,8 @@ def process_chunk(audio_array, sample_rate):
     if not english:
         return None, None, "", "", 0
-    # MT
-    yoruba = translate_text(english)
     if not yoruba:
         return None, None, english, "", 0
@@ -323,7 +340,10 @@ def streaming_process(audio_input, state):
         state.transcript_yo.append(yoruba)
     if audio_out is not None and len(audio_out) > 0:
-        return (sr_out, audio_out), format_live_log(state), state
     else:
         return None, format_live_log(state), state
@@ -362,8 +382,6 @@ DESCRIPTION = """
 # Live Football Commentary \u2014 English \u2192 Yoruba
 Translate English football commentary into Yoruba speech in real-time.
-**Pipeline:** ASR (Whisper) \u2192 MT (NLLB-200) \u2192 TTS (MMS-TTS Yoruba)
 """
 STREAMING_INSTRUCTIONS = """
@@ -374,7 +392,6 @@ STREAMING_INSTRUCTIONS = """
 4. The transcript updates live below
 5. Click **Clear** to reset
-**Expected latency:** ~3\u20135 seconds behind your speech.
 """.format(chunk_dur=CHUNK_DURATION_S)
 EXAMPLES_TEXT = [
@@ -414,6 +431,7 @@ with gr.Blocks(
                         label="Yoruba Output",
                         type="numpy",
                         autoplay=True,
                     )
                     stream_log = gr.Markdown(
                         label="Live Transcript",

     return result["text"].strip()
+def translate_sentence(text, max_length=256, fast=False):
+    """MT: Single sentence English to Yoruba.
+    fast=True uses greedy decoding (3-4x faster) for streaming mode.
+    fast=False uses beam search for better quality in batch mode.
+    """
     inputs = mt_tokenizer(text, return_tensors="pt", truncation=True).to(DEVICE)
     with torch.no_grad():
+        if fast:
+            # Greedy decoding - much faster, slightly lower quality
+            output_ids = mt_model.generate(
+                **inputs,
+                max_length=max_length,
+                forced_bos_token_id=tgt_lang_id,
+                repetition_penalty=1.5,
+                no_repeat_ngram_size=3,
+                num_beams=1,
+                do_sample=False,
+            )
+        else:
+            # Beam search - better quality, slower
+            output_ids = mt_model.generate(
+                **inputs,
+                max_length=max_length,
+                forced_bos_token_id=tgt_lang_id,
+                repetition_penalty=1.5,
+                no_repeat_ngram_size=3,
+                num_beams=4,
+                early_stopping=True,
+            )
     return mt_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+def translate_text(text, fast=False):
     """Split and translate sentence by sentence."""
     sentences = split_into_sentences(text)
     if not sentences:
         return ""
+    translations = [translate_sentence(s, fast=fast) for s in sentences]
     return ' '.join(translations)
     if not english:
         return None, None, "", "", 0
+    # MT (fast mode for streaming - greedy decoding)
+    yoruba = translate_text(english, fast=True)
     if not yoruba:
         return None, None, english, "", 0
         state.transcript_yo.append(yoruba)
     if audio_out is not None and len(audio_out) > 0:
+        # Convert to int16 PCM format for streaming Audio output
+        audio_out = np.clip(audio_out, -1.0, 1.0)
+        audio_int16 = (audio_out * 32767).astype(np.int16)
+        return (sr_out, audio_int16), format_live_log(state), state
     else:
         return None, format_live_log(state), state
 # Live Football Commentary \u2014 English \u2192 Yoruba
 Translate English football commentary into Yoruba speech in real-time.
 """
 STREAMING_INSTRUCTIONS = """
 4. The transcript updates live below
 5. Click **Clear** to reset
 """.format(chunk_dur=CHUNK_DURATION_S)
 EXAMPLES_TEXT = [
                         label="Yoruba Output",
                         type="numpy",
                         autoplay=True,
+                        streaming=True,
                     )
                     stream_log = gr.Markdown(
                         label="Live Transcript",