Spaces:

owaski
/

Open-LiveTranslate

Sleeping

App Files Files Community

owaski commited on Nov 5, 2025

Commit

7de60ad

1 Parent(s): dbac1b4

add app and dependency

Browse files

Files changed (2) hide show

app.py +145 -4
requirements.txt +8 -0

app.py CHANGED Viewed

@@ -1,7 +1,148 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-demo = gr.Interface(fn=greet, inputs="text", outputs="text")
-demo.launch()

+import re
+import argparse
 import gradio as gr
+import numpy as np
+import torch
+import torchaudio.functional as F
+from transformers import (
+    AutoProcessor,
+    Qwen3OmniMoeThinkerForConditionalGeneration,
+    Qwen3OmniMoeForConditionalGeneration,
+    Qwen3OmniMoeProcessor,
+    GenerationConfig,
+    Qwen3OmniMoeConfig
+)
+from qwen_omni_utils import process_mm_info
+model_name = "owaski/Open-LiveTranslate-v0-En-Zh"
+model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
+    model_name,
+    dtype="auto",
+    device_map="auto",
+    attn_implementation="flash_attention_2",
+    enable_audio_output=False,
+)
+processor = Qwen3OmniMoeProcessor.from_pretrained(model_name)
+generation_config = GenerationConfig(
+    num_beams=1,
+    do_sample=False,
+    temperature=0.6,
+    top_p=0.95,
+    top_k=1,
+    max_new_tokens=2048,
+)
+def prepare_speech(new_chunk):
+    sr, y = new_chunk
+    # Convert to mono if stereo
+    if y.ndim > 1:
+        y = y.mean(axis=1)
+    y = y.astype(np.float32)
+    y /= 32768.0
+    resampled_y = F.resample(torch.from_numpy(y), sr, 16000)
+    return resampled_y.numpy()
+def prepare_inputs(messages, y):
+    if messages is None:
+        messages = [
+            {
+                "role": "system",
+                "content": [
+                    {"type": "text", "text": f"You are a professional simultaneous interpreter. You will be given chunks of English audio and you need to translate the audio into Chinese text."}
+                ]
+            }
+        ]
+    messages.append(
+        {
+            "role": "user",
+            "content": [{"type": "audio", "audio": y}]
+        }
+    )
+    text = processor.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        tokenize=False
+    )
+    audios, images, videos = process_mm_info(messages, use_audio_in_video=False)
+    inputs = processor(
+        text=text,
+        audio=audios,
+        images=images,
+        videos=videos,
+        return_tensors="pt",
+        padding=True,
+        use_audio_in_video=False
+    )
+    inputs['input_features'] = inputs['input_features'].to(model.dtype)
+    return messages, inputs
+def transcribe(messages, new_chunk):
+    y = prepare_speech(new_chunk)
+    messages, inputs = prepare_inputs(messages, y)
+    text_ids, _ = model.generate(
+        **inputs,
+        generation_config=generation_config,
+        return_audio=False,
+        thinker_return_dict_in_generate=True,
+        use_audio_in_video=False,
+    )
+    translation = processor.batch_decode(
+        text_ids.sequences[:, inputs["input_ids"].shape[1] :],
+        skip_special_tokens=True,
+        clean_up_tokenization_spaces=False
+    )[0]
+    messages.append(
+        {
+            "role": "assistant",
+            "content": [{"type": "text", "text": translation}]
+        }
+    )
+    full_translation = ''.join([message["content"][0]["text"] for message in messages if message["role"] == "assistant"])
+    return messages, full_translation
+with gr.Blocks(css="""
+    .large-font textarea {
+        font-size: 20px !important;
+        font-weight: 500;
+    }
+    .large-font label {
+        font-size: 20px !important;
+        font-weight: bold;
+    }
+""") as demo:
+    gr.Markdown("# Simultaneous Speech Translation Demo")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(sources=["microphone"], streaming=True, label="Audio Input")
+            state_input = gr.State()
+    with gr.Row():
+        with gr.Column():
+            translation_output = gr.Textbox(
+                label="Translation",
+                lines=5,
+                interactive=False,
+                elem_classes=["large-font"]
+            )
+            state_output = gr.State()
+    audio_input.stream(
+        transcribe,
+        inputs=[state_input, audio_input],
+        outputs=[state_output, translation_output],
+        show_progress=False,
+        stream_every=0.96
+    )
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch==2.8.0
+torchvision==0.23.0
+torchaudio==2.8.0
+transformers==4.57.1
+accelerate
+qwen-omni-utils
+jupyter
+gradio