Spaces:

ranbac
/

TV

Sleeping

App Files Files Community

ranbac commited on 6 days ago

Commit

fbde2f0

verified ·

1 Parent(s): 7591c26

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -55

app.py CHANGED Viewed

@@ -1,64 +1,45 @@
 import gradio as gr
-from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
-# 1. Tải mô hình và Tokenizer của mBART-50
-model_name = "facebook/mbart-large-50-many-to-many-mmt"
-print("Đang tải mô hình mBART-50, vui lòng đợi...")
-model = MBartForConditionalGeneration.from_pretrained(model_name)
-tokenizer = MBart50TokenizerFast.from_pretrained(model_name)
-print("Tải mô hình thành công!")
-def translate_mbart(text, src_lang, tgt_lang):
     if not text.strip():
-        return ""
-    # 2. Bộ từ điển map ngôn ngữ giao diện sang mã chuẩn của mBART
-    lang_map = {
-        "Tiếng Trung": "zh_CN",
-        "Tiếng Anh": "en_XX",
-        "Tiếng Việt": "vi_VN"
-    }
-    # Lấy mã ngôn ngữ
-    source_code = lang_map.get(src_lang, "zh_CN")
-    target_code = lang_map.get(tgt_lang, "vi_VN")
-    # 3. Ép Tokenizer hiểu ngôn ngữ đầu vào
-    tokenizer.src_lang = source_code
-    encoded_text = tokenizer(text, return_tensors="pt")
-    # 4. Dịch sang ngôn ngữ đích
-    generated_tokens = model.generate(
-        **encoded_text,
-        forced_bos_token_id=tokenizer.lang_code_to_id[target_code],
-        max_length=512 # Tránh lỗi bị cắt đuôi câu
-    )
-    # 5. Giải mã kết quả
-    result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
-    return result
-# ================= GIAO DIỆN GRADIO =================
-with gr.Blocks(theme=gr.themes.Soft()) as interface:
-    gr.Markdown("## 🌍 Công cụ Dịch thuật Đa Ngôn Ngữ")
-    gr.Markdown("Xử lý bởi **Meta mBART-50 Many-to-Many** - Chạy trên Hugging Face CPU.")
-    with gr.Row():
-        with gr.Column():
-            src_lang = gr.Dropdown(choices=["Tiếng Trung", "Tiếng Anh", "Tiếng Việt"], value="Tiếng Trung", label="Ngôn ngữ gốc")
-            input_text = gr.Textbox(lines=5, label="Văn bản cần dịch", placeholder="Ví dụ: 电台要选出一对最恩爱的夫妻。对比后，有三对夫妻入围。")
-        with gr.Column():
-            tgt_lang = gr.Dropdown(choices=["Tiếng Trung", "Tiếng Anh", "Tiếng Việt"], value="Tiếng Việt", label="Ngôn ngữ đích")
-            output_text = gr.Textbox(lines=5, label="Kết quả dịch")
-    translate_btn = gr.Button("🚀 Dịch ngay với mBART-50", variant="primary")
-    translate_btn.click(
-        fn=translate_mbart,
-        inputs=[input_text, src_lang, tgt_lang],
-        outputs=output_text
-    )
-if __name__ == "__main__":
-    interface.launch()

+# app.py
 import gradio as gr
+from transformers import MarianMTModel, MarianTokenizer
+from pypinyin import lazy_pinyin, Style
+# Load model
+model_name = "Helsinki-NLP/opus-mt-zh-vi"
+tokenizer = MarianTokenizer.from_pretrained(model_name)
+model = MarianMTModel.from_pretrained(model_name)
+def translate_zh_vi(text):
     if not text.strip():
+        return "", ""
+    # Phiên âm Pinyin
+    pinyin = " ".join(lazy_pinyin(text, style=Style.TONE))
+    # Dịch sang tiếng Việt
+    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)
+    translated = model.generate(**inputs)
+    vi_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+    return pinyin, vi_text
+demo = gr.Interface(
+    fn=translate_zh_vi,
+    inputs=gr.Textbox(label="Tiếng Trung (中文)", placeholder="Nhập văn bản tiếng Trung..."),
+    outputs=[
+        gr.Textbox(label="Phiên âm Pinyin"),
+        gr.Textbox(label="Dịch tiếng Việt")
+    ],
+    title="🈺 Dịch Trung - Việt + Pinyin",
+    examples=[["你好，世界！"], ["我爱学习中文"], ["今天天气很好"]]
+)
+demo.launch()
+```
+**`requirements.txt`:**
+```
+transformers>=4.30.0
+sentencepiece
+pypinyin
+gradio
+torch