🌐 EnViT5 Translation (English ⇄ Vietnamese)

📝 Giới thiệu

Mô hình EnViT5 là biến thể tiên tiến của T5, được học chéo trên nhiều miền (MTet, PhoMT), chuyên về việc dịch Anh – Việt và Việt – Anh. Mô hình được phát triển bởi VietAI – tổ chức phi lợi nhuận thúc đẩy AI tại Việt Nam.

Mục tiêu

Dịch song ngữ chất lượng cao, đáp ứng tốt cả hai chiều ngược nhau.

📌 Tính năng chính

Song ngữ: dịch từ Anh sang Việt và Việt sang Anh Zero-shot: dựa trên tiền huấn luyện multi-domain mà không cần fine-tune thêm Hiệu suất cao: đạt top state-of-the-art BLEU trên benchmark IWSLT15

📥 Đầu vào

Một danh sách các câu có thêm tiền tố chỉ định ngôn ngữ: "vi: [câu tiếng Việt]" → dịch sang tiếng Anh "en: [câu tiếng Anh]" → dịch sang tiếng Việt

📤 Đầu ra

Kết quả trả về là danh sách các câu đã dịch, không bao gồm token đặc biệt, dạng chuỗi văn bản.

🛠 Cách cài đặt

pip install torch transformers

🧪 Cách sử dụng

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "zhaospei/Model_13"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

inputs = [
    "vi: Tôi yêu ngôn ngữ tự nhiên và AI.",
    "en: We pursue excellence in AI research and education."
]

batch = tokenizer(inputs, return_tensors="pt", padding=True)
outputs = model.generate(**batch)

translations = tokenizer.batch_decode(outputs, skip_special_tokens=True)
for src, tgt in zip(inputs, translations):
    print(f"{src} → {tgt}")

📊 Kết quả & Hiệu năng

Mô hình được đánh giá trên nhiều tập dịch Anh–Việt song ngữ, gồm MTet, PhoMT, IWSLT15. đạt BLEU ~40.2 trên benchmark IWSLT15

⚙️ Thông tin huấn luyện

Dữ liệu: CC100 (multi-domain): ~4.2 triệu cặp câu Kiến trúc: T5 encoder-decoder (đa miền), học bằng VR: truncated-prompt strategy Các framework: Transformers, PyTorch, JAX Giấy phép: OpenRAIL

🔗 Tài liệu & Trích dẫn

Paper MTet (arXiv 2022): MTet: Multi-domain Translation for English and Vietnamese Github MTet: repo chứa code & dataset preprocessing Tài liệu Transformers: AutoModelForSeq2SeqLM & AutoTokenizer

🚀 Ứng dụng đề xuất

API dịch thuật: tích hợp mô hình kiểu chat, bot dịch Công cụ học ngoại ngữ: đề xuất câu dịch mẫu Dịch đa miền: đặc biệt hữu ích trong nội dung kỹ thuật, thương mại, y tế