🌐 EnViT5 Translation (English ⇄ Vietnamese)
📝 Giới thiệu
Mô hình EnViT5 là biến thể tiên tiến của T5, được học chéo trên nhiều miền (MTet, PhoMT), chuyên về việc dịch Anh – Việt và Việt – Anh. Mô hình được phát triển bởi VietAI – tổ chức phi lợi nhuận thúc đẩy AI tại Việt Nam.
Mục tiêu
Dịch song ngữ chất lượng cao, đáp ứng tốt cả hai chiều ngược nhau.
📌 Tính năng chính
Song ngữ: dịch từ Anh sang Việt và Việt sang Anh Zero-shot: dựa trên tiền huấn luyện multi-domain mà không cần fine-tune thêm Hiệu suất cao: đạt top state-of-the-art BLEU trên benchmark IWSLT15
📥 Đầu vào
Một danh sách các câu có thêm tiền tố chỉ định ngôn ngữ: "vi: [câu tiếng Việt]" → dịch sang tiếng Anh "en: [câu tiếng Anh]" → dịch sang tiếng Việt
📤 Đầu ra
Kết quả trả về là danh sách các câu đã dịch, không bao gồm token đặc biệt, dạng chuỗi văn bản.
🛠 Cách cài đặt
pip install torch transformers
🧪 Cách sử dụng
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "zhaospei/Model_13"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
inputs = [
"vi: Tôi yêu ngôn ngữ tự nhiên và AI.",
"en: We pursue excellence in AI research and education."
]
batch = tokenizer(inputs, return_tensors="pt", padding=True)
outputs = model.generate(**batch)
translations = tokenizer.batch_decode(outputs, skip_special_tokens=True)
for src, tgt in zip(inputs, translations):
print(f"{src} → {tgt}")
📊 Kết quả & Hiệu năng
Mô hình được đánh giá trên nhiều tập dịch Anh–Việt song ngữ, gồm MTet, PhoMT, IWSLT15. đạt BLEU ~40.2 trên benchmark IWSLT15
⚙️ Thông tin huấn luyện
Dữ liệu: CC100 (multi-domain): ~4.2 triệu cặp câu Kiến trúc: T5 encoder-decoder (đa miền), học bằng VR: truncated-prompt strategy Các framework: Transformers, PyTorch, JAX Giấy phép: OpenRAIL
🔗 Tài liệu & Trích dẫn
Paper MTet (arXiv 2022): MTet: Multi-domain Translation for English and Vietnamese Github MTet: repo chứa code & dataset preprocessing Tài liệu Transformers: AutoModelForSeq2SeqLM & AutoTokenizer
🚀 Ứng dụng đề xuất
API dịch thuật: tích hợp mô hình kiểu chat, bot dịch Công cụ học ngoại ngữ: đề xuất câu dịch mẫu Dịch đa miền: đặc biệt hữu ích trong nội dung kỹ thuật, thương mại, y tế