Model_13 / README.md
zhaospei's picture
Upload folder using huggingface_hub
92a450a verified
# 🌐 EnViT5 Translation (English ⇄ Vietnamese)
## 📝 Giới thiệu
Mô hình EnViT5 là biến thể tiên tiến của T5, được học chéo trên nhiều miền (MTet, PhoMT), chuyên về việc dịch Anh – Việt và Việt – Anh. Mô hình được phát triển bởi VietAI – tổ chức phi lợi nhuận thúc đẩy AI tại Việt Nam.
## Mục tiêu
Dịch song ngữ chất lượng cao, đáp ứng tốt cả hai chiều ngược nhau.
## 📌 Tính năng chính
Song ngữ: dịch từ Anh sang Việt và Việt sang Anh
Zero-shot: dựa trên tiền huấn luyện multi-domain mà không cần fine-tune thêm
Hiệu suất cao: đạt top state-of-the-art BLEU trên benchmark IWSLT15
## 📥 Đầu vào
Một danh sách các câu có thêm tiền tố chỉ định ngôn ngữ:
"vi: [câu tiếng Việt]" → dịch sang tiếng Anh
"en: [câu tiếng Anh]" → dịch sang tiếng Việt
## 📤 Đầu ra
Kết quả trả về là danh sách các câu đã dịch, không bao gồm token đặc biệt, dạng chuỗi văn bản.
## 🛠 Cách cài đặt
```bash
pip install torch transformers
```
## 🧪 Cách sử dụng
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "zhaospei/Model_13"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
inputs = [
"vi: Tôi yêu ngôn ngữ tự nhiên và AI.",
"en: We pursue excellence in AI research and education."
]
batch = tokenizer(inputs, return_tensors="pt", padding=True)
outputs = model.generate(**batch)
translations = tokenizer.batch_decode(outputs, skip_special_tokens=True)
for src, tgt in zip(inputs, translations):
print(f"{src} → {tgt}")
```
## 📊 Kết quả & Hiệu năng
Mô hình được đánh giá trên nhiều tập dịch Anh–Việt song ngữ, gồm MTet, PhoMT, IWSLT15.
đạt BLEU ~40.2 trên benchmark IWSLT15
## ⚙️ Thông tin huấn luyện
Dữ liệu:
CC100 (multi-domain): ~4.2 triệu cặp câu
Kiến trúc: T5 encoder-decoder (đa miền), học bằng VR: truncated-prompt strategy
Các framework:
Transformers, PyTorch, JAX
Giấy phép: OpenRAIL
## 🔗 Tài liệu & Trích dẫn
Paper MTet (arXiv 2022): MTet: Multi-domain Translation for English and Vietnamese
Github MTet: repo chứa code & dataset preprocessing
Tài liệu Transformers: AutoModelForSeq2SeqLM & AutoTokenizer
## 🚀 Ứng dụng đề xuất
API dịch thuật: tích hợp mô hình kiểu chat, bot dịch
Công cụ học ngoại ngữ: đề xuất câu dịch mẫu
Dịch đa miền: đặc biệt hữu ích trong nội dung kỹ thuật, thương mại, y tế