| # 🌐 EnViT5 Translation (English ⇄ Vietnamese) | |
| ## 📝 Giới thiệu | |
| Mô hình EnViT5 là biến thể tiên tiến của T5, được học chéo trên nhiều miền (MTet, PhoMT), chuyên về việc dịch Anh – Việt và Việt – Anh. Mô hình được phát triển bởi VietAI – tổ chức phi lợi nhuận thúc đẩy AI tại Việt Nam. | |
| ## Mục tiêu | |
| Dịch song ngữ chất lượng cao, đáp ứng tốt cả hai chiều ngược nhau. | |
| ## 📌 Tính năng chính | |
| Song ngữ: dịch từ Anh sang Việt và Việt sang Anh | |
| Zero-shot: dựa trên tiền huấn luyện multi-domain mà không cần fine-tune thêm | |
| Hiệu suất cao: đạt top state-of-the-art BLEU trên benchmark IWSLT15 | |
| ## 📥 Đầu vào | |
| Một danh sách các câu có thêm tiền tố chỉ định ngôn ngữ: | |
| "vi: [câu tiếng Việt]" → dịch sang tiếng Anh | |
| "en: [câu tiếng Anh]" → dịch sang tiếng Việt | |
| ## 📤 Đầu ra | |
| Kết quả trả về là danh sách các câu đã dịch, không bao gồm token đặc biệt, dạng chuỗi văn bản. | |
| ## 🛠 Cách cài đặt | |
| ```bash | |
| pip install torch transformers | |
| ``` | |
| ## 🧪 Cách sử dụng | |
| ```python | |
| from transformers import AutoTokenizer, AutoModelForSeq2SeqLM | |
| model_name = "zhaospei/Model_13" | |
| tokenizer = AutoTokenizer.from_pretrained(model_name) | |
| model = AutoModelForSeq2SeqLM.from_pretrained(model_name) | |
| inputs = [ | |
| "vi: Tôi yêu ngôn ngữ tự nhiên và AI.", | |
| "en: We pursue excellence in AI research and education." | |
| ] | |
| batch = tokenizer(inputs, return_tensors="pt", padding=True) | |
| outputs = model.generate(**batch) | |
| translations = tokenizer.batch_decode(outputs, skip_special_tokens=True) | |
| for src, tgt in zip(inputs, translations): | |
| print(f"{src} → {tgt}") | |
| ``` | |
| ## 📊 Kết quả & Hiệu năng | |
| Mô hình được đánh giá trên nhiều tập dịch Anh–Việt song ngữ, gồm MTet, PhoMT, IWSLT15. | |
| đạt BLEU ~40.2 trên benchmark IWSLT15 | |
| ## ⚙️ Thông tin huấn luyện | |
| Dữ liệu: | |
| CC100 (multi-domain): ~4.2 triệu cặp câu | |
| Kiến trúc: T5 encoder-decoder (đa miền), học bằng VR: truncated-prompt strategy | |
| Các framework: | |
| Transformers, PyTorch, JAX | |
| Giấy phép: OpenRAIL | |
| ## 🔗 Tài liệu & Trích dẫn | |
| Paper MTet (arXiv 2022): MTet: Multi-domain Translation for English and Vietnamese | |
| Github MTet: repo chứa code & dataset preprocessing | |
| Tài liệu Transformers: AutoModelForSeq2SeqLM & AutoTokenizer | |
| ## 🚀 Ứng dụng đề xuất | |
| API dịch thuật: tích hợp mô hình kiểu chat, bot dịch | |
| Công cụ học ngoại ngữ: đề xuất câu dịch mẫu | |
| Dịch đa miền: đặc biệt hữu ích trong nội dung kỹ thuật, thương mại, y tế | |