# 🌐 EnViT5 Translation (English ⇄ Vietnamese) ## 📝 Giới thiệu Mô hình EnViT5 là biến thể tiên tiến của T5, được học chéo trên nhiều miền (MTet, PhoMT), chuyên về việc dịch Anh – Việt và Việt – Anh. Mô hình được phát triển bởi VietAI – tổ chức phi lợi nhuận thúc đẩy AI tại Việt Nam. ## Mục tiêu Dịch song ngữ chất lượng cao, đáp ứng tốt cả hai chiều ngược nhau. ## 📌 Tính năng chính Song ngữ: dịch từ Anh sang Việt và Việt sang Anh Zero-shot: dựa trên tiền huấn luyện multi-domain mà không cần fine-tune thêm Hiệu suất cao: đạt top state-of-the-art BLEU trên benchmark IWSLT15 ## 📥 Đầu vào Một danh sách các câu có thêm tiền tố chỉ định ngôn ngữ: "vi: [câu tiếng Việt]" → dịch sang tiếng Anh "en: [câu tiếng Anh]" → dịch sang tiếng Việt ## 📤 Đầu ra Kết quả trả về là danh sách các câu đã dịch, không bao gồm token đặc biệt, dạng chuỗi văn bản. ## 🛠 Cách cài đặt ```bash pip install torch transformers ``` ## 🧪 Cách sử dụng ```python from transformers import AutoTokenizer, AutoModelForSeq2SeqLM model_name = "zhaospei/Model_13" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSeq2SeqLM.from_pretrained(model_name) inputs = [ "vi: Tôi yêu ngôn ngữ tự nhiên và AI.", "en: We pursue excellence in AI research and education." ] batch = tokenizer(inputs, return_tensors="pt", padding=True) outputs = model.generate(**batch) translations = tokenizer.batch_decode(outputs, skip_special_tokens=True) for src, tgt in zip(inputs, translations): print(f"{src} → {tgt}") ``` ## 📊 Kết quả & Hiệu năng Mô hình được đánh giá trên nhiều tập dịch Anh–Việt song ngữ, gồm MTet, PhoMT, IWSLT15. đạt BLEU ~40.2 trên benchmark IWSLT15 ## ⚙️ Thông tin huấn luyện Dữ liệu: CC100 (multi-domain): ~4.2 triệu cặp câu Kiến trúc: T5 encoder-decoder (đa miền), học bằng VR: truncated-prompt strategy Các framework: Transformers, PyTorch, JAX Giấy phép: OpenRAIL ## 🔗 Tài liệu & Trích dẫn Paper MTet (arXiv 2022): MTet: Multi-domain Translation for English and Vietnamese Github MTet: repo chứa code & dataset preprocessing Tài liệu Transformers: AutoModelForSeq2SeqLM & AutoTokenizer ## 🚀 Ứng dụng đề xuất API dịch thuật: tích hợp mô hình kiểu chat, bot dịch Công cụ học ngoại ngữ: đề xuất câu dịch mẫu Dịch đa miền: đặc biệt hữu ích trong nội dung kỹ thuật, thương mại, y tế