| # 🤖 Mô hình ngôn ngữ lớn dành cho mã nguồn | |
| ## 📝 Mô tả chung | |
| Đây là mô hình causal language model dành cho code với 1.3 tỷ tham số, được huấn luyện từ đầu trên 2 nghìn tỷ token (87% mã nguồn, 13% văn bản Anh–Hoa). Mô hình hỗ trợ hoàn thiện code quy mô dự án với context window lên đến 16.000 token, tích hợp cả tác vụ fill‑in‑the‑blank để hỗ trợ infilling và completion trên mức file/repo. | |
| ## 🎯 Khả năng nổi bật | |
| Project-level code completion và code infilling nhờ window size lớn (16 K). | |
| Hiệu năng hàng đầu trong các benchmark mở: HumanEval, MultiPL-E, MBPP, DS-1000, APPS | |
| Hỗ trợ nhiều ngôn ngữ lập trình, khả năng tốt trong cả text kĩ thuật Anh–Hoa. | |
| ## 🧩 Cách sử dụng | |
| ### 1. Cài đặt | |
| ```bash | |
| pip install torch transformers | |
| ``` | |
| ### 2. Ví dụ Code Completion | |
| ```python | |
| from transformers import AutoTokenizer, AutoModelForCausalLM | |
| import torch | |
| tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True) | |
| model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda() | |
| input_text = "# write a quick sort in Python\n" | |
| inputs = tokenizer(input_text, return_tensors="pt").to(model.device) | |
| outputs = model.generate(**inputs, max_length=200) | |
| print(tokenizer.decode(outputs[0], skip_special_tokens=True)) | |
| ``` | |
| ### 3. Ví dụ Code Infilling | |
| ```python | |
| from transformers import AutoTokenizer, AutoModelForCausalLM | |
| import torch | |
| tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True) | |
| model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda() | |
| prompt = """<|fim_begin|>def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[0]\n <|fim_hole|>\n""" | |
| inputs = tokenizer(prompt, return_tensors="pt").to(model.device) | |
| outputs = model.generate(**inputs, max_new_tokens=100) | |
| print(tokenizer.decode(outputs[0], skip_special_tokens=True)) | |
| ``` | |
| ### 🔧 Cấu hình chi tiết | |
| Thông số Giá trị | |
| Tham số ~1.3 B | |
| Window Size 16 K tokens | |
| Dữ liệu huấn luyện 2T tokens (87% code, 13% văn bản) | |
| Kiến trúc Causal Transformer-model | |
| Danh mục benchmark HumanEval, MultiPL-E, MBPP, DS‑1000, APPS |