🤖 Mô hình ngôn ngữ lớn dành cho mã nguồn
📝 Mô tả chung
Đây là mô hình causal language model dành cho code với 1.3 tỷ tham số, được huấn luyện từ đầu trên 2 nghìn tỷ token (87% mã nguồn, 13% văn bản Anh–Hoa). Mô hình hỗ trợ hoàn thiện code quy mô dự án với context window lên đến 16.000 token, tích hợp cả tác vụ fill‑in‑the‑blank để hỗ trợ infilling và completion trên mức file/repo.
🎯 Khả năng nổi bật
Project-level code completion và code infilling nhờ window size lớn (16 K). Hiệu năng hàng đầu trong các benchmark mở: HumanEval, MultiPL-E, MBPP, DS-1000, APPS Hỗ trợ nhiều ngôn ngữ lập trình, khả năng tốt trong cả text kĩ thuật Anh–Hoa.
🧩 Cách sử dụng
1. Cài đặt
pip install torch transformers
2. Ví dụ Code Completion
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()
input_text = "# write a quick sort in Python\n"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
3. Ví dụ Code Infilling
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()
prompt = """<|fim_begin|>def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[0]\n <|fim_hole|>\n"""
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
🔧 Cấu hình chi tiết
Thông số Giá trị Tham số ~1.3 B Window Size 16 K tokens Dữ liệu huấn luyện 2T tokens (87% code, 13% văn bản) Kiến trúc Causal Transformer-model Danh mục benchmark HumanEval, MultiPL-E, MBPP, DS‑1000, APPS
- Downloads last month
- -