YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

🤖 Mô hình ngôn ngữ lớn dành cho mã nguồn

📝 Mô tả chung

Đây là mô hình causal language model dành cho code với 1.3 tỷ tham số, được huấn luyện từ đầu trên 2 nghìn tỷ token (87% mã nguồn, 13% văn bản Anh–Hoa). Mô hình hỗ trợ hoàn thiện code quy mô dự án với context window lên đến 16.000 token, tích hợp cả tác vụ fill‑in‑the‑blank để hỗ trợ infilling và completion trên mức file/repo.

🎯 Khả năng nổi bật

Project-level code completion và code infilling nhờ window size lớn (16 K). Hiệu năng hàng đầu trong các benchmark mở: HumanEval, MultiPL-E, MBPP, DS-1000, APPS Hỗ trợ nhiều ngôn ngữ lập trình, khả năng tốt trong cả text kĩ thuật Anh–Hoa.

🧩 Cách sử dụng

1. Cài đặt

pip install torch transformers

2. Ví dụ Code Completion

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()

input_text = "# write a quick sort in Python\n"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

3. Ví dụ Code Infilling

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()

prompt = """<|fim_begin|>def quick_sort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[0]\n    <|fim_hole|>\n"""
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

🔧 Cấu hình chi tiết

Thông số Giá trị Tham số ~1.3 B Window Size 16 K tokens Dữ liệu huấn luyện 2T tokens (87% code, 13% văn bản) Kiến trúc Causal Transformer-model Danh mục benchmark HumanEval, MultiPL-E, MBPP, DS‑1000, APPS

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support