zhaospei
/

Model_19

Model card Files Files and versions

Model_19 / README.md

zhaospei's picture

Upload folder using huggingface_hub

4abeb26 verified 8 months ago

|

history blame contribute delete

2.32 kB

	# 🤖 Mô hình ngôn ngữ lớn dành cho mã nguồn
	## 📝 Mô tả chung
	Đây là mô hình causal language model dành cho code với 1.3 tỷ tham số, được huấn luyện từ đầu trên 2 nghìn tỷ token (87% mã nguồn, 13% văn bản Anh–Hoa). Mô hình hỗ trợ hoàn thiện code quy mô dự án với context window lên đến 16.000 token, tích hợp cả tác vụ fill‑in‑the‑blank để hỗ trợ infilling và completion trên mức file/repo.

	## 🎯 Khả năng nổi bật
	Project-level code completion và code infilling nhờ window size lớn (16 K).
	Hiệu năng hàng đầu trong các benchmark mở: HumanEval, MultiPL-E, MBPP, DS-1000, APPS
	Hỗ trợ nhiều ngôn ngữ lập trình, khả năng tốt trong cả text kĩ thuật Anh–Hoa.

	## 🧩 Cách sử dụng
	### 1. Cài đặt
	```bash
	pip install torch transformers
	```
	### 2. Ví dụ Code Completion
	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch

	tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
	model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()

	input_text = "# write a quick sort in Python\n"
	inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

	outputs = model.generate(**inputs, max_length=200)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
	```
	### 3. Ví dụ Code Infilling
	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch

	tokenizer = AutoTokenizer.from_pretrained("zhaospei/Model_19", trust_remote_code=True)
	model = AutoModelForCausalLM.from_pretrained("zhaospei/Model_19", trust_remote_code=True).cuda()

	prompt = """<\|fim_begin\|>def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[0]\n <\|fim_hole\|>\n"""
	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

	outputs = model.generate(**inputs, max_new_tokens=100)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
	```

	### 🔧 Cấu hình chi tiết
	Thông số Giá trị
	Tham số ~1.3 B
	Window Size 16 K tokens
	Dữ liệu huấn luyện 2T tokens (87% code, 13% văn bản)
	Kiến trúc Causal Transformer-model
	Danh mục benchmark HumanEval, MultiPL-E, MBPP, DS‑1000, APPS