complexly
/

olmo3-190m-zh-sft

supervised-finetuning

Model card Files Files and versions

olmo3-190m-zh-sft / README.md

complexly's picture

llm001 L05 sft: 3 epoch

5b021cf verified 18 days ago

|

history blame contribute delete

1.17 kB

	---
	base_model: complexly/olmo3-190m-zh-sft
	license: apache-2.0
	language:
	- zh
	tags:
	- llm001
	- olmo3
	- chinese
	- sft
	- supervised-finetuning
	---

	# complexly/olmo3-190m-zh-sft

	SFT（有监督微调）版本：基于complexly/olmo3-190m-zh-continue，
	使用对话格式数据进行微调，学习指令遵循能力。

	## 数据来源
	- 训练数据：cmz1024/llm101-olmo3-zh-demo-data
	- 子路径：sft/sft_t2t_mini.jsonl

	## 训练配置
	- Learning Rate：5.0e-5
	- Warmup：5%
	- Epochs：3 epoch
	- Max Seq Length：2048
	- 使用 assistant_only_loss（仅对 assistant 部分计算 loss）
	- per_device_train_batch_size: 24
	- packing: true

	## 用法
	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from transformers import pipeline

	model = AutoModelForCausalLM.from_pretrained("{target_repo}")
	tok = AutoTokenizer.from_pretrained("{target_repo}")

	# 使用 chat template
	messages = [{{"role": "user", "content": "你好，请介绍一下北京"}}]
	inputs = tok.apply_chat_template(messages, return_tensors="pt")
	outputs = model.generate(inputs, max_new_tokens=200)
	print(tok.decode(outputs[0]))
	```