Zeteng
/

peft_model_dpo

Model card Files Files and versions

peft_model_dpo / README.md

Lam810

Add YAML metadata to README

24daaa1 8 months ago

|

history blame contribute delete

579 Bytes

	---
	language: zh
	tags:
	- peft
	- dpo
	- lora
	- chinese
	license: mit
	---

	# PEFT Model with DPO Training

	这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调，并通过DPO训练来优化模型输出以更好地符合人类偏好。

	## 模型信息

	- 训练方法：DPO (Direct Preference Optimization)
	- 微调方法：PEFT (Parameter-Efficient Fine-Tuning)
	- 模型类型：LoRA adapter

	#
	## 许可证

	请参考模型的许可证信息进行使用。