File size: 579 Bytes
24daaa1 8344eef a2201ba 8344eef a2201ba 8344eef a2201ba 8344eef a2201ba 8344eef a2201ba 8344eef | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | ---
language: zh
tags:
- peft
- dpo
- lora
- chinese
license: mit
---
# PEFT Model with DPO Training
这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调,并通过DPO训练来优化模型输出以更好地符合人类偏好。
## 模型信息
- 训练方法:DPO (Direct Preference Optimization)
- 微调方法:PEFT (Parameter-Efficient Fine-Tuning)
- 模型类型:LoRA adapter
#
## 许可证
请参考模型的许可证信息进行使用。
|