File size: 579 Bytes

24daaa1
 
 
 
 
 
 
 
 
 
8344eef
a2201ba
8344eef
a2201ba
8344eef
a2201ba
8344eef
 
 
a2201ba
8344eef
 
a2201ba
8344eef

---
language: zh
tags:
- peft
- dpo
- lora
- chinese
license: mit
---

# PEFT Model with DPO Training

这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调，并通过DPO训练来优化模型输出以更好地符合人类偏好。

## 模型信息

- 训练方法：DPO (Direct Preference Optimization)
- 微调方法：PEFT (Parameter-Efficient Fine-Tuning)
- 模型类型：LoRA adapter

#
## 许可证

请参考模型的许可证信息进行使用。