| language: zh | |
| tags: | |
| - peft | |
| - dpo | |
| - lora | |
| - chinese | |
| license: mit | |
| # PEFT Model with DPO Training | |
| 这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调,并通过DPO训练来优化模型输出以更好地符合人类偏好。 | |
| ## 模型信息 | |
| - 训练方法:DPO (Direct Preference Optimization) | |
| - 微调方法:PEFT (Parameter-Efficient Fine-Tuning) | |
| - 模型类型:LoRA adapter | |
| # | |
| ## 许可证 | |
| 请参考模型的许可证信息进行使用。 | |