--- language: zh tags: - peft - dpo - lora - chinese license: mit --- # PEFT Model with DPO Training 这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调,并通过DPO训练来优化模型输出以更好地符合人类偏好。 ## 模型信息 - 训练方法:DPO (Direct Preference Optimization) - 微调方法:PEFT (Parameter-Efficient Fine-Tuning) - 模型类型:LoRA adapter # ## 许可证 请参考模型的许可证信息进行使用。