peft_model_dpo / README.md
Lam810
Add YAML metadata to README
24daaa1
metadata
language: zh
tags:
  - peft
  - dpo
  - lora
  - chinese
license: mit

PEFT Model with DPO Training

这是一个使用DPO (Direct Preference Optimization) 方法训练的PEFT (Parameter-Efficient Fine-Tuning) 模型。该模型是在基础模型上使用PEFT方法进行微调,并通过DPO训练来优化模型输出以更好地符合人类偏好。

模型信息

  • 训练方法:DPO (Direct Preference Optimization)
  • 微调方法:PEFT (Parameter-Efficient Fine-Tuning)
  • 模型类型:LoRA adapter

许可证

请参考模型的许可证信息进行使用。