cduoduo
/

TCMConverse-4B-SFT-PPO-MultiReward-Alignment

Model card Files Files and versions

TCMConverse-4B-SFT-PPO-MultiReward-Alignment / README.md

cduoduo's picture

Update README.md

ee420b2 verified about 1 year ago

|

history blame contribute delete

270 Bytes

metadata

license: apache-2.0

基于cduoduo/TCMConverse-4B-SFT和多个奖励模型,使用PPO算法应用优化后的奖励函数进行偏好对齐后的模型。

使模型具备了更强的中医咨询能力。

任何问题请联系邮箱：longfeichai@stu.haust.edu.cn