| license: apache-2.0 | |
| 基于cduoduo/TCMConverse-4B-SFT和多个奖励模型,使用PPO算法应用优化后的奖励函数进行偏好对齐后的模型。 | |
| 使模型具备了更强的中医咨询能力。 | |
| 任何问题请联系邮箱:longfeichai@stu.haust.edu.cn |
| license: apache-2.0 | |
| 基于cduoduo/TCMConverse-4B-SFT和多个奖励模型,使用PPO算法应用优化后的奖励函数进行偏好对齐后的模型。 | |
| 使模型具备了更强的中医咨询能力。 | |
| 任何问题请联系邮箱:longfeichai@stu.haust.edu.cn |