view article Article Cosmopedia:如何为大语言模型预训练构建大规模合成数据集 +1 loubnabnl, anton-l, davanstrien • Mar 20, 2024 • 4
view article Article 使用 PPO 算法进行 RLHF 的 N 步实现细节 +1 vwxyzjn, tianlinliu0121, lvwerra • Oct 24, 2023 • 6