--- license: cc-by-nc-4.0 base_model: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1 tags: - peft - lora - dpo - role-playing - chinese library_name: peft pipeline_tag: text-generation --- # Kaon-W: GPT-4 Optimized DPO LoRA 基于 进行GPT-4数据优化的DPO LoRA适配器。 ## 模型信息 - **基础模型**: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1 - **训练方法**: DPO (Direct Preference Optimization) - **适配器类型**: LoRA (Low-Rank Adaptation) - **数据优化**: GPT-4全面优化的对话数据 - **训练硬件**: 8x H200 GPU - **训练时长**: 5.3小时 (968步, 2轮) ## 训练配置 - **LoRA Rank**: 64 - **LoRA Alpha**: 64 - **学习率**: 2e-6 - **Beta**: 0.12 - **批次大小**: 2 (per device) - **梯度累积**: 4步 ## 使用方法 ## 训练数据 使用GPT-4优化的DPO数据集: - 主数据集: 3,500条优化样本 - NSFW修复: 150条优化样本 - 防重复: 297条优化样本 - 总计: 3,947条高质量训练样本 ## 性能指标 - **最终准确率**: 96.15% - **奖励边距**: 20.14+ - **训练损失**: 1.27 (完美收敛) ## 许可证 本模型采用 CC-BY-NC-4.0 许可证,仅供非商业用途。