| license: cc-by-nc-4.0 | |
| base_model: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1 | |
| tags: | |
| - peft | |
| - lora | |
| - dpo | |
| - role-playing | |
| - chinese | |
| library_name: peft | |
| pipeline_tag: text-generation | |
| # Kaon-W: GPT-4 Optimized DPO LoRA | |
| 基于 进行GPT-4数据优化的DPO LoRA适配器。 | |
| ## 模型信息 | |
| - **基础模型**: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1 | |
| - **训练方法**: DPO (Direct Preference Optimization) | |
| - **适配器类型**: LoRA (Low-Rank Adaptation) | |
| - **数据优化**: GPT-4全面优化的对话数据 | |
| - **训练硬件**: 8x H200 GPU | |
| - **训练时长**: 5.3小时 (968步, 2轮) | |
| ## 训练配置 | |
| - **LoRA Rank**: 64 | |
| - **LoRA Alpha**: 64 | |
| - **学习率**: 2e-6 | |
| - **Beta**: 0.12 | |
| - **批次大小**: 2 (per device) | |
| - **梯度累积**: 4步 | |
| ## 使用方法 | |
| ## 训练数据 | |
| 使用GPT-4优化的DPO数据集: | |
| - 主数据集: 3,500条优化样本 | |
| - NSFW修复: 150条优化样本 | |
| - 防重复: 297条优化样本 | |
| - 总计: 3,947条高质量训练样本 | |
| ## 性能指标 | |
| - **最终准确率**: 96.15% | |
| - **奖励边距**: 20.14+ | |
| - **训练损失**: 1.27 (完美收敛) | |
| ## 许可证 | |
| 本模型采用 CC-BY-NC-4.0 许可证,仅供非商业用途。 | |