Kaon-W: GPT-4 Optimized DPO LoRA
基于 进行GPT-4数据优化的DPO LoRA适配器。
模型信息
- 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
- 训练方法: DPO (Direct Preference Optimization)
- 适配器类型: LoRA (Low-Rank Adaptation)
- 数据优化: GPT-4全面优化的对话数据
- 训练硬件: 8x H200 GPU
- 训练时长: 5.3小时 (968步, 2轮)
训练配置
- LoRA Rank: 64
- LoRA Alpha: 64
- 学习率: 2e-6
- Beta: 0.12
- 批次大小: 2 (per device)
- 梯度累积: 4步
使用方法
训练数据
使用GPT-4优化的DPO数据集:
- 主数据集: 3,500条优化样本
- NSFW修复: 150条优化样本
- 防重复: 297条优化样本
- 总计: 3,947条高质量训练样本
性能指标
- 最终准确率: 96.15%
- 奖励边距: 20.14+
- 训练损失: 1.27 (完美收敛)
许可证
本模型采用 CC-BY-NC-4.0 许可证,仅供非商业用途。
- Downloads last month
- -
Model tree for CCLV/kaon-w
Base model
kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1