kaon-w / README.md
CCLV's picture
Upload folder using huggingface_hub
7f03404 verified
---
license: cc-by-nc-4.0
base_model: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
tags:
- peft
- lora
- dpo
- role-playing
- chinese
library_name: peft
pipeline_tag: text-generation
---
# Kaon-W: GPT-4 Optimized DPO LoRA
基于 进行GPT-4数据优化的DPO LoRA适配器。
## 模型信息
- **基础模型**: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
- **训练方法**: DPO (Direct Preference Optimization)
- **适配器类型**: LoRA (Low-Rank Adaptation)
- **数据优化**: GPT-4全面优化的对话数据
- **训练硬件**: 8x H200 GPU
- **训练时长**: 5.3小时 (968步, 2轮)
## 训练配置
- **LoRA Rank**: 64
- **LoRA Alpha**: 64
- **学习率**: 2e-6
- **Beta**: 0.12
- **批次大小**: 2 (per device)
- **梯度累积**: 4步
## 使用方法
## 训练数据
使用GPT-4优化的DPO数据集:
- 主数据集: 3,500条优化样本
- NSFW修复: 150条优化样本
- 防重复: 297条优化样本
- 总计: 3,947条高质量训练样本
## 性能指标
- **最终准确率**: 96.15%
- **奖励边距**: 20.14+
- **训练损失**: 1.27 (完美收敛)
## 许可证
本模型采用 CC-BY-NC-4.0 许可证,仅供非商业用途。