---
license: cc-by-nc-4.0
base_model: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
tags:
- peft
- lora
- dpo
- role-playing
- chinese
library_name: peft
pipeline_tag: text-generation
---

# Kaon-W: GPT-4 Optimized DPO LoRA

基于  进行GPT-4数据优化的DPO LoRA适配器。

## 模型信息

- **基础模型**: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
- **训练方法**: DPO (Direct Preference Optimization)
- **适配器类型**: LoRA (Low-Rank Adaptation)
- **数据优化**: GPT-4全面优化的对话数据
- **训练硬件**: 8x H200 GPU
- **训练时长**: 5.3小时 (968步, 2轮)

## 训练配置

- **LoRA Rank**: 64
- **LoRA Alpha**: 64
- **学习率**: 2e-6
- **Beta**: 0.12
- **批次大小**: 2 (per device)
- **梯度累积**: 4步

## 使用方法


## 训练数据

使用GPT-4优化的DPO数据集:
- 主数据集: 3,500条优化样本
- NSFW修复: 150条优化样本  
- 防重复: 297条优化样本
- 总计: 3,947条高质量训练样本

## 性能指标

- **最终准确率**: 96.15%
- **奖励边距**: 20.14+
- **训练损失**: 1.27 (完美收敛)

## 许可证

本模型采用 CC-BY-NC-4.0 许可证，仅供非商业用途。