Kaon-W: GPT-4 Optimized DPO LoRA

基于 进行GPT-4数据优化的DPO LoRA适配器。

模型信息

  • 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
  • 训练方法: DPO (Direct Preference Optimization)
  • 适配器类型: LoRA (Low-Rank Adaptation)
  • 数据优化: GPT-4全面优化的对话数据
  • 训练硬件: 8x H200 GPU
  • 训练时长: 5.3小时 (968步, 2轮)

训练配置

  • LoRA Rank: 64
  • LoRA Alpha: 64
  • 学习率: 2e-6
  • Beta: 0.12
  • 批次大小: 2 (per device)
  • 梯度累积: 4步

使用方法

训练数据

使用GPT-4优化的DPO数据集:

  • 主数据集: 3,500条优化样本
  • NSFW修复: 150条优化样本
  • 防重复: 297条优化样本
  • 总计: 3,947条高质量训练样本

性能指标

  • 最终准确率: 96.15%
  • 奖励边距: 20.14+
  • 训练损失: 1.27 (完美收敛)

许可证

本模型采用 CC-BY-NC-4.0 许可证,仅供非商业用途。

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CCLV/kaon-w

Adapter
(1)
this model