CCLV
/

kaon-w

Text Generation

Model card Files Files and versions

Kaon-W: GPT-4 Optimized DPO LoRA

基于进行GPT-4数据优化的DPO LoRA适配器。

模型信息

基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
训练方法: DPO (Direct Preference Optimization)
适配器类型: LoRA (Low-Rank Adaptation)
数据优化: GPT-4全面优化的对话数据
训练硬件: 8x H200 GPU
训练时长: 5.3小时 (968步, 2轮)

训练配置

LoRA Rank: 64
LoRA Alpha: 64
学习率: 2e-6
Beta: 0.12
批次大小: 2 (per device)
梯度累积: 4步

使用方法

训练数据

使用GPT-4优化的DPO数据集:

主数据集: 3,500条优化样本
NSFW修复: 150条优化样本
防重复: 297条优化样本
总计: 3,947条高质量训练样本

性能指标

最终准确率: 96.15%
奖励边距: 20.14+
训练损失: 1.27 (完美收敛)

许可证

本模型采用 CC-BY-NC-4.0 许可证，仅供非商业用途。

Downloads last month: -

Model tree for CCLV/kaon-w

Base model

kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1

Adapter

(1)

this model