CCLV
/

kaon-w

Text Generation

Model card Files Files and versions

kaon-w / README.md

CCLV's picture

Upload folder using huggingface_hub

7f03404 verified 3 months ago

|

history blame contribute delete

1.16 kB

	---
	license: cc-by-nc-4.0
	base_model: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
	tags:
	- peft
	- lora
	- dpo
	- role-playing
	- chinese
	library_name: peft
	pipeline_tag: text-generation
	---

	# Kaon-W: GPT-4 Optimized DPO LoRA

	基于进行GPT-4数据优化的DPO LoRA适配器。

	## 模型信息

	- 基础模型: kaonai/kaon-c-mistral-12b-v0.1-dpo-v0.1
	- 训练方法: DPO (Direct Preference Optimization)
	- 适配器类型: LoRA (Low-Rank Adaptation)
	- 数据优化: GPT-4全面优化的对话数据
	- 训练硬件: 8x H200 GPU
	- 训练时长: 5.3小时 (968步, 2轮)

	## 训练配置

	- LoRA Rank: 64
	- LoRA Alpha: 64
	- 学习率: 2e-6
	- Beta: 0.12
	- 批次大小: 2 (per device)
	- 梯度累积: 4步

	## 使用方法



	## 训练数据

	使用GPT-4优化的DPO数据集:
	- 主数据集: 3,500条优化样本
	- NSFW修复: 150条优化样本
	- 防重复: 297条优化样本
	- 总计: 3,947条高质量训练样本

	## 性能指标

	- 最终准确率: 96.15%
	- 奖励边距: 20.14+
	- 训练损失: 1.27 (完美收敛)

	## 许可证

	本模型采用 CC-BY-NC-4.0 许可证，仅供非商业用途。