qwen3-4b-struct-evaluation-dpo-v6
This repository provides a LoRA adapter for Qwen/Qwen3-4B-Instruct-2507. It represents the highest-performing version (v6) of the "struct-eval-comp" series, achieving a score of 0.77136.
It was developed by performing specialized DPO (Direct Preference Optimization) on top of the previously fine-tuned satoyutaka/llm2025_main_0.
Training Objective
This adapter is the 6th and most refined iteration of the LLM2025Autumn "struct-eval-comp" project. The primary goal was to achieve "Raw Output Excellence": maintaining deep reasoning capabilities (CoT) while strictly outputting raw structured data (JSON/CSV/TOML) without any Markdown code blocks or conversational filler.
Training Configuration
- Base model: Qwen/Qwen3-4B-Instruct-2507
- Starting Adapter: satoyutaka/llm2025_main_0 (SFT)
- Method: DPO (Direct Preference Optimization) via Unsloth
- Samples: 250 logic-dense preference pairs (Selected via BERT scoring)
- Learning rate: 1e-6
- Beta: 0.1
- Epochs: 1 (Optimized for single-epoch precision)
- LoRA Parameters: r=16, alpha=16
- Target Modules: All major projections (
q_proj,v_proj,k_proj,o_proj,gate_proj,up_proj,down_proj)
Data Preparation Process
- Logic-Dense Selection: Used BERT-based scoring to select the most logically complex samples from the source dataset, ensuring the model retains high reasoning power.
- Markdown Elimination: Specifically targeted the removal of
```jsonand other code block markers in the "Chosen" pairs while keeping them in "Rejected" pairs to train the model to output raw text. - CoT Preservation: Unlike earlier versions, v6 keeps the reasoning process (Approach) intact within the model's logic flow to prevent degradation in extraction accuracy.
Usage
from unsloth import FastLanguageModel
import torch
base = "Qwen/Qwen3-4B-Instruct-2507"
adapter = "satoyutaka/qwen3-4b-struct-evaluation-dpo-v6"
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = base,
max_seq_length = 2048,
load_in_4bit = True,
)
model.load_adapter(adapter)
Sources & License (IMPORTANT)
- Training Data: Based on u-10bei/dpo-dataset-qwen-cot
- License: Follows the original base model and dataset terms.
<日本語訳>
qwen3-4b-struct-evaluation-dpo-v6
このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 用のLoRAアダプターです。 struct-eval-comp プロジェクトにおいて最高スコア 0.77136 を記録した「V6」モデルです。
satoyutaka/llm2025_main_0 をベースに、さらに高度なDPO(直接選好最適化)を施しています。
学習の目的
本モデルは、構造化データの抽出・生成精度を極限まで高めることを目的としています。 特に「思考プロセス(CoT)を維持して推論精度を保ちつつ、出力からMarkdownの囲い(```json等)を完全に排除する」という、極めてクリーンな出力を実現しています。
学習設定
- ベースモデル: Qwen/Qwen3-4B-Instruct-2507
- ベースアダプター: satoyutaka/llm2025_main_0 (SFT済み)
- 手法: DPO (Direct Preference Optimization) / Unsloth使用
- 学習サンプル数: 250件(BERTによる論理密度スコアリングで厳選)
- 学習率: 1e-6
- Beta: 0.1
- エポック数: 1
データ作成プロセス
- BERTによる厳選: BERTを用いて学習データの「論理の深さ」を測定し、複雑な推論を必要とする高品質なサンプルを優先的に採用しました。
- Markdown排除の徹底: 正解データ(Chosen)からMarkdown記号を物理的に抹消し、不正解データ(Rejected)には記号を残すことで、モデルに「生のデータのみを出力する」癖を強く焼き付けています。
- 推論能力の維持: 思考過程(Approach)を削除せず学習に組み込むことで、抽出精度の低下を防いでいます。
使い方
(英語セクションの Usage コードを参照してください。アダプターIDは satoyutaka/qwen3-4b-struct-evaluation-dpo-v6 に適宜読み替えてください)
ソースおよびライセンス
- 学習データ: u-10bei/dpo-dataset-qwen-cot をベースに独自加工
- ライセンス: 元モデルおよびデータセットの規約に準拠します。
- Downloads last month
- 40
Model tree for satoyutaka/LLM2025_main_0_DPO6
Base model
Qwen/Qwen3-4B-Instruct-2507