Qwen3.6-27B AIHub Korean LLM Leaderboard — sft_v5 (LoRA)

sft_v3에 1,225개 newly critique-revised 샘플로 추가 staged training한 어댑터.

Training (Staged)

Init from: Dino-LeeTaeHun/finetune-v3
Base: Qwen3.6-27B (multimodal)
Method: QLoRA 4bit + DoRA
rank/alpha: 256/256
modules_to_save: 없음
target_modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
LR: 2e-5 (낮춤, staged training으로 안정성 우선)
epochs: 1
batch×accum: 2×8 (effective 16)
max_seq: 16384, packing on
NEFTune α: 5
trainable: 1.28 B / 28.63 B (4.46%)
Samples: 1,137 train / 52 val / 36 test (1,225개 newly revised에서 분할)

Why staged?

v3 학습 시 4,514개 중 3,289개만 critique-revised, 1,225개는 원본이었음. Critique-revise 완료 후 4,514개 모두 동일 데이터로 v4 재학습 시도 시 3,289개가 4 epoch 학습되어 overfitting 발생 (eval_loss 0.9014 → 0.9349). 1,225개 newly revised만으로 v3 위에 추가 학습한 v5가 가장 깨끗한 결과.

Eval loss

Stage	eval_loss
v3 final (epoch 2)	0.9035
v4 step 300 (실패)	0.9349 ⚠️ regression
v5 final (epoch 1)	0.8583 ✅

Data

Dino-LeeTaeHun/finetune-data-v3 (private) (4,514 fully critique-revised by Claude Opus)

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3.6-27B-A3B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(base, "Dino-LeeTaeHun/finetune-v5")
tok = AutoTokenizer.from_pretrained("Dino-LeeTaeHun/finetune-v5")

License

Internal research. Non-commercial.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support