qwen3-4b-structeval-sft-v4-lr3e5-merged

SFT LoRA adapter (sonodd/qwen3-4b-structeval-sft-v4-lr3e5) をベースモデル (Qwen/Qwen3-4B-Instruct-2507) にマージしたフルモデルです。

用途

DPO ノートブックの DPO_BASE_MODEL に指定して SFT → DPO パイプライン を実行するために使用します。

# DPO ノートブック cell-10
os.environ["DPO_BASE_MODEL"]     = "sonodd/qwen3-4b-structeval-sft-v4-lr3e5-merged"
os.environ["DPO_SFT_ADAPTER_ID"] = ""  # マージ済みなので空

構成

Base model: Qwen/Qwen3-4B-Instruct-2507
SFT adapter: sonodd/qwen3-4b-structeval-sft-v4-lr3e5
Merge method: merge_and_unload() (float16)

Downloads last month: 14

Safetensors

Model size

4B params

Tensor type

F16

Model tree for sonodd/qwen3-4b-structeval-sft-v4-lr3e5-merged

Base model

Qwen/Qwen3-4B-Instruct-2507

Finetuned

(1153)

this model

Finetunes

1 model