Upload DPO-trained Qwen3-4B-Instruct-2507 model

Files changed (3) hide show

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ and decrease the likelihood of 'rejected' responses for given prompts.
 - DPO Dataset: u-10bei/sft_alfworld_trajectory_dataset_v2
 - DPO Method: Direct Preference Optimization (DPO)
 - Max sequence length: 2048
-- Epochs: 2
 - Learning rate: 2e-06
 - Beta parameter (DPO loss): 0.1

 - DPO Dataset: u-10bei/sft_alfworld_trajectory_dataset_v2
 - DPO Method: Direct Preference Optimization (DPO)
 - Max sequence length: 2048
+- Epochs: 0.25
 - Learning rate: 2e-06
 - Beta parameter (DPO loss): 0.1

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63dedf6f455c59df1553bfcd6beffc6c62bffa093364850f145810e425d9639e
 size 4967215360

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce13f7ebf58fb0c58a7bb0c9701ac69735db8fab5e9ab7c2a2bc2520da5245c8
 size 4967215360

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a34372ba04244bd2fc6859164df263f14260af837054a3dfe626fccf22a4d45
 size 3077766632

 version https://git-lfs.github.com/spec/v1
+oid sha256:8df0319703594e6ed3546f806b709173f49bbe9eac57044412b0281fae7db0c3
 size 3077766632