Upload LoRA adapter (README written by author)

Files changed (4) hide show

README.md CHANGED Viewed

@@ -33,10 +33,10 @@ while intermediate reasoning (Chain-of-Thought) is masked.
 - Base model: Qwen/Qwen3-4B-Instruct-2507
 - Method: QLoRA (4-bit)
-- Max sequence length: 512
 - Epochs: 1
-- Learning rate: 1e-06
-- LoRA: r=64, alpha=128
 ## Usage

 - Base model: Qwen/Qwen3-4B-Instruct-2507
 - Method: QLoRA (4-bit)
+- Max sequence length: 2048
 - Epochs: 1
+- Learning rate: 2e-05
+- LoRA: r=128, alpha=256
 ## Usage

adapter_config.json CHANGED Viewed

@@ -20,26 +20,26 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 128,
   "lora_bias": false,
-  "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
-  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "k_proj",
     "up_proj",
     "gate_proj",
     "q_proj",
-    "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "up_proj",
     "gate_proj",
+    "down_proj",
     "q_proj",
+    "o_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3696fb73f5c839945a9019788ee1e48e23a288ecf199477bd11a76b1c7faed2
-size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:07bbceac534033db2eb83b67c0af60edf3a093072b3e3c22c9dae8d0271965d7
+size 1057033224

config.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-  "run_id": "20260223_004310",
-  "time_jst": "2026-02-23T00:43:10.900142",
   "memo": "",
   "SFT_BASE_MODEL": "Qwen/Qwen3-4B-Instruct-2507",
   "SFT_DATASET_ID": "u-10bei/structured_data_with_cot_dataset_512_v2",
   "SFT_OUT_LORA_DIR": "/content/lora_structeval_t_qwen3_4b",
   "SFT_SEED": 3407,
-  "SFT_MAX_SEQ_LEN": 512,
   "SFT_VAL_RATIO": 0.05,
   "SFT_EPOCHS": 1.0,
-  "SFT_MAX_STEPS": 10,
-  "SFT_LR": 1e-06,
   "SFT_WARMUP_RATIO": 0.1,
   "SFT_WEIGHT_DECAY": 0.05,
   "SFT_PER_DEVICE_TRAIN_BS": 2,
@@ -20,9 +20,9 @@
   "SFT_EVAL_STEPS": 50,
   "SFT_SAVE_STEPS": 100,
   "SFT_SAVE_TOTAL_LIMIT": 2,
-  "SFT_LORA_R": 64,
-  "SFT_LORA_ALPHA": 128,
-  "SFT_LORA_DROPOUT": 0.0,
   "SFT_LORA_TARGET_MODULES": "q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj",
   "SFT_MASK_COT": 1,
   "SFT_OUTPUT_MARKERS": "Output:,OUTPUT:,Final:,Answer:,Result:,Response:",

 {
+  "run_id": "20260224_054704",
+  "time_jst": "2026-02-24T05:47:04.628709",
   "memo": "",
   "SFT_BASE_MODEL": "Qwen/Qwen3-4B-Instruct-2507",
   "SFT_DATASET_ID": "u-10bei/structured_data_with_cot_dataset_512_v2",
   "SFT_OUT_LORA_DIR": "/content/lora_structeval_t_qwen3_4b",
   "SFT_SEED": 3407,
+  "SFT_MAX_SEQ_LEN": 2048,
   "SFT_VAL_RATIO": 0.05,
   "SFT_EPOCHS": 1.0,
+  "SFT_MAX_STEPS": 5,
+  "SFT_LR": 2e-05,
   "SFT_WARMUP_RATIO": 0.1,
   "SFT_WEIGHT_DECAY": 0.05,
   "SFT_PER_DEVICE_TRAIN_BS": 2,
   "SFT_EVAL_STEPS": 50,
   "SFT_SAVE_STEPS": 100,
   "SFT_SAVE_TOTAL_LIMIT": 2,
+  "SFT_LORA_R": 128,
+  "SFT_LORA_ALPHA": 256,
+  "SFT_LORA_DROPOUT": 0.05,
   "SFT_LORA_TARGET_MODULES": "q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj",
   "SFT_MASK_COT": 1,
   "SFT_OUTPUT_MARKERS": "Output:,OUTPUT:,Final:,Answer:,Result:,Response:",