SirajRLX commited on Dec 28, 2025

Commit

9fcdb22

verified ·

1 Parent(s): e9532f5

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

best_adapter/README.md +2 -2
best_adapter/adapter_config.json +6 -6
best_adapter/training_args.bin +1 -1
checkpoints/checkpoint-1000/README.md +2 -2
checkpoints/checkpoint-1000/adapter_config.json +6 -6
checkpoints/checkpoint-1000/trainer_state.json +0 -0
checkpoints/checkpoint-1500/README.md +2 -2
checkpoints/checkpoint-1500/adapter_config.json +6 -6
checkpoints/checkpoint-1500/trainer_state.json +0 -0
checkpoints/checkpoint-2000/README.md +2 -2
checkpoints/checkpoint-2000/adapter_config.json +6 -6
checkpoints/checkpoint-2000/trainer_state.json +0 -0
checkpoints/checkpoint-2500/README.md +2 -2
checkpoints/checkpoint-2500/adapter_config.json +6 -6
checkpoints/checkpoint-2500/trainer_state.json +0 -0
checkpoints/checkpoint-3000/README.md +2 -2
checkpoints/checkpoint-3000/adapter_config.json +6 -6
checkpoints/checkpoint-3000/trainer_state.json +0 -0
checkpoints/checkpoint-3500/README.md +2 -2
checkpoints/checkpoint-3500/adapter_config.json +6 -6
checkpoints/checkpoint-3500/trainer_state.json +0 -0
checkpoints/checkpoint-4000/README.md +2 -2
checkpoints/checkpoint-4000/adapter_config.json +6 -6
checkpoints/checkpoint-4000/trainer_state.json +0 -0
checkpoints/checkpoint-4500/README.md +2 -2
checkpoints/checkpoint-4500/adapter_config.json +6 -6
checkpoints/checkpoint-4500/rng_state.pth +1 -1
checkpoints/checkpoint-4500/scheduler.pt +1 -1
checkpoints/checkpoint-4500/trainer_state.json +0 -0
checkpoints/checkpoint-4500/training_args.bin +1 -1
checkpoints/checkpoint-500/README.md +2 -2
checkpoints/checkpoint-500/adapter_config.json +6 -6
checkpoints/checkpoint-500/trainer_state.json +773 -773
checkpoints/checkpoint-5000/README.md +2 -2
checkpoints/checkpoint-5000/adapter_config.json +6 -6
checkpoints/checkpoint-5000/trainer_state.json +0 -0
config_resolved.yaml +8 -8
eval_final.json +6 -6
logs/eval.jsonl +52 -77
logs/train.jsonl +0 -0
wandb/debug-internal.log +12 -12
wandb/debug.log +29 -29
wandb/run-20251226_181544-upub1jan/files/config.yaml +601 -0
wandb/run-20251226_181544-upub1jan/files/output.log +0 -0
wandb/run-20251226_181544-upub1jan/files/requirements.txt +104 -0
wandb/run-20251226_181544-upub1jan/files/wandb-metadata.json +47 -0
wandb/run-20251226_181544-upub1jan/files/wandb-summary.json +1 -0
wandb/run-20251226_181544-upub1jan/logs/debug-core.log +16 -0
wandb/run-20251226_181544-upub1jan/logs/debug-internal.log +12 -0
wandb/run-20251226_181544-upub1jan/logs/debug.log +29 -0

best_adapter/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

best_adapter/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

best_adapter/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09df88fe57630482e911c5fab6026e3d20e4f37f6e48706f3566768f533d6d7
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:afae4a8ce1391f149eb00b14eed8f891c715e892ea546bf754d22db2c2bc5969
 size 4792

checkpoints/checkpoint-1000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-1000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-1000/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-1500/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-1500/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-1500/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-2000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-2000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-2000/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-2500/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-2500/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-2500/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-3000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-3000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-3000/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-3500/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-3500/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-3500/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-4000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-4000/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4500/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-4500/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-4500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0efe65d231115c25223bf7b93f16e661ce129b91718b68f1f079e626bed512b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cadd1d4964d81ffd554b895540fe42c724ce67c8ce385b329c23f9ba4322912d
 size 14244

checkpoints/checkpoint-4500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ddebc5e42121a3c52427c71de63ee27a7547ec14262f7ddfeb0be5491a11af0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:315c9d74357f9543b8b6474791ceab2fe082042e289fc2e3547f3a4b6c9b01b2
 size 1064

checkpoints/checkpoint-4500/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09df88fe57630482e911c5fab6026e3d20e4f37f6e48706f3566768f533d6d7
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:afae4a8ce1391f149eb00b14eed8f891c715e892ea546bf754d22db2c2bc5969
 size 4792

checkpoints/checkpoint-500/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-500/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_global_step": 500,
-  "best_metric": 0.9080732464790344,
-  "best_model_checkpoint": "task2file/sft_devstral_24B_v2/checkpoints/checkpoint-500",
   "epoch": 0.2109704641350211,
   "eval_steps": 100,
   "global_step": 500,
@@ -11,1792 +11,1792 @@
   "log_history": [
     {
       "epoch": 0.0008438818565400844,
-      "grad_norm": 1.597854733467102,
-      "learning_rate": 8.787346221441124e-08,
-      "loss": 1.3927901983261108,
       "step": 2
     },
     {
       "epoch": 0.0016877637130801688,
-      "grad_norm": 1.6547431945800781,
-      "learning_rate": 2.6362038664323375e-07,
-      "loss": 1.407160758972168,
       "step": 4
     },
     {
       "epoch": 0.002531645569620253,
-      "grad_norm": 1.8221601247787476,
-      "learning_rate": 4.393673110720563e-07,
-      "loss": 1.376656174659729,
       "step": 6
     },
     {
       "epoch": 0.0033755274261603376,
-      "grad_norm": 1.4831048250198364,
-      "learning_rate": 6.151142355008788e-07,
-      "loss": 1.247712254524231,
       "step": 8
     },
     {
       "epoch": 0.004219409282700422,
-      "grad_norm": 1.668201208114624,
-      "learning_rate": 7.908611599297013e-07,
-      "loss": 1.2685163021087646,
       "step": 10
     },
     {
       "epoch": 0.005063291139240506,
-      "grad_norm": 1.67417311668396,
-      "learning_rate": 9.666080843585237e-07,
-      "loss": 1.2942761182785034,
       "step": 12
     },
     {
       "epoch": 0.00590717299578059,
-      "grad_norm": 1.7154079675674438,
-      "learning_rate": 1.1423550087873463e-06,
-      "loss": 1.3638604879379272,
       "step": 14
     },
     {
       "epoch": 0.006751054852320675,
-      "grad_norm": 1.729427456855774,
-      "learning_rate": 1.3181019332161688e-06,
-      "loss": 1.3476728200912476,
       "step": 16
     },
     {
       "epoch": 0.007594936708860759,
-      "grad_norm": 1.3813447952270508,
-      "learning_rate": 1.4938488576449913e-06,
-      "loss": 1.3476393222808838,
       "step": 18
     },
     {
       "epoch": 0.008438818565400843,
-      "grad_norm": 1.557220458984375,
-      "learning_rate": 1.6695957820738139e-06,
-      "loss": 1.2449309825897217,
       "step": 20
     },
     {
       "epoch": 0.009282700421940928,
-      "grad_norm": 1.1883500814437866,
-      "learning_rate": 1.8453427065026362e-06,
-      "loss": 1.3125361204147339,
       "step": 22
     },
     {
       "epoch": 0.010126582278481013,
-      "grad_norm": 1.7290029525756836,
-      "learning_rate": 2.0210896309314587e-06,
-      "loss": 1.3724769353866577,
       "step": 24
     },
     {
       "epoch": 0.010970464135021098,
-      "grad_norm": 1.5627557039260864,
-      "learning_rate": 2.1968365553602812e-06,
-      "loss": 1.3401387929916382,
       "step": 26
     },
     {
       "epoch": 0.01181434599156118,
-      "grad_norm": 1.796866774559021,
-      "learning_rate": 2.3725834797891038e-06,
-      "loss": 1.365437388420105,
       "step": 28
     },
     {
       "epoch": 0.012658227848101266,
-      "grad_norm": 1.7030404806137085,
-      "learning_rate": 2.5483304042179263e-06,
-      "loss": 1.2706533670425415,
       "step": 30
     },
     {
       "epoch": 0.01350210970464135,
-      "grad_norm": 1.3186293840408325,
-      "learning_rate": 2.724077328646749e-06,
-      "loss": 1.3084994554519653,
       "step": 32
     },
     {
       "epoch": 0.014345991561181435,
-      "grad_norm": 1.5762513875961304,
-      "learning_rate": 2.8998242530755714e-06,
-      "loss": 1.3259696960449219,
       "step": 34
     },
     {
       "epoch": 0.015189873417721518,
-      "grad_norm": 1.422295331954956,
-      "learning_rate": 3.075571177504394e-06,
-      "loss": 1.3205676078796387,
       "step": 36
     },
     {
       "epoch": 0.016033755274261603,
-      "grad_norm": 1.495523452758789,
-      "learning_rate": 3.2513181019332165e-06,
-      "loss": 1.3740568161010742,
       "step": 38
     },
     {
       "epoch": 0.016877637130801686,
-      "grad_norm": 1.5112254619598389,
-      "learning_rate": 3.427065026362039e-06,
-      "loss": 1.321828842163086,
       "step": 40
     },
     {
       "epoch": 0.017721518987341773,
-      "grad_norm": 1.4667807817459106,
-      "learning_rate": 3.602811950790861e-06,
-      "loss": 1.3673173189163208,
       "step": 42
     },
     {
       "epoch": 0.018565400843881856,
-      "grad_norm": 1.6609723567962646,
-      "learning_rate": 3.7785588752196836e-06,
-      "loss": 1.3968093395233154,
       "step": 44
     },
     {
       "epoch": 0.019409282700421943,
-      "grad_norm": 1.59381103515625,
-      "learning_rate": 3.954305799648506e-06,
-      "loss": 1.4295302629470825,
       "step": 46
     },
     {
       "epoch": 0.020253164556962026,
-      "grad_norm": 1.1470608711242676,
-      "learning_rate": 4.130052724077329e-06,
-      "loss": 1.2536572217941284,
       "step": 48
     },
     {
       "epoch": 0.02109704641350211,
-      "grad_norm": 1.2014588117599487,
-      "learning_rate": 4.305799648506151e-06,
-      "loss": 1.242217779159546,
       "step": 50
     },
     {
       "epoch": 0.021940928270042195,
-      "grad_norm": 1.2327464818954468,
-      "learning_rate": 4.481546572934974e-06,
-      "loss": 1.2166963815689087,
       "step": 52
     },
     {
       "epoch": 0.02278481012658228,
-      "grad_norm": 1.9708983898162842,
-      "learning_rate": 4.657293497363796e-06,
-      "loss": 1.25709867477417,
       "step": 54
     },
     {
       "epoch": 0.02362869198312236,
-      "grad_norm": 1.180569052696228,
-      "learning_rate": 4.833040421792619e-06,
-      "loss": 1.2886158227920532,
       "step": 56
     },
     {
       "epoch": 0.024472573839662448,
-      "grad_norm": 1.5029548406600952,
-      "learning_rate": 5.008787346221441e-06,
-      "loss": 1.29886794090271,
       "step": 58
     },
     {
       "epoch": 0.02531645569620253,
-      "grad_norm": 1.5380216836929321,
-      "learning_rate": 5.184534270650264e-06,
-      "loss": 1.2387628555297852,
       "step": 60
     },
     {
       "epoch": 0.026160337552742614,
-      "grad_norm": 1.572144865989685,
-      "learning_rate": 5.3602811950790864e-06,
-      "loss": 1.2177000045776367,
       "step": 62
     },
     {
       "epoch": 0.0270042194092827,
-      "grad_norm": 1.4882780313491821,
-      "learning_rate": 5.536028119507909e-06,
-      "loss": 1.181516170501709,
       "step": 64
     },
     {
       "epoch": 0.027848101265822784,
-      "grad_norm": 1.2982488870620728,
-      "learning_rate": 5.7117750439367315e-06,
-      "loss": 1.2101733684539795,
       "step": 66
     },
     {
       "epoch": 0.02869198312236287,
-      "grad_norm": 1.5236955881118774,
-      "learning_rate": 5.887521968365554e-06,
-      "loss": 1.2277681827545166,
       "step": 68
     },
     {
       "epoch": 0.029535864978902954,
-      "grad_norm": 1.4521006345748901,
-      "learning_rate": 6.0632688927943766e-06,
-      "loss": 1.1688424348831177,
       "step": 70
     },
     {
       "epoch": 0.030379746835443037,
-      "grad_norm": 1.2352311611175537,
-      "learning_rate": 6.239015817223199e-06,
-      "loss": 1.273059368133545,
       "step": 72
     },
     {
       "epoch": 0.031223628691983123,
-      "grad_norm": 1.3438209295272827,
-      "learning_rate": 6.414762741652021e-06,
-      "loss": 1.1609034538269043,
       "step": 74
     },
     {
       "epoch": 0.032067510548523206,
-      "grad_norm": 1.9009398221969604,
-      "learning_rate": 6.590509666080843e-06,
-      "loss": 1.2508260011672974,
       "step": 76
     },
     {
       "epoch": 0.03291139240506329,
-      "grad_norm": 1.6718412637710571,
-      "learning_rate": 6.766256590509666e-06,
-      "loss": 1.2524956464767456,
       "step": 78
     },
     {
       "epoch": 0.03375527426160337,
-      "grad_norm": 1.249891757965088,
-      "learning_rate": 6.942003514938488e-06,
-      "loss": 1.1472493410110474,
       "step": 80
     },
     {
       "epoch": 0.03459915611814346,
-      "grad_norm": 1.4398653507232666,
-      "learning_rate": 7.117750439367312e-06,
-      "loss": 1.0845389366149902,
       "step": 82
     },
     {
       "epoch": 0.035443037974683546,
-      "grad_norm": 1.3701167106628418,
-      "learning_rate": 7.293497363796134e-06,
-      "loss": 1.1088868379592896,
       "step": 84
     },
     {
       "epoch": 0.036286919831223625,
-      "grad_norm": 1.277998924255371,
-      "learning_rate": 7.469244288224957e-06,
-      "loss": 1.1513772010803223,
       "step": 86
     },
     {
       "epoch": 0.03713080168776371,
-      "grad_norm": 1.4970002174377441,
-      "learning_rate": 7.644991212653779e-06,
-      "loss": 1.1385771036148071,
       "step": 88
     },
     {
       "epoch": 0.0379746835443038,
-      "grad_norm": 1.3384218215942383,
-      "learning_rate": 7.820738137082601e-06,
-      "loss": 1.1632680892944336,
       "step": 90
     },
     {
       "epoch": 0.038818565400843885,
-      "grad_norm": 1.4317446947097778,
-      "learning_rate": 7.996485061511425e-06,
-      "loss": 1.2256064414978027,
       "step": 92
     },
     {
       "epoch": 0.039662447257383965,
-      "grad_norm": 1.8743640184402466,
-      "learning_rate": 8.172231985940246e-06,
-      "loss": 1.1935789585113525,
       "step": 94
     },
     {
       "epoch": 0.04050632911392405,
-      "grad_norm": 1.4789546728134155,
-      "learning_rate": 8.347978910369069e-06,
-      "loss": 1.1429362297058105,
       "step": 96
     },
     {
       "epoch": 0.04135021097046414,
-      "grad_norm": 1.658605694770813,
-      "learning_rate": 8.523725834797891e-06,
-      "loss": 1.1831508874893188,
       "step": 98
     },
     {
       "epoch": 0.04219409282700422,
-      "grad_norm": 1.5077892541885376,
-      "learning_rate": 8.699472759226714e-06,
-      "loss": 1.0539867877960205,
       "step": 100
     },
     {
       "epoch": 0.04219409282700422,
-      "eval_loss": 1.138856053352356,
-      "eval_runtime": 859.7128,
-      "eval_samples_per_second": 2.451,
-      "eval_steps_per_second": 2.451,
       "step": 100
     },
     {
       "epoch": 0.043037974683544304,
-      "grad_norm": 1.4335681200027466,
-      "learning_rate": 8.875219683655536e-06,
-      "loss": 1.0719901323318481,
       "step": 102
     },
     {
       "epoch": 0.04388185654008439,
-      "grad_norm": 1.7387681007385254,
-      "learning_rate": 9.050966608084359e-06,
-      "loss": 1.0654313564300537,
       "step": 104
     },
     {
       "epoch": 0.04472573839662447,
-      "grad_norm": 1.6071950197219849,
-      "learning_rate": 9.226713532513181e-06,
-      "loss": 1.0752698183059692,
       "step": 106
     },
     {
       "epoch": 0.04556962025316456,
-      "grad_norm": 1.40005362033844,
-      "learning_rate": 9.402460456942004e-06,
-      "loss": 1.1029763221740723,
       "step": 108
     },
     {
       "epoch": 0.046413502109704644,
-      "grad_norm": 2.2338669300079346,
-      "learning_rate": 9.578207381370826e-06,
-      "loss": 1.1157960891723633,
       "step": 110
     },
     {
       "epoch": 0.04725738396624472,
-      "grad_norm": 1.4972727298736572,
-      "learning_rate": 9.753954305799649e-06,
-      "loss": 1.1095420122146606,
       "step": 112
     },
     {
       "epoch": 0.04810126582278481,
-      "grad_norm": 1.317979097366333,
-      "learning_rate": 9.929701230228471e-06,
-      "loss": 1.109113097190857,
       "step": 114
     },
     {
       "epoch": 0.048945147679324896,
-      "grad_norm": 1.496346116065979,
-      "learning_rate": 1.0105448154657294e-05,
-      "loss": 1.1055104732513428,
       "step": 116
     },
     {
       "epoch": 0.049789029535864976,
-      "grad_norm": 1.385406732559204,
-      "learning_rate": 1.0281195079086117e-05,
-      "loss": 1.118395209312439,
       "step": 118
     },
     {
       "epoch": 0.05063291139240506,
-      "grad_norm": 1.524222731590271,
-      "learning_rate": 1.0456942003514939e-05,
-      "loss": 1.1008446216583252,
       "step": 120
     },
     {
       "epoch": 0.05147679324894515,
-      "grad_norm": 1.6308200359344482,
-      "learning_rate": 1.0632688927943762e-05,
-      "loss": 1.0891425609588623,
       "step": 122
     },
     {
       "epoch": 0.05232067510548523,
-      "grad_norm": 1.3681106567382812,
-      "learning_rate": 1.0808435852372584e-05,
-      "loss": 0.9080473184585571,
       "step": 124
     },
     {
       "epoch": 0.053164556962025315,
-      "grad_norm": 1.9429908990859985,
-      "learning_rate": 1.0984182776801407e-05,
-      "loss": 1.0337369441986084,
       "step": 126
     },
     {
       "epoch": 0.0540084388185654,
-      "grad_norm": 1.5830830335617065,
-      "learning_rate": 1.115992970123023e-05,
-      "loss": 1.0703333616256714,
       "step": 128
     },
     {
       "epoch": 0.05485232067510549,
-      "grad_norm": 1.4792555570602417,
-      "learning_rate": 1.1335676625659052e-05,
-      "loss": 1.004652738571167,
       "step": 130
     },
     {
       "epoch": 0.05569620253164557,
-      "grad_norm": 1.7196226119995117,
-      "learning_rate": 1.1511423550087874e-05,
-      "loss": 0.9798293709754944,
       "step": 132
     },
     {
       "epoch": 0.056540084388185655,
-      "grad_norm": 1.8733659982681274,
-      "learning_rate": 1.1687170474516697e-05,
-      "loss": 1.0213249921798706,
       "step": 134
     },
     {
       "epoch": 0.05738396624472574,
-      "grad_norm": 1.3431142568588257,
-      "learning_rate": 1.186291739894552e-05,
-      "loss": 1.0358591079711914,
       "step": 136
     },
     {
       "epoch": 0.05822784810126582,
-      "grad_norm": 1.527864933013916,
-      "learning_rate": 1.2038664323374342e-05,
-      "loss": 0.9372249841690063,
       "step": 138
     },
     {
       "epoch": 0.05907172995780591,
-      "grad_norm": 1.5495563745498657,
-      "learning_rate": 1.2214411247803164e-05,
-      "loss": 1.0277758836746216,
       "step": 140
     },
     {
       "epoch": 0.059915611814345994,
-      "grad_norm": 1.6792418956756592,
-      "learning_rate": 1.2390158172231985e-05,
-      "loss": 1.0349801778793335,
       "step": 142
     },
     {
       "epoch": 0.060759493670886074,
-      "grad_norm": 1.6468945741653442,
-      "learning_rate": 1.256590509666081e-05,
-      "loss": 0.9578297734260559,
       "step": 144
     },
     {
       "epoch": 0.06160337552742616,
-      "grad_norm": 1.7243824005126953,
-      "learning_rate": 1.2741652021089632e-05,
-      "loss": 1.0628854036331177,
       "step": 146
     },
     {
       "epoch": 0.06244725738396625,
-      "grad_norm": 1.7286981344223022,
-      "learning_rate": 1.2917398945518455e-05,
-      "loss": 0.9336449503898621,
       "step": 148
     },
     {
       "epoch": 0.06329113924050633,
-      "grad_norm": 1.6411832571029663,
-      "learning_rate": 1.3093145869947277e-05,
-      "loss": 0.953730583190918,
       "step": 150
     },
     {
       "epoch": 0.06413502109704641,
-      "grad_norm": 1.8297001123428345,
-      "learning_rate": 1.3268892794376098e-05,
-      "loss": 1.051239013671875,
       "step": 152
     },
     {
       "epoch": 0.06497890295358649,
-      "grad_norm": 1.9660519361495972,
-      "learning_rate": 1.3444639718804922e-05,
-      "loss": 0.9955035448074341,
       "step": 154
     },
     {
       "epoch": 0.06582278481012659,
-      "grad_norm": 1.8423733711242676,
-      "learning_rate": 1.3620386643233743e-05,
-      "loss": 0.913300096988678,
       "step": 156
     },
     {
       "epoch": 0.06666666666666667,
-      "grad_norm": 1.9146347045898438,
-      "learning_rate": 1.3796133567662567e-05,
-      "loss": 1.0429846048355103,
       "step": 158
     },
     {
       "epoch": 0.06751054852320675,
-      "grad_norm": 1.6221821308135986,
-      "learning_rate": 1.3971880492091388e-05,
-      "loss": 1.0360238552093506,
       "step": 160
     },
     {
       "epoch": 0.06835443037974684,
-      "grad_norm": 2.173283338546753,
-      "learning_rate": 1.4147627416520212e-05,
-      "loss": 1.0227266550064087,
       "step": 162
     },
     {
       "epoch": 0.06919831223628692,
-      "grad_norm": 1.7091665267944336,
-      "learning_rate": 1.4323374340949033e-05,
-      "loss": 1.0075194835662842,
       "step": 164
     },
     {
       "epoch": 0.070042194092827,
-      "grad_norm": 1.7219135761260986,
-      "learning_rate": 1.4499121265377857e-05,
-      "loss": 1.0044782161712646,
       "step": 166
     },
     {
       "epoch": 0.07088607594936709,
-      "grad_norm": 1.6558159589767456,
-      "learning_rate": 1.4674868189806678e-05,
-      "loss": 0.9393973350524902,
       "step": 168
     },
     {
       "epoch": 0.07172995780590717,
-      "grad_norm": 1.9362739324569702,
-      "learning_rate": 1.4850615114235502e-05,
-      "loss": 0.9955337643623352,
       "step": 170
     },
     {
       "epoch": 0.07257383966244725,
-      "grad_norm": 1.7792853116989136,
-      "learning_rate": 1.5026362038664323e-05,
-      "loss": 0.9659126400947571,
       "step": 172
     },
     {
       "epoch": 0.07341772151898734,
-      "grad_norm": 1.7184511423110962,
-      "learning_rate": 1.5202108963093147e-05,
-      "loss": 0.9077855348587036,
       "step": 174
     },
     {
       "epoch": 0.07426160337552742,
-      "grad_norm": 1.5701428651809692,
-      "learning_rate": 1.537785588752197e-05,
-      "loss": 0.9305018782615662,
       "step": 176
     },
     {
       "epoch": 0.0751054852320675,
-      "grad_norm": 1.970229148864746,
-      "learning_rate": 1.555360281195079e-05,
-      "loss": 1.0211774110794067,
       "step": 178
     },
     {
       "epoch": 0.0759493670886076,
-      "grad_norm": 1.8410269021987915,
-      "learning_rate": 1.5729349736379615e-05,
-      "loss": 0.9479315876960754,
       "step": 180
     },
     {
       "epoch": 0.07679324894514768,
-      "grad_norm": 1.8991246223449707,
-      "learning_rate": 1.5905096660808434e-05,
-      "loss": 1.0629050731658936,
       "step": 182
     },
     {
       "epoch": 0.07763713080168777,
-      "grad_norm": 1.8052008152008057,
-      "learning_rate": 1.608084358523726e-05,
-      "loss": 0.946983814239502,
       "step": 184
     },
     {
       "epoch": 0.07848101265822785,
-      "grad_norm": 1.547108769416809,
-      "learning_rate": 1.625659050966608e-05,
-      "loss": 0.9413356184959412,
       "step": 186
     },
     {
       "epoch": 0.07932489451476793,
-      "grad_norm": 1.9713538885116577,
-      "learning_rate": 1.6432337434094905e-05,
-      "loss": 0.9337888956069946,
       "step": 188
     },
     {
       "epoch": 0.08016877637130802,
-      "grad_norm": 1.708789348602295,
-      "learning_rate": 1.6608084358523728e-05,
-      "loss": 0.9816337823867798,
       "step": 190
     },
     {
       "epoch": 0.0810126582278481,
-      "grad_norm": 1.815292477607727,
-      "learning_rate": 1.678383128295255e-05,
-      "loss": 1.017122507095337,
       "step": 192
     },
     {
       "epoch": 0.08185654008438818,
-      "grad_norm": 1.7950682640075684,
-      "learning_rate": 1.6959578207381373e-05,
-      "loss": 0.991599440574646,
       "step": 194
     },
     {
       "epoch": 0.08270042194092828,
-      "grad_norm": 1.692512035369873,
-      "learning_rate": 1.7135325131810195e-05,
-      "loss": 0.9570834040641785,
       "step": 196
     },
     {
       "epoch": 0.08354430379746836,
-      "grad_norm": 2.056089162826538,
-      "learning_rate": 1.7311072056239018e-05,
-      "loss": 1.035754919052124,
       "step": 198
     },
     {
       "epoch": 0.08438818565400844,
-      "grad_norm": 1.7022203207015991,
-      "learning_rate": 1.7486818980667837e-05,
-      "loss": 1.0124205350875854,
       "step": 200
     },
     {
       "epoch": 0.08438818565400844,
-      "eval_loss": 0.995743453502655,
-      "eval_runtime": 846.8257,
-      "eval_samples_per_second": 2.488,
-      "eval_steps_per_second": 2.488,
       "step": 200
     },
     {
       "epoch": 0.08523206751054853,
-      "grad_norm": 1.6088604927062988,
-      "learning_rate": 1.7662565905096663e-05,
-      "loss": 0.8946985006332397,
       "step": 202
     },
     {
       "epoch": 0.08607594936708861,
-      "grad_norm": 2.02270770072937,
-      "learning_rate": 1.7838312829525482e-05,
-      "loss": 0.976133406162262,
       "step": 204
     },
     {
       "epoch": 0.08691983122362869,
-      "grad_norm": 1.7832789421081543,
-      "learning_rate": 1.8014059753954308e-05,
-      "loss": 0.9079383611679077,
       "step": 206
     },
     {
       "epoch": 0.08776371308016878,
-      "grad_norm": 1.9793545007705688,
-      "learning_rate": 1.8189806678383127e-05,
-      "loss": 0.8650367856025696,
       "step": 208
     },
     {
       "epoch": 0.08860759493670886,
-      "grad_norm": 1.8124271631240845,
-      "learning_rate": 1.8365553602811953e-05,
-      "loss": 0.9327266812324524,
       "step": 210
     },
     {
       "epoch": 0.08945147679324894,
-      "grad_norm": 1.8581212759017944,
-      "learning_rate": 1.8541300527240772e-05,
-      "loss": 0.9811079502105713,
       "step": 212
     },
     {
       "epoch": 0.09029535864978903,
-      "grad_norm": 2.001699447631836,
-      "learning_rate": 1.8717047451669598e-05,
-      "loss": 0.9546971321105957,
       "step": 214
     },
     {
       "epoch": 0.09113924050632911,
-      "grad_norm": 1.6994978189468384,
-      "learning_rate": 1.8892794376098417e-05,
-      "loss": 0.9611319899559021,
       "step": 216
     },
     {
       "epoch": 0.0919831223628692,
-      "grad_norm": 2.1379497051239014,
-      "learning_rate": 1.9068541300527243e-05,
-      "loss": 0.9781531095504761,
       "step": 218
     },
     {
       "epoch": 0.09282700421940929,
-      "grad_norm": 1.8961224555969238,
-      "learning_rate": 1.9244288224956066e-05,
-      "loss": 0.9374833106994629,
       "step": 220
     },
     {
       "epoch": 0.09367088607594937,
-      "grad_norm": 1.851464033126831,
-      "learning_rate": 1.9420035149384885e-05,
-      "loss": 0.9681299328804016,
       "step": 222
     },
     {
       "epoch": 0.09451476793248945,
-      "grad_norm": 2.0642266273498535,
-      "learning_rate": 1.959578207381371e-05,
-      "loss": 1.0086225271224976,
       "step": 224
     },
     {
       "epoch": 0.09535864978902954,
-      "grad_norm": 1.8658756017684937,
-      "learning_rate": 1.977152899824253e-05,
-      "loss": 0.9190312623977661,
       "step": 226
     },
     {
       "epoch": 0.09620253164556962,
-      "grad_norm": 2.4398674964904785,
-      "learning_rate": 1.9947275922671356e-05,
-      "loss": 0.9740874171257019,
       "step": 228
     },
     {
       "epoch": 0.0970464135021097,
-      "grad_norm": 1.849183440208435,
-      "learning_rate": 2.0123022847100175e-05,
-      "loss": 0.884376049041748,
       "step": 230
     },
     {
       "epoch": 0.09789029535864979,
-      "grad_norm": 2.027320384979248,
-      "learning_rate": 2.0298769771529e-05,
-      "loss": 0.9116487503051758,
       "step": 232
     },
     {
       "epoch": 0.09873417721518987,
-      "grad_norm": 1.6800135374069214,
-      "learning_rate": 2.047451669595782e-05,
-      "loss": 0.9035115242004395,
       "step": 234
     },
     {
       "epoch": 0.09957805907172995,
-      "grad_norm": 2.2362256050109863,
-      "learning_rate": 2.0650263620386646e-05,
-      "loss": 0.9043796062469482,
       "step": 236
     },
     {
       "epoch": 0.10042194092827005,
-      "grad_norm": 1.938215970993042,
-      "learning_rate": 2.0826010544815465e-05,
-      "loss": 1.0888828039169312,
       "step": 238
     },
     {
       "epoch": 0.10126582278481013,
-      "grad_norm": 1.890328049659729,
-      "learning_rate": 2.100175746924429e-05,
-      "loss": 0.9960280656814575,
       "step": 240
     },
     {
       "epoch": 0.1021097046413502,
-      "grad_norm": 2.021235227584839,
-      "learning_rate": 2.117750439367311e-05,
-      "loss": 0.9848901629447937,
       "step": 242
     },
     {
       "epoch": 0.1029535864978903,
-      "grad_norm": 2.023920774459839,
-      "learning_rate": 2.1353251318101936e-05,
-      "loss": 0.891694188117981,
       "step": 244
     },
     {
       "epoch": 0.10379746835443038,
-      "grad_norm": 1.8061069250106812,
-      "learning_rate": 2.1528998242530755e-05,
-      "loss": 0.9059976935386658,
       "step": 246
     },
     {
       "epoch": 0.10464135021097046,
-      "grad_norm": 2.176302194595337,
-      "learning_rate": 2.1704745166959578e-05,
-      "loss": 1.0056109428405762,
       "step": 248
     },
     {
       "epoch": 0.10548523206751055,
-      "grad_norm": 1.9820969104766846,
-      "learning_rate": 2.18804920913884e-05,
-      "loss": 0.9645357728004456,
       "step": 250
     },
     {
       "epoch": 0.10632911392405063,
-      "grad_norm": 1.8764572143554688,
-      "learning_rate": 2.2056239015817223e-05,
-      "loss": 1.0178182125091553,
       "step": 252
     },
     {
       "epoch": 0.10717299578059072,
-      "grad_norm": 2.56221342086792,
-      "learning_rate": 2.223198594024605e-05,
-      "loss": 0.9546761512756348,
       "step": 254
     },
     {
       "epoch": 0.1080168776371308,
-      "grad_norm": 2.6779074668884277,
-      "learning_rate": 2.2407732864674868e-05,
-      "loss": 0.9300968647003174,
       "step": 256
     },
     {
       "epoch": 0.10886075949367088,
-      "grad_norm": 2.140897512435913,
-      "learning_rate": 2.2583479789103694e-05,
-      "loss": 0.926638662815094,
       "step": 258
     },
     {
       "epoch": 0.10970464135021098,
-      "grad_norm": 2.0880508422851562,
-      "learning_rate": 2.2759226713532513e-05,
-      "loss": 1.0681840181350708,
       "step": 260
     },
     {
       "epoch": 0.11054852320675106,
-      "grad_norm": 2.7273616790771484,
-      "learning_rate": 2.293497363796134e-05,
-      "loss": 1.0840941667556763,
       "step": 262
     },
     {
       "epoch": 0.11139240506329114,
-      "grad_norm": 1.6723874807357788,
-      "learning_rate": 2.3110720562390158e-05,
-      "loss": 0.8637182116508484,
       "step": 264
     },
     {
       "epoch": 0.11223628691983123,
-      "grad_norm": 1.806243896484375,
-      "learning_rate": 2.3286467486818984e-05,
-      "loss": 0.9554686546325684,
       "step": 266
     },
     {
       "epoch": 0.11308016877637131,
-      "grad_norm": 1.9086743593215942,
-      "learning_rate": 2.3462214411247803e-05,
-      "loss": 0.9556593894958496,
       "step": 268
     },
     {
       "epoch": 0.11392405063291139,
-      "grad_norm": 2.1822304725646973,
-      "learning_rate": 2.3637961335676626e-05,
-      "loss": 0.9177709817886353,
       "step": 270
     },
     {
       "epoch": 0.11476793248945148,
-      "grad_norm": 2.1009039878845215,
-      "learning_rate": 2.3813708260105448e-05,
-      "loss": 0.9288759827613831,
       "step": 272
     },
     {
       "epoch": 0.11561181434599156,
-      "grad_norm": 1.9814810752868652,
-      "learning_rate": 2.398945518453427e-05,
-      "loss": 0.9881691932678223,
       "step": 274
     },
     {
       "epoch": 0.11645569620253164,
-      "grad_norm": 1.9946284294128418,
-      "learning_rate": 2.4165202108963093e-05,
-      "loss": 0.9390727281570435,
       "step": 276
     },
     {
       "epoch": 0.11729957805907174,
-      "grad_norm": 2.4489169120788574,
-      "learning_rate": 2.4340949033391916e-05,
-      "loss": 0.9625692963600159,
       "step": 278
     },
     {
       "epoch": 0.11814345991561181,
-      "grad_norm": 2.0919103622436523,
-      "learning_rate": 2.451669595782074e-05,
-      "loss": 0.9304702877998352,
       "step": 280
     },
     {
       "epoch": 0.1189873417721519,
-      "grad_norm": 1.912914752960205,
-      "learning_rate": 2.469244288224956e-05,
-      "loss": 0.9313994646072388,
       "step": 282
     },
     {
       "epoch": 0.11983122362869199,
-      "grad_norm": 2.1553256511688232,
-      "learning_rate": 2.4868189806678387e-05,
-      "loss": 1.004011869430542,
       "step": 284
     },
     {
       "epoch": 0.12067510548523207,
-      "grad_norm": 2.0129058361053467,
-      "learning_rate": 2.504393673110721e-05,
-      "loss": 0.9092531204223633,
       "step": 286
     },
     {
       "epoch": 0.12151898734177215,
-      "grad_norm": 2.1632325649261475,
-      "learning_rate": 2.5219683655536032e-05,
-      "loss": 0.993347704410553,
       "step": 288
     },
     {
       "epoch": 0.12236286919831224,
-      "grad_norm": 2.3072738647460938,
-      "learning_rate": 2.539543057996485e-05,
-      "loss": 0.978348433971405,
       "step": 290
     },
     {
       "epoch": 0.12320675105485232,
-      "grad_norm": 2.056560516357422,
-      "learning_rate": 2.5571177504393674e-05,
-      "loss": 1.0018101930618286,
       "step": 292
     },
     {
       "epoch": 0.1240506329113924,
-      "grad_norm": 1.8906747102737427,
-      "learning_rate": 2.5746924428822493e-05,
-      "loss": 0.9607775211334229,
       "step": 294
     },
     {
       "epoch": 0.1248945147679325,
-      "grad_norm": 2.1375651359558105,
-      "learning_rate": 2.5922671353251322e-05,
-      "loss": 0.9259153008460999,
       "step": 296
     },
     {
       "epoch": 0.1257383966244726,
-      "grad_norm": 1.9994823932647705,
-      "learning_rate": 2.609841827768014e-05,
-      "loss": 0.8524524569511414,
       "step": 298
     },
     {
       "epoch": 0.12658227848101267,
-      "grad_norm": 2.2421181201934814,
-      "learning_rate": 2.6274165202108964e-05,
-      "loss": 1.0047069787979126,
       "step": 300
     },
     {
       "epoch": 0.12658227848101267,
-      "eval_loss": 0.9517185688018799,
-      "eval_runtime": 860.0287,
-      "eval_samples_per_second": 2.45,
-      "eval_steps_per_second": 2.45,
       "step": 300
     },
     {
       "epoch": 0.12742616033755275,
-      "grad_norm": 2.1206254959106445,
-      "learning_rate": 2.6449912126537786e-05,
-      "loss": 0.8475471138954163,
       "step": 302
     },
     {
       "epoch": 0.12827004219409283,
-      "grad_norm": 1.885161280632019,
-      "learning_rate": 2.6625659050966612e-05,
-      "loss": 0.8643121123313904,
       "step": 304
     },
     {
       "epoch": 0.1291139240506329,
-      "grad_norm": 3.1441781520843506,
-      "learning_rate": 2.680140597539543e-05,
-      "loss": 0.8804612159729004,
       "step": 306
     },
     {
       "epoch": 0.12995780590717299,
-      "grad_norm": 1.953133225440979,
-      "learning_rate": 2.6977152899824254e-05,
-      "loss": 0.8348029255867004,
       "step": 308
     },
     {
       "epoch": 0.1308016877637131,
-      "grad_norm": 2.3762667179107666,
-      "learning_rate": 2.7152899824253076e-05,
-      "loss": 0.8889057040214539,
       "step": 310
     },
     {
       "epoch": 0.13164556962025317,
-      "grad_norm": 2.4651103019714355,
-      "learning_rate": 2.7328646748681902e-05,
-      "loss": 1.025565505027771,
       "step": 312
     },
     {
       "epoch": 0.13248945147679325,
-      "grad_norm": 1.8522284030914307,
-      "learning_rate": 2.7504393673110725e-05,
-      "loss": 0.868915855884552,
       "step": 314
     },
     {
       "epoch": 0.13333333333333333,
-      "grad_norm": 1.8048083782196045,
-      "learning_rate": 2.7680140597539544e-05,
-      "loss": 0.8821638226509094,
       "step": 316
     },
     {
       "epoch": 0.1341772151898734,
-      "grad_norm": 1.9933605194091797,
-      "learning_rate": 2.7855887521968367e-05,
-      "loss": 0.8735360503196716,
       "step": 318
     },
     {
       "epoch": 0.1350210970464135,
-      "grad_norm": 2.044337034225464,
-      "learning_rate": 2.8031634446397186e-05,
-      "loss": 0.8288834691047668,
       "step": 320
     },
     {
       "epoch": 0.1358649789029536,
-      "grad_norm": 2.416067361831665,
-      "learning_rate": 2.8207381370826015e-05,
-      "loss": 0.9104969501495361,
       "step": 322
     },
     {
       "epoch": 0.13670886075949368,
-      "grad_norm": 2.0731265544891357,
-      "learning_rate": 2.8383128295254834e-05,
-      "loss": 0.8689924478530884,
       "step": 324
     },
     {
       "epoch": 0.13755274261603376,
-      "grad_norm": 2.049126386642456,
-      "learning_rate": 2.8558875219683657e-05,
-      "loss": 0.9312222003936768,
       "step": 326
     },
     {
       "epoch": 0.13839662447257384,
-      "grad_norm": 2.131026268005371,
-      "learning_rate": 2.8734622144112476e-05,
-      "loss": 0.8933501839637756,
       "step": 328
     },
     {
       "epoch": 0.13924050632911392,
-      "grad_norm": 1.766754150390625,
-      "learning_rate": 2.8910369068541305e-05,
-      "loss": 0.8998261094093323,
       "step": 330
     },
     {
       "epoch": 0.140084388185654,
-      "grad_norm": 2.197706460952759,
-      "learning_rate": 2.9086115992970124e-05,
-      "loss": 0.8826426267623901,
       "step": 332
     },
     {
       "epoch": 0.1409282700421941,
-      "grad_norm": 1.953715443611145,
-      "learning_rate": 2.9261862917398947e-05,
-      "loss": 0.8590307831764221,
       "step": 334
     },
     {
       "epoch": 0.14177215189873418,
-      "grad_norm": 2.200929880142212,
-      "learning_rate": 2.943760984182777e-05,
-      "loss": 0.9317060708999634,
       "step": 336
     },
     {
       "epoch": 0.14261603375527426,
-      "grad_norm": 2.1195082664489746,
-      "learning_rate": 2.961335676625659e-05,
-      "loss": 0.9965578317642212,
       "step": 338
     },
     {
       "epoch": 0.14345991561181434,
-      "grad_norm": 2.3449771404266357,
-      "learning_rate": 2.9789103690685414e-05,
-      "loss": 0.8353848457336426,
       "step": 340
     },
     {
       "epoch": 0.14430379746835442,
-      "grad_norm": 2.000497579574585,
-      "learning_rate": 2.9964850615114237e-05,
-      "loss": 0.9154735803604126,
       "step": 342
     },
     {
       "epoch": 0.1451476793248945,
-      "grad_norm": 2.141890525817871,
-      "learning_rate": 3.014059753954306e-05,
-      "loss": 0.9530655741691589,
       "step": 344
     },
     {
       "epoch": 0.1459915611814346,
-      "grad_norm": 1.7717392444610596,
-      "learning_rate": 3.031634446397188e-05,
-      "loss": 0.896998405456543,
       "step": 346
     },
     {
       "epoch": 0.1468354430379747,
-      "grad_norm": 1.8796685934066772,
-      "learning_rate": 3.0492091388400708e-05,
-      "loss": 0.9084208011627197,
       "step": 348
     },
     {
       "epoch": 0.14767932489451477,
-      "grad_norm": 2.0298709869384766,
-      "learning_rate": 3.066783831282953e-05,
-      "loss": 0.9183387756347656,
       "step": 350
     },
     {
       "epoch": 0.14852320675105485,
-      "grad_norm": 1.9245645999908447,
-      "learning_rate": 3.084358523725835e-05,
-      "loss": 0.8624772429466248,
       "step": 352
     },
     {
       "epoch": 0.14936708860759493,
-      "grad_norm": 2.325681209564209,
-      "learning_rate": 3.101933216168717e-05,
-      "loss": 0.9142400026321411,
       "step": 354
     },
     {
       "epoch": 0.150210970464135,
-      "grad_norm": 2.1200530529022217,
-      "learning_rate": 3.1195079086115995e-05,
-      "loss": 0.9064018130302429,
       "step": 356
     },
     {
       "epoch": 0.15105485232067511,
-      "grad_norm": 1.979314923286438,
-      "learning_rate": 3.137082601054482e-05,
-      "loss": 0.9199238419532776,
       "step": 358
     },
     {
       "epoch": 0.1518987341772152,
-      "grad_norm": 2.1122689247131348,
-      "learning_rate": 3.154657293497364e-05,
-      "loss": 0.8030132055282593,
       "step": 360
     },
     {
       "epoch": 0.15274261603375527,
-      "grad_norm": 2.105767250061035,
-      "learning_rate": 3.172231985940246e-05,
-      "loss": 0.9185854196548462,
       "step": 362
     },
     {
       "epoch": 0.15358649789029535,
-      "grad_norm": 2.179471015930176,
-      "learning_rate": 3.1898066783831285e-05,
-      "loss": 0.9365083575248718,
       "step": 364
     },
     {
       "epoch": 0.15443037974683543,
-      "grad_norm": 2.1444311141967773,
-      "learning_rate": 3.207381370826011e-05,
-      "loss": 0.8965140581130981,
       "step": 366
     },
     {
       "epoch": 0.15527426160337554,
-      "grad_norm": 2.4171674251556396,
-      "learning_rate": 3.224956063268893e-05,
-      "loss": 0.8787504434585571,
       "step": 368
     },
     {
       "epoch": 0.15611814345991562,
-      "grad_norm": 2.418628215789795,
-      "learning_rate": 3.242530755711775e-05,
-      "loss": 0.8925284147262573,
       "step": 370
     },
     {
       "epoch": 0.1569620253164557,
-      "grad_norm": 2.2228314876556396,
-      "learning_rate": 3.2601054481546575e-05,
-      "loss": 0.876179039478302,
       "step": 372
     },
     {
       "epoch": 0.15780590717299578,
-      "grad_norm": 2.324237108230591,
-      "learning_rate": 3.27768014059754e-05,
-      "loss": 0.8365707993507385,
       "step": 374
     },
     {
       "epoch": 0.15864978902953586,
-      "grad_norm": 2.6344552040100098,
-      "learning_rate": 3.295254833040422e-05,
-      "loss": 0.7864399552345276,
       "step": 376
     },
     {
       "epoch": 0.15949367088607594,
-      "grad_norm": 2.047536611557007,
-      "learning_rate": 3.312829525483304e-05,
-      "loss": 0.9271875023841858,
       "step": 378
     },
     {
       "epoch": 0.16033755274261605,
-      "grad_norm": 2.120025157928467,
-      "learning_rate": 3.3304042179261865e-05,
-      "loss": 0.8799133896827698,
       "step": 380
     },
     {
       "epoch": 0.16118143459915613,
-      "grad_norm": 2.363692045211792,
-      "learning_rate": 3.347978910369069e-05,
-      "loss": 0.8973530530929565,
       "step": 382
     },
     {
       "epoch": 0.1620253164556962,
-      "grad_norm": 2.1796772480010986,
-      "learning_rate": 3.365553602811951e-05,
-      "loss": 1.0277652740478516,
       "step": 384
     },
     {
       "epoch": 0.16286919831223629,
-      "grad_norm": 1.9192595481872559,
-      "learning_rate": 3.383128295254833e-05,
-      "loss": 0.8909643888473511,
       "step": 386
     },
     {
       "epoch": 0.16371308016877636,
-      "grad_norm": 1.7874376773834229,
-      "learning_rate": 3.4007029876977155e-05,
-      "loss": 0.837049663066864,
       "step": 388
     },
     {
       "epoch": 0.16455696202531644,
-      "grad_norm": 2.3402366638183594,
-      "learning_rate": 3.4182776801405974e-05,
-      "loss": 0.8625202775001526,
       "step": 390
     },
     {
       "epoch": 0.16540084388185655,
-      "grad_norm": 2.1137185096740723,
-      "learning_rate": 3.43585237258348e-05,
-      "loss": 0.9288321137428284,
       "step": 392
     },
     {
       "epoch": 0.16624472573839663,
-      "grad_norm": 2.3776895999908447,
-      "learning_rate": 3.453427065026362e-05,
-      "loss": 0.9328726530075073,
       "step": 394
     },
     {
       "epoch": 0.1670886075949367,
-      "grad_norm": 2.34941029548645,
-      "learning_rate": 3.4710017574692445e-05,
-      "loss": 0.9273309707641602,
       "step": 396
     },
     {
       "epoch": 0.1679324894514768,
-      "grad_norm": 2.1272573471069336,
-      "learning_rate": 3.4885764499121264e-05,
-      "loss": 0.8703887462615967,
       "step": 398
     },
     {
       "epoch": 0.16877637130801687,
-      "grad_norm": 2.047290802001953,
-      "learning_rate": 3.506151142355009e-05,
-      "loss": 0.8808165788650513,
       "step": 400
     },
     {
       "epoch": 0.16877637130801687,
-      "eval_loss": 0.9282881617546082,
-      "eval_runtime": 869.6867,
-      "eval_samples_per_second": 2.423,
-      "eval_steps_per_second": 2.423,
       "step": 400
     },
     {
       "epoch": 0.16962025316455695,
-      "grad_norm": 1.9874159097671509,
-      "learning_rate": 3.5237258347978916e-05,
-      "loss": 0.9643645286560059,
       "step": 402
     },
     {
       "epoch": 0.17046413502109706,
-      "grad_norm": 1.9299919605255127,
-      "learning_rate": 3.5413005272407735e-05,
-      "loss": 0.9173495769500732,
       "step": 404
     },
     {
       "epoch": 0.17130801687763714,
-      "grad_norm": 2.3379697799682617,
-      "learning_rate": 3.5588752196836555e-05,
-      "loss": 0.8998411893844604,
       "step": 406
     },
     {
       "epoch": 0.17215189873417722,
-      "grad_norm": 2.241370916366577,
-      "learning_rate": 3.5764499121265374e-05,
-      "loss": 0.9310802221298218,
       "step": 408
     },
     {
       "epoch": 0.1729957805907173,
-      "grad_norm": 2.4490108489990234,
-      "learning_rate": 3.5940246045694206e-05,
-      "loss": 0.9605053067207336,
       "step": 410
     },
     {
       "epoch": 0.17383966244725738,
-      "grad_norm": 1.8247230052947998,
-      "learning_rate": 3.6115992970123026e-05,
-      "loss": 0.8485683798789978,
       "step": 412
     },
     {
       "epoch": 0.17468354430379746,
-      "grad_norm": 2.4608843326568604,
-      "learning_rate": 3.6291739894551845e-05,
-      "loss": 0.9325968623161316,
       "step": 414
     },
     {
       "epoch": 0.17552742616033756,
-      "grad_norm": 1.8923161029815674,
-      "learning_rate": 3.646748681898067e-05,
-      "loss": 0.9125096201896667,
       "step": 416
     },
     {
       "epoch": 0.17637130801687764,
-      "grad_norm": 1.8502769470214844,
-      "learning_rate": 3.6643233743409497e-05,
-      "loss": 0.8852217197418213,
       "step": 418
     },
     {
       "epoch": 0.17721518987341772,
-      "grad_norm": 1.9155100584030151,
-      "learning_rate": 3.6818980667838316e-05,
-      "loss": 0.9192792773246765,
       "step": 420
     },
     {
       "epoch": 0.1780590717299578,
-      "grad_norm": 2.181476593017578,
-      "learning_rate": 3.6994727592267135e-05,
-      "loss": 0.8787404298782349,
       "step": 422
     },
     {
       "epoch": 0.17890295358649788,
-      "grad_norm": 2.2469847202301025,
-      "learning_rate": 3.717047451669596e-05,
-      "loss": 0.9109582901000977,
       "step": 424
     },
     {
       "epoch": 0.17974683544303796,
-      "grad_norm": 2.08145809173584,
-      "learning_rate": 3.734622144112479e-05,
-      "loss": 0.8560389280319214,
       "step": 426
     },
     {
       "epoch": 0.18059071729957807,
-      "grad_norm": 4.121932506561279,
-      "learning_rate": 3.7521968365553606e-05,
-      "loss": 0.9456104040145874,
       "step": 428
     },
     {
       "epoch": 0.18143459915611815,
-      "grad_norm": 2.177459478378296,
-      "learning_rate": 3.7697715289982425e-05,
-      "loss": 0.8421300649642944,
       "step": 430
     },
     {
       "epoch": 0.18227848101265823,
-      "grad_norm": 2.324970245361328,
-      "learning_rate": 3.787346221441125e-05,
-      "loss": 0.9199858903884888,
       "step": 432
     },
     {
       "epoch": 0.1831223628691983,
-      "grad_norm": 2.133718490600586,
-      "learning_rate": 3.804920913884007e-05,
-      "loss": 0.8953126668930054,
       "step": 434
     },
     {
       "epoch": 0.1839662447257384,
-      "grad_norm": 1.8527995347976685,
-      "learning_rate": 3.8224956063268896e-05,
-      "loss": 0.8732239007949829,
       "step": 436
     },
     {
       "epoch": 0.1848101265822785,
-      "grad_norm": 1.95817232131958,
-      "learning_rate": 3.8400702987697715e-05,
-      "loss": 0.8818746209144592,
       "step": 438
     },
     {
       "epoch": 0.18565400843881857,
-      "grad_norm": 2.2107293605804443,
-      "learning_rate": 3.857644991212654e-05,
-      "loss": 0.9153507947921753,
       "step": 440
     },
     {
       "epoch": 0.18649789029535865,
-      "grad_norm": 2.004754066467285,
-      "learning_rate": 3.875219683655536e-05,
-      "loss": 0.8960154056549072,
       "step": 442
     },
     {
       "epoch": 0.18734177215189873,
-      "grad_norm": 2.1851706504821777,
-      "learning_rate": 3.8927943760984186e-05,
-      "loss": 0.909011721611023,
       "step": 444
     },
     {
       "epoch": 0.1881856540084388,
-      "grad_norm": 2.4492485523223877,
-      "learning_rate": 3.9103690685413005e-05,
-      "loss": 0.8880158066749573,
       "step": 446
     },
     {
       "epoch": 0.1890295358649789,
-      "grad_norm": 2.745453119277954,
-      "learning_rate": 3.927943760984183e-05,
-      "loss": 0.8500842452049255,
       "step": 448
     },
     {
       "epoch": 0.189873417721519,
-      "grad_norm": 2.1924264430999756,
-      "learning_rate": 3.945518453427065e-05,
-      "loss": 0.9004045724868774,
       "step": 450
     },
     {
       "epoch": 0.19071729957805908,
-      "grad_norm": 2.4051687717437744,
-      "learning_rate": 3.9630931458699476e-05,
-      "loss": 0.9020664095878601,
       "step": 452
     },
     {
       "epoch": 0.19156118143459916,
-      "grad_norm": 1.8077667951583862,
-      "learning_rate": 3.9806678383128295e-05,
-      "loss": 0.8639500737190247,
       "step": 454
     },
     {
       "epoch": 0.19240506329113924,
-      "grad_norm": 2.089043378829956,
-      "learning_rate": 3.998242530755712e-05,
-      "loss": 0.8642048239707947,
       "step": 456
     },
     {
       "epoch": 0.19324894514767932,
-      "grad_norm": 2.029578447341919,
-      "learning_rate": 4.015817223198594e-05,
-      "loss": 0.9371927380561829,
       "step": 458
     },
     {
       "epoch": 0.1940928270042194,
-      "grad_norm": 2.26582407951355,
-      "learning_rate": 4.033391915641476e-05,
-      "loss": 0.9120588302612305,
       "step": 460
     },
     {
       "epoch": 0.1949367088607595,
-      "grad_norm": 1.8671411275863647,
-      "learning_rate": 4.050966608084359e-05,
-      "loss": 0.8758644461631775,
       "step": 462
     },
     {
       "epoch": 0.19578059071729959,
-      "grad_norm": 1.9403492212295532,
-      "learning_rate": 4.068541300527241e-05,
-      "loss": 0.914577305316925,
       "step": 464
     },
     {
       "epoch": 0.19662447257383966,
-      "grad_norm": 1.9939641952514648,
-      "learning_rate": 4.086115992970123e-05,
-      "loss": 0.8592531681060791,
       "step": 466
     },
     {
       "epoch": 0.19746835443037974,
-      "grad_norm": 2.1511380672454834,
-      "learning_rate": 4.103690685413005e-05,
-      "loss": 0.9251965880393982,
       "step": 468
     },
     {
       "epoch": 0.19831223628691982,
-      "grad_norm": 2.2260982990264893,
-      "learning_rate": 4.121265377855888e-05,
-      "loss": 0.8465172052383423,
       "step": 470
     },
     {
       "epoch": 0.1991561181434599,
-      "grad_norm": 2.0510010719299316,
-      "learning_rate": 4.13884007029877e-05,
-      "loss": 0.8943672180175781,
       "step": 472
     },
     {
       "epoch": 0.2,
-      "grad_norm": 2.2040133476257324,
-      "learning_rate": 4.156414762741652e-05,
-      "loss": 0.9594319462776184,
       "step": 474
     },
     {
       "epoch": 0.2008438818565401,
-      "grad_norm": 2.355181932449341,
-      "learning_rate": 4.173989455184534e-05,
-      "loss": 0.9031813144683838,
       "step": 476
     },
     {
       "epoch": 0.20168776371308017,
-      "grad_norm": 2.8434665203094482,
-      "learning_rate": 4.1915641476274166e-05,
-      "loss": 0.9225798845291138,
       "step": 478
     },
     {
       "epoch": 0.20253164556962025,
-      "grad_norm": 2.1715340614318848,
-      "learning_rate": 4.209138840070299e-05,
-      "loss": 0.894163966178894,
       "step": 480
     },
     {
       "epoch": 0.20337552742616033,
-      "grad_norm": 2.078916072845459,
-      "learning_rate": 4.226713532513181e-05,
-      "loss": 0.8424109816551208,
       "step": 482
     },
     {
       "epoch": 0.2042194092827004,
-      "grad_norm": 1.9760961532592773,
-      "learning_rate": 4.244288224956064e-05,
-      "loss": 0.9102715849876404,
       "step": 484
     },
     {
       "epoch": 0.20506329113924052,
-      "grad_norm": 1.9684507846832275,
-      "learning_rate": 4.2618629173989456e-05,
-      "loss": 0.8693854808807373,
       "step": 486
     },
     {
       "epoch": 0.2059071729957806,
-      "grad_norm": 2.1633450984954834,
-      "learning_rate": 4.279437609841828e-05,
-      "loss": 0.8617543578147888,
       "step": 488
     },
     {
       "epoch": 0.20675105485232068,
-      "grad_norm": 2.2695257663726807,
-      "learning_rate": 4.29701230228471e-05,
-      "loss": 0.9167086482048035,
       "step": 490
     },
     {
       "epoch": 0.20759493670886076,
-      "grad_norm": 2.4180049896240234,
-      "learning_rate": 4.314586994727593e-05,
-      "loss": 0.8333520889282227,
       "step": 492
     },
     {
       "epoch": 0.20843881856540084,
-      "grad_norm": 2.2942769527435303,
-      "learning_rate": 4.3321616871704746e-05,
-      "loss": 0.918351411819458,
       "step": 494
     },
     {
       "epoch": 0.20928270042194091,
-      "grad_norm": 1.826458215713501,
-      "learning_rate": 4.349736379613357e-05,
-      "loss": 0.8565171957015991,
       "step": 496
     },
     {
       "epoch": 0.21012658227848102,
-      "grad_norm": 1.9694055318832397,
-      "learning_rate": 4.367311072056239e-05,
-      "loss": 0.8684167861938477,
       "step": 498
     },
     {
       "epoch": 0.2109704641350211,
-      "grad_norm": 1.892659306526184,
-      "learning_rate": 4.384885764499122e-05,
-      "loss": 0.7752788662910461,
       "step": 500
     },
     {
       "epoch": 0.2109704641350211,
-      "eval_loss": 0.9080732464790344,
-      "eval_runtime": 857.0753,
-      "eval_samples_per_second": 2.458,
-      "eval_steps_per_second": 2.458,
       "step": 500
     }
   ],
@@ -1826,7 +1826,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.1928835720736154e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 500,
+  "best_metric": 1.042096495628357,
+  "best_model_checkpoint": "task2file/sft_qwen_14B_v2/checkpoints/checkpoint-500",
   "epoch": 0.2109704641350211,
   "eval_steps": 100,
   "global_step": 500,
   "log_history": [
     {
       "epoch": 0.0008438818565400844,
+      "grad_norm": 0.5386583805084229,
+      "learning_rate": 1.7574692442882248e-07,
+      "loss": 1.6941628456115723,
       "step": 2
     },
     {
       "epoch": 0.0016877637130801688,
+      "grad_norm": 0.5477277636528015,
+      "learning_rate": 5.272407732864675e-07,
+      "loss": 1.7132279872894287,
       "step": 4
     },
     {
       "epoch": 0.002531645569620253,
+      "grad_norm": 0.5390765070915222,
+      "learning_rate": 8.787346221441126e-07,
+      "loss": 1.641180396080017,
       "step": 6
     },
     {
       "epoch": 0.0033755274261603376,
+      "grad_norm": 0.5023683905601501,
+      "learning_rate": 1.2302284710017575e-06,
+      "loss": 1.5616240501403809,
       "step": 8
     },
     {
       "epoch": 0.004219409282700422,
+      "grad_norm": 0.4899154603481293,
+      "learning_rate": 1.5817223198594026e-06,
+      "loss": 1.572033405303955,
       "step": 10
     },
     {
       "epoch": 0.005063291139240506,
+      "grad_norm": 0.5239788293838501,
+      "learning_rate": 1.9332161687170474e-06,
+      "loss": 1.6242921352386475,
       "step": 12
     },
     {
       "epoch": 0.00590717299578059,
+      "grad_norm": 0.5172926783561707,
+      "learning_rate": 2.2847100175746925e-06,
+      "loss": 1.6800041198730469,
       "step": 14
     },
     {
       "epoch": 0.006751054852320675,
+      "grad_norm": 0.5539224743843079,
+      "learning_rate": 2.6362038664323376e-06,
+      "loss": 1.6450834274291992,
       "step": 16
     },
     {
       "epoch": 0.007594936708860759,
+      "grad_norm": 0.5255337953567505,
+      "learning_rate": 2.9876977152899827e-06,
+      "loss": 1.6673263311386108,
       "step": 18
     },
     {
       "epoch": 0.008438818565400843,
+      "grad_norm": 0.5074548721313477,
+      "learning_rate": 3.3391915641476277e-06,
+      "loss": 1.531802773475647,
       "step": 20
     },
     {
       "epoch": 0.009282700421940928,
+      "grad_norm": 0.4160279333591461,
+      "learning_rate": 3.6906854130052724e-06,
+      "loss": 1.599354863166809,
       "step": 22
     },
     {
       "epoch": 0.010126582278481013,
+      "grad_norm": 0.5716474652290344,
+      "learning_rate": 4.0421792618629174e-06,
+      "loss": 1.6700962781906128,
       "step": 24
     },
     {
       "epoch": 0.010970464135021098,
+      "grad_norm": 0.5148899555206299,
+      "learning_rate": 4.3936731107205625e-06,
+      "loss": 1.66217839717865,
       "step": 26
     },
     {
       "epoch": 0.01181434599156118,
+      "grad_norm": 0.575722336769104,
+      "learning_rate": 4.7451669595782076e-06,
+      "loss": 1.6692266464233398,
       "step": 28
     },
     {
       "epoch": 0.012658227848101266,
+      "grad_norm": 0.5345953106880188,
+      "learning_rate": 5.096660808435853e-06,
+      "loss": 1.5518689155578613,
       "step": 30
     },
     {
       "epoch": 0.01350210970464135,
+      "grad_norm": 0.4462043344974518,
+      "learning_rate": 5.448154657293498e-06,
+      "loss": 1.5930007696151733,
       "step": 32
     },
     {
       "epoch": 0.014345991561181435,
+      "grad_norm": 0.5119605660438538,
+      "learning_rate": 5.799648506151143e-06,
+      "loss": 1.6069684028625488,
       "step": 34
     },
     {
       "epoch": 0.015189873417721518,
+      "grad_norm": 0.5328608751296997,
+      "learning_rate": 6.151142355008788e-06,
+      "loss": 1.5838109254837036,
       "step": 36
     },
     {
       "epoch": 0.016033755274261603,
+      "grad_norm": 0.5065920352935791,
+      "learning_rate": 6.502636203866433e-06,
+      "loss": 1.608130931854248,
       "step": 38
     },
     {
       "epoch": 0.016877637130801686,
+      "grad_norm": 0.4479359984397888,
+      "learning_rate": 6.854130052724078e-06,
+      "loss": 1.5942182540893555,
       "step": 40
     },
     {
       "epoch": 0.017721518987341773,
+      "grad_norm": 0.42844903469085693,
+      "learning_rate": 7.205623901581722e-06,
+      "loss": 1.6441553831100464,
       "step": 42
     },
     {
       "epoch": 0.018565400843881856,
+      "grad_norm": 0.476630836725235,
+      "learning_rate": 7.557117750439367e-06,
+      "loss": 1.6068111658096313,
       "step": 44
     },
     {
       "epoch": 0.019409282700421943,
+      "grad_norm": 0.4532654881477356,
+      "learning_rate": 7.908611599297012e-06,
+      "loss": 1.6618021726608276,
       "step": 46
     },
     {
       "epoch": 0.020253164556962026,
+      "grad_norm": 0.3701118230819702,
+      "learning_rate": 8.260105448154657e-06,
+      "loss": 1.4730033874511719,
       "step": 48
     },
     {
       "epoch": 0.02109704641350211,
+      "grad_norm": 0.38471561670303345,
+      "learning_rate": 8.611599297012302e-06,
+      "loss": 1.4828267097473145,
       "step": 50
     },
     {
       "epoch": 0.021940928270042195,
+      "grad_norm": 0.3602336347103119,
+      "learning_rate": 8.963093145869948e-06,
+      "loss": 1.3877452611923218,
       "step": 52
     },
     {
       "epoch": 0.02278481012658228,
+      "grad_norm": 0.40318572521209717,
+      "learning_rate": 9.314586994727593e-06,
+      "loss": 1.49052894115448,
       "step": 54
     },
     {
       "epoch": 0.02362869198312236,
+      "grad_norm": 0.3223826587200165,
+      "learning_rate": 9.666080843585238e-06,
+      "loss": 1.4912524223327637,
       "step": 56
     },
     {
       "epoch": 0.024472573839662448,
+      "grad_norm": 0.3873065114021301,
+      "learning_rate": 1.0017574692442883e-05,
+      "loss": 1.526674509048462,
       "step": 58
     },
     {
       "epoch": 0.02531645569620253,
+      "grad_norm": 0.410159707069397,
+      "learning_rate": 1.0369068541300528e-05,
+      "loss": 1.4480271339416504,
       "step": 60
     },
     {
       "epoch": 0.026160337552742614,
+      "grad_norm": 0.3632003962993622,
+      "learning_rate": 1.0720562390158173e-05,
+      "loss": 1.4222990274429321,
       "step": 62
     },
     {
       "epoch": 0.0270042194092827,
+      "grad_norm": 0.33118435740470886,
+      "learning_rate": 1.1072056239015818e-05,
+      "loss": 1.387171745300293,
       "step": 64
     },
     {
       "epoch": 0.027848101265822784,
+      "grad_norm": 0.3301764726638794,
+      "learning_rate": 1.1423550087873463e-05,
+      "loss": 1.3523777723312378,
       "step": 66
     },
     {
       "epoch": 0.02869198312236287,
+      "grad_norm": 0.34342435002326965,
+      "learning_rate": 1.1775043936731108e-05,
+      "loss": 1.4515162706375122,
       "step": 68
     },
     {
       "epoch": 0.029535864978902954,
+      "grad_norm": 0.3243122100830078,
+      "learning_rate": 1.2126537785588753e-05,
+      "loss": 1.3509243726730347,
       "step": 70
     },
     {
       "epoch": 0.030379746835443037,
+      "grad_norm": 0.3450150787830353,
+      "learning_rate": 1.2478031634446398e-05,
+      "loss": 1.4936245679855347,
       "step": 72
     },
     {
       "epoch": 0.031223628691983123,
+      "grad_norm": 0.38912028074264526,
+      "learning_rate": 1.2829525483304042e-05,
+      "loss": 1.3419109582901,
       "step": 74
     },
     {
       "epoch": 0.032067510548523206,
+      "grad_norm": 0.3019310235977173,
+      "learning_rate": 1.3181019332161687e-05,
+      "loss": 1.4284154176712036,
       "step": 76
     },
     {
       "epoch": 0.03291139240506329,
+      "grad_norm": 0.37803682684898376,
+      "learning_rate": 1.3532513181019332e-05,
+      "loss": 1.4256561994552612,
       "step": 78
     },
     {
       "epoch": 0.03375527426160337,
+      "grad_norm": 0.34191736578941345,
+      "learning_rate": 1.3884007029876977e-05,
+      "loss": 1.3256909847259521,
       "step": 80
     },
     {
       "epoch": 0.03459915611814346,
+      "grad_norm": 0.35242700576782227,
+      "learning_rate": 1.4235500878734624e-05,
+      "loss": 1.2710685729980469,
       "step": 82
     },
     {
       "epoch": 0.035443037974683546,
+      "grad_norm": 0.38094228506088257,
+      "learning_rate": 1.4586994727592269e-05,
+      "loss": 1.253411889076233,
       "step": 84
     },
     {
       "epoch": 0.036286919831223625,
+      "grad_norm": 0.36837366223335266,
+      "learning_rate": 1.4938488576449914e-05,
+      "loss": 1.3064342737197876,
       "step": 86
     },
     {
       "epoch": 0.03713080168776371,
+      "grad_norm": 0.3443569242954254,
+      "learning_rate": 1.5289982425307557e-05,
+      "loss": 1.293562412261963,
       "step": 88
     },
     {
       "epoch": 0.0379746835443038,
+      "grad_norm": 0.3799338936805725,
+      "learning_rate": 1.5641476274165202e-05,
+      "loss": 1.3382648229599,
       "step": 90
     },
     {
       "epoch": 0.038818565400843885,
+      "grad_norm": 0.40501922369003296,
+      "learning_rate": 1.599297012302285e-05,
+      "loss": 1.3925724029541016,
       "step": 92
     },
     {
       "epoch": 0.039662447257383965,
+      "grad_norm": 0.4419630467891693,
+      "learning_rate": 1.6344463971880492e-05,
+      "loss": 1.357171893119812,
       "step": 94
     },
     {
       "epoch": 0.04050632911392405,
+      "grad_norm": 0.3619817793369293,
+      "learning_rate": 1.6695957820738137e-05,
+      "loss": 1.3029985427856445,
       "step": 96
     },
     {
       "epoch": 0.04135021097046414,
+      "grad_norm": 0.4851357340812683,
+      "learning_rate": 1.7047451669595782e-05,
+      "loss": 1.3498191833496094,
       "step": 98
     },
     {
       "epoch": 0.04219409282700422,
+      "grad_norm": 0.418658584356308,
+      "learning_rate": 1.7398945518453427e-05,
+      "loss": 1.185287356376648,
       "step": 100
     },
     {
       "epoch": 0.04219409282700422,
+      "eval_loss": 1.2979938983917236,
+      "eval_runtime": 682.1979,
+      "eval_samples_per_second": 3.089,
+      "eval_steps_per_second": 3.089,
       "step": 100
     },
     {
       "epoch": 0.043037974683544304,
+      "grad_norm": 0.4464418888092041,
+      "learning_rate": 1.7750439367311073e-05,
+      "loss": 1.2217272520065308,
       "step": 102
     },
     {
       "epoch": 0.04388185654008439,
+      "grad_norm": 0.4706237316131592,
+      "learning_rate": 1.8101933216168718e-05,
+      "loss": 1.2052050828933716,
       "step": 104
     },
     {
       "epoch": 0.04472573839662447,
+      "grad_norm": 0.46394404768943787,
+      "learning_rate": 1.8453427065026363e-05,
+      "loss": 1.221343994140625,
       "step": 106
     },
     {
       "epoch": 0.04556962025316456,
+      "grad_norm": 0.4726889431476593,
+      "learning_rate": 1.8804920913884008e-05,
+      "loss": 1.2387475967407227,
       "step": 108
     },
     {
       "epoch": 0.046413502109704644,
+      "grad_norm": 0.42130985856056213,
+      "learning_rate": 1.9156414762741653e-05,
+      "loss": 1.2851309776306152,
       "step": 110
     },
     {
       "epoch": 0.04725738396624472,
+      "grad_norm": 0.4504576623439789,
+      "learning_rate": 1.9507908611599298e-05,
+      "loss": 1.2753145694732666,
       "step": 112
     },
     {
       "epoch": 0.04810126582278481,
+      "grad_norm": 0.396085262298584,
+      "learning_rate": 1.9859402460456943e-05,
+      "loss": 1.2427717447280884,
       "step": 114
     },
     {
       "epoch": 0.048945147679324896,
+      "grad_norm": 0.5106491446495056,
+      "learning_rate": 2.0210896309314588e-05,
+      "loss": 1.2943825721740723,
       "step": 116
     },
     {
       "epoch": 0.049789029535864976,
+      "grad_norm": 0.42351317405700684,
+      "learning_rate": 2.0562390158172233e-05,
+      "loss": 1.263301134109497,
       "step": 118
     },
     {
       "epoch": 0.05063291139240506,
+      "grad_norm": 0.4403539299964905,
+      "learning_rate": 2.0913884007029878e-05,
+      "loss": 1.2647849321365356,
       "step": 120
     },
     {
       "epoch": 0.05147679324894515,
+      "grad_norm": 0.5260752439498901,
+      "learning_rate": 2.1265377855887523e-05,
+      "loss": 1.2351393699645996,
       "step": 122
     },
     {
       "epoch": 0.05232067510548523,
+      "grad_norm": 0.44978851079940796,
+      "learning_rate": 2.1616871704745168e-05,
+      "loss": 1.0384471416473389,
       "step": 124
     },
     {
       "epoch": 0.053164556962025315,
+      "grad_norm": 0.47732362151145935,
+      "learning_rate": 2.1968365553602813e-05,
+      "loss": 1.1518068313598633,
       "step": 126
     },
     {
       "epoch": 0.0540084388185654,
+      "grad_norm": 0.5473551750183105,
+      "learning_rate": 2.231985940246046e-05,
+      "loss": 1.2264912128448486,
       "step": 128
     },
     {
       "epoch": 0.05485232067510549,
+      "grad_norm": 0.4473855197429657,
+      "learning_rate": 2.2671353251318103e-05,
+      "loss": 1.1615246534347534,
       "step": 130
     },
     {
       "epoch": 0.05569620253164557,
+      "grad_norm": 0.5980377197265625,
+      "learning_rate": 2.302284710017575e-05,
+      "loss": 1.1334880590438843,
       "step": 132
     },
     {
       "epoch": 0.056540084388185655,
+      "grad_norm": 0.5987792015075684,
+      "learning_rate": 2.3374340949033394e-05,
+      "loss": 1.1546804904937744,
       "step": 134
     },
     {
       "epoch": 0.05738396624472574,
+      "grad_norm": 0.45355498790740967,
+      "learning_rate": 2.372583479789104e-05,
+      "loss": 1.194953441619873,
       "step": 136
     },
     {
       "epoch": 0.05822784810126582,
+      "grad_norm": 0.5373698472976685,
+      "learning_rate": 2.4077328646748684e-05,
+      "loss": 1.1067466735839844,
       "step": 138
     },
     {
       "epoch": 0.05907172995780591,
+      "grad_norm": 0.48734328150749207,
+      "learning_rate": 2.442882249560633e-05,
+      "loss": 1.188468098640442,
       "step": 140
     },
     {
       "epoch": 0.059915611814345994,
+      "grad_norm": 0.4692173898220062,
+      "learning_rate": 2.478031634446397e-05,
+      "loss": 1.1624362468719482,
       "step": 142
     },
     {
       "epoch": 0.060759493670886074,
+      "grad_norm": 0.532554030418396,
+      "learning_rate": 2.513181019332162e-05,
+      "loss": 1.0978907346725464,
       "step": 144
     },
     {
       "epoch": 0.06160337552742616,
+      "grad_norm": 0.5853802561759949,
+      "learning_rate": 2.5483304042179264e-05,
+      "loss": 1.2030781507492065,
       "step": 146
     },
     {
       "epoch": 0.06244725738396625,
+      "grad_norm": 0.5061611533164978,
+      "learning_rate": 2.583479789103691e-05,
+      "loss": 1.082366943359375,
       "step": 148
     },
     {
       "epoch": 0.06329113924050633,
+      "grad_norm": 0.49426141381263733,
+      "learning_rate": 2.6186291739894554e-05,
+      "loss": 1.10564386844635,
       "step": 150
     },
     {
       "epoch": 0.06413502109704641,
+      "grad_norm": 0.5846618413925171,
+      "learning_rate": 2.6537785588752196e-05,
+      "loss": 1.1992807388305664,
       "step": 152
     },
     {
       "epoch": 0.06497890295358649,
+      "grad_norm": 0.5517552495002747,
+      "learning_rate": 2.6889279437609844e-05,
+      "loss": 1.1757566928863525,
       "step": 154
     },
     {
       "epoch": 0.06582278481012659,
+      "grad_norm": 0.5667305588722229,
+      "learning_rate": 2.7240773286467486e-05,
+      "loss": 1.0548783540725708,
       "step": 156
     },
     {
       "epoch": 0.06666666666666667,
+      "grad_norm": 0.6760414242744446,
+      "learning_rate": 2.7592267135325134e-05,
+      "loss": 1.184364914894104,
       "step": 158
     },
     {
       "epoch": 0.06751054852320675,
+      "grad_norm": 0.5261430740356445,
+      "learning_rate": 2.7943760984182776e-05,
+      "loss": 1.1945042610168457,
       "step": 160
     },
     {
       "epoch": 0.06835443037974684,
+      "grad_norm": 0.6155015230178833,
+      "learning_rate": 2.8295254833040425e-05,
+      "loss": 1.2021973133087158,
       "step": 162
     },
     {
       "epoch": 0.06919831223628692,
+      "grad_norm": 0.6131619215011597,
+      "learning_rate": 2.8646748681898066e-05,
+      "loss": 1.144123911857605,
       "step": 164
     },
     {
       "epoch": 0.070042194092827,
+      "grad_norm": 0.5749185681343079,
+      "learning_rate": 2.8998242530755715e-05,
+      "loss": 1.1329256296157837,
       "step": 166
     },
     {
       "epoch": 0.07088607594936709,
+      "grad_norm": 0.5243118405342102,
+      "learning_rate": 2.9349736379613356e-05,
+      "loss": 1.0892387628555298,
       "step": 168
     },
     {
       "epoch": 0.07172995780590717,
+      "grad_norm": 0.7190104722976685,
+      "learning_rate": 2.9701230228471005e-05,
+      "loss": 1.163260817527771,
       "step": 170
     },
     {
       "epoch": 0.07257383966244725,
+      "grad_norm": 0.5486982464790344,
+      "learning_rate": 3.0052724077328647e-05,
+      "loss": 1.0880777835845947,
       "step": 172
     },
     {
       "epoch": 0.07341772151898734,
+      "grad_norm": 0.5020889043807983,
+      "learning_rate": 3.0404217926186295e-05,
+      "loss": 1.0433368682861328,
       "step": 174
     },
     {
       "epoch": 0.07426160337552742,
+      "grad_norm": 0.47329774498939514,
+      "learning_rate": 3.075571177504394e-05,
+      "loss": 1.0528991222381592,
       "step": 176
     },
     {
       "epoch": 0.0751054852320675,
+      "grad_norm": 0.6635547876358032,
+      "learning_rate": 3.110720562390158e-05,
+      "loss": 1.1627811193466187,
       "step": 178
     },
     {
       "epoch": 0.0759493670886076,
+      "grad_norm": 0.5624618530273438,
+      "learning_rate": 3.145869947275923e-05,
+      "loss": 1.084869384765625,
       "step": 180
     },
     {
       "epoch": 0.07679324894514768,
+      "grad_norm": 0.6029536724090576,
+      "learning_rate": 3.181019332161687e-05,
+      "loss": 1.2227671146392822,
       "step": 182
     },
     {
       "epoch": 0.07763713080168777,
+      "grad_norm": 0.930959939956665,
+      "learning_rate": 3.216168717047452e-05,
+      "loss": 1.0955452919006348,
       "step": 184
     },
     {
       "epoch": 0.07848101265822785,
+      "grad_norm": 0.5326952338218689,
+      "learning_rate": 3.251318101933216e-05,
+      "loss": 1.0640798807144165,
       "step": 186
     },
     {
       "epoch": 0.07932489451476793,
+      "grad_norm": 0.5484727621078491,
+      "learning_rate": 3.286467486818981e-05,
+      "loss": 1.0700589418411255,
       "step": 188
     },
     {
       "epoch": 0.08016877637130802,
+      "grad_norm": 0.605273425579071,
+      "learning_rate": 3.3216168717047456e-05,
+      "loss": 1.1593081951141357,
       "step": 190
     },
     {
       "epoch": 0.0810126582278481,
+      "grad_norm": 0.5704394578933716,
+      "learning_rate": 3.35676625659051e-05,
+      "loss": 1.1617076396942139,
       "step": 192
     },
     {
       "epoch": 0.08185654008438818,
+      "grad_norm": 0.5929452180862427,
+      "learning_rate": 3.3919156414762746e-05,
+      "loss": 1.1346839666366577,
       "step": 194
     },
     {
       "epoch": 0.08270042194092828,
+      "grad_norm": 0.5624077916145325,
+      "learning_rate": 3.427065026362039e-05,
+      "loss": 1.0934710502624512,
       "step": 196
     },
     {
       "epoch": 0.08354430379746836,
+      "grad_norm": 0.6717425584793091,
+      "learning_rate": 3.4622144112478036e-05,
+      "loss": 1.1810534000396729,
       "step": 198
     },
     {
       "epoch": 0.08438818565400844,
+      "grad_norm": 0.5120199918746948,
+      "learning_rate": 3.4973637961335674e-05,
+      "loss": 1.1525514125823975,
       "step": 200
     },
     {
       "epoch": 0.08438818565400844,
+      "eval_loss": 1.142486810684204,
+      "eval_runtime": 668.2356,
+      "eval_samples_per_second": 3.153,
+      "eval_steps_per_second": 3.153,
       "step": 200
     },
     {
       "epoch": 0.08523206751054853,
+      "grad_norm": 0.5144487023353577,
+      "learning_rate": 3.5325131810193326e-05,
+      "loss": 1.0243735313415527,
       "step": 202
     },
     {
       "epoch": 0.08607594936708861,
+      "grad_norm": 0.6325069069862366,
+      "learning_rate": 3.5676625659050964e-05,
+      "loss": 1.118743896484375,
       "step": 204
     },
     {
       "epoch": 0.08691983122362869,
+      "grad_norm": 0.5501633882522583,
+      "learning_rate": 3.6028119507908616e-05,
+      "loss": 1.0380504131317139,
       "step": 206
     },
     {
       "epoch": 0.08776371308016878,
+      "grad_norm": 0.6133899688720703,
+      "learning_rate": 3.6379613356766254e-05,
+      "loss": 0.9837555885314941,
       "step": 208
     },
     {
       "epoch": 0.08860759493670886,
+      "grad_norm": 0.5799810886383057,
+      "learning_rate": 3.6731107205623906e-05,
+      "loss": 1.090720295906067,
       "step": 210
     },
     {
       "epoch": 0.08945147679324894,
+      "grad_norm": 0.6039511561393738,
+      "learning_rate": 3.7082601054481544e-05,
+      "loss": 1.120232343673706,
       "step": 212
     },
     {
       "epoch": 0.09029535864978903,
+      "grad_norm": 0.5983024835586548,
+      "learning_rate": 3.7434094903339196e-05,
+      "loss": 1.096949815750122,
       "step": 214
     },
     {
       "epoch": 0.09113924050632911,
+      "grad_norm": 0.5641079545021057,
+      "learning_rate": 3.7785588752196835e-05,
+      "loss": 1.1226298809051514,
       "step": 216
     },
     {
       "epoch": 0.0919831223628692,
+      "grad_norm": 0.655717134475708,
+      "learning_rate": 3.8137082601054486e-05,
+      "loss": 1.1260643005371094,
       "step": 218
     },
     {
       "epoch": 0.09282700421940929,
+      "grad_norm": 0.6111898422241211,
+      "learning_rate": 3.848857644991213e-05,
+      "loss": 1.0777709484100342,
       "step": 220
     },
     {
       "epoch": 0.09367088607594937,
+      "grad_norm": 0.6821302771568298,
+      "learning_rate": 3.884007029876977e-05,
+      "loss": 1.10588800907135,
       "step": 222
     },
     {
       "epoch": 0.09451476793248945,
+      "grad_norm": 0.693175733089447,
+      "learning_rate": 3.919156414762742e-05,
+      "loss": 1.1498671770095825,
       "step": 224
     },
     {
       "epoch": 0.09535864978902954,
+      "grad_norm": 0.5288166403770447,
+      "learning_rate": 3.954305799648506e-05,
+      "loss": 1.0587562322616577,
       "step": 226
     },
     {
       "epoch": 0.09620253164556962,
+      "grad_norm": 0.6882867813110352,
+      "learning_rate": 3.989455184534271e-05,
+      "loss": 1.1107512712478638,
       "step": 228
     },
     {
       "epoch": 0.0970464135021097,
+      "grad_norm": 0.5834154486656189,
+      "learning_rate": 4.024604569420035e-05,
+      "loss": 1.020510196685791,
       "step": 230
     },
     {
       "epoch": 0.09789029535864979,
+      "grad_norm": 0.7157064080238342,
+      "learning_rate": 4.0597539543058e-05,
+      "loss": 1.0642449855804443,
       "step": 232
     },
     {
       "epoch": 0.09873417721518987,
+      "grad_norm": 0.6530708074569702,
+      "learning_rate": 4.094903339191564e-05,
+      "loss": 1.0359872579574585,
       "step": 234
     },
     {
       "epoch": 0.09957805907172995,
+      "grad_norm": 0.6329686045646667,
+      "learning_rate": 4.130052724077329e-05,
+      "loss": 1.050504446029663,
       "step": 236
     },
     {
       "epoch": 0.10042194092827005,
+      "grad_norm": 0.6597026586532593,
+      "learning_rate": 4.165202108963093e-05,
+      "loss": 1.2621175050735474,
       "step": 238
     },
     {
       "epoch": 0.10126582278481013,
+      "grad_norm": 0.6195225119590759,
+      "learning_rate": 4.200351493848858e-05,
+      "loss": 1.1218310594558716,
       "step": 240
     },
     {
       "epoch": 0.1021097046413502,
+      "grad_norm": 0.6764137744903564,
+      "learning_rate": 4.235500878734622e-05,
+      "loss": 1.1250728368759155,
       "step": 242
     },
     {
       "epoch": 0.1029535864978903,
+      "grad_norm": 0.552363395690918,
+      "learning_rate": 4.270650263620387e-05,
+      "loss": 1.028212308883667,
       "step": 244
     },
     {
       "epoch": 0.10379746835443038,
+      "grad_norm": 0.5620495676994324,
+      "learning_rate": 4.305799648506151e-05,
+      "loss": 1.0425450801849365,
       "step": 246
     },
     {
       "epoch": 0.10464135021097046,
+      "grad_norm": 0.6860032081604004,
+      "learning_rate": 4.3409490333919156e-05,
+      "loss": 1.144278883934021,
       "step": 248
     },
     {
       "epoch": 0.10548523206751055,
+      "grad_norm": 0.6033259034156799,
+      "learning_rate": 4.37609841827768e-05,
+      "loss": 1.1223982572555542,
       "step": 250
     },
     {
       "epoch": 0.10632911392405063,
+      "grad_norm": 0.6292146444320679,
+      "learning_rate": 4.4112478031634446e-05,
+      "loss": 1.1609960794448853,
       "step": 252
     },
     {
       "epoch": 0.10717299578059072,
+      "grad_norm": 0.7982883453369141,
+      "learning_rate": 4.44639718804921e-05,
+      "loss": 1.063547968864441,
       "step": 254
     },
     {
       "epoch": 0.1080168776371308,
+      "grad_norm": 0.7719110250473022,
+      "learning_rate": 4.4815465729349736e-05,
+      "loss": 1.0719804763793945,
       "step": 256
     },
     {
       "epoch": 0.10886075949367088,
+      "grad_norm": 0.6101011633872986,
+      "learning_rate": 4.516695957820739e-05,
+      "loss": 1.0778400897979736,
       "step": 258
     },
     {
       "epoch": 0.10970464135021098,
+      "grad_norm": 0.7300994396209717,
+      "learning_rate": 4.5518453427065026e-05,
+      "loss": 1.2129558324813843,
       "step": 260
     },
     {
       "epoch": 0.11054852320675106,
+      "grad_norm": 0.8348747491836548,
+      "learning_rate": 4.586994727592268e-05,
+      "loss": 1.221714735031128,
       "step": 262
     },
     {
       "epoch": 0.11139240506329114,
+      "grad_norm": 0.5445612072944641,
+      "learning_rate": 4.6221441124780316e-05,
+      "loss": 1.0187978744506836,
       "step": 264
     },
     {
       "epoch": 0.11223628691983123,
+      "grad_norm": 0.6230319738388062,
+      "learning_rate": 4.657293497363797e-05,
+      "loss": 1.096561312675476,
       "step": 266
     },
     {
       "epoch": 0.11308016877637131,
+      "grad_norm": 0.6231237649917603,
+      "learning_rate": 4.6924428822495606e-05,
+      "loss": 1.089842438697815,
       "step": 268
     },
     {
       "epoch": 0.11392405063291139,
+      "grad_norm": 0.7178627252578735,
+      "learning_rate": 4.727592267135325e-05,
+      "loss": 1.0696645975112915,
       "step": 270
     },
     {
       "epoch": 0.11476793248945148,
+      "grad_norm": 0.6895854473114014,
+      "learning_rate": 4.7627416520210896e-05,
+      "loss": 1.0511361360549927,
       "step": 272
     },
     {
       "epoch": 0.11561181434599156,
+      "grad_norm": 0.6046878695487976,
+      "learning_rate": 4.797891036906854e-05,
+      "loss": 1.1373958587646484,
       "step": 274
     },
     {
       "epoch": 0.11645569620253164,
+      "grad_norm": 0.6524552702903748,
+      "learning_rate": 4.833040421792619e-05,
+      "loss": 1.0734186172485352,
       "step": 276
     },
     {
       "epoch": 0.11729957805907174,
+      "grad_norm": 0.6331019997596741,
+      "learning_rate": 4.868189806678383e-05,
+      "loss": 1.123913049697876,
       "step": 278
     },
     {
       "epoch": 0.11814345991561181,
+      "grad_norm": 0.5919018983840942,
+      "learning_rate": 4.903339191564148e-05,
+      "loss": 1.0635710954666138,
       "step": 280
     },
     {
       "epoch": 0.1189873417721519,
+      "grad_norm": 0.6067633032798767,
+      "learning_rate": 4.938488576449912e-05,
+      "loss": 1.0429247617721558,
       "step": 282
     },
     {
       "epoch": 0.11983122362869199,
+      "grad_norm": 0.6583750247955322,
+      "learning_rate": 4.9736379613356774e-05,
+      "loss": 1.1397464275360107,
       "step": 284
     },
     {
       "epoch": 0.12067510548523207,
+      "grad_norm": 0.6200069785118103,
+      "learning_rate": 5.008787346221442e-05,
+      "loss": 1.0590803623199463,
       "step": 286
     },
     {
       "epoch": 0.12151898734177215,
+      "grad_norm": 0.6798665523529053,
+      "learning_rate": 5.0439367311072064e-05,
+      "loss": 1.1318789720535278,
       "step": 288
     },
     {
       "epoch": 0.12236286919831224,
+      "grad_norm": 0.7508794069290161,
+      "learning_rate": 5.07908611599297e-05,
+      "loss": 1.0934956073760986,
       "step": 290
     },
     {
       "epoch": 0.12320675105485232,
+      "grad_norm": 0.6901452541351318,
+      "learning_rate": 5.114235500878735e-05,
+      "loss": 1.163407802581787,
       "step": 292
     },
     {
       "epoch": 0.1240506329113924,
+      "grad_norm": 0.6423285603523254,
+      "learning_rate": 5.1493848857644985e-05,
+      "loss": 1.09059476852417,
       "step": 294
     },
     {
       "epoch": 0.1248945147679325,
+      "grad_norm": 0.6839275360107422,
+      "learning_rate": 5.1845342706502644e-05,
+      "loss": 1.0690211057662964,
       "step": 296
     },
     {
       "epoch": 0.1257383966244726,
+      "grad_norm": 0.6350128054618835,
+      "learning_rate": 5.219683655536028e-05,
+      "loss": 0.982322096824646,
       "step": 298
     },
     {
       "epoch": 0.12658227848101267,
+      "grad_norm": 0.7136530876159668,
+      "learning_rate": 5.254833040421793e-05,
+      "loss": 1.1132930517196655,
       "step": 300
     },
     {
       "epoch": 0.12658227848101267,
+      "eval_loss": 1.0952109098434448,
+      "eval_runtime": 677.0652,
+      "eval_samples_per_second": 3.112,
+      "eval_steps_per_second": 3.112,
       "step": 300
     },
     {
       "epoch": 0.12742616033755275,
+      "grad_norm": 0.7339721322059631,
+      "learning_rate": 5.289982425307557e-05,
+      "loss": 0.973595917224884,
       "step": 302
     },
     {
       "epoch": 0.12827004219409283,
+      "grad_norm": 0.5941481590270996,
+      "learning_rate": 5.3251318101933224e-05,
+      "loss": 0.9819849729537964,
       "step": 304
     },
     {
       "epoch": 0.1291139240506329,
+      "grad_norm": 0.7153938412666321,
+      "learning_rate": 5.360281195079086e-05,
+      "loss": 1.0315470695495605,
       "step": 306
     },
     {
       "epoch": 0.12995780590717299,
+      "grad_norm": 0.5167180299758911,
+      "learning_rate": 5.395430579964851e-05,
+      "loss": 0.9492001533508301,
       "step": 308
     },
     {
       "epoch": 0.1308016877637131,
+      "grad_norm": 0.6055944561958313,
+      "learning_rate": 5.430579964850615e-05,
+      "loss": 1.0156209468841553,
       "step": 310
     },
     {
       "epoch": 0.13164556962025317,
+      "grad_norm": 0.7662386298179626,
+      "learning_rate": 5.4657293497363805e-05,
+      "loss": 1.1791651248931885,
       "step": 312
     },
     {
       "epoch": 0.13248945147679325,
+      "grad_norm": 0.6065546274185181,
+      "learning_rate": 5.500878734622145e-05,
+      "loss": 1.0009297132492065,
       "step": 314
     },
     {
       "epoch": 0.13333333333333333,
+      "grad_norm": 0.604225754737854,
+      "learning_rate": 5.536028119507909e-05,
+      "loss": 1.0208244323730469,
       "step": 316
     },
     {
       "epoch": 0.1341772151898734,
+      "grad_norm": 0.6186763048171997,
+      "learning_rate": 5.571177504393673e-05,
+      "loss": 0.9968416690826416,
       "step": 318
     },
     {
       "epoch": 0.1350210970464135,
+      "grad_norm": 0.7100363969802856,
+      "learning_rate": 5.606326889279437e-05,
+      "loss": 0.9540256857872009,
       "step": 320
     },
     {
       "epoch": 0.1358649789029536,
+      "grad_norm": 0.6979711055755615,
+      "learning_rate": 5.641476274165203e-05,
+      "loss": 1.0631953477859497,
       "step": 322
     },
     {
       "epoch": 0.13670886075949368,
+      "grad_norm": 0.6237109303474426,
+      "learning_rate": 5.676625659050967e-05,
+      "loss": 1.0170501470565796,
       "step": 324
     },
     {
       "epoch": 0.13755274261603376,
+      "grad_norm": 0.6525548696517944,
+      "learning_rate": 5.711775043936731e-05,
+      "loss": 1.0715603828430176,
       "step": 326
     },
     {
       "epoch": 0.13839662447257384,
+      "grad_norm": 0.6869221329689026,
+      "learning_rate": 5.746924428822495e-05,
+      "loss": 1.0111541748046875,
       "step": 328
     },
     {
       "epoch": 0.13924050632911392,
+      "grad_norm": 0.553188145160675,
+      "learning_rate": 5.782073813708261e-05,
+      "loss": 1.0311682224273682,
       "step": 330
     },
     {
       "epoch": 0.140084388185654,
+      "grad_norm": 0.6760852932929993,
+      "learning_rate": 5.817223198594025e-05,
+      "loss": 1.0213634967803955,
       "step": 332
     },
     {
       "epoch": 0.1409282700421941,
+      "grad_norm": 0.5907419919967651,
+      "learning_rate": 5.8523725834797894e-05,
+      "loss": 0.9748594164848328,
       "step": 334
     },
     {
       "epoch": 0.14177215189873418,
+      "grad_norm": 0.7044920921325684,
+      "learning_rate": 5.887521968365554e-05,
+      "loss": 1.05863356590271,
       "step": 336
     },
     {
       "epoch": 0.14261603375527426,
+      "grad_norm": 0.679073691368103,
+      "learning_rate": 5.922671353251318e-05,
+      "loss": 1.1341127157211304,
       "step": 338
     },
     {
       "epoch": 0.14345991561181434,
+      "grad_norm": 0.7676237225532532,
+      "learning_rate": 5.957820738137083e-05,
+      "loss": 0.9540836215019226,
       "step": 340
     },
     {
       "epoch": 0.14430379746835442,
+      "grad_norm": 0.6313899755477905,
+      "learning_rate": 5.9929701230228474e-05,
+      "loss": 1.0585911273956299,
       "step": 342
     },
     {
       "epoch": 0.1451476793248945,
+      "grad_norm": 0.7123099565505981,
+      "learning_rate": 6.028119507908612e-05,
+      "loss": 1.0760118961334229,
       "step": 344
     },
     {
       "epoch": 0.1459915611814346,
+      "grad_norm": 0.585935652256012,
+      "learning_rate": 6.063268892794376e-05,
+      "loss": 1.036866307258606,
       "step": 346
     },
     {
       "epoch": 0.1468354430379747,
+      "grad_norm": 0.5643263459205627,
+      "learning_rate": 6.0984182776801416e-05,
+      "loss": 1.0242938995361328,
       "step": 348
     },
     {
       "epoch": 0.14767932489451477,
+      "grad_norm": 0.626761794090271,
+      "learning_rate": 6.133567662565906e-05,
+      "loss": 1.0497376918792725,
       "step": 350
     },
     {
       "epoch": 0.14852320675105485,
+      "grad_norm": 0.5106956958770752,
+      "learning_rate": 6.16871704745167e-05,
+      "loss": 0.9811885356903076,
       "step": 352
     },
     {
       "epoch": 0.14936708860759493,
+      "grad_norm": 0.6948089003562927,
+      "learning_rate": 6.203866432337434e-05,
+      "loss": 1.0715330839157104,
       "step": 354
     },
     {
       "epoch": 0.150210970464135,
+      "grad_norm": 0.699713945388794,
+      "learning_rate": 6.239015817223199e-05,
+      "loss": 1.0405226945877075,
       "step": 356
     },
     {
       "epoch": 0.15105485232067511,
+      "grad_norm": 0.6437667012214661,
+      "learning_rate": 6.274165202108964e-05,
+      "loss": 1.0490930080413818,
       "step": 358
     },
     {
       "epoch": 0.1518987341772152,
+      "grad_norm": 0.6952699422836304,
+      "learning_rate": 6.309314586994728e-05,
+      "loss": 0.9267548322677612,
       "step": 360
     },
     {
       "epoch": 0.15274261603375527,
+      "grad_norm": 0.6713186502456665,
+      "learning_rate": 6.344463971880492e-05,
+      "loss": 1.0427420139312744,
       "step": 362
     },
     {
       "epoch": 0.15358649789029535,
+      "grad_norm": 0.6750379800796509,
+      "learning_rate": 6.379613356766257e-05,
+      "loss": 1.048950433731079,
       "step": 364
     },
     {
       "epoch": 0.15443037974683543,
+      "grad_norm": 0.6053379774093628,
+      "learning_rate": 6.414762741652022e-05,
+      "loss": 1.0156004428863525,
       "step": 366
     },
     {
       "epoch": 0.15527426160337554,
+      "grad_norm": 0.8063633441925049,
+      "learning_rate": 6.449912126537786e-05,
+      "loss": 1.0020819902420044,
       "step": 368
     },
     {
       "epoch": 0.15611814345991562,
+      "grad_norm": 0.8027494549751282,
+      "learning_rate": 6.48506151142355e-05,
+      "loss": 1.055633783340454,
       "step": 370
     },
     {
       "epoch": 0.1569620253164557,
+      "grad_norm": 0.6580121517181396,
+      "learning_rate": 6.520210896309315e-05,
+      "loss": 1.0149940252304077,
       "step": 372
     },
     {
       "epoch": 0.15780590717299578,
+      "grad_norm": 0.6561233997344971,
+      "learning_rate": 6.55536028119508e-05,
+      "loss": 0.9769611954689026,
       "step": 374
     },
     {
       "epoch": 0.15864978902953586,
+      "grad_norm": 0.6444346308708191,
+      "learning_rate": 6.590509666080844e-05,
+      "loss": 0.9099349975585938,
       "step": 376
     },
     {
       "epoch": 0.15949367088607594,
+      "grad_norm": 0.5879359245300293,
+      "learning_rate": 6.625659050966608e-05,
+      "loss": 1.0797548294067383,
       "step": 378
     },
     {
       "epoch": 0.16033755274261605,
+      "grad_norm": 0.6994144916534424,
+      "learning_rate": 6.660808435852373e-05,
+      "loss": 1.0336791276931763,
       "step": 380
     },
     {
       "epoch": 0.16118143459915613,
+      "grad_norm": 0.6128669381141663,
+      "learning_rate": 6.695957820738138e-05,
+      "loss": 1.018118143081665,
       "step": 382
     },
     {
       "epoch": 0.1620253164556962,
+      "grad_norm": 1.0237540006637573,
+      "learning_rate": 6.731107205623902e-05,
+      "loss": 1.1405497789382935,
       "step": 384
     },
     {
       "epoch": 0.16286919831223629,
+      "grad_norm": 0.6091578006744385,
+      "learning_rate": 6.766256590509666e-05,
+      "loss": 1.0314189195632935,
       "step": 386
     },
     {
       "epoch": 0.16371308016877636,
+      "grad_norm": 0.5916037559509277,
+      "learning_rate": 6.801405975395431e-05,
+      "loss": 0.9564052820205688,
       "step": 388
     },
     {
       "epoch": 0.16455696202531644,
+      "grad_norm": 0.771653950214386,
+      "learning_rate": 6.836555360281195e-05,
+      "loss": 1.0023859739303589,
       "step": 390
     },
     {
       "epoch": 0.16540084388185655,
+      "grad_norm": 0.654658317565918,
+      "learning_rate": 6.87170474516696e-05,
+      "loss": 1.07024085521698,
       "step": 392
     },
     {
       "epoch": 0.16624472573839663,
+      "grad_norm": 0.6611968874931335,
+      "learning_rate": 6.906854130052724e-05,
+      "loss": 1.0552500486373901,
       "step": 394
     },
     {
       "epoch": 0.1670886075949367,
+      "grad_norm": 0.6955893039703369,
+      "learning_rate": 6.942003514938489e-05,
+      "loss": 1.0562875270843506,
       "step": 396
     },
     {
       "epoch": 0.1679324894514768,
+      "grad_norm": 0.6666058301925659,
+      "learning_rate": 6.977152899824253e-05,
+      "loss": 0.9850592017173767,
       "step": 398
     },
     {
       "epoch": 0.16877637130801687,
+      "grad_norm": 0.6131711006164551,
+      "learning_rate": 7.012302284710018e-05,
+      "loss": 1.0077755451202393,
       "step": 400
     },
     {
       "epoch": 0.16877637130801687,
+      "eval_loss": 1.0625108480453491,
+      "eval_runtime": 691.0068,
+      "eval_samples_per_second": 3.049,
+      "eval_steps_per_second": 3.049,
       "step": 400
     },
     {
       "epoch": 0.16962025316455695,
+      "grad_norm": 0.6286499500274658,
+      "learning_rate": 7.047451669595783e-05,
+      "loss": 1.1012427806854248,
       "step": 402
     },
     {
       "epoch": 0.17046413502109706,
+      "grad_norm": 0.6639351844787598,
+      "learning_rate": 7.082601054481547e-05,
+      "loss": 1.0379719734191895,
       "step": 404
     },
     {
       "epoch": 0.17130801687763714,
+      "grad_norm": 0.750401496887207,
+      "learning_rate": 7.117750439367311e-05,
+      "loss": 1.031856656074524,
       "step": 406
     },
     {
       "epoch": 0.17215189873417722,
+      "grad_norm": 0.8084847331047058,
+      "learning_rate": 7.152899824253075e-05,
+      "loss": 1.0493193864822388,
       "step": 408
     },
     {
       "epoch": 0.1729957805907173,
+      "grad_norm": 0.7448462247848511,
+      "learning_rate": 7.188049209138841e-05,
+      "loss": 1.1012418270111084,
       "step": 410
     },
     {
       "epoch": 0.17383966244725738,
+      "grad_norm": 0.5841867923736572,
+      "learning_rate": 7.223198594024605e-05,
+      "loss": 0.9926692247390747,
       "step": 412
     },
     {
       "epoch": 0.17468354430379746,
+      "grad_norm": 0.7125606536865234,
+      "learning_rate": 7.258347978910369e-05,
+      "loss": 1.0588877201080322,
       "step": 414
     },
     {
       "epoch": 0.17552742616033756,
+      "grad_norm": 0.5750942230224609,
+      "learning_rate": 7.293497363796134e-05,
+      "loss": 1.038270354270935,
       "step": 416
     },
     {
       "epoch": 0.17637130801687764,
+      "grad_norm": 0.565444827079773,
+      "learning_rate": 7.328646748681899e-05,
+      "loss": 0.9843021035194397,
       "step": 418
     },
     {
       "epoch": 0.17721518987341772,
+      "grad_norm": 0.5825693011283875,
+      "learning_rate": 7.363796133567663e-05,
+      "loss": 1.0731632709503174,
       "step": 420
     },
     {
       "epoch": 0.1780590717299578,
+      "grad_norm": 0.6267391443252563,
+      "learning_rate": 7.398945518453427e-05,
+      "loss": 1.0061273574829102,
       "step": 422
     },
     {
       "epoch": 0.17890295358649788,
+      "grad_norm": 0.6621372103691101,
+      "learning_rate": 7.434094903339192e-05,
+      "loss": 1.0461612939834595,
       "step": 424
     },
     {
       "epoch": 0.17974683544303796,
+      "grad_norm": 0.6635435223579407,
+      "learning_rate": 7.469244288224957e-05,
+      "loss": 0.9789207577705383,
       "step": 426
     },
     {
       "epoch": 0.18059071729957807,
+      "grad_norm": 0.6342346668243408,
+      "learning_rate": 7.504393673110721e-05,
+      "loss": 1.0527069568634033,
       "step": 428
     },
     {
       "epoch": 0.18143459915611815,
+      "grad_norm": 0.6762149930000305,
+      "learning_rate": 7.539543057996485e-05,
+      "loss": 0.9708702564239502,
       "step": 430
     },
     {
       "epoch": 0.18227848101265823,
+      "grad_norm": 0.7073282599449158,
+      "learning_rate": 7.57469244288225e-05,
+      "loss": 1.0509834289550781,
       "step": 432
     },
     {
       "epoch": 0.1831223628691983,
+      "grad_norm": 0.6917856931686401,
+      "learning_rate": 7.609841827768014e-05,
+      "loss": 1.0128819942474365,
       "step": 434
     },
     {
       "epoch": 0.1839662447257384,
+      "grad_norm": 0.5574942231178284,
+      "learning_rate": 7.644991212653779e-05,
+      "loss": 0.989395797252655,
       "step": 436
     },
     {
       "epoch": 0.1848101265822785,
+      "grad_norm": 0.640765905380249,
+      "learning_rate": 7.680140597539543e-05,
+      "loss": 0.9846042990684509,
       "step": 438
     },
     {
       "epoch": 0.18565400843881857,
+      "grad_norm": 0.6699127554893494,
+      "learning_rate": 7.715289982425308e-05,
+      "loss": 1.0344442129135132,
       "step": 440
     },
     {
       "epoch": 0.18649789029535865,
+      "grad_norm": 0.6164930462837219,
+      "learning_rate": 7.750439367311072e-05,
+      "loss": 1.0179373025894165,
       "step": 442
     },
     {
       "epoch": 0.18734177215189873,
+      "grad_norm": 0.6880720853805542,
+      "learning_rate": 7.785588752196837e-05,
+      "loss": 1.0518895387649536,
       "step": 444
     },
     {
       "epoch": 0.1881856540084388,
+      "grad_norm": 0.6501413583755493,
+      "learning_rate": 7.820738137082601e-05,
+      "loss": 1.0442606210708618,
       "step": 446
     },
     {
       "epoch": 0.1890295358649789,
+      "grad_norm": 0.6076085567474365,
+      "learning_rate": 7.855887521968366e-05,
+      "loss": 0.9828442335128784,
       "step": 448
     },
     {
       "epoch": 0.189873417721519,
+      "grad_norm": 0.6418202519416809,
+      "learning_rate": 7.89103690685413e-05,
+      "loss": 1.0573710203170776,
       "step": 450
     },
     {
       "epoch": 0.19071729957805908,
+      "grad_norm": 0.7055076360702515,
+      "learning_rate": 7.926186291739895e-05,
+      "loss": 1.0216103792190552,
       "step": 452
     },
     {
       "epoch": 0.19156118143459916,
+      "grad_norm": 0.5668330192565918,
+      "learning_rate": 7.961335676625659e-05,
+      "loss": 0.9837722778320312,
       "step": 454
     },
     {
       "epoch": 0.19240506329113924,
+      "grad_norm": 0.6419380307197571,
+      "learning_rate": 7.996485061511424e-05,
+      "loss": 1.0003894567489624,
       "step": 456
     },
     {
       "epoch": 0.19324894514767932,
+      "grad_norm": 0.5949198007583618,
+      "learning_rate": 8.031634446397188e-05,
+      "loss": 1.0609031915664673,
       "step": 458
     },
     {
       "epoch": 0.1940928270042194,
+      "grad_norm": 0.7032039761543274,
+      "learning_rate": 8.066783831282952e-05,
+      "loss": 1.0543403625488281,
       "step": 460
     },
     {
       "epoch": 0.1949367088607595,
+      "grad_norm": 0.5775868892669678,
+      "learning_rate": 8.101933216168718e-05,
+      "loss": 0.9819303154945374,
       "step": 462
     },
     {
       "epoch": 0.19578059071729959,
+      "grad_norm": 0.9301062226295471,
+      "learning_rate": 8.137082601054482e-05,
+      "loss": 1.0542067289352417,
       "step": 464
     },
     {
       "epoch": 0.19662447257383966,
+      "grad_norm": 0.6193217039108276,
+      "learning_rate": 8.172231985940246e-05,
+      "loss": 0.9966341257095337,
       "step": 466
     },
     {
       "epoch": 0.19746835443037974,
+      "grad_norm": 0.6286146640777588,
+      "learning_rate": 8.20738137082601e-05,
+      "loss": 1.0474121570587158,
       "step": 468
     },
     {
       "epoch": 0.19831223628691982,
+      "grad_norm": 0.7418972253799438,
+      "learning_rate": 8.242530755711776e-05,
+      "loss": 0.9549239277839661,
       "step": 470
     },
     {
       "epoch": 0.1991561181434599,
+      "grad_norm": 0.6122808456420898,
+      "learning_rate": 8.27768014059754e-05,
+      "loss": 1.0191338062286377,
       "step": 472
     },
     {
       "epoch": 0.2,
+      "grad_norm": 0.6375362277030945,
+      "learning_rate": 8.312829525483304e-05,
+      "loss": 1.0987539291381836,
       "step": 474
     },
     {
       "epoch": 0.2008438818565401,
+      "grad_norm": 0.6459513306617737,
+      "learning_rate": 8.347978910369068e-05,
+      "loss": 1.0369136333465576,
       "step": 476
     },
     {
       "epoch": 0.20168776371308017,
+      "grad_norm": 0.7029640674591064,
+      "learning_rate": 8.383128295254833e-05,
+      "loss": 1.0582096576690674,
       "step": 478
     },
     {
       "epoch": 0.20253164556962025,
+      "grad_norm": 0.6345387697219849,
+      "learning_rate": 8.418277680140598e-05,
+      "loss": 1.022916316986084,
       "step": 480
     },
     {
       "epoch": 0.20337552742616033,
+      "grad_norm": 0.5764590501785278,
+      "learning_rate": 8.453427065026362e-05,
+      "loss": 0.973024308681488,
       "step": 482
     },
     {
       "epoch": 0.2042194092827004,
+      "grad_norm": 0.5884482860565186,
+      "learning_rate": 8.488576449912127e-05,
+      "loss": 1.0292812585830688,
       "step": 484
     },
     {
       "epoch": 0.20506329113924052,
+      "grad_norm": 0.616357147693634,
+      "learning_rate": 8.523725834797891e-05,
+      "loss": 1.0083447694778442,
       "step": 486
     },
     {
       "epoch": 0.2059071729957806,
+      "grad_norm": 0.7671196460723877,
+      "learning_rate": 8.558875219683656e-05,
+      "loss": 0.9936985373497009,
       "step": 488
     },
     {
       "epoch": 0.20675105485232068,
+      "grad_norm": 0.6197299957275391,
+      "learning_rate": 8.59402460456942e-05,
+      "loss": 1.051513910293579,
       "step": 490
     },
     {
       "epoch": 0.20759493670886076,
+      "grad_norm": 0.6912890672683716,
+      "learning_rate": 8.629173989455185e-05,
+      "loss": 0.9474978446960449,
       "step": 492
     },
     {
       "epoch": 0.20843881856540084,
+      "grad_norm": 0.6941592693328857,
+      "learning_rate": 8.664323374340949e-05,
+      "loss": 1.0671660900115967,
       "step": 494
     },
     {
       "epoch": 0.20928270042194091,
+      "grad_norm": 0.5889528393745422,
+      "learning_rate": 8.699472759226714e-05,
+      "loss": 1.0020159482955933,
       "step": 496
     },
     {
       "epoch": 0.21012658227848102,
+      "grad_norm": 0.6478549838066101,
+      "learning_rate": 8.734622144112478e-05,
+      "loss": 1.0165860652923584,
       "step": 498
     },
     {
       "epoch": 0.2109704641350211,
+      "grad_norm": 0.6018255949020386,
+      "learning_rate": 8.769771528998243e-05,
+      "loss": 0.8798263072967529,
       "step": 500
     },
     {
       "epoch": 0.2109704641350211,
+      "eval_loss": 1.042096495628357,
+      "eval_runtime": 692.4361,
+      "eval_samples_per_second": 3.043,
+      "eval_steps_per_second": 3.043,
       "step": 500
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2.9886635097296486e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoints/checkpoint-5000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: Models/Devstral-Small-2-24B-HS-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:Models/Devstral-Small-2-24B-HS-CPT
 - lora
 - transformers
 ---

 ---
+base_model: Models/Qwen2.5-Coder-14B-CPT
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:Models/Qwen2.5-Coder-14B-CPT
 - lora
 - transformers
 ---

checkpoints/checkpoint-5000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Models/Devstral-Small-2-24B-HS-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -16,7 +16,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "Models/Qwen2.5-Coder-14B-CPT",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoints/checkpoint-5000/trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

config_resolved.yaml CHANGED Viewed

@@ -1,5 +1,5 @@
 run:
-  run_dir: ./task2file/sft_devstral_24B_v2
   seed: 42
 wandb:
   enabled: true
@@ -8,10 +8,10 @@ wandb:
   name: null
   tags:
   - sft-lora
-  - 24b-Devstral
   notes: null
 model:
-  repo_id: ./Models/Devstral-Small-2-24B-HS-CPT
   revision: null
   base_local_dir: base_model
   trust_remote_code: true
@@ -64,8 +64,8 @@ data:
   num_proc: 4
 peft:
   enabled: true
-  r: 8
-  lora_alpha: 16
   lora_dropout: 0.05
   bias: none
   target_modules: auto
@@ -74,12 +74,12 @@ train:
   per_device_train_batch_size: 1
   per_device_eval_batch_size: 1
   gradient_accumulation_steps: 8
-  learning_rate: 1e-4
   weight_decay: 0.0
   warmup_ratio: 0.08
   lr_scheduler_type: cosine
   optim: adamw_torch
-  max_grad_norm: 0.8
   gradient_checkpointing: true
   logging_steps: 2
   save_strategy: steps
@@ -99,4 +99,4 @@ merge:
   enabled: true
   merged_dtype: float16
   max_shard_size: 2GB
-  output_dir: ./Models/Devstral-Small-2-24B-HS-CPT-SFT_v2

 run:
+  run_dir: ./task2file/sft_qwen_14B_v2
   seed: 42
 wandb:
   enabled: true
   name: null
   tags:
   - sft-lora
+  - instruction-tuning
   notes: null
 model:
+  repo_id: ./Models/Qwen2.5-Coder-14B-CPT
   revision: null
   base_local_dir: base_model
   trust_remote_code: true
   num_proc: 4
 peft:
   enabled: true
+  r: 32
+  lora_alpha: 64
   lora_dropout: 0.05
   bias: none
   target_modules: auto
   per_device_train_batch_size: 1
   per_device_eval_batch_size: 1
   gradient_accumulation_steps: 8
+  learning_rate: 2e-4
   weight_decay: 0.0
   warmup_ratio: 0.08
   lr_scheduler_type: cosine
   optim: adamw_torch
+  max_grad_norm: 1.0
   gradient_checkpointing: true
   logging_steps: 2
   save_strategy: steps
   enabled: true
   merged_dtype: float16
   max_shard_size: 2GB
+  output_dir: ./Models/Qwen2.5-Coder-14B-CPT-SFT_v2

eval_final.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "eval_loss": 0.6706293225288391,
-  "eval_runtime": 511.6513,
-  "eval_samples_per_second": 4.118,
-  "eval_steps_per_second": 4.118,
-  "epoch": 3.2067510548523206,
-  "perplexity": 1.955467553274469
 }

 {
+  "eval_loss": 0.7600579857826233,
+  "eval_runtime": 674.048,
+  "eval_samples_per_second": 3.126,
+  "eval_steps_per_second": 3.126,
+  "epoch": 2.151898734177215,
+  "perplexity": 2.138400213711816
 }

logs/eval.jsonl CHANGED Viewed

@@ -1,77 +1,52 @@
-{"ts": "2025-12-26T18:34:59", "event": "eval", "step": 100, "epoch": 0.04219409282700422, "eval_loss": 1.138856053352356, "eval_runtime": 859.7128, "eval_samples_per_second": 2.451, "eval_steps_per_second": 2.451, "perplexity": 3.1231935540832674}
-{"ts": "2025-12-26T19:05:22", "event": "eval", "step": 200, "epoch": 0.08438818565400844, "eval_loss": 0.995743453502655, "eval_runtime": 846.8257, "eval_samples_per_second": 2.488, "eval_steps_per_second": 2.488, "perplexity": 2.7067359257317922}
-{"ts": "2025-12-26T19:35:57", "event": "eval", "step": 300, "epoch": 0.12658227848101267, "eval_loss": 0.9517185688018799, "eval_runtime": 860.0287, "eval_samples_per_second": 2.45, "eval_steps_per_second": 2.45, "perplexity": 2.5901571998746475}
-{"ts": "2025-12-26T20:06:52", "event": "eval", "step": 400, "epoch": 0.16877637130801687, "eval_loss": 0.9282881617546082, "eval_runtime": 869.6867, "eval_samples_per_second": 2.423, "eval_steps_per_second": 2.423, "perplexity": 2.5301742193066197}
-{"ts": "2025-12-26T20:37:22", "event": "eval", "step": 500, "epoch": 0.2109704641350211, "eval_loss": 0.9080732464790344, "eval_runtime": 857.0753, "eval_samples_per_second": 2.458, "eval_steps_per_second": 2.458, "perplexity": 2.4795404646097325}
-{"ts": "2025-12-26T21:07:55", "event": "eval", "step": 600, "epoch": 0.25316455696202533, "eval_loss": 0.8903881311416626, "eval_runtime": 845.9969, "eval_samples_per_second": 2.491, "eval_steps_per_second": 2.491, "perplexity": 2.4360749843862655}
-{"ts": "2025-12-26T21:38:29", "event": "eval", "step": 700, "epoch": 0.29535864978902954, "eval_loss": 0.8730722069740295, "eval_runtime": 858.184, "eval_samples_per_second": 2.455, "eval_steps_per_second": 2.455, "perplexity": 2.3942552136153896}
-{"ts": "2025-12-26T22:09:04", "event": "eval", "step": 800, "epoch": 0.33755274261603374, "eval_loss": 0.8635594248771667, "eval_runtime": 865.9348, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "perplexity": 2.371587174483758}
-{"ts": "2025-12-26T22:39:42", "event": "eval", "step": 900, "epoch": 0.379746835443038, "eval_loss": 0.8491304516792297, "eval_runtime": 852.6211, "eval_samples_per_second": 2.471, "eval_steps_per_second": 2.471, "perplexity": 2.3376133001985813}
-{"ts": "2025-12-26T23:10:19", "event": "eval", "step": 1000, "epoch": 0.4219409282700422, "eval_loss": 0.8388314247131348, "eval_runtime": 847.4828, "eval_samples_per_second": 2.486, "eval_steps_per_second": 2.486, "perplexity": 2.3136617085393727}
-{"ts": "2025-12-26T23:41:01", "event": "eval", "step": 1100, "epoch": 0.4641350210970464, "eval_loss": 0.8283821940422058, "eval_runtime": 861.0464, "eval_samples_per_second": 2.447, "eval_steps_per_second": 2.447, "perplexity": 2.2896115950724094}
-{"ts": "2025-12-27T00:11:32", "event": "eval", "step": 1200, "epoch": 0.5063291139240507, "eval_loss": 0.8186545968055725, "eval_runtime": 862.1638, "eval_samples_per_second": 2.444, "eval_steps_per_second": 2.444, "perplexity": 2.267447153803737}
-{"ts": "2025-12-27T00:42:14", "event": "eval", "step": 1300, "epoch": 0.5485232067510548, "eval_loss": 0.808323085308075, "eval_runtime": 853.577, "eval_samples_per_second": 2.468, "eval_steps_per_second": 2.468, "perplexity": 2.244141595588398}
-{"ts": "2025-12-27T01:12:54", "event": "eval", "step": 1400, "epoch": 0.5907172995780591, "eval_loss": 0.8009664416313171, "eval_runtime": 851.9417, "eval_samples_per_second": 2.473, "eval_steps_per_second": 2.473, "perplexity": 2.227692823570967}
-{"ts": "2025-12-27T01:43:40", "event": "eval", "step": 1500, "epoch": 0.6329113924050633, "eval_loss": 0.7896141409873962, "eval_runtime": 865.9069, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "perplexity": 2.2025463898941693}
-{"ts": "2025-12-27T02:14:07", "event": "eval", "step": 1600, "epoch": 0.6751054852320675, "eval_loss": 0.7836604714393616, "eval_runtime": 861.5352, "eval_samples_per_second": 2.446, "eval_steps_per_second": 2.446, "perplexity": 2.189472115099779}
-{"ts": "2025-12-27T02:44:39", "event": "eval", "step": 1700, "epoch": 0.7172995780590717, "eval_loss": 0.7783148884773254, "eval_runtime": 846.1986, "eval_samples_per_second": 2.49, "eval_steps_per_second": 2.49, "perplexity": 2.1777993369634507}
-{"ts": "2025-12-27T03:15:22", "event": "eval", "step": 1800, "epoch": 0.759493670886076, "eval_loss": 0.7719914317131042, "eval_runtime": 853.1943, "eval_samples_per_second": 2.47, "eval_steps_per_second": 2.47, "perplexity": 2.16407156624064}
-{"ts": "2025-12-27T03:45:59", "event": "eval", "step": 1900, "epoch": 0.8016877637130801, "eval_loss": 0.7648926973342896, "eval_runtime": 865.9394, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "perplexity": 2.148763794201393}
-{"ts": "2025-12-27T04:16:30", "event": "eval", "step": 2000, "epoch": 0.8438818565400844, "eval_loss": 0.7587011456489563, "eval_runtime": 856.2276, "eval_samples_per_second": 2.461, "eval_steps_per_second": 2.461, "perplexity": 2.135500714003631}
-{"ts": "2025-12-27T04:47:14", "event": "eval", "step": 2100, "epoch": 0.8860759493670886, "eval_loss": 0.7559094429016113, "eval_runtime": 847.8311, "eval_samples_per_second": 2.485, "eval_steps_per_second": 2.485, "perplexity": 2.1295473446786564}
-{"ts": "2025-12-27T05:17:56", "event": "eval", "step": 2200, "epoch": 0.9282700421940928, "eval_loss": 0.7497645616531372, "eval_runtime": 856.8766, "eval_samples_per_second": 2.459, "eval_steps_per_second": 2.459, "perplexity": 2.116501652297792}
-{"ts": "2025-12-27T05:48:33", "event": "eval", "step": 2300, "epoch": 0.9704641350210971, "eval_loss": 0.7464568614959717, "eval_runtime": 864.2128, "eval_samples_per_second": 2.438, "eval_steps_per_second": 2.438, "perplexity": 2.1095124648903094}
-{"ts": "2025-12-27T06:18:53", "event": "eval", "step": 2400, "epoch": 1.0126582278481013, "eval_loss": 0.7421699166297913, "eval_runtime": 854.2185, "eval_samples_per_second": 2.467, "eval_steps_per_second": 2.467, "perplexity": 2.100488457789446}
-{"ts": "2025-12-27T06:49:31", "event": "eval", "step": 2500, "epoch": 1.0548523206751055, "eval_loss": 0.741338849067688, "eval_runtime": 847.7478, "eval_samples_per_second": 2.485, "eval_steps_per_second": 2.485, "perplexity": 2.098743535142341}
-{"ts": "2025-12-27T07:20:16", "event": "eval", "step": 2600, "epoch": 1.0970464135021096, "eval_loss": 0.7377332448959351, "eval_runtime": 859.6612, "eval_samples_per_second": 2.451, "eval_steps_per_second": 2.451, "perplexity": 2.091189922548451}
-{"ts": "2025-12-27T07:51:03", "event": "eval", "step": 2700, "epoch": 1.139240506329114, "eval_loss": 0.7335711717605591, "eval_runtime": 861.9651, "eval_samples_per_second": 2.444, "eval_steps_per_second": 2.444, "perplexity": 2.0825043247357775}
-{"ts": "2025-12-27T08:21:29", "event": "eval", "step": 2800, "epoch": 1.1814345991561181, "eval_loss": 0.7298192977905273, "eval_runtime": 849.544, "eval_samples_per_second": 2.48, "eval_steps_per_second": 2.48, "perplexity": 2.074705669900544}
-{"ts": "2025-12-27T08:52:09", "event": "eval", "step": 2900, "epoch": 1.2236286919831223, "eval_loss": 0.7281573414802551, "eval_runtime": 854.563, "eval_samples_per_second": 2.466, "eval_steps_per_second": 2.466, "perplexity": 2.0712604634048333}
-{"ts": "2025-12-27T09:23:05", "event": "eval", "step": 3000, "epoch": 1.2658227848101267, "eval_loss": 0.72515869140625, "eval_runtime": 868.0515, "eval_samples_per_second": 2.427, "eval_steps_per_second": 2.427, "perplexity": 2.0650587810476666}
-{"ts": "2025-12-27T09:53:39", "event": "eval", "step": 3100, "epoch": 1.3080168776371308, "eval_loss": 0.7225774526596069, "eval_runtime": 862.4006, "eval_samples_per_second": 2.443, "eval_steps_per_second": 2.443, "perplexity": 2.0597352449225896}
-{"ts": "2025-12-27T10:24:10", "event": "eval", "step": 3200, "epoch": 1.350210970464135, "eval_loss": 0.7200453281402588, "eval_runtime": 846.2953, "eval_samples_per_second": 2.49, "eval_steps_per_second": 2.49, "perplexity": 2.0545263363912047}
-{"ts": "2025-12-27T10:54:40", "event": "eval", "step": 3300, "epoch": 1.3924050632911391, "eval_loss": 0.7173135876655579, "eval_runtime": 853.5344, "eval_samples_per_second": 2.469, "eval_steps_per_second": 2.469, "perplexity": 2.0489215625209867}
-{"ts": "2025-12-27T11:25:25", "event": "eval", "step": 3400, "epoch": 1.4345991561181435, "eval_loss": 0.715917706489563, "eval_runtime": 868.51, "eval_samples_per_second": 2.426, "eval_steps_per_second": 2.426, "perplexity": 2.046063506698008}
-{"ts": "2025-12-27T11:55:47", "event": "eval", "step": 3500, "epoch": 1.4767932489451476, "eval_loss": 0.7155047059059143, "eval_runtime": 855.8428, "eval_samples_per_second": 2.462, "eval_steps_per_second": 2.462, "perplexity": 2.0452186557495358}
-{"ts": "2025-12-27T12:26:22", "event": "eval", "step": 3600, "epoch": 1.518987341772152, "eval_loss": 0.7118256688117981, "eval_runtime": 851.3079, "eval_samples_per_second": 2.475, "eval_steps_per_second": 2.475, "perplexity": 2.0377080448290807}
-{"ts": "2025-12-27T12:57:01", "event": "eval", "step": 3700, "epoch": 1.5611814345991561, "eval_loss": 0.7099412679672241, "eval_runtime": 857.2273, "eval_samples_per_second": 2.458, "eval_steps_per_second": 2.458, "perplexity": 2.0338718017134907}
-{"ts": "2025-12-27T13:27:39", "event": "eval", "step": 3800, "epoch": 1.6033755274261603, "eval_loss": 0.7080941200256348, "eval_runtime": 865.6774, "eval_samples_per_second": 2.434, "eval_steps_per_second": 2.434, "perplexity": 2.030118407206169}
-{"ts": "2025-12-27T13:58:20", "event": "eval", "step": 3900, "epoch": 1.6455696202531644, "eval_loss": 0.7049403786659241, "eval_runtime": 854.9866, "eval_samples_per_second": 2.464, "eval_steps_per_second": 2.464, "perplexity": 2.023726024080043}
-{"ts": "2025-12-27T14:28:59", "event": "eval", "step": 4000, "epoch": 1.6877637130801688, "eval_loss": 0.7027890682220459, "eval_runtime": 848.7529, "eval_samples_per_second": 2.482, "eval_steps_per_second": 2.482, "perplexity": 2.0193770408327394}
-{"ts": "2025-12-27T14:59:26", "event": "eval", "step": 4100, "epoch": 1.729957805907173, "eval_loss": 0.7022181153297424, "eval_runtime": 844.6405, "eval_samples_per_second": 2.495, "eval_steps_per_second": 2.495, "perplexity": 2.0182244007535304}
-{"ts": "2025-12-27T15:20:08", "event": "eval", "step": 4200, "epoch": 1.7721518987341773, "eval_loss": 0.6993561387062073, "eval_runtime": 542.0281, "eval_samples_per_second": 3.887, "eval_steps_per_second": 3.887, "perplexity": 2.012456547365305}
-{"ts": "2025-12-27T15:39:13", "event": "eval", "step": 4300, "epoch": 1.8143459915611815, "eval_loss": 0.6981000900268555, "eval_runtime": 514.4659, "eval_samples_per_second": 4.096, "eval_steps_per_second": 4.096, "perplexity": 2.0099303907966624}
-{"ts": "2025-12-27T15:58:13", "event": "eval", "step": 4400, "epoch": 1.8565400843881856, "eval_loss": 0.6961485147476196, "eval_runtime": 513.5724, "eval_samples_per_second": 4.103, "eval_steps_per_second": 4.103, "perplexity": 2.0060116854010337}
-{"ts": "2025-12-27T16:17:15", "event": "eval", "step": 4500, "epoch": 1.8987341772151898, "eval_loss": 0.6938078999519348, "eval_runtime": 513.615, "eval_samples_per_second": 4.102, "eval_steps_per_second": 4.102, "perplexity": 2.0013218754302557}
-{"ts": "2025-12-27T16:38:02", "event": "eval", "step": 4600, "epoch": 1.9409282700421941, "eval_loss": 0.6930755376815796, "eval_runtime": 617.8927, "eval_samples_per_second": 3.41, "eval_steps_per_second": 3.41, "perplexity": 1.999856719375848}
-{"ts": "2025-12-27T16:58:16", "event": "eval", "step": 4700, "epoch": 1.9831223628691983, "eval_loss": 0.6923081278800964, "eval_runtime": 514.7729, "eval_samples_per_second": 4.093, "eval_steps_per_second": 4.093, "perplexity": 1.9983225984528428}
-{"ts": "2025-12-27T17:17:24", "event": "eval", "step": 4800, "epoch": 2.0253164556962027, "eval_loss": 0.6924457550048828, "eval_runtime": 514.0427, "eval_samples_per_second": 4.099, "eval_steps_per_second": 4.099, "perplexity": 1.998597640772671}
-{"ts": "2025-12-27T17:36:32", "event": "eval", "step": 4900, "epoch": 2.067510548523207, "eval_loss": 0.6941288113594055, "eval_runtime": 513.4497, "eval_samples_per_second": 4.104, "eval_steps_per_second": 4.104, "perplexity": 2.0019642255133236}
-{"ts": "2025-12-27T17:58:22", "event": "eval", "step": 5000, "epoch": 2.109704641350211, "eval_loss": 0.6908889412879944, "eval_runtime": 675.8398, "eval_samples_per_second": 3.118, "eval_steps_per_second": 3.118, "perplexity": 1.9954886172641344}
-{"ts": "2025-12-27T18:23:03", "event": "eval", "step": 5100, "epoch": 2.151898734177215, "eval_loss": 0.6902023553848267, "eval_runtime": 733.915, "eval_samples_per_second": 2.871, "eval_steps_per_second": 2.871, "perplexity": 1.9941190131388347}
-{"ts": "2025-12-27T18:55:59", "event": "eval", "step": 5200, "epoch": 2.1940928270042193, "eval_loss": 0.6915348172187805, "eval_runtime": 1167.9782, "eval_samples_per_second": 1.804, "eval_steps_per_second": 1.804, "perplexity": 1.9967778716365487}
-{"ts": "2025-12-27T19:32:22", "event": "eval", "step": 5300, "epoch": 2.2362869198312234, "eval_loss": 0.6898328065872192, "eval_runtime": 739.3794, "eval_samples_per_second": 2.85, "eval_steps_per_second": 2.85, "perplexity": 1.993382225003213}
-{"ts": "2025-12-27T19:58:17", "event": "eval", "step": 5400, "epoch": 2.278481012658228, "eval_loss": 0.6875645518302917, "eval_runtime": 861.3558, "eval_samples_per_second": 2.446, "eval_steps_per_second": 2.446, "perplexity": 1.988865850369486}
-{"ts": "2025-12-27T20:31:44", "event": "eval", "step": 5500, "epoch": 2.320675105485232, "eval_loss": 0.6867148876190186, "eval_runtime": 941.3545, "eval_samples_per_second": 2.238, "eval_steps_per_second": 2.238, "perplexity": 1.9871766999423568}
-{"ts": "2025-12-27T21:05:14", "event": "eval", "step": 5600, "epoch": 2.3628691983122363, "eval_loss": 0.6851074695587158, "eval_runtime": 938.5536, "eval_samples_per_second": 2.245, "eval_steps_per_second": 2.245, "perplexity": 1.9839850420773193}
-{"ts": "2025-12-27T21:38:52", "event": "eval", "step": 5700, "epoch": 2.4050632911392404, "eval_loss": 0.6841402053833008, "eval_runtime": 941.6641, "eval_samples_per_second": 2.238, "eval_steps_per_second": 2.238, "perplexity": 1.9820669322305768}
-{"ts": "2025-12-27T22:09:41", "event": "eval", "step": 5800, "epoch": 2.4472573839662446, "eval_loss": 0.6835155487060547, "eval_runtime": 758.407, "eval_samples_per_second": 2.778, "eval_steps_per_second": 2.778, "perplexity": 1.9808292075033642}
-{"ts": "2025-12-27T22:28:42", "event": "eval", "step": 5900, "epoch": 2.489451476793249, "eval_loss": 0.6820966005325317, "eval_runtime": 513.3515, "eval_samples_per_second": 4.104, "eval_steps_per_second": 4.104, "perplexity": 1.9780205066890182}
-{"ts": "2025-12-27T22:47:43", "event": "eval", "step": 6000, "epoch": 2.5316455696202533, "eval_loss": 0.6813357472419739, "eval_runtime": 513.5491, "eval_samples_per_second": 4.103, "eval_steps_per_second": 4.103, "perplexity": 1.9765160956683256}
-{"ts": "2025-12-27T23:06:47", "event": "eval", "step": 6100, "epoch": 2.5738396624472575, "eval_loss": 0.6812278628349304, "eval_runtime": 513.4749, "eval_samples_per_second": 4.103, "eval_steps_per_second": 4.103, "perplexity": 1.9763028719032991}
-{"ts": "2025-12-27T23:25:56", "event": "eval", "step": 6200, "epoch": 2.6160337552742616, "eval_loss": 0.6795271039009094, "eval_runtime": 513.2393, "eval_samples_per_second": 4.105, "eval_steps_per_second": 4.105, "perplexity": 1.972944513825857}
-{"ts": "2025-12-27T23:44:50", "event": "eval", "step": 6300, "epoch": 2.6582278481012658, "eval_loss": 0.6781066656112671, "eval_runtime": 512.3669, "eval_samples_per_second": 4.112, "eval_steps_per_second": 4.112, "perplexity": 1.9701440573037758}
-{"ts": "2025-12-28T00:03:48", "event": "eval", "step": 6400, "epoch": 2.70042194092827, "eval_loss": 0.6764505505561829, "eval_runtime": 512.7682, "eval_samples_per_second": 4.109, "eval_steps_per_second": 4.109, "perplexity": 1.9668839723527984}
-{"ts": "2025-12-28T00:22:46", "event": "eval", "step": 6500, "epoch": 2.742616033755274, "eval_loss": 0.6768895387649536, "eval_runtime": 513.0657, "eval_samples_per_second": 4.107, "eval_steps_per_second": 4.107, "perplexity": 1.9677476007721588}
-{"ts": "2025-12-28T00:41:51", "event": "eval", "step": 6600, "epoch": 2.7848101265822782, "eval_loss": 0.6737648844718933, "eval_runtime": 512.921, "eval_samples_per_second": 4.108, "eval_steps_per_second": 4.108, "perplexity": 1.9616086658032716}
-{"ts": "2025-12-28T01:00:52", "event": "eval", "step": 6700, "epoch": 2.827004219409283, "eval_loss": 0.6737436056137085, "eval_runtime": 513.2559, "eval_samples_per_second": 4.105, "eval_steps_per_second": 4.105, "perplexity": 1.961566925454753}
-{"ts": "2025-12-28T01:19:55", "event": "eval", "step": 6800, "epoch": 2.869198312236287, "eval_loss": 0.6721681356430054, "eval_runtime": 513.1285, "eval_samples_per_second": 4.106, "eval_steps_per_second": 4.106, "perplexity": 1.9584789687983855}
-{"ts": "2025-12-28T01:38:47", "event": "eval", "step": 6900, "epoch": 2.911392405063291, "eval_loss": 0.6713213920593262, "eval_runtime": 513.1265, "eval_samples_per_second": 4.106, "eval_steps_per_second": 4.106, "perplexity": 1.9568213411895954}
-{"ts": "2025-12-28T01:57:47", "event": "eval", "step": 7000, "epoch": 2.9535864978902953, "eval_loss": 0.6706293225288391, "eval_runtime": 513.4396, "eval_samples_per_second": 4.104, "eval_steps_per_second": 4.104, "perplexity": 1.955467553274469}
-{"ts": "2025-12-28T02:16:49", "event": "eval", "step": 7100, "epoch": 2.9957805907173, "eval_loss": 0.6692973375320435, "eval_runtime": 512.8985, "eval_samples_per_second": 4.108, "eval_steps_per_second": 4.108, "perplexity": 1.9528646337415076}
-{"ts": "2025-12-28T02:35:50", "event": "eval", "step": 7200, "epoch": 3.037974683544304, "eval_loss": 0.6751418709754944, "eval_runtime": 513.8972, "eval_samples_per_second": 4.1, "eval_steps_per_second": 4.1, "perplexity": 1.9643116350103986}
-{"ts": "2025-12-28T02:54:46", "event": "eval", "step": 7300, "epoch": 3.080168776371308, "eval_loss": 0.678839385509491, "eval_runtime": 513.7013, "eval_samples_per_second": 4.102, "eval_steps_per_second": 4.102, "perplexity": 1.9715881500500663}
-{"ts": "2025-12-28T03:13:51", "event": "eval", "step": 7400, "epoch": 3.1223628691983123, "eval_loss": 0.676459550857544, "eval_runtime": 513.5901, "eval_samples_per_second": 4.102, "eval_steps_per_second": 4.102, "perplexity": 1.9669016749809562}
-{"ts": "2025-12-28T03:32:54", "event": "eval", "step": 7500, "epoch": 3.1645569620253164, "eval_loss": 0.6774632334709167, "eval_runtime": 513.4064, "eval_samples_per_second": 4.104, "eval_steps_per_second": 4.104, "perplexity": 1.9688768110333967}
-{"ts": "2025-12-28T03:51:52", "event": "eval", "step": 7600, "epoch": 3.2067510548523206, "eval_loss": 0.6755207777023315, "eval_runtime": 513.9779, "eval_samples_per_second": 4.099, "eval_steps_per_second": 4.099, "perplexity": 1.965056066928733}
-{"ts": "2025-12-28T04:00:24", "event": "eval", "step": 7600, "epoch": 3.2067510548523206, "eval_loss": 0.6706293225288391, "eval_runtime": 511.6513, "eval_samples_per_second": 4.118, "eval_steps_per_second": 4.118, "perplexity": 1.955467553274469}

+{"ts": "2025-12-26T18:41:10", "event": "eval", "step": 100, "epoch": 0.04219409282700422, "eval_loss": 1.2979938983917236, "eval_runtime": 682.1979, "eval_samples_per_second": 3.089, "eval_steps_per_second": 3.089, "perplexity": 3.661943064177116}
+{"ts": "2025-12-26T19:05:13", "event": "eval", "step": 200, "epoch": 0.08438818565400844, "eval_loss": 1.142486810684204, "eval_runtime": 668.2356, "eval_samples_per_second": 3.153, "eval_steps_per_second": 3.153, "perplexity": 3.134553722506413}
+{"ts": "2025-12-26T19:29:29", "event": "eval", "step": 300, "epoch": 0.12658227848101267, "eval_loss": 1.0952109098434448, "eval_runtime": 677.0652, "eval_samples_per_second": 3.112, "eval_steps_per_second": 3.112, "perplexity": 2.98981319793367}
+{"ts": "2025-12-26T19:53:55", "event": "eval", "step": 400, "epoch": 0.16877637130801687, "eval_loss": 1.0625108480453491, "eval_runtime": 691.0068, "eval_samples_per_second": 3.049, "eval_steps_per_second": 3.049, "perplexity": 2.893627334202045}
+{"ts": "2025-12-26T20:18:00", "event": "eval", "step": 500, "epoch": 0.2109704641350211, "eval_loss": 1.042096495628357, "eval_runtime": 692.4361, "eval_samples_per_second": 3.043, "eval_steps_per_second": 3.043, "perplexity": 2.8351546774213405}
+{"ts": "2025-12-26T20:42:00", "event": "eval", "step": 600, "epoch": 0.25316455696202533, "eval_loss": 1.0193854570388794, "eval_runtime": 677.9523, "eval_samples_per_second": 3.108, "eval_steps_per_second": 3.108, "perplexity": 2.7714910402016297}
+{"ts": "2025-12-26T21:06:13", "event": "eval", "step": 700, "epoch": 0.29535864978902954, "eval_loss": 0.996929407119751, "eval_runtime": 668.6398, "eval_samples_per_second": 3.151, "eval_steps_per_second": 3.151, "perplexity": 2.7099478932392134}
+{"ts": "2025-12-26T21:30:25", "event": "eval", "step": 800, "epoch": 0.33755274261603374, "eval_loss": 0.9800403714179993, "eval_runtime": 678.8306, "eval_samples_per_second": 3.104, "eval_steps_per_second": 3.104, "perplexity": 2.6645638119774637}
+{"ts": "2025-12-26T21:54:42", "event": "eval", "step": 900, "epoch": 0.379746835443038, "eval_loss": 0.9643027186393738, "eval_runtime": 691.7929, "eval_samples_per_second": 3.046, "eval_steps_per_second": 3.046, "perplexity": 2.6229580789054108}
+{"ts": "2025-12-26T22:18:39", "event": "eval", "step": 1000, "epoch": 0.4219409282700422, "eval_loss": 0.9487298727035522, "eval_runtime": 689.4288, "eval_samples_per_second": 3.056, "eval_steps_per_second": 3.056, "perplexity": 2.5824275636777196}
+{"ts": "2025-12-26T22:42:41", "event": "eval", "step": 1100, "epoch": 0.4641350210970464, "eval_loss": 0.9357889294624329, "eval_runtime": 676.9573, "eval_samples_per_second": 3.112, "eval_steps_per_second": 3.112, "perplexity": 2.549223822396605}
+{"ts": "2025-12-26T23:06:55", "event": "eval", "step": 1200, "epoch": 0.5063291139240507, "eval_loss": 0.9224098324775696, "eval_runtime": 669.7542, "eval_samples_per_second": 3.146, "eval_steps_per_second": 3.146, "perplexity": 2.515344651361619}
+{"ts": "2025-12-26T23:31:25", "event": "eval", "step": 1300, "epoch": 0.5485232067510548, "eval_loss": 0.9068717360496521, "eval_runtime": 680.7718, "eval_samples_per_second": 3.095, "eval_steps_per_second": 3.095, "perplexity": 2.476563059931004}
+{"ts": "2025-12-26T23:55:39", "event": "eval", "step": 1400, "epoch": 0.5907172995780591, "eval_loss": 0.8971880674362183, "eval_runtime": 692.8046, "eval_samples_per_second": 3.041, "eval_steps_per_second": 3.041, "perplexity": 2.452696587964245}
+{"ts": "2025-12-27T00:19:35", "event": "eval", "step": 1500, "epoch": 0.6329113924050633, "eval_loss": 0.887488842010498, "eval_runtime": 686.2804, "eval_samples_per_second": 3.07, "eval_steps_per_second": 3.07, "perplexity": 2.4290223274474503}
+{"ts": "2025-12-27T00:43:47", "event": "eval", "step": 1600, "epoch": 0.6751054852320675, "eval_loss": 0.8769772052764893, "eval_runtime": 677.9338, "eval_samples_per_second": 3.108, "eval_steps_per_second": 3.108, "perplexity": 2.403623054958293}
+{"ts": "2025-12-27T01:08:03", "event": "eval", "step": 1700, "epoch": 0.7172995780590717, "eval_loss": 0.8708170056343079, "eval_runtime": 670.3019, "eval_samples_per_second": 3.143, "eval_steps_per_second": 3.143, "perplexity": 2.388861769986548}
+{"ts": "2025-12-27T01:32:23", "event": "eval", "step": 1800, "epoch": 0.759493670886076, "eval_loss": 0.8625519275665283, "eval_runtime": 686.4271, "eval_samples_per_second": 3.07, "eval_steps_per_second": 3.07, "perplexity": 2.369199010020167}
+{"ts": "2025-12-27T01:56:20", "event": "eval", "step": 1900, "epoch": 0.8016877637130801, "eval_loss": 0.8546335697174072, "eval_runtime": 688.5301, "eval_samples_per_second": 3.06, "eval_steps_per_second": 3.06, "perplexity": 2.3505129236377402}
+{"ts": "2025-12-27T02:20:26", "event": "eval", "step": 2000, "epoch": 0.8438818565400844, "eval_loss": 0.8460908532142639, "eval_runtime": 685.2518, "eval_samples_per_second": 3.075, "eval_steps_per_second": 3.075, "perplexity": 2.330518682256874}
+{"ts": "2025-12-27T02:44:39", "event": "eval", "step": 2100, "epoch": 0.8860759493670886, "eval_loss": 0.8401098847389221, "eval_runtime": 669.1149, "eval_samples_per_second": 3.149, "eval_steps_per_second": 3.149, "perplexity": 2.3166215241467625}
+{"ts": "2025-12-27T03:09:05", "event": "eval", "step": 2200, "epoch": 0.9282700421940928, "eval_loss": 0.8336610198020935, "eval_runtime": 674.5134, "eval_samples_per_second": 3.124, "eval_steps_per_second": 3.124, "perplexity": 2.3017300131082887}
+{"ts": "2025-12-27T03:33:21", "event": "eval", "step": 2300, "epoch": 0.9704641350210971, "eval_loss": 0.8281980156898499, "eval_runtime": 688.6136, "eval_samples_per_second": 3.06, "eval_steps_per_second": 3.06, "perplexity": 2.289189937012629}
+{"ts": "2025-12-27T03:57:18", "event": "eval", "step": 2400, "epoch": 1.0126582278481013, "eval_loss": 0.8250564932823181, "eval_runtime": 691.5833, "eval_samples_per_second": 3.047, "eval_steps_per_second": 3.047, "perplexity": 2.282009679904965}
+{"ts": "2025-12-27T04:21:22", "event": "eval", "step": 2500, "epoch": 1.0548523206751055, "eval_loss": 0.8249453902244568, "eval_runtime": 679.4446, "eval_samples_per_second": 3.101, "eval_steps_per_second": 3.101, "perplexity": 2.2817561557353745}
+{"ts": "2025-12-27T04:45:36", "event": "eval", "step": 2600, "epoch": 1.0970464135021096, "eval_loss": 0.8211485743522644, "eval_runtime": 670.2276, "eval_samples_per_second": 3.144, "eval_steps_per_second": 3.144, "perplexity": 2.2731091736340194}
+{"ts": "2025-12-27T05:10:00", "event": "eval", "step": 2700, "epoch": 1.139240506329114, "eval_loss": 0.8155058026313782, "eval_runtime": 678.284, "eval_samples_per_second": 3.106, "eval_steps_per_second": 3.106, "perplexity": 2.2603186583878263}
+{"ts": "2025-12-27T05:34:19", "event": "eval", "step": 2800, "epoch": 1.1814345991561181, "eval_loss": 0.8124309182167053, "eval_runtime": 688.4759, "eval_samples_per_second": 3.06, "eval_steps_per_second": 3.06, "perplexity": 2.2533791143885313}
+{"ts": "2025-12-27T05:58:11", "event": "eval", "step": 2900, "epoch": 1.2236286919831223, "eval_loss": 0.8077136278152466, "eval_runtime": 685.6042, "eval_samples_per_second": 3.073, "eval_steps_per_second": 3.073, "perplexity": 2.2427743033735634}
+{"ts": "2025-12-27T06:22:11", "event": "eval", "step": 3000, "epoch": 1.2658227848101267, "eval_loss": 0.8033165335655212, "eval_runtime": 678.7554, "eval_samples_per_second": 3.104, "eval_steps_per_second": 3.104, "perplexity": 2.232934263027478}
+{"ts": "2025-12-27T06:46:29", "event": "eval", "step": 3100, "epoch": 1.3080168776371308, "eval_loss": 0.8010181784629822, "eval_runtime": 668.1688, "eval_samples_per_second": 3.153, "eval_steps_per_second": 3.153, "perplexity": 2.2278080803210654}
+{"ts": "2025-12-27T07:10:54", "event": "eval", "step": 3200, "epoch": 1.350210970464135, "eval_loss": 0.797160804271698, "eval_runtime": 680.976, "eval_samples_per_second": 3.094, "eval_steps_per_second": 3.094, "perplexity": 2.2192311437906307}
+{"ts": "2025-12-27T07:35:02", "event": "eval", "step": 3300, "epoch": 1.3924050632911391, "eval_loss": 0.795619547367096, "eval_runtime": 692.7157, "eval_samples_per_second": 3.042, "eval_steps_per_second": 3.042, "perplexity": 2.215813372975358}
+{"ts": "2025-12-27T07:59:01", "event": "eval", "step": 3400, "epoch": 1.4345991561181435, "eval_loss": 0.7917885780334473, "eval_runtime": 686.1689, "eval_samples_per_second": 3.071, "eval_steps_per_second": 3.071, "perplexity": 2.2073408991501657}
+{"ts": "2025-12-27T08:22:55", "event": "eval", "step": 3500, "epoch": 1.4767932489451476, "eval_loss": 0.7902651429176331, "eval_runtime": 672.312, "eval_samples_per_second": 3.134, "eval_steps_per_second": 3.134, "perplexity": 2.203980718670171}
+{"ts": "2025-12-27T08:47:16", "event": "eval", "step": 3600, "epoch": 1.518987341772152, "eval_loss": 0.785450279712677, "eval_runtime": 675.2312, "eval_samples_per_second": 3.12, "eval_steps_per_second": 3.12, "perplexity": 2.1933943593911716}
+{"ts": "2025-12-27T09:11:38", "event": "eval", "step": 3700, "epoch": 1.5611814345991561, "eval_loss": 0.7854447960853577, "eval_runtime": 687.7907, "eval_samples_per_second": 3.063, "eval_steps_per_second": 3.063, "perplexity": 2.193382331666918}
+{"ts": "2025-12-27T09:35:44", "event": "eval", "step": 3800, "epoch": 1.6033755274261603, "eval_loss": 0.778353214263916, "eval_runtime": 692.5522, "eval_samples_per_second": 3.042, "eval_steps_per_second": 3.042, "perplexity": 2.1778828044355443}
+{"ts": "2025-12-27T09:59:49", "event": "eval", "step": 3900, "epoch": 1.6455696202531644, "eval_loss": 0.7763351202011108, "eval_runtime": 682.0824, "eval_samples_per_second": 3.089, "eval_steps_per_second": 3.089, "perplexity": 2.173492064032179}
+{"ts": "2025-12-27T10:23:55", "event": "eval", "step": 4000, "epoch": 1.6877637130801688, "eval_loss": 0.7721371650695801, "eval_runtime": 668.395, "eval_samples_per_second": 3.152, "eval_steps_per_second": 3.152, "perplexity": 2.1643869666352633}
+{"ts": "2025-12-27T10:48:15", "event": "eval", "step": 4100, "epoch": 1.729957805907173, "eval_loss": 0.7690847516059875, "eval_runtime": 673.6323, "eval_samples_per_second": 3.128, "eval_steps_per_second": 3.128, "perplexity": 2.157790435509873}
+{"ts": "2025-12-27T11:12:31", "event": "eval", "step": 4200, "epoch": 1.7721518987341773, "eval_loss": 0.7676366567611694, "eval_runtime": 687.9619, "eval_samples_per_second": 3.063, "eval_steps_per_second": 3.063, "perplexity": 2.1546680116326113}
+{"ts": "2025-12-27T11:36:30", "event": "eval", "step": 4300, "epoch": 1.8143459915611815, "eval_loss": 0.7672964930534363, "eval_runtime": 688.4249, "eval_samples_per_second": 3.061, "eval_steps_per_second": 3.061, "perplexity": 2.1539351964184767}
+{"ts": "2025-12-27T12:00:29", "event": "eval", "step": 4400, "epoch": 1.8565400843881856, "eval_loss": 0.7635221481323242, "eval_runtime": 678.243, "eval_samples_per_second": 3.107, "eval_steps_per_second": 3.107, "perplexity": 2.1458208249008255}
+{"ts": "2025-12-27T12:24:47", "event": "eval", "step": 4500, "epoch": 1.8987341772151898, "eval_loss": 0.7600579857826233, "eval_runtime": 674.2593, "eval_samples_per_second": 3.125, "eval_steps_per_second": 3.125, "perplexity": 2.138400213711816}
+{"ts": "2025-12-27T12:49:10", "event": "eval", "step": 4600, "epoch": 1.9409282700421941, "eval_loss": 0.7585541009902954, "eval_runtime": 679.0866, "eval_samples_per_second": 3.103, "eval_steps_per_second": 3.103, "perplexity": 2.1351867231159773}
+{"ts": "2025-12-27T13:13:19", "event": "eval", "step": 4700, "epoch": 1.9831223628691983, "eval_loss": 0.7582268714904785, "eval_runtime": 690.081, "eval_samples_per_second": 3.053, "eval_steps_per_second": 3.053, "perplexity": 2.134488141337073}
+{"ts": "2025-12-27T13:37:21", "event": "eval", "step": 4800, "epoch": 2.0253164556962027, "eval_loss": 0.7633068561553955, "eval_runtime": 688.8684, "eval_samples_per_second": 3.059, "eval_steps_per_second": 3.059, "perplexity": 2.145358896619808}
+{"ts": "2025-12-27T14:01:30", "event": "eval", "step": 4900, "epoch": 2.067510548523207, "eval_loss": 0.7676681280136108, "eval_runtime": 676.0104, "eval_samples_per_second": 3.117, "eval_steps_per_second": 3.117, "perplexity": 2.1547358228005784}
+{"ts": "2025-12-27T14:25:57", "event": "eval", "step": 5000, "epoch": 2.109704641350211, "eval_loss": 0.7635271549224854, "eval_runtime": 669.5049, "eval_samples_per_second": 3.147, "eval_steps_per_second": 3.147, "perplexity": 2.145831568602315}
+{"ts": "2025-12-27T14:50:12", "event": "eval", "step": 5100, "epoch": 2.151898734177215, "eval_loss": 0.7654595971107483, "eval_runtime": 681.4966, "eval_samples_per_second": 3.092, "eval_steps_per_second": 3.092, "perplexity": 2.149982273261109}
+{"ts": "2025-12-27T15:01:27", "event": "eval", "step": 5100, "epoch": 2.151898734177215, "eval_loss": 0.7600579857826233, "eval_runtime": 674.048, "eval_samples_per_second": 3.126, "eval_steps_per_second": 3.126, "perplexity": 2.138400213711816}

logs/train.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff

wandb/debug-internal.log CHANGED Viewed

@@ -1,12 +1,12 @@
-{"time":"2025-12-26T18:08:08.66103332Z","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
-{"time":"2025-12-26T18:08:08.82172381Z","level":"INFO","msg":"stream: created new stream","id":"ny9q48hd"}
-{"time":"2025-12-26T18:08:08.821819478Z","level":"INFO","msg":"handler: started","stream_id":"ny9q48hd"}
-{"time":"2025-12-26T18:08:08.822049155Z","level":"INFO","msg":"stream: started","id":"ny9q48hd"}
-{"time":"2025-12-26T18:08:08.822072296Z","level":"INFO","msg":"writer: started","stream_id":"ny9q48hd"}
-{"time":"2025-12-26T18:08:08.822098276Z","level":"INFO","msg":"sender: started","stream_id":"ny9q48hd"}
-{"time":"2025-12-28T04:02:04.935383596Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
-{"time":"2025-12-28T04:02:05.045953421Z","level":"INFO","msg":"handler: operation stats","stats":{}}
-{"time":"2025-12-28T04:02:05.051806259Z","level":"INFO","msg":"stream: closing","id":"ny9q48hd"}
-{"time":"2025-12-28T04:02:05.051833004Z","level":"INFO","msg":"handler: closed","stream_id":"ny9q48hd"}
-{"time":"2025-12-28T04:02:05.051917075Z","level":"INFO","msg":"sender: closed","stream_id":"ny9q48hd"}
-{"time":"2025-12-28T04:02:05.051937152Z","level":"INFO","msg":"stream: closed","id":"ny9q48hd"}

+{"time":"2025-12-26T18:15:45.044149374Z","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2025-12-26T18:15:45.212148231Z","level":"INFO","msg":"stream: created new stream","id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212312297Z","level":"INFO","msg":"handler: started","stream_id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212463318Z","level":"INFO","msg":"stream: started","id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212498387Z","level":"INFO","msg":"writer: started","stream_id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212503642Z","level":"INFO","msg":"sender: started","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.177112089Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-27T15:02:32.275585886Z","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-12-27T15:02:32.280819216Z","level":"INFO","msg":"stream: closing","id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280845154Z","level":"INFO","msg":"handler: closed","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280896164Z","level":"INFO","msg":"sender: closed","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280915121Z","level":"INFO","msg":"stream: closed","id":"upub1jan"}

wandb/debug.log CHANGED Viewed

@@ -1,29 +1,29 @@
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_setup.py:_flush():80] Configure stats pid to 190322
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_setup.py:_flush():80] Loading settings from /workspace/wandb/settings
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_setup.py:_flush():80] Loading settings from environment variables
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_init.py:setup_run_log_directory():714] Logging user logs to task2file/sft_devstral_24B_v2/wandb/run-20251226_180808-ny9q48hd/logs/debug.log
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to task2file/sft_devstral_24B_v2/wandb/run-20251226_180808-ny9q48hd/logs/debug-internal.log
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_init.py:init():841] calling init triggers
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
-config: {'model': {'repo_id': './Models/Devstral-Small-2-24B-HS-CPT', 'revision': None, 'base_local_dir': 'base_model', 'trust_remote_code': True, 'tokenizer_use_fast': True, 'device_map': 'auto', 'torch_dtype': 'bfloat16', 'use_4bit': False, 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': False, 'bnb_4bit_compute_dtype': 'bfloat16', 'attn_implementation': None}, 'data': {'train_jsonl': 'sft_dataset.jsonl', 'eval_jsonl': None, 'eval_split_ratio': 0.1, 'instruction_field': 'instruction', 'input_field': 'input', 'output_field': 'output', 'format_type': 'custom', 'system_prompt': 'You are a Hyperswitch Rust code analyzer. Identify functions/structs that need modification for a given task.\n\n## Output Format\n\n##OUTPUT\nExplain the data flow and why each component must change:\n- Flow: [Input → Processing → Output with arrows]\n- For each component: "The [ComponentName] ([path]) must [action] because [reason]—without this, [consequence]"\n- Explain coupling between components\n\n##SELECT\nmodify::crates/path/to/file.rs::impl::ComponentName\nadd::crates/another/file.rs::function::AnotherComponent\n<EOS>\n\n## Rules\n\n1. Use full paths: `remove::crates/folder/file.rs::Type::Name`\n2. Use `::` for nested items: `status::StructName::Type::Name`\n3. Always explain "must change because" and "without this"\n3. Types of components: function, struct, enum, impl, trait\n4. If there is extra information (e.g., enum variants), include that too.\n5. Start with ##OUTPUT, end with ##SELECT, terminate with <EOS>\n\n## Example\n\n##TASK\nAdd webhook subscription support\n\n##OUTPUT\nThe webhook system routes events via EventClass enum. Flow: webhook → EventClass → handler → processing. The EventClass enum (crates/common_enums/src/enums.rs::EventClass) must add Subscriptions variant because it defines event routing—without this, subscription events cannot be processed. The SubscriptionStatus impl (crates/common_enums/src/transformers.rs::SubscriptionStatus) must map to EventType because it converts status to events—without this, status changes don\'t trigger webhooks. These are coupled: EventClass routes to handlers that use SubscriptionStatus mappings.\n\n##SELECT\ncrates/common_enums/src/enums.rs::EventClass\ncrates/common_enums/src/transformers.rs::SubscriptionStatus\n<EOS>\n', 'custom_template': '##INSTRUCTION\n{instruction}<|im_end|>\n{input}<|im_end|>\n{output}<|im_end|>', 'max_length': 2048, 'shuffle': True, 'num_proc': 4}, 'peft': {'enabled': True, 'r': 8, 'lora_alpha': 16, 'lora_dropout': 0.05, 'bias': 'none', 'target_modules': 'auto'}, 'train': {'num_train_epochs': 6, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'learning_rate': '1e-4', 'weight_decay': 0.0, 'warmup_ratio': 0.08, 'lr_scheduler_type': 'cosine', 'optim': 'adamw_torch', 'max_grad_norm': 0.8, 'gradient_checkpointing': True, 'logging_steps': 2, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'evaluation_strategy': 'steps', 'eval_steps': 100, 'load_best_model_at_end': True, 'early_stopping': {'enabled': True, 'patience': 5, 'min_delta': 0.001, 'metric': 'eval_loss', 'mode': 'min'}, 'resume_from_checkpoint': 'auto'}, 'run_dir': 'task2file/sft_devstral_24B_v2', '_wandb': {}}
-2025-12-26 18:08:08,385 INFO    MainThread:190322 [wandb_init.py:init():889] starting backend
-2025-12-26 18:08:08,653 INFO    MainThread:190322 [wandb_init.py:init():892] sending inform_init request
-2025-12-26 18:08:08,658 INFO    MainThread:190322 [wandb_init.py:init():900] backend started and connected
-2025-12-26 18:08:08,661 INFO    MainThread:190322 [wandb_init.py:init():970] updated telemetry
-2025-12-26 18:08:08,662 INFO    MainThread:190322 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
-2025-12-26 18:08:09,021 INFO    MainThread:190322 [wandb_init.py:init():1041] starting run threads in backend
-2025-12-26 18:08:09,134 INFO    MainThread:190322 [wandb_run.py:_console_start():2521] atexit reg
-2025-12-26 18:08:09,134 INFO    MainThread:190322 [wandb_run.py:_redirect():2369] redirect: wrap_raw
-2025-12-26 18:08:09,135 INFO    MainThread:190322 [wandb_run.py:_redirect():2438] Wrapping output streams.
-2025-12-26 18:08:09,135 INFO    MainThread:190322 [wandb_run.py:_redirect():2461] Redirects installed.
-2025-12-26 18:08:09,138 INFO    MainThread:190322 [wandb_init.py:init():1081] run started, returning control to user process
-2025-12-26 18:08:52,955 INFO    MainThread:190322 [wandb_run.py:_config_callback():1396] config_cb None None {'peft_config': {'default': {'task_type': 'CAUSAL_LM', 'peft_type': 'LORA', 'auto_mapping': None, 'peft_version': '0.18.0', 'base_model_name_or_path': 'Models/Devstral-Small-2-24B-HS-CPT', 'revision': None, 'inference_mode': False, 'r': 8, 'target_modules': ['v_proj', 'q_proj', 'o_proj', 'k_proj'], 'exclude_modules': None, 'lora_alpha': 16, 'lora_dropout': 0.05, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'trainable_token_indices': None, 'loftq_config': {}, 'eva_config': None, 'corda_config': None, 'use_dora': False, 'alora_invocation_tokens': None, 'use_qalora': False, 'qalora_group_size': 16, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}, 'lora_bias': False, 'target_parameters': None, 'arrow_config': None, 'ensure_weight_tying': False}}, 'image_token_index': 10, 'projector_hidden_act': 'gelu', 'vision_feature_layer': -1, 'vision_config': {'hidden_size': 1024, 'intermediate_size': 4096, 'num_hidden_layers': 24, 'num_attention_heads': 16, 'num_channels': 3, 'patch_size': 14, 'image_size': 1540, 'attention_dropout': 0.0, 'hidden_act': 'silu', 'head_dim': 64, 'initializer_range': 0.02, 'rope_parameters': {'rope_theta': 10000.0, 'rope_type': 'default'}, 'return_dict': True, 'output_hidden_states': False, 'dtype': 'bfloat16', 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'architectures': None, 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'task_specific_params': None, 'problem_type': None, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': None, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, '_name_or_path': '', 'model_type': 'pixtral', 'output_attentions': False}, 'text_config': {'vocab_size': 131072, 'max_position_embeddings': 393216, 'hidden_size': 5120, 'intermediate_size': 32768, 'num_hidden_layers': 40, 'num_attention_heads': 32, 'sliding_window': None, 'head_dim': 128, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'use_cache': True, 'attention_dropout': 0.0, 'rope_parameters': {'beta_fast': 32.0, 'beta_slow': 1.0, 'factor': 48.0, 'llama_4_scaling_beta': 0.1, 'mscale': 1.0, 'mscale_all_dim': 1.0, 'original_max_position_embeddings': 8192, 'rope_theta': 100000000.0, 'rope_type': 'yarn', 'type': 'yarn'}, 'return_dict': True, 'output_hidden_states': False, 'dtype': 'bfloat16', 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'architectures': None, 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'task_specific_params': None, 'problem_type': None, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 1, 'pad_token_id': 11, 'eos_token_id': 2, 'sep_token_id': None, 'decoder_start_token_id': None, '_name_or_path': '', 'model_type': 'ministral3', 'output_attentions': False}, 'multimodal_projector_bias': False, 'spatial_merge_size': 2, 'return_dict': True, 'output_hidden_states': False, 'dtype': 'bfloat16', 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'architectures': ['Mistral3ForConditionalGeneration'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'task_specific_params': None, 'problem_type': None, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': None, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, '_name_or_path': 'Models/Devstral-Small-2-24B-HS-CPT', 'transformers_version': '5.0.0.dev0', 'model_type': 'mistral3', 'use_cache': False, 'output_attentions': False, 'output_dir': 'task2file/sft_devstral_24B_v2/checkpoints', 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0001, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 0.8, 'num_train_epochs': 6.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': None, 'warmup_ratio': 0.08, 'warmup_steps': 0.08, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': None, 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 2, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'enable_jit_checkpoint': False, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'use_cpu': False, 'seed': 42, 'data_seed': None, 'bf16': True, 'fp16': False, 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': -1, 'ddp_backend': None, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 100, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'run_name': None, 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'eval_loss', 'greater_is_better': False, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'parallelism_config': None, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'project': 'huggingface', 'trackio_space_id': 'trackio', 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'hub_revision': None, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'auto_find_batch_size': False, 'full_determinism': False, 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_num_input_tokens_seen': 'no', 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'liger_kernel_config': None, 'eval_use_gather_object': False, 'average_tokens_across_devices': True}
-2025-12-26 18:08:52,965 INFO    MainThread:190322 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 24022764544 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7b8940b75420>>
-2025-12-26 18:08:52,965 INFO    MainThread:190322 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 24022764544 None
-2025-12-28 04:02:04,643 INFO    MainThread:190322 [wandb_run.py:_finish():2287] finishing run sirajuddin-shaik-007/sft-training/ny9q48hd
-2025-12-28 04:02:04,645 INFO    MainThread:190322 [wandb_run.py:_atexit_cleanup():2486] got exitcode: 0
-2025-12-28 04:02:04,646 INFO    MainThread:190322 [wandb_run.py:_restore():2468] restore
-2025-12-28 04:02:04,646 INFO    MainThread:190322 [wandb_run.py:_restore():2474] restore done
-2025-12-28 04:02:05,050 INFO    MainThread:190322 [wandb_run.py:_footer_sync_info():3862] logging synced files

+2025-12-26 18:15:44,766 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Configure stats pid to 194421
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from /workspace/wandb/settings
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:setup_run_log_directory():714] Logging user logs to task2file/sft_qwen_14B_v2/wandb/run-20251226_181544-upub1jan/logs/debug.log
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to task2file/sft_qwen_14B_v2/wandb/run-20251226_181544-upub1jan/logs/debug-internal.log
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():841] calling init triggers
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'model': {'repo_id': './Models/Qwen2.5-Coder-14B-CPT', 'revision': None, 'base_local_dir': 'base_model', 'trust_remote_code': True, 'tokenizer_use_fast': True, 'device_map': 'auto', 'torch_dtype': 'bfloat16', 'use_4bit': False, 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': False, 'bnb_4bit_compute_dtype': 'bfloat16', 'attn_implementation': None}, 'data': {'train_jsonl': 'sft_dataset.jsonl', 'eval_jsonl': None, 'eval_split_ratio': 0.1, 'instruction_field': 'instruction', 'input_field': 'input', 'output_field': 'output', 'format_type': 'custom', 'system_prompt': 'You are a Hyperswitch Rust code analyzer. Identify functions/structs that need modification for a given task.\n\n## Output Format\n\n##OUTPUT\nExplain the data flow and why each component must change:\n- Flow: [Input → Processing → Output with arrows]\n- For each component: "The [ComponentName] ([path]) must [action] because [reason]—without this, [consequence]"\n- Explain coupling between components\n\n##SELECT\nmodify::crates/path/to/file.rs::impl::ComponentName\nadd::crates/another/file.rs::function::AnotherComponent\n<EOS>\n\n## Rules\n\n1. Use full paths: `remove::crates/folder/file.rs::Type::Name`\n2. Use `::` for nested items: `status::StructName::Type::Name`\n3. Always explain "must change because" and "without this"\n3. Types of components: function, struct, enum, impl, trait\n4. If there is extra information (e.g., enum variants), include that too.\n5. Start with ##OUTPUT, end with ##SELECT, terminate with <EOS>\n\n## Example\n\n##TASK\nAdd webhook subscription support\n\n##OUTPUT\nThe webhook system routes events via EventClass enum. Flow: webhook → EventClass → handler → processing. The EventClass enum (crates/common_enums/src/enums.rs::EventClass) must add Subscriptions variant because it defines event routing—without this, subscription events cannot be processed. The SubscriptionStatus impl (crates/common_enums/src/transformers.rs::SubscriptionStatus) must map to EventType because it converts status to events—without this, status changes don\'t trigger webhooks. These are coupled: EventClass routes to handlers that use SubscriptionStatus mappings.\n\n##SELECT\ncrates/common_enums/src/enums.rs::EventClass\ncrates/common_enums/src/transformers.rs::SubscriptionStatus\n<EOS>\n', 'custom_template': '##INSTRUCTION\n{instruction}<|im_end|>\n{input}<|im_end|>\n{output}<|im_end|>', 'max_length': 2048, 'shuffle': True, 'num_proc': 4}, 'peft': {'enabled': True, 'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'target_modules': 'auto'}, 'train': {'num_train_epochs': 6, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'learning_rate': '2e-4', 'weight_decay': 0.0, 'warmup_ratio': 0.08, 'lr_scheduler_type': 'cosine', 'optim': 'adamw_torch', 'max_grad_norm': 1.0, 'gradient_checkpointing': True, 'logging_steps': 2, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'evaluation_strategy': 'steps', 'eval_steps': 100, 'load_best_model_at_end': True, 'early_stopping': {'enabled': True, 'patience': 5, 'min_delta': 0.001, 'metric': 'eval_loss', 'mode': 'min'}, 'resume_from_checkpoint': 'auto'}, 'run_dir': 'task2file/sft_qwen_14B_v2', '_wandb': {}}
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():889] starting backend
+2025-12-26 18:15:45,035 INFO    MainThread:194421 [wandb_init.py:init():892] sending inform_init request
+2025-12-26 18:15:45,040 INFO    MainThread:194421 [wandb_init.py:init():900] backend started and connected
+2025-12-26 18:15:45,044 INFO    MainThread:194421 [wandb_init.py:init():970] updated telemetry
+2025-12-26 18:15:45,045 INFO    MainThread:194421 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2025-12-26 18:15:45,420 INFO    MainThread:194421 [wandb_init.py:init():1041] starting run threads in backend
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_console_start():2521] atexit reg
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2461] Redirects installed.
+2025-12-26 18:15:45,542 INFO    MainThread:194421 [wandb_init.py:init():1081] run started, returning control to user process
+2025-12-26 18:17:10,652 INFO    MainThread:194421 [wandb_run.py:_config_callback():1396] config_cb None None {'peft_config': {'default': {'task_type': 'CAUSAL_LM', 'peft_type': 'LORA', 'auto_mapping': None, 'peft_version': '0.18.0', 'base_model_name_or_path': 'Models/Qwen2.5-Coder-14B-CPT', 'revision': None, 'inference_mode': False, 'r': 32, 'target_modules': ['o_proj', 'v_proj', 'k_proj', 'q_proj'], 'exclude_modules': None, 'lora_alpha': 64, 'lora_dropout': 0.05, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'trainable_token_indices': None, 'loftq_config': {}, 'eva_config': None, 'corda_config': None, 'use_dora': False, 'alora_invocation_tokens': None, 'use_qalora': False, 'qalora_group_size': 16, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}, 'lora_bias': False, 'target_parameters': None, 'arrow_config': None, 'ensure_weight_tying': False}}, 'vocab_size': 152064, 'max_position_embeddings': 32768, 'hidden_size': 5120, 'intermediate_size': 13824, 'num_hidden_layers': 48, 'num_attention_heads': 40, 'use_sliding_window': False, 'sliding_window': None, 'max_window_layers': 48, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-06, 'use_cache': False, 'attention_dropout': 0.0, 'layer_types': ['full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention'], 'rope_parameters': {'rope_theta': 1000000.0, 'rope_type': 'default'}, 'return_dict': True, 'output_hidden_states': False, 'dtype': 'bfloat16', 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'architectures': ['Qwen2ForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'task_specific_params': None, 'problem_type': None, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 151643, 'pad_token_id': None, 'eos_token_id': 151643, 'sep_token_id': None, 'decoder_start_token_id': None, '_name_or_path': 'Models/Qwen2.5-Coder-14B-CPT', 'transformers_version': '5.0.0.dev0', 'model_type': 'qwen2', 'output_attentions': False, 'output_dir': 'task2file/sft_qwen_14B_v2/checkpoints', 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 6.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': None, 'warmup_ratio': 0.08, 'warmup_steps': 0.08, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': None, 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 2, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'enable_jit_checkpoint': False, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'use_cpu': False, 'seed': 42, 'data_seed': None, 'bf16': True, 'fp16': False, 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': -1, 'ddp_backend': None, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 100, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'run_name': None, 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'eval_loss', 'greater_is_better': False, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'parallelism_config': None, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'project': 'huggingface', 'trackio_space_id': 'trackio', 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'hub_revision': None, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'auto_find_batch_size': False, 'full_determinism': False, 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_num_input_tokens_seen': 'no', 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'liger_kernel_config': None, 'eval_use_gather_object': False, 'average_tokens_across_devices': True}
+2025-12-26 18:17:10,660 INFO    MainThread:194421 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 14820365312 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7ed24f0556c0>>
+2025-12-26 18:17:10,660 INFO    MainThread:194421 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 14820365312 None
+2025-12-27 15:02:31,903 INFO    MainThread:194421 [wandb_run.py:_finish():2287] finishing run sirajuddin-shaik-007/sft-training/upub1jan
+2025-12-27 15:02:31,905 INFO    MainThread:194421 [wandb_run.py:_atexit_cleanup():2486] got exitcode: 0
+2025-12-27 15:02:31,906 INFO    MainThread:194421 [wandb_run.py:_restore():2468] restore
+2025-12-27 15:02:31,906 INFO    MainThread:194421 [wandb_run.py:_restore():2474] restore done
+2025-12-27 15:02:32,279 INFO    MainThread:194421 [wandb_run.py:_footer_sync_info():3862] logging synced files

wandb/run-20251226_181544-upub1jan/files/config.yaml ADDED Viewed

	@@ -0,0 +1,601 @@

+_name_or_path:
+    value: Models/Qwen2.5-Coder-14B-CPT
+_wandb:
+    value:
+        cli_version: 0.23.1
+        e:
+            ba9dsvvs7npkm5vvx6733495pp0yghz4:
+                args:
+                    - --config
+                    - trainer-kit/SFT-14b/config_instruct.yaml
+                codePath: trainer-kit/SFT-14b/run_instruct.py
+                codePathLocal: trainer-kit/SFT-14b/run_instruct.py
+                cpu_count: 12
+                cpu_count_logical: 24
+                cudaVersion: "13.0"
+                disk:
+                    /:
+                        total: "791251738624"
+                        used: "392925650944"
+                email: shaiksirajuddin9949@gmail.com
+                executable: /workspace/llm_finetuning_env/bin/python
+                gpu: NVIDIA A100-SXM4-80GB
+                gpu_count: 2
+                gpu_nvidia:
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A100-SXM4-80GB
+                      uuid: GPU-989794b0-ec3b-13bf-db9f-3fbe341497ba
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A100-SXM4-80GB
+                      uuid: GPU-3790aa64-60ef-9eac-b0b1-b278ee8c0d40
+                host: a100-2gpu-shell-session-757d587799-mfdvv
+                memory:
+                    total: "359047892992"
+                os: Linux-6.12.46+-x86_64-with-glibc2.35
+                program: /workspace/trainer-kit/SFT-14b/run_instruct.py
+                python: CPython 3.10.12
+                root: task2file/sft_qwen_14B_v2
+                startedAt: "2025-12-26T18:15:44.765252Z"
+                writerId: ba9dsvvs7npkm5vvx6733495pp0yghz4
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "2": '*'
+              "5": 1
+              "6":
+                - 1
+              "7": []
+        python_version: 3.10.12
+        t:
+            "1":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 71
+                - 98
+            "2":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 15
+                - 16
+                - 19
+                - 62
+                - 66
+            "4": 3.10.12
+            "5": 0.23.1
+            "6": 5.0.0.dev0
+            "9":
+                "1": transformers_trainer
+            "12": 0.23.1
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - Qwen2ForCausalLM
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+average_tokens_across_devices:
+    value: true
+batch_eval_metrics:
+    value: false
+bf16:
+    value: true
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 151643
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data:
+    value:
+        custom_template: |-
+            ##INSTRUCTION
+            {instruction}<|im_end|>
+            {input}<|im_end|>
+            {output}<|im_end|>
+        eval_jsonl: null
+        eval_split_ratio: 0.1
+        format_type: custom
+        input_field: input
+        instruction_field: instruction
+        max_length: 2048
+        num_proc: 4
+        output_field: output
+        shuffle: true
+        system_prompt: |
+            You are a Hyperswitch Rust code analyzer. Identify functions/structs that need modification for a given task.
+            ## Output Format
+            ##OUTPUT
+            Explain the data flow and why each component must change:
+            - Flow: [Input → Processing → Output with arrows]
+            - For each component: "The [ComponentName] ([path]) must [action] because [reason]—without this, [consequence]"
+            - Explain coupling between components
+            ##SELECT
+            modify::crates/path/to/file.rs::impl::ComponentName
+            add::crates/another/file.rs::function::AnotherComponent
+            <EOS>
+            ## Rules
+            1. Use full paths: `remove::crates/folder/file.rs::Type::Name`
+            2. Use `::` for nested items: `status::StructName::Type::Name`
+            3. Always explain "must change because" and "without this"
+            3. Types of components: function, struct, enum, impl, trait
+            4. If there is extra information (e.g., enum variants), include that too.
+            5. Start with ##OUTPUT, end with ##SELECT, terminate with <EOS>
+            ## Example
+            ##TASK
+            Add webhook subscription support
+            ##OUTPUT
+            The webhook system routes events via EventClass enum. Flow: webhook → EventClass → handler → processing. The EventClass enum (crates/common_enums/src/enums.rs::EventClass) must add Subscriptions variant because it defines event routing—without this, subscription events cannot be processed. The SubscriptionStatus impl (crates/common_enums/src/transformers.rs::SubscriptionStatus) must map to EventType because it converts status to events—without this, status changes don't trigger webhooks. These are coupled: EventClass routes to handlers that use SubscriptionStatus mappings.
+            ##SELECT
+            crates/common_enums/src/enums.rs::EventClass
+            crates/common_enums/src/transformers.rs::SubscriptionStatus
+            <EOS>
+        train_jsonl: sft_dataset.jsonl
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: null
+disable_tqdm:
+    value: false
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_train:
+    value: false
+dtype:
+    value: bfloat16
+enable_jit_checkpoint:
+    value: false
+eos_token_id:
+    value: 151643
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 100
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+finetuning_task:
+    value: null
+fp16:
+    value: false
+fp16_full_eval:
+    value: false
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 8
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: false
+group_by_length:
+    value: false
+hidden_act:
+    value: silu
+hidden_size:
+    value: 5120
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: null
+hub_revision:
+    value: null
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_for_metrics:
+    value: []
+include_num_input_tokens_seen:
+    value: "no"
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 13824
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+layer_types:
+    value:
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+        - full_attention
+learning_rate:
+    value: 0.0002
+length_column_name:
+    value: length
+liger_kernel_config:
+    value: null
+load_best_model_at_end:
+    value: true
+local_rank:
+    value: -1
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: null
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 2
+logging_strategy:
+    value: steps
+lr_scheduler_kwargs:
+    value: null
+lr_scheduler_type:
+    value: cosine
+max_grad_norm:
+    value: 1
+max_position_embeddings:
+    value: 32768
+max_steps:
+    value: -1
+max_window_layers:
+    value: 48
+metric_for_best_model:
+    value: eval_loss
+model:
+    value:
+        attn_implementation: null
+        base_local_dir: base_model
+        bnb_4bit_compute_dtype: bfloat16
+        bnb_4bit_quant_type: nf4
+        bnb_4bit_use_double_quant: false
+        device_map: auto
+        repo_id: ./Models/Qwen2.5-Coder-14B-CPT
+        revision: null
+        tokenizer_use_fast: true
+        torch_dtype: bfloat16
+        trust_remote_code: true
+        use_4bit: false
+model/num_parameters:
+    value: 14820365312
+model_type:
+    value: qwen2
+neftune_noise_alpha:
+    value: null
+num_attention_heads:
+    value: 40
+num_hidden_layers:
+    value: 48
+num_key_value_heads:
+    value: 8
+num_train_epochs:
+    value: 6
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: task2file/sft_qwen_14B_v2/checkpoints
+output_hidden_states:
+    value: false
+pad_token_id:
+    value: null
+parallelism_config:
+    value: null
+peft:
+    value:
+        bias: none
+        enabled: true
+        lora_alpha: 64
+        lora_dropout: 0.05
+        r: 32
+        target_modules: auto
+peft_config:
+    value:
+        default:
+            alora_invocation_tokens: null
+            arrow_config: null
+            auto_mapping: null
+            base_model_name_or_path: Models/Qwen2.5-Coder-14B-CPT
+            bias: none
+            corda_config: null
+            ensure_weight_tying: false
+            eva_config: null
+            exclude_modules: null
+            fan_in_fan_out: false
+            inference_mode: false
+            init_lora_weights: true
+            layer_replication: null
+            layers_pattern: null
+            layers_to_transform: null
+            lora_alpha: 64
+            lora_bias: false
+            lora_dropout: 0.05
+            megatron_config: null
+            megatron_core: megatron.core
+            modules_to_save: null
+            peft_type: LORA
+            peft_version: 0.18.0
+            qalora_group_size: 16
+            r: 32
+            revision: null
+            runtime_config:
+                ephemeral_gpu_offload: false
+            target_modules:
+                - o_proj
+                - v_proj
+                - k_proj
+                - q_proj
+            target_parameters: null
+            task_type: CAUSAL_LM
+            trainable_token_indices: null
+            use_dora: false
+            use_qalora: false
+            use_rslora: false
+per_device_eval_batch_size:
+    value: 1
+per_device_train_batch_size:
+    value: 1
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+problem_type:
+    value: null
+project:
+    value: huggingface
+push_to_hub:
+    value: false
+remove_unused_columns:
+    value: false
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+rms_norm_eps:
+    value: 1e-06
+rope_parameters:
+    value:
+        rope_theta: 1e+06
+        rope_type: default
+run_dir:
+    value: task2file/sft_qwen_14B_v2
+run_name:
+    value: null
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_steps:
+    value: 500
+save_strategy:
+    value: steps
+save_total_limit:
+    value: 20
+seed:
+    value: 42
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+sliding_window:
+    value: null
+task_specific_params:
+    value: null
+tf32:
+    value: null
+tie_word_embeddings:
+    value: false
+tokenizer_class:
+    value: null
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_empty_cache_steps:
+    value: null
+trackio_space_id:
+    value: trackio
+train:
+    value:
+        early_stopping:
+            enabled: true
+            metric: eval_loss
+            min_delta: 0.001
+            mode: min
+            patience: 5
+        eval_steps: 100
+        evaluation_strategy: steps
+        gradient_accumulation_steps: 8
+        gradient_checkpointing: true
+        learning_rate: "2e-4"
+        load_best_model_at_end: true
+        logging_steps: 2
+        lr_scheduler_type: cosine
+        max_grad_norm: 1
+        num_train_epochs: 6
+        optim: adamw_torch
+        per_device_eval_batch_size: 1
+        per_device_train_batch_size: 1
+        resume_from_checkpoint: auto
+        save_steps: 500
+        save_strategy: steps
+        save_total_limit: 20
+        warmup_ratio: 0.08
+        weight_decay: 0
+transformers_version:
+    value: 5.0.0.dev0
+use_cache:
+    value: false
+use_cpu:
+    value: false
+use_liger_kernel:
+    value: false
+use_sliding_window:
+    value: false
+vocab_size:
+    value: 152064
+warmup_ratio:
+    value: 0.08
+warmup_steps:
+    value: 0.08
+weight_decay:
+    value: 0

wandb/run-20251226_181544-upub1jan/files/output.log ADDED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20251226_181544-upub1jan/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,104 @@

+exceptiongroup==1.3.1
+wheel==0.45.1
+python-dateutil==2.9.0.post0
+nvidia-ml-py==13.580.82
+huggingface_hub==1.2.3
+idna==3.11
+click==8.3.1
+numpy==2.2.6
+httpx==0.28.1
+tokenizers==0.22.1
+sympy==1.13.1
+yarl==1.22.0
+async-timeout==5.0.1
+datasets==4.4.2
+platformdirs==4.5.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-nvtx-cu12==12.1.105
+smmap==5.0.2
+accelerate==1.12.0
+requests==2.32.5
+aiohttp==3.13.2
+bitsandbytes==0.49.0
+nvidia-cublas-cu12==12.1.3.1
+mpmath==1.3.0
+torchaudio==2.5.1+cu121
+nvidia-cuda-runtime-cu12==12.1.105
+typing-inspection==0.4.2
+GitPython==3.1.45
+xxhash==3.6.0
+nvidia-cusolver-cu12==11.4.5.107
+pydantic_core==2.41.5
+six==1.17.0
+torchvision==0.20.1+cu121
+typing_extensions==4.15.0
+triton==3.1.0
+charset-normalizer==3.4.4
+nvitop==1.6.1
+wandb==0.23.1
+regex==2025.11.3
+pip==25.3
+nvidia-cusparse-cu12==12.1.0.106
+pytz==2025.2
+Jinja2==3.1.6
+psutil==7.2.0
+pillow==12.0.0
+packaging==25.0
+safetensors==0.7.0
+sentry-sdk==2.48.0
+gitdb==4.0.12
+httpcore==1.0.9
+setuptools==80.9.0
+nvidia-cufft-cu12==11.0.2.54
+anyio==4.12.0
+transformers==5.0.0.dev0
+pydantic==2.12.5
+fsspec==2025.10.0
+filelock==3.20.0
+PyYAML==6.0.3
+hf-xet==1.2.0
+nvidia-cudnn-cu12==9.1.0.70
+tqdm==4.67.1
+MarkupSafe==2.1.5
+attrs==25.4.0
+nvidia-cuda-nvrtc-cu12==12.1.105
+peft==0.18.0
+aiohappyeyeballs==2.6.1
+networkx==3.4.2
+nvidia-nvjitlink-cu12==12.9.86
+certifi==2025.11.12
+pyarrow==22.0.0
+dill==0.4.0
+protobuf==6.33.2
+aiosignal==1.4.0
+frozenlist==1.8.0
+urllib3==2.6.2
+propcache==0.4.1
+tzdata==2025.3
+pandas==2.3.3
+annotated-types==0.7.0
+shellingham==1.5.4
+nvidia-nccl-cu12==2.21.5
+multidict==6.7.0
+nvidia-curand-cu12==10.3.2.106
+trl==0.26.2
+torch==2.5.1+cu121
+h11==0.16.0
+multiprocess==0.70.18
+typer-slim==0.21.0
+wheel==0.45.1
+tomli==2.0.1
+autocommand==2.2.2
+jaraco.context==5.3.0
+zipp==3.19.2
+packaging==24.2
+inflect==7.3.1
+typing_extensions==4.12.2
+platformdirs==4.2.2
+jaraco.functools==4.0.1
+jaraco.collections==5.1.0
+jaraco.text==3.12.1
+backports.tarfile==1.2.0
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+typeguard==4.3.0

wandb/run-20251226_181544-upub1jan/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "os":  "Linux-6.12.46+-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.12",
+  "startedAt":  "2025-12-26T18:15:44.765252Z",
+  "args":  [
+    "--config",
+    "trainer-kit/SFT-14b/config_instruct.yaml"
+  ],
+  "program":  "/workspace/trainer-kit/SFT-14b/run_instruct.py",
+  "codePath":  "trainer-kit/SFT-14b/run_instruct.py",
+  "codePathLocal":  "trainer-kit/SFT-14b/run_instruct.py",
+  "email":  "shaiksirajuddin9949@gmail.com",
+  "root":  "task2file/sft_qwen_14B_v2",
+  "host":  "a100-2gpu-shell-session-757d587799-mfdvv",
+  "executable":  "/workspace/llm_finetuning_env/bin/python",
+  "cpu_count":  12,
+  "cpu_count_logical":  24,
+  "gpu":  "NVIDIA A100-SXM4-80GB",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "791251738624",
+      "used":  "392925650944"
+    }
+  },
+  "memory":  {
+    "total":  "359047892992"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-989794b0-ec3b-13bf-db9f-3fbe341497ba"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3790aa64-60ef-9eac-b0b1-b278ee8c0d40"
+    }
+  ],
+  "cudaVersion":  "13.0",
+  "writerId":  "ba9dsvvs7npkm5vvx6733495pp0yghz4"
+}

wandb/run-20251226_181544-upub1jan/files/wandb-summary.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"train_steps_per_second":0.192,"train_loss":0.8076860591944526,"eval/steps_per_second":3.126,"_runtime":74806,"train/learning_rate":0.00015806910080135527,"train_runtime":73982.3221,"total_flos":3.049019256156893e+18,"eval/runtime":674.048,"train/epoch":2.151898734177215,"train/global_step":5100,"eval/loss":0.7600579857826233,"_step":2602,"_wandb":{"runtime":74806},"train/loss":0.6138747930526733,"train/grad_norm":0.48821282386779785,"eval/samples_per_second":3.126,"_timestamp":1.766847687515407e+09,"train_samples_per_second":1.538}

wandb/run-20251226_181544-upub1jan/logs/debug-core.log ADDED Viewed

	@@ -0,0 +1,16 @@

+{"time":"2025-12-26T18:15:44.85463749Z","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmp8sddanmm/port-194421.txt","pid":194421,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2025-12-26T18:15:44.855355082Z","level":"INFO","msg":"server: will exit if parent process dies","ppid":194421}
+{"time":"2025-12-26T18:15:44.85534748Z","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-194421-194516-4014985148/socket","Net":"unix"}}
+{"time":"2025-12-26T18:15:45.035681883Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2025-12-26T18:15:45.043999704Z","level":"INFO","msg":"handleInformInit: received","streamId":"upub1jan","id":"1(@)"}
+{"time":"2025-12-26T18:15:45.212475024Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"upub1jan","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.280521859Z","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"upub1jan","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.281560524Z","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"upub1jan","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.336985081Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.337047862Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.337066801Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-27T15:02:32.337073486Z","level":"INFO","msg":"connection: closing","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.33713325Z","level":"INFO","msg":"connection: closed successfully","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.337139996Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"1(@)"}
+{"time":"2025-12-27T15:02:32.337231073Z","level":"INFO","msg":"server: listener closed","addr":{"Name":"/tmp/wandb-194421-194516-4014985148/socket","Net":"unix"}}
+{"time":"2025-12-27T15:02:32.337292822Z","level":"INFO","msg":"server is closed"}

wandb/run-20251226_181544-upub1jan/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,12 @@

+{"time":"2025-12-26T18:15:45.044149374Z","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2025-12-26T18:15:45.212148231Z","level":"INFO","msg":"stream: created new stream","id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212312297Z","level":"INFO","msg":"handler: started","stream_id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212463318Z","level":"INFO","msg":"stream: started","id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212498387Z","level":"INFO","msg":"writer: started","stream_id":"upub1jan"}
+{"time":"2025-12-26T18:15:45.212503642Z","level":"INFO","msg":"sender: started","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.177112089Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-27T15:02:32.275585886Z","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2025-12-27T15:02:32.280819216Z","level":"INFO","msg":"stream: closing","id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280845154Z","level":"INFO","msg":"handler: closed","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280896164Z","level":"INFO","msg":"sender: closed","stream_id":"upub1jan"}
+{"time":"2025-12-27T15:02:32.280915121Z","level":"INFO","msg":"stream: closed","id":"upub1jan"}

wandb/run-20251226_181544-upub1jan/logs/debug.log ADDED Viewed

	@@ -0,0 +1,29 @@

+2025-12-26 18:15:44,766 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Configure stats pid to 194421
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from /workspace/wandb/settings
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:setup_run_log_directory():714] Logging user logs to task2file/sft_qwen_14B_v2/wandb/run-20251226_181544-upub1jan/logs/debug.log
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to task2file/sft_qwen_14B_v2/wandb/run-20251226_181544-upub1jan/logs/debug-internal.log
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():841] calling init triggers
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'model': {'repo_id': './Models/Qwen2.5-Coder-14B-CPT', 'revision': None, 'base_local_dir': 'base_model', 'trust_remote_code': True, 'tokenizer_use_fast': True, 'device_map': 'auto', 'torch_dtype': 'bfloat16', 'use_4bit': False, 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': False, 'bnb_4bit_compute_dtype': 'bfloat16', 'attn_implementation': None}, 'data': {'train_jsonl': 'sft_dataset.jsonl', 'eval_jsonl': None, 'eval_split_ratio': 0.1, 'instruction_field': 'instruction', 'input_field': 'input', 'output_field': 'output', 'format_type': 'custom', 'system_prompt': 'You are a Hyperswitch Rust code analyzer. Identify functions/structs that need modification for a given task.\n\n## Output Format\n\n##OUTPUT\nExplain the data flow and why each component must change:\n- Flow: [Input → Processing → Output with arrows]\n- For each component: "The [ComponentName] ([path]) must [action] because [reason]—without this, [consequence]"\n- Explain coupling between components\n\n##SELECT\nmodify::crates/path/to/file.rs::impl::ComponentName\nadd::crates/another/file.rs::function::AnotherComponent\n<EOS>\n\n## Rules\n\n1. Use full paths: `remove::crates/folder/file.rs::Type::Name`\n2. Use `::` for nested items: `status::StructName::Type::Name`\n3. Always explain "must change because" and "without this"\n3. Types of components: function, struct, enum, impl, trait\n4. If there is extra information (e.g., enum variants), include that too.\n5. Start with ##OUTPUT, end with ##SELECT, terminate with <EOS>\n\n## Example\n\n##TASK\nAdd webhook subscription support\n\n##OUTPUT\nThe webhook system routes events via EventClass enum. Flow: webhook → EventClass → handler → processing. The EventClass enum (crates/common_enums/src/enums.rs::EventClass) must add Subscriptions variant because it defines event routing—without this, subscription events cannot be processed. The SubscriptionStatus impl (crates/common_enums/src/transformers.rs::SubscriptionStatus) must map to EventType because it converts status to events—without this, status changes don\'t trigger webhooks. These are coupled: EventClass routes to handlers that use SubscriptionStatus mappings.\n\n##SELECT\ncrates/common_enums/src/enums.rs::EventClass\ncrates/common_enums/src/transformers.rs::SubscriptionStatus\n<EOS>\n', 'custom_template': '##INSTRUCTION\n{instruction}<|im_end|>\n{input}<|im_end|>\n{output}<|im_end|>', 'max_length': 2048, 'shuffle': True, 'num_proc': 4}, 'peft': {'enabled': True, 'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'target_modules': 'auto'}, 'train': {'num_train_epochs': 6, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'learning_rate': '2e-4', 'weight_decay': 0.0, 'warmup_ratio': 0.08, 'lr_scheduler_type': 'cosine', 'optim': 'adamw_torch', 'max_grad_norm': 1.0, 'gradient_checkpointing': True, 'logging_steps': 2, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'evaluation_strategy': 'steps', 'eval_steps': 100, 'load_best_model_at_end': True, 'early_stopping': {'enabled': True, 'patience': 5, 'min_delta': 0.001, 'metric': 'eval_loss', 'mode': 'min'}, 'resume_from_checkpoint': 'auto'}, 'run_dir': 'task2file/sft_qwen_14B_v2', '_wandb': {}}
+2025-12-26 18:15:44,767 INFO    MainThread:194421 [wandb_init.py:init():889] starting backend
+2025-12-26 18:15:45,035 INFO    MainThread:194421 [wandb_init.py:init():892] sending inform_init request
+2025-12-26 18:15:45,040 INFO    MainThread:194421 [wandb_init.py:init():900] backend started and connected
+2025-12-26 18:15:45,044 INFO    MainThread:194421 [wandb_init.py:init():970] updated telemetry
+2025-12-26 18:15:45,045 INFO    MainThread:194421 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2025-12-26 18:15:45,420 INFO    MainThread:194421 [wandb_init.py:init():1041] starting run threads in backend
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_console_start():2521] atexit reg
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2025-12-26 18:15:45,537 INFO    MainThread:194421 [wandb_run.py:_redirect():2461] Redirects installed.
+2025-12-26 18:15:45,542 INFO    MainThread:194421 [wandb_init.py:init():1081] run started, returning control to user process
+2025-12-26 18:17:10,652 INFO    MainThread:194421 [wandb_run.py:_config_callback():1396] config_cb None None {'peft_config': {'default': {'task_type': 'CAUSAL_LM', 'peft_type': 'LORA', 'auto_mapping': None, 'peft_version': '0.18.0', 'base_model_name_or_path': 'Models/Qwen2.5-Coder-14B-CPT', 'revision': None, 'inference_mode': False, 'r': 32, 'target_modules': ['o_proj', 'v_proj', 'k_proj', 'q_proj'], 'exclude_modules': None, 'lora_alpha': 64, 'lora_dropout': 0.05, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'trainable_token_indices': None, 'loftq_config': {}, 'eva_config': None, 'corda_config': None, 'use_dora': False, 'alora_invocation_tokens': None, 'use_qalora': False, 'qalora_group_size': 16, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}, 'lora_bias': False, 'target_parameters': None, 'arrow_config': None, 'ensure_weight_tying': False}}, 'vocab_size': 152064, 'max_position_embeddings': 32768, 'hidden_size': 5120, 'intermediate_size': 13824, 'num_hidden_layers': 48, 'num_attention_heads': 40, 'use_sliding_window': False, 'sliding_window': None, 'max_window_layers': 48, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-06, 'use_cache': False, 'attention_dropout': 0.0, 'layer_types': ['full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention', 'full_attention'], 'rope_parameters': {'rope_theta': 1000000.0, 'rope_type': 'default'}, 'return_dict': True, 'output_hidden_states': False, 'dtype': 'bfloat16', 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'architectures': ['Qwen2ForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'task_specific_params': None, 'problem_type': None, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 151643, 'pad_token_id': None, 'eos_token_id': 151643, 'sep_token_id': None, 'decoder_start_token_id': None, '_name_or_path': 'Models/Qwen2.5-Coder-14B-CPT', 'transformers_version': '5.0.0.dev0', 'model_type': 'qwen2', 'output_attentions': False, 'output_dir': 'task2file/sft_qwen_14B_v2/checkpoints', 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 1, 'per_device_eval_batch_size': 1, 'gradient_accumulation_steps': 8, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 6.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': None, 'warmup_ratio': 0.08, 'warmup_steps': 0.08, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': None, 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 2, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 500, 'save_total_limit': 20, 'enable_jit_checkpoint': False, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'use_cpu': False, 'seed': 42, 'data_seed': None, 'bf16': True, 'fp16': False, 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': -1, 'ddp_backend': None, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 100, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'run_name': None, 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'eval_loss', 'greater_is_better': False, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'parallelism_config': None, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'project': 'huggingface', 'trackio_space_id': 'trackio', 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'hub_revision': None, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'auto_find_batch_size': False, 'full_determinism': False, 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_num_input_tokens_seen': 'no', 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'liger_kernel_config': None, 'eval_use_gather_object': False, 'average_tokens_across_devices': True}
+2025-12-26 18:17:10,660 INFO    MainThread:194421 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 14820365312 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7ed24f0556c0>>
+2025-12-26 18:17:10,660 INFO    MainThread:194421 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 14820365312 None
+2025-12-27 15:02:31,903 INFO    MainThread:194421 [wandb_run.py:_finish():2287] finishing run sirajuddin-shaik-007/sft-training/upub1jan
+2025-12-27 15:02:31,905 INFO    MainThread:194421 [wandb_run.py:_atexit_cleanup():2486] got exitcode: 0
+2025-12-27 15:02:31,906 INFO    MainThread:194421 [wandb_run.py:_restore():2468] restore
+2025-12-27 15:02:31,906 INFO    MainThread:194421 [wandb_run.py:_restore():2474] restore done
+2025-12-27 15:02:32,279 INFO    MainThread:194421 [wandb_run.py:_footer_sync_info():3862] logging synced files