Training in progress, step 600, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/README.md +1 -1
last-checkpoint/adapter_config.json +7 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +159 -3
last-checkpoint/training_args.bin +2 -2

last-checkpoint/README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.14.0

 [More Information Needed]
 ### Framework versions
+- PEFT 0.15.1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "auto_mapping": null,
   "base_model_name_or_path": "Qwen/Qwen2.5-1.5B-Instruct",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
@@ -23,15 +24,16 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "k_proj",
-    "o_proj",
     "down_proj",
     "q_proj",
-    "up_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false
 }

   "auto_mapping": null,
   "base_model_name_or_path": "Qwen/Qwen2.5-1.5B-Instruct",
   "bias": "none",
+  "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "down_proj",
+    "gate_proj",
+    "k_proj",
+    "v_proj",
     "q_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
   "use_dora": false,
   "use_rslora": false
 }

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9358cbbc386d6b2282eaab719fb91f7944ec851f1dd9dfa3cdc3e4d904626bd1
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:09d9cb540c5a860ee18428d97e9c6a2c9413c826ef861b10bfe2273b4ba87918
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e366a5a55caf8970a6aed382a5162612264d1e701e1528dcdcf2b975d6c4e2ba
 size 591203178

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb303aed8062be2e28e6c28799dc86de07c6cd39ee42a654f3ed5866ddcc7f5a
 size 591203178

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b3ee827a7a00012c0a116546df467feee35e70376d81a7a85b1a70eb90414d3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9899ccda7f0d8d9511991180b93aab508ce6e8489de708c88ad1188e7e1d90d6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce0591490dee1b15c2e96586a4eec4dc847b9a9979d5ab281d97b6f030d569a5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4be6285b51eb8628843ebcf538440997e9983602416b820387811937bd0b2278
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.824317362184441,
   "eval_steps": 100,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -320,6 +320,162 @@
       "eval_samples_per_second": 0.391,
       "eval_steps_per_second": 0.391,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -339,7 +495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.166912553132032e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2369912416280269,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.391,
       "eval_steps_per_second": 0.391,
       "step": 400
+    },
+    {
+      "epoch": 0.844925296239052,
+      "grad_norm": 0.4683637022972107,
+      "learning_rate": 9.036604120048799e-05,
+      "loss": 0.2139,
+      "step": 410
+    },
+    {
+      "epoch": 0.865533230293663,
+      "grad_norm": 0.643914520740509,
+      "learning_rate": 8.964635069757802e-05,
+      "loss": 0.1967,
+      "step": 420
+    },
+    {
+      "epoch": 0.8861411643482741,
+      "grad_norm": 0.6378000974655151,
+      "learning_rate": 8.890382509957928e-05,
+      "loss": 0.2141,
+      "step": 430
+    },
+    {
+      "epoch": 0.9067490984028851,
+      "grad_norm": 0.5705697536468506,
+      "learning_rate": 8.813889207870718e-05,
+      "loss": 0.1967,
+      "step": 440
+    },
+    {
+      "epoch": 0.9273570324574961,
+      "grad_norm": 0.5441785454750061,
+      "learning_rate": 8.735199221317285e-05,
+      "loss": 0.2231,
+      "step": 450
+    },
+    {
+      "epoch": 0.9479649665121072,
+      "grad_norm": 0.5542232990264893,
+      "learning_rate": 8.654357873342345e-05,
+      "loss": 0.1916,
+      "step": 460
+    },
+    {
+      "epoch": 0.9685729005667182,
+      "grad_norm": 0.5035462975502014,
+      "learning_rate": 8.571411726109519e-05,
+      "loss": 0.2261,
+      "step": 470
+    },
+    {
+      "epoch": 0.9891808346213292,
+      "grad_norm": 0.49977976083755493,
+      "learning_rate": 8.486408554082935e-05,
+      "loss": 0.1987,
+      "step": 480
+    },
+    {
+      "epoch": 1.0103039670273055,
+      "grad_norm": 0.44534987211227417,
+      "learning_rate": 8.399397316510596e-05,
+      "loss": 0.2067,
+      "step": 490
+    },
+    {
+      "epoch": 1.0309119010819165,
+      "grad_norm": 0.4200068414211273,
+      "learning_rate": 8.310428129225325e-05,
+      "loss": 0.1384,
+      "step": 500
+    },
+    {
+      "epoch": 1.0309119010819165,
+      "eval_loss": 0.19919553399085999,
+      "eval_runtime": 147.0946,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 500
+    },
+    {
+      "epoch": 1.0515198351365276,
+      "grad_norm": 0.4512649476528168,
+      "learning_rate": 8.219552235779578e-05,
+      "loss": 0.1319,
+      "step": 510
+    },
+    {
+      "epoch": 1.0721277691911386,
+      "grad_norm": 0.4668980538845062,
+      "learning_rate": 8.126821977930711e-05,
+      "loss": 0.126,
+      "step": 520
+    },
+    {
+      "epoch": 1.0927357032457496,
+      "grad_norm": 0.5090588331222534,
+      "learning_rate": 8.032290765493704e-05,
+      "loss": 0.1473,
+      "step": 530
+    },
+    {
+      "epoch": 1.1133436373003607,
+      "grad_norm": 0.6163284182548523,
+      "learning_rate": 7.936013045578745e-05,
+      "loss": 0.146,
+      "step": 540
+    },
+    {
+      "epoch": 1.1339515713549717,
+      "grad_norm": 0.5462138056755066,
+      "learning_rate": 7.838044271231333e-05,
+      "loss": 0.1349,
+      "step": 550
+    },
+    {
+      "epoch": 1.1545595054095827,
+      "grad_norm": 0.5338026881217957,
+      "learning_rate": 7.738440869493018e-05,
+      "loss": 0.14,
+      "step": 560
+    },
+    {
+      "epoch": 1.1751674394641938,
+      "grad_norm": 0.6935913562774658,
+      "learning_rate": 7.63726020890112e-05,
+      "loss": 0.1395,
+      "step": 570
+    },
+    {
+      "epoch": 1.1957753735188048,
+      "grad_norm": 0.4336049556732178,
+      "learning_rate": 7.534560566446216e-05,
+      "loss": 0.1381,
+      "step": 580
+    },
+    {
+      "epoch": 1.2163833075734158,
+      "grad_norm": 0.5455029606819153,
+      "learning_rate": 7.430401094006339e-05,
+      "loss": 0.1267,
+      "step": 590
+    },
+    {
+      "epoch": 1.2369912416280269,
+      "grad_norm": 0.6405333280563354,
+      "learning_rate": 7.324841784277302e-05,
+      "loss": 0.1487,
+      "step": 600
+    },
+    {
+      "epoch": 1.2369912416280269,
+      "eval_loss": 0.19719114899635315,
+      "eval_runtime": 147.2125,
+      "eval_samples_per_second": 0.408,
+      "eval_steps_per_second": 0.408,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.221911898996736e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45d3b60c6cfeb2594183cbb1041a6b81ad0bf3b4f10261892a7b472c3a0d744d
-size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a137e88e0e55a17fda65e854b20c699b62b6ccacbdb5fb18d98d0daf1f24b9f
+size 5816