Training in progress, step 2100

Browse files

Files changed (8) hide show

adapter_model.safetensors +1 -1
last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +3 -143
last-checkpoint/training_args.bin +1 -1
trainer_log.jsonl +2 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6902c0fce949c015e61a7cdda21d0e5c6be08194c3d28ed5ba69f90c5450bcd9
 size 161533160

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4c4cdd6d5427b4b923d014356ff1707d044a271cfd91e1011d4ccdb849c1880
 size 161533160

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
     "v_proj",
-    "o_proj",
-    "down_proj",
     "k_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "v_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6902c0fce949c015e61a7cdda21d0e5c6be08194c3d28ed5ba69f90c5450bcd9
 size 161533160

 version https://git-lfs.github.com/spec/v1
+oid sha256:027c28cbacad0920c7a8ec1a4dbaf396f0658e37d9c57aa24903513cf568bf29
 size 161533160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49c212e47a52e22fe8fe64b4cb3e89bc0da4e6416db71ad7a9e1fd98449fb852
 size 323292202

 version https://git-lfs.github.com/spec/v1
+oid sha256:a811f08d635f9fd429d0ac8672eee899607dd871ece10f326b8ec3e7266d9db2
 size 323292202

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3aee0c07617101343e05feaf02d5053ded9a2c41e9667f836fb2f6a3de2e334
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:824d4a418ca52dbceab02ca3bdda11d00d54b246084fd87a75671a28233a0cb2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.33112582781456956,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -164,146 +164,6 @@
       "learning_rate": 5.513245033112583e-05,
       "loss": 0.7213,
       "step": 1000
-    },
-    {
-      "epoch": 0.173841059602649,
-      "grad_norm": 1.8289754390716553,
-      "learning_rate": 5.789183222958058e-05,
-      "loss": 0.7335,
-      "step": 1050
-    },
-    {
-      "epoch": 0.18211920529801323,
-      "grad_norm": 1.4989681243896484,
-      "learning_rate": 6.065121412803533e-05,
-      "loss": 0.7326,
-      "step": 1100
-    },
-    {
-      "epoch": 0.19039735099337748,
-      "grad_norm": 1.5326098203659058,
-      "learning_rate": 6.341059602649006e-05,
-      "loss": 0.7311,
-      "step": 1150
-    },
-    {
-      "epoch": 0.1986754966887417,
-      "grad_norm": 1.4897147417068481,
-      "learning_rate": 6.616997792494481e-05,
-      "loss": 0.6918,
-      "step": 1200
-    },
-    {
-      "epoch": 0.20695364238410596,
-      "grad_norm": 1.634765863418579,
-      "learning_rate": 6.892935982339957e-05,
-      "loss": 0.7051,
-      "step": 1250
-    },
-    {
-      "epoch": 0.2152317880794702,
-      "grad_norm": 1.4463587999343872,
-      "learning_rate": 7.168874172185431e-05,
-      "loss": 0.6955,
-      "step": 1300
-    },
-    {
-      "epoch": 0.22350993377483444,
-      "grad_norm": 1.632133960723877,
-      "learning_rate": 7.444812362030905e-05,
-      "loss": 0.6901,
-      "step": 1350
-    },
-    {
-      "epoch": 0.23178807947019867,
-      "grad_norm": 1.4062328338623047,
-      "learning_rate": 7.72075055187638e-05,
-      "loss": 0.6833,
-      "step": 1400
-    },
-    {
-      "epoch": 0.24006622516556292,
-      "grad_norm": 1.2914466857910156,
-      "learning_rate": 7.996688741721855e-05,
-      "loss": 0.6663,
-      "step": 1450
-    },
-    {
-      "epoch": 0.24834437086092714,
-      "grad_norm": 1.4995919466018677,
-      "learning_rate": 8.272626931567329e-05,
-      "loss": 0.6959,
-      "step": 1500
-    },
-    {
-      "epoch": 0.25662251655629137,
-      "grad_norm": 1.1299749612808228,
-      "learning_rate": 8.548565121412803e-05,
-      "loss": 0.6685,
-      "step": 1550
-    },
-    {
-      "epoch": 0.26490066225165565,
-      "grad_norm": 1.329004168510437,
-      "learning_rate": 8.824503311258279e-05,
-      "loss": 0.6678,
-      "step": 1600
-    },
-    {
-      "epoch": 0.2731788079470199,
-      "grad_norm": 1.5191948413848877,
-      "learning_rate": 9.100441501103754e-05,
-      "loss": 0.6731,
-      "step": 1650
-    },
-    {
-      "epoch": 0.2814569536423841,
-      "grad_norm": 1.739169716835022,
-      "learning_rate": 9.376379690949227e-05,
-      "loss": 0.6691,
-      "step": 1700
-    },
-    {
-      "epoch": 0.2897350993377483,
-      "grad_norm": 1.2906118631362915,
-      "learning_rate": 9.652317880794703e-05,
-      "loss": 0.6718,
-      "step": 1750
-    },
-    {
-      "epoch": 0.2980132450331126,
-      "grad_norm": 1.289502501487732,
-      "learning_rate": 9.928256070640178e-05,
-      "loss": 0.6581,
-      "step": 1800
-    },
-    {
-      "epoch": 0.30629139072847683,
-      "grad_norm": 1.3923128843307495,
-      "learning_rate": 9.999872989402833e-05,
-      "loss": 0.6589,
-      "step": 1850
-    },
-    {
-      "epoch": 0.31456953642384106,
-      "grad_norm": 1.1048816442489624,
-      "learning_rate": 9.999297790520483e-05,
-      "loss": 0.6341,
-      "step": 1900
-    },
-    {
-      "epoch": 0.3228476821192053,
-      "grad_norm": 1.3568603992462158,
-      "learning_rate": 9.998258777484084e-05,
-      "loss": 0.6318,
-      "step": 1950
-    },
-    {
-      "epoch": 0.33112582781456956,
-      "grad_norm": 0.923786997795105,
-      "learning_rate": 9.996756046688961e-05,
-      "loss": 0.6318,
-      "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -323,7 +183,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5698763986239488e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16556291390728478,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.513245033112583e-05,
       "loss": 0.7213,
       "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 7833052747137024.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2543e07a37d2c3de3cd8e1d682eb10ddfc7a8cf84209a331e0b0e44870af81c3
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dd2ef96eff028fc6db83c8627ce2e789cafe652a25ea367c040819bc392f916
 size 5752

trainer_log.jsonl CHANGED Viewed

@@ -43,3 +43,5 @@
 {"current_steps": 1900, "total_steps": 18120, "loss": 0.6341, "lr": 9.999297790520483e-05, "epoch": 0.31456953642384106, "percentage": 10.49, "elapsed_time": "0:58:23", "remaining_time": "8:18:29"}
 {"current_steps": 1950, "total_steps": 18120, "loss": 0.6318, "lr": 9.998258777484084e-05, "epoch": 0.3228476821192053, "percentage": 10.76, "elapsed_time": "1:01:31", "remaining_time": "8:30:10"}
 {"current_steps": 2000, "total_steps": 18120, "loss": 0.6318, "lr": 9.996756046688961e-05, "epoch": 0.33112582781456956, "percentage": 11.04, "elapsed_time": "1:04:52", "remaining_time": "8:42:54"}

 {"current_steps": 1900, "total_steps": 18120, "loss": 0.6341, "lr": 9.999297790520483e-05, "epoch": 0.31456953642384106, "percentage": 10.49, "elapsed_time": "0:58:23", "remaining_time": "8:18:29"}
 {"current_steps": 1950, "total_steps": 18120, "loss": 0.6318, "lr": 9.998258777484084e-05, "epoch": 0.3228476821192053, "percentage": 10.76, "elapsed_time": "1:01:31", "remaining_time": "8:30:10"}
 {"current_steps": 2000, "total_steps": 18120, "loss": 0.6318, "lr": 9.996756046688961e-05, "epoch": 0.33112582781456956, "percentage": 11.04, "elapsed_time": "1:04:52", "remaining_time": "8:42:54"}
+{"current_steps": 2050, "total_steps": 18120, "loss": 0.6193, "lr": 9.994789737552259e-05, "epoch": 0.3394039735099338, "percentage": 11.31, "elapsed_time": "1:08:04", "remaining_time": "8:53:36"}
+{"current_steps": 2100, "total_steps": 18120, "loss": 0.6184, "lr": 9.992360032500001e-05, "epoch": 0.347682119205298, "percentage": 11.59, "elapsed_time": "1:11:24", "remaining_time": "9:04:46"}