Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0b1badd7d84a5c0c9aef2bf63d064ebfdd33636947dbe1e3894f11675840815
 size 1054440872

 version https://git-lfs.github.com/spec/v1
+oid sha256:f24adccb95c81ee4912788a49365bc365e72a83cf1379fe122a59887e5c66b52
 size 1054440872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02539deaff23dcce772b150af7d433fea548ab5aa433ebf90e2971806afc26ee
 size 2041777658

 version https://git-lfs.github.com/spec/v1
+oid sha256:e10e2705285563c433da849a5f9c91279b1ae7ed198ac73b107604b1fbb1f2b9
 size 2041777658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83122a59510e09cc6734a576e969d7de23f6fcba00de763d07e4c6f71f89bcdd
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:66e1fa13cea721d252d1b5381877e675d0dd5b5c6c16c73ad16af5ee83182613
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e90e2223ff2c7ae70ba3b595790f41997f446b5fed8742eb4eecd8d1c96aed
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2786f10edc62c6468aaba4027f9b5395a026ade9759e1b2908beee8dcad71ab
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.23261234164237976,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.24390243902439024,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 13.147,
       "eval_steps_per_second": 13.147,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.754024479625052e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2325473576784134,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.25152439024390244,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.147,
       "eval_steps_per_second": 13.147,
       "step": 4800
+    },
+    {
+      "epoch": 0.24441056910569106,
+      "grad_norm": 1.7274725437164307,
+      "learning_rate": 2.4152175047355394e-07,
+      "loss": 0.2246,
+      "step": 4810
+    },
+    {
+      "epoch": 0.24491869918699186,
+      "grad_norm": 1.694223403930664,
+      "learning_rate": 2.167949258434371e-07,
+      "loss": 0.2436,
+      "step": 4820
+    },
+    {
+      "epoch": 0.24542682926829268,
+      "grad_norm": 1.4516280889511108,
+      "learning_rate": 1.93398911576507e-07,
+      "loss": 0.2293,
+      "step": 4830
+    },
+    {
+      "epoch": 0.2459349593495935,
+      "grad_norm": 1.6254228353500366,
+      "learning_rate": 1.71334669391276e-07,
+      "loss": 0.2742,
+      "step": 4840
+    },
+    {
+      "epoch": 0.2464430894308943,
+      "grad_norm": 1.6434032917022705,
+      "learning_rate": 1.5060310626231875e-07,
+      "loss": 0.2547,
+      "step": 4850
+    },
+    {
+      "epoch": 0.24695121951219512,
+      "grad_norm": 1.3775815963745117,
+      "learning_rate": 1.3120507438299515e-07,
+      "loss": 0.2243,
+      "step": 4860
+    },
+    {
+      "epoch": 0.24745934959349594,
+      "grad_norm": 1.8971216678619385,
+      "learning_rate": 1.1314137113042047e-07,
+      "loss": 0.2544,
+      "step": 4870
+    },
+    {
+      "epoch": 0.24796747967479674,
+      "grad_norm": 1.6187238693237305,
+      "learning_rate": 9.641273903268614e-08,
+      "loss": 0.2411,
+      "step": 4880
+    },
+    {
+      "epoch": 0.24847560975609756,
+      "grad_norm": 1.726989507675171,
+      "learning_rate": 8.101986573833107e-08,
+      "loss": 0.2268,
+      "step": 4890
+    },
+    {
+      "epoch": 0.24898373983739838,
+      "grad_norm": 1.6802349090576172,
+      "learning_rate": 6.696338398808907e-08,
+      "loss": 0.2528,
+      "step": 4900
+    },
+    {
+      "epoch": 0.24949186991869918,
+      "grad_norm": 1.6394628286361694,
+      "learning_rate": 5.4243871588872467e-08,
+      "loss": 0.2461,
+      "step": 4910
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.4841700792312622,
+      "learning_rate": 4.286185139000989e-08,
+      "loss": 0.2774,
+      "step": 4920
+    },
+    {
+      "epoch": 0.2505081300813008,
+      "grad_norm": 1.4838964939117432,
+      "learning_rate": 3.281779126178181e-08,
+      "loss": 0.2609,
+      "step": 4930
+    },
+    {
+      "epoch": 0.25101626016260165,
+      "grad_norm": 1.592568278312683,
+      "learning_rate": 2.411210407614891e-08,
+      "loss": 0.2217,
+      "step": 4940
+    },
+    {
+      "epoch": 0.25152439024390244,
+      "grad_norm": 1.7387011051177979,
+      "learning_rate": 1.6745147689821428e-08,
+      "loss": 0.2692,
+      "step": 4950
+    },
+    {
+      "epoch": 0.25152439024390244,
+      "eval_loss": 0.2325473576784134,
+      "eval_runtime": 38.6311,
+      "eval_samples_per_second": 12.943,
+      "eval_steps_per_second": 12.943,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.871514436033577e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null