Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13d51391eae20fd1e2416fc130cc061ef37cae0dce1392cfc4c82bb34308c5af
 size 3537299144

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c2a5ff429f650539cd5c6ad9ea7f9569fd24863056cad28726290ed985d9fea
 size 3537299144

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:288427ba428a2c192b29b8b7ec8c3fc4db475d46a549e17e5af85ee285de0e47
 size 1830175435

 version https://git-lfs.github.com/spec/v1
+oid sha256:85bb5e2364254f0b84ca558a536ce2983868014e01a90e171fbe557dd01d62f6
 size 1830175435

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89645f9f6a2a8823b334e0748e4f5ea683a27b3d02632f0a241397db55d82fad
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d895ccae2b55d4ea213653ca4a80d00de131463e105716eab1b7022906f260bf
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9185b2c165caf80f353544d8268b2b79fb90be99e8dae42f53266d3abff70104
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b7f2a236446ef1e40ceb20dfad68baf17d74c3d4a45e7640820b9ddfc1c6c59
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7511737089201878,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1440,6 +1440,364 @@
       "eval_samples_per_second": 2.575,
       "eval_steps_per_second": 0.644,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1459,7 +1817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.932889770721088e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9389671361502347,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.575,
       "eval_steps_per_second": 0.644,
       "step": 200
+    },
+    {
+      "epoch": 0.7549295774647887,
+      "grad_norm": 0.4975653886795044,
+      "learning_rate": 3.0572508230355246e-05,
+      "loss": 3.763,
+      "step": 201
+    },
+    {
+      "epoch": 0.7586854460093897,
+      "grad_norm": 0.5943359136581421,
+      "learning_rate": 2.971452939326802e-05,
+      "loss": 4.1011,
+      "step": 202
+    },
+    {
+      "epoch": 0.7624413145539906,
+      "grad_norm": 0.5947958827018738,
+      "learning_rate": 2.8866656049429162e-05,
+      "loss": 3.837,
+      "step": 203
+    },
+    {
+      "epoch": 0.7661971830985915,
+      "grad_norm": 0.55486661195755,
+      "learning_rate": 2.8029010104237785e-05,
+      "loss": 3.773,
+      "step": 204
+    },
+    {
+      "epoch": 0.7699530516431925,
+      "grad_norm": 0.6001894474029541,
+      "learning_rate": 2.720171199261987e-05,
+      "loss": 4.1092,
+      "step": 205
+    },
+    {
+      "epoch": 0.7737089201877935,
+      "grad_norm": 0.611171305179596,
+      "learning_rate": 2.638488066171201e-05,
+      "loss": 4.2872,
+      "step": 206
+    },
+    {
+      "epoch": 0.7774647887323943,
+      "grad_norm": 0.5929466485977173,
+      "learning_rate": 2.5578633553759878e-05,
+      "loss": 4.0139,
+      "step": 207
+    },
+    {
+      "epoch": 0.7812206572769953,
+      "grad_norm": 0.5859886407852173,
+      "learning_rate": 2.4783086589232295e-05,
+      "loss": 3.9495,
+      "step": 208
+    },
+    {
+      "epoch": 0.7849765258215963,
+      "grad_norm": 0.5463722348213196,
+      "learning_rate": 2.3998354150154555e-05,
+      "loss": 3.7008,
+      "step": 209
+    },
+    {
+      "epoch": 0.7887323943661971,
+      "grad_norm": 0.5370416045188904,
+      "learning_rate": 2.3224549063662927e-05,
+      "loss": 3.9123,
+      "step": 210
+    },
+    {
+      "epoch": 0.7924882629107981,
+      "grad_norm": 0.5654124021530151,
+      "learning_rate": 2.246178258578234e-05,
+      "loss": 3.816,
+      "step": 211
+    },
+    {
+      "epoch": 0.7962441314553991,
+      "grad_norm": 0.5404929518699646,
+      "learning_rate": 2.171016438543059e-05,
+      "loss": 3.943,
+      "step": 212
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.5264220237731934,
+      "learning_rate": 2.096980252865005e-05,
+      "loss": 3.8148,
+      "step": 213
+    },
+    {
+      "epoch": 0.8037558685446009,
+      "grad_norm": 0.5364089012145996,
+      "learning_rate": 2.0240803463070425e-05,
+      "loss": 4.0956,
+      "step": 214
+    },
+    {
+      "epoch": 0.8075117370892019,
+      "grad_norm": 0.49832502007484436,
+      "learning_rate": 1.9523272002603742e-05,
+      "loss": 3.5919,
+      "step": 215
+    },
+    {
+      "epoch": 0.8112676056338028,
+      "grad_norm": 0.5661212205886841,
+      "learning_rate": 1.8817311312374564e-05,
+      "loss": 3.9309,
+      "step": 216
+    },
+    {
+      "epoch": 0.8150234741784037,
+      "grad_norm": 0.6174516677856445,
+      "learning_rate": 1.8123022893887065e-05,
+      "loss": 4.4702,
+      "step": 217
+    },
+    {
+      "epoch": 0.8187793427230047,
+      "grad_norm": 0.5399917364120483,
+      "learning_rate": 1.744050657043137e-05,
+      "loss": 3.8469,
+      "step": 218
+    },
+    {
+      "epoch": 0.8225352112676056,
+      "grad_norm": 0.48354753851890564,
+      "learning_rate": 1.6769860472731257e-05,
+      "loss": 3.5587,
+      "step": 219
+    },
+    {
+      "epoch": 0.8262910798122066,
+      "grad_norm": 0.5603431463241577,
+      "learning_rate": 1.6111181024835e-05,
+      "loss": 4.3805,
+      "step": 220
+    },
+    {
+      "epoch": 0.8300469483568075,
+      "grad_norm": 0.5792990326881409,
+      "learning_rate": 1.5464562930251814e-05,
+      "loss": 4.2204,
+      "step": 221
+    },
+    {
+      "epoch": 0.8338028169014085,
+      "grad_norm": 0.5376021862030029,
+      "learning_rate": 1.4830099158335563e-05,
+      "loss": 3.8365,
+      "step": 222
+    },
+    {
+      "epoch": 0.8375586854460094,
+      "grad_norm": 0.5793043971061707,
+      "learning_rate": 1.4207880930917871e-05,
+      "loss": 4.064,
+      "step": 223
+    },
+    {
+      "epoch": 0.8413145539906103,
+      "grad_norm": 0.5597378611564636,
+      "learning_rate": 1.3597997709192378e-05,
+      "loss": 3.8224,
+      "step": 224
+    },
+    {
+      "epoch": 0.8450704225352113,
+      "grad_norm": 0.5336353182792664,
+      "learning_rate": 1.3000537180852212e-05,
+      "loss": 3.7203,
+      "step": 225
+    },
+    {
+      "epoch": 0.8488262910798122,
+      "grad_norm": 0.640953004360199,
+      "learning_rate": 1.2415585247482498e-05,
+      "loss": 4.3212,
+      "step": 226
+    },
+    {
+      "epoch": 0.8525821596244132,
+      "grad_norm": 0.45982062816619873,
+      "learning_rate": 1.1843226012209529e-05,
+      "loss": 3.6229,
+      "step": 227
+    },
+    {
+      "epoch": 0.856338028169014,
+      "grad_norm": 0.5055301189422607,
+      "learning_rate": 1.128354176760873e-05,
+      "loss": 3.6906,
+      "step": 228
+    },
+    {
+      "epoch": 0.860093896713615,
+      "grad_norm": 0.4451459050178528,
+      "learning_rate": 1.073661298387265e-05,
+      "loss": 3.3596,
+      "step": 229
+    },
+    {
+      "epoch": 0.863849765258216,
+      "grad_norm": 0.6167091727256775,
+      "learning_rate": 1.0202518297241237e-05,
+      "loss": 4.6817,
+      "step": 230
+    },
+    {
+      "epoch": 0.8676056338028169,
+      "grad_norm": 0.5457577705383301,
+      "learning_rate": 9.681334498695648e-06,
+      "loss": 4.2546,
+      "step": 231
+    },
+    {
+      "epoch": 0.8713615023474178,
+      "grad_norm": 0.49405384063720703,
+      "learning_rate": 9.173136522917457e-06,
+      "loss": 3.7713,
+      "step": 232
+    },
+    {
+      "epoch": 0.8751173708920188,
+      "grad_norm": 0.5279140472412109,
+      "learning_rate": 8.677997437514629e-06,
+      "loss": 3.7468,
+      "step": 233
+    },
+    {
+      "epoch": 0.8788732394366198,
+      "grad_norm": 0.5161781311035156,
+      "learning_rate": 8.195988432516078e-06,
+      "loss": 4.2746,
+      "step": 234
+    },
+    {
+      "epoch": 0.8826291079812206,
+      "grad_norm": 0.5855900049209595,
+      "learning_rate": 7.727178810136093e-06,
+      "loss": 4.1113,
+      "step": 235
+    },
+    {
+      "epoch": 0.8863849765258216,
+      "grad_norm": 0.4686482548713684,
+      "learning_rate": 7.27163597481022e-06,
+      "loss": 3.3821,
+      "step": 236
+    },
+    {
+      "epoch": 0.8901408450704226,
+      "grad_norm": 0.5629131197929382,
+      "learning_rate": 6.829425423504021e-06,
+      "loss": 4.1901,
+      "step": 237
+    },
+    {
+      "epoch": 0.8938967136150234,
+      "grad_norm": 0.5782991647720337,
+      "learning_rate": 6.4006107362960195e-06,
+      "loss": 4.3302,
+      "step": 238
+    },
+    {
+      "epoch": 0.8976525821596244,
+      "grad_norm": 0.5707590579986572,
+      "learning_rate": 5.985253567236304e-06,
+      "loss": 3.9955,
+      "step": 239
+    },
+    {
+      "epoch": 0.9014084507042254,
+      "grad_norm": 0.4625610411167145,
+      "learning_rate": 5.583413635482082e-06,
+      "loss": 3.5662,
+      "step": 240
+    },
+    {
+      "epoch": 0.9051643192488263,
+      "grad_norm": 0.6621753573417664,
+      "learning_rate": 5.19514871671134e-06,
+      "loss": 4.5634,
+      "step": 241
+    },
+    {
+      "epoch": 0.9089201877934272,
+      "grad_norm": 0.4976242482662201,
+      "learning_rate": 4.82051463481602e-06,
+      "loss": 3.5897,
+      "step": 242
+    },
+    {
+      "epoch": 0.9126760563380282,
+      "grad_norm": 0.51161789894104,
+      "learning_rate": 4.45956525387573e-06,
+      "loss": 3.6594,
+      "step": 243
+    },
+    {
+      "epoch": 0.9164319248826291,
+      "grad_norm": 0.5785262584686279,
+      "learning_rate": 4.112352470413328e-06,
+      "loss": 4.031,
+      "step": 244
+    },
+    {
+      "epoch": 0.92018779342723,
+      "grad_norm": 0.5122177004814148,
+      "learning_rate": 3.778926205933342e-06,
+      "loss": 3.6733,
+      "step": 245
+    },
+    {
+      "epoch": 0.923943661971831,
+      "grad_norm": 0.5668466687202454,
+      "learning_rate": 3.459334399744374e-06,
+      "loss": 3.8761,
+      "step": 246
+    },
+    {
+      "epoch": 0.927699530516432,
+      "grad_norm": 0.5304160714149475,
+      "learning_rate": 3.1536230020664417e-06,
+      "loss": 3.3638,
+      "step": 247
+    },
+    {
+      "epoch": 0.9314553990610329,
+      "grad_norm": 0.5929594039916992,
+      "learning_rate": 2.861835967424409e-06,
+      "loss": 4.1158,
+      "step": 248
+    },
+    {
+      "epoch": 0.9352112676056338,
+      "grad_norm": 0.5661305785179138,
+      "learning_rate": 2.5840152483282752e-06,
+      "loss": 3.8846,
+      "step": 249
+    },
+    {
+      "epoch": 0.9389671361502347,
+      "grad_norm": 0.5555335879325867,
+      "learning_rate": 2.3202007892413447e-06,
+      "loss": 3.9409,
+      "step": 250
+    },
+    {
+      "epoch": 0.9389671361502347,
+      "eval_loss": 0.4938514232635498,
+      "eval_runtime": 365.2814,
+      "eval_samples_per_second": 2.593,
+      "eval_steps_per_second": 0.649,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.688311494350195e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null