Training in progress, step 352, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +243 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbb5a892c7bcd146f6eee0ac485a21efd55a8ffbc4d42c3ed0640fc44f041c63
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:096439a15e0b06aee20e3753c9fc04b16d480adc998310ef78cc635894ce0439
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f51a049f43d70a0eb667a892f9ae752e6fde71c884bf47a93a4de8f13fcb645
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:baf6e5b35338a330f50e7e5f5405f807ca31d11aeffe1893d6a171ddc95e8f71
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 80.0,
   "eval_steps": 16,
-  "global_step": 320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2408,6 +2408,246 @@
       "eval_samples_per_second": 17.552,
       "eval_steps_per_second": 17.552,
       "step": 320
     }
   ],
   "logging_steps": 1,
@@ -2427,7 +2667,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.073226288070656e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 88.0,
   "eval_steps": 16,
+  "global_step": 352,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.552,
       "eval_steps_per_second": 17.552,
       "step": 320
+    },
+    {
+      "epoch": 80.2909090909091,
+      "grad_norm": 3.312922954559326,
+      "learning_rate": 2.0528000059645996e-08,
+      "loss": 0.6742,
+      "step": 321
+    },
+    {
+      "epoch": 80.58181818181818,
+      "grad_norm": 3.8569176197052,
+      "learning_rate": 2.027689374755261e-08,
+      "loss": 0.6589,
+      "step": 322
+    },
+    {
+      "epoch": 80.87272727272727,
+      "grad_norm": 3.100782871246338,
+      "learning_rate": 2.0028431734436306e-08,
+      "loss": 0.6384,
+      "step": 323
+    },
+    {
+      "epoch": 81.0,
+      "grad_norm": 3.488448143005371,
+      "learning_rate": 1.9782632941641373e-08,
+      "loss": 0.6523,
+      "step": 324
+    },
+    {
+      "epoch": 81.2909090909091,
+      "grad_norm": 3.713844060897827,
+      "learning_rate": 1.9539516087697516e-08,
+      "loss": 0.7186,
+      "step": 325
+    },
+    {
+      "epoch": 81.58181818181818,
+      "grad_norm": 3.2771830558776855,
+      "learning_rate": 1.9299099686894422e-08,
+      "loss": 0.7155,
+      "step": 326
+    },
+    {
+      "epoch": 81.87272727272727,
+      "grad_norm": 3.013705015182495,
+      "learning_rate": 1.9061402047871834e-08,
+      "loss": 0.5796,
+      "step": 327
+    },
+    {
+      "epoch": 82.0,
+      "grad_norm": 3.9129855632781982,
+      "learning_rate": 1.8826441272225223e-08,
+      "loss": 0.5744,
+      "step": 328
+    },
+    {
+      "epoch": 82.2909090909091,
+      "grad_norm": 3.432311773300171,
+      "learning_rate": 1.8594235253127372e-08,
+      "loss": 0.6681,
+      "step": 329
+    },
+    {
+      "epoch": 82.58181818181818,
+      "grad_norm": 3.2865946292877197,
+      "learning_rate": 1.8364801673965642e-08,
+      "loss": 0.7103,
+      "step": 330
+    },
+    {
+      "epoch": 82.87272727272727,
+      "grad_norm": 3.1664698123931885,
+      "learning_rate": 1.8138158006995365e-08,
+      "loss": 0.5704,
+      "step": 331
+    },
+    {
+      "epoch": 83.0,
+      "grad_norm": 3.5827629566192627,
+      "learning_rate": 1.7914321512009295e-08,
+      "loss": 0.7128,
+      "step": 332
+    },
+    {
+      "epoch": 83.2909090909091,
+      "grad_norm": 3.228314161300659,
+      "learning_rate": 1.7693309235023126e-08,
+      "loss": 0.6072,
+      "step": 333
+    },
+    {
+      "epoch": 83.58181818181818,
+      "grad_norm": 3.2263855934143066,
+      "learning_rate": 1.7475138006977434e-08,
+      "loss": 0.6525,
+      "step": 334
+    },
+    {
+      "epoch": 83.87272727272727,
+      "grad_norm": 3.2911698818206787,
+      "learning_rate": 1.7259824442455922e-08,
+      "loss": 0.7323,
+      "step": 335
+    },
+    {
+      "epoch": 84.0,
+      "grad_norm": 3.629072666168213,
+      "learning_rate": 1.704738493842015e-08,
+      "loss": 0.6316,
+      "step": 336
+    },
+    {
+      "epoch": 84.0,
+      "eval_loss": 0.6387331485748291,
+      "eval_runtime": 0.761,
+      "eval_samples_per_second": 17.082,
+      "eval_steps_per_second": 17.082,
+      "step": 336
+    },
+    {
+      "epoch": 84.2909090909091,
+      "grad_norm": 3.0507638454437256,
+      "learning_rate": 1.6837835672960833e-08,
+      "loss": 0.6576,
+      "step": 337
+    },
+    {
+      "epoch": 84.58181818181818,
+      "grad_norm": 3.1356823444366455,
+      "learning_rate": 1.663119260406585e-08,
+      "loss": 0.6216,
+      "step": 338
+    },
+    {
+      "epoch": 84.87272727272727,
+      "grad_norm": 3.6667861938476562,
+      "learning_rate": 1.642747146840495e-08,
+      "loss": 0.6975,
+      "step": 339
+    },
+    {
+      "epoch": 85.0,
+      "grad_norm": 3.397160768508911,
+      "learning_rate": 1.6226687780131337e-08,
+      "loss": 0.6022,
+      "step": 340
+    },
+    {
+      "epoch": 85.2909090909091,
+      "grad_norm": 3.163560152053833,
+      "learning_rate": 1.602885682970026e-08,
+      "loss": 0.6316,
+      "step": 341
+    },
+    {
+      "epoch": 85.58181818181818,
+      "grad_norm": 3.1787586212158203,
+      "learning_rate": 1.5833993682704515e-08,
+      "loss": 0.6725,
+      "step": 342
+    },
+    {
+      "epoch": 85.87272727272727,
+      "grad_norm": 3.379927158355713,
+      "learning_rate": 1.5642113178727193e-08,
+      "loss": 0.6319,
+      "step": 343
+    },
+    {
+      "epoch": 86.0,
+      "grad_norm": 3.783219337463379,
+      "learning_rate": 1.5453229930211566e-08,
+      "loss": 0.72,
+      "step": 344
+    },
+    {
+      "epoch": 86.2909090909091,
+      "grad_norm": 3.678173065185547,
+      "learning_rate": 1.5267358321348288e-08,
+      "loss": 0.7343,
+      "step": 345
+    },
+    {
+      "epoch": 86.58181818181818,
+      "grad_norm": 3.0277297496795654,
+      "learning_rate": 1.5084512506980025e-08,
+      "loss": 0.6112,
+      "step": 346
+    },
+    {
+      "epoch": 86.87272727272727,
+      "grad_norm": 2.9994826316833496,
+      "learning_rate": 1.490470641152345e-08,
+      "loss": 0.6377,
+      "step": 347
+    },
+    {
+      "epoch": 87.0,
+      "grad_norm": 3.4868507385253906,
+      "learning_rate": 1.4727953727908877e-08,
+      "loss": 0.603,
+      "step": 348
+    },
+    {
+      "epoch": 87.2909090909091,
+      "grad_norm": 3.3681607246398926,
+      "learning_rate": 1.4554267916537493e-08,
+      "loss": 0.6832,
+      "step": 349
+    },
+    {
+      "epoch": 87.58181818181818,
+      "grad_norm": 3.123229742050171,
+      "learning_rate": 1.438366220425628e-08,
+      "loss": 0.6086,
+      "step": 350
+    },
+    {
+      "epoch": 87.87272727272727,
+      "grad_norm": 3.2728774547576904,
+      "learning_rate": 1.4216149583350753e-08,
+      "loss": 0.6735,
+      "step": 351
+    },
+    {
+      "epoch": 88.0,
+      "grad_norm": 3.185558319091797,
+      "learning_rate": 1.405174281055556e-08,
+      "loss": 0.6232,
+      "step": 352
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 0.6380465030670166,
+      "eval_runtime": 0.6934,
+      "eval_samples_per_second": 18.748,
+      "eval_steps_per_second": 18.748,
+      "step": 352
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1805489168777216e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null