Training in progress, step 1500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f18f2b21d1eb9893ef7d432745ca210cc86cd300d6d237450504c29478453fb
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee0cd03d3a9be3023a0e3720a6e91db11f47e20d8e7bec88e3c1220ca8a10eaa
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffd49387501c08473c006cb3983fe8e3572862f34ccc79a00ee2957719d3508e
 size 2062251569

 version https://git-lfs.github.com/spec/v1
+oid sha256:0523d436c3449c90448d00f0c9ea8840e7e341f44632cc2e10b78b0d80da3e7c
 size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a602fcddae5166b23f64a1263af24cb60ac56e25cf7aa91c125f6b46213120d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:191b991347426ecc0aa235378fd9d2fce0ab0d707a85beb25ac14245f68ee477
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b04ef7af3a89dd0eb8778c7ed7d28aeab310d9f53593d47cc2bdc9458a253ac
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4c90e73b569a38f99c2197447433676c2eaa22ce221aeecf0a7d6e7d0501c17
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:370edc1f7812cd81a8eae6fcade42c3407f4dcaf97659f9602f84f2549a0a41c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8c49d54f38ea4c21892dfde13ddaac2daecfb954dcbad06d74b64fe3dec95fd
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5333333333333333,
   "eval_steps": 300,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -860,6 +860,216 @@
       "learning_rate": 9.302750961496888e-05,
       "loss": 1.0333,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -879,7 +1089,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2735062130688e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6666666666666666,
   "eval_steps": 300,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.302750961496888e-05,
       "loss": 1.0333,
       "step": 1200
+    },
+    {
+      "epoch": 0.5377777777777778,
+      "grad_norm": 10.483113288879395,
+      "learning_rate": 9.160761787396665e-05,
+      "loss": 0.9749,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5422222222222223,
+      "grad_norm": 9.348003387451172,
+      "learning_rate": 9.018942816072545e-05,
+      "loss": 0.9837,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5466666666666666,
+      "grad_norm": 9.57206916809082,
+      "learning_rate": 8.87732280930188e-05,
+      "loss": 1.0002,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5511111111111111,
+      "grad_norm": 9.370091438293457,
+      "learning_rate": 8.735930488510774e-05,
+      "loss": 1.0049,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 9.066927909851074,
+      "learning_rate": 8.594794528949183e-05,
+      "loss": 0.9549,
+      "step": 1250
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 13.580326080322266,
+      "learning_rate": 8.453943553875392e-05,
+      "loss": 1.0505,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5644444444444444,
+      "grad_norm": 9.729880332946777,
+      "learning_rate": 8.313406128751049e-05,
+      "loss": 1.0413,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 10.354995727539062,
+      "learning_rate": 8.173210755447905e-05,
+      "loss": 1.033,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5733333333333334,
+      "grad_norm": 10.784231185913086,
+      "learning_rate": 8.033385866467444e-05,
+      "loss": 1.0747,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 8.267210006713867,
+      "learning_rate": 7.893959819174619e-05,
+      "loss": 0.9777,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5822222222222222,
+      "grad_norm": 8.181448936462402,
+      "learning_rate": 7.754960890046785e-05,
+      "loss": 0.9738,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 6.555637836456299,
+      "learning_rate": 7.616417268939037e-05,
+      "loss": 0.9659,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5911111111111111,
+      "grad_norm": 8.430340766906738,
+      "learning_rate": 7.47835705336716e-05,
+      "loss": 0.999,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5955555555555555,
+      "grad_norm": 7.698472023010254,
+      "learning_rate": 7.340808242809264e-05,
+      "loss": 0.9666,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 6.320609092712402,
+      "learning_rate": 7.203798733027304e-05,
+      "loss": 0.9954,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6044444444444445,
+      "grad_norm": 7.057352542877197,
+      "learning_rate": 7.067356310409659e-05,
+      "loss": 0.9971,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6088888888888889,
+      "grad_norm": 10.81286334991455,
+      "learning_rate": 6.931508646335874e-05,
+      "loss": 0.9931,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 7.427656173706055,
+      "learning_rate": 6.796283291564722e-05,
+      "loss": 0.9491,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6177777777777778,
+      "grad_norm": 7.356409072875977,
+      "learning_rate": 6.66170767064675e-05,
+      "loss": 1.0202,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 8.578875541687012,
+      "learning_rate": 6.527809076362399e-05,
+      "loss": 1.0542,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6266666666666667,
+      "grad_norm": 8.644619941711426,
+      "learning_rate": 6.394614664186862e-05,
+      "loss": 1.0267,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6311111111111111,
+      "grad_norm": 9.160662651062012,
+      "learning_rate": 6.262151446782785e-05,
+      "loss": 0.9914,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6355555555555555,
+      "grad_norm": 7.767285346984863,
+      "learning_rate": 6.130446288521915e-05,
+      "loss": 0.987,
+      "step": 1430
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 12.88818073272705,
+      "learning_rate": 5.999525900036855e-05,
+      "loss": 0.9676,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6444444444444445,
+      "grad_norm": 10.068846702575684,
+      "learning_rate": 5.86941683280398e-05,
+      "loss": 0.9942,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6488888888888888,
+      "grad_norm": 8.70479679107666,
+      "learning_rate": 5.7401454737586055e-05,
+      "loss": 0.9848,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6533333333333333,
+      "grad_norm": 10.635972023010254,
+      "learning_rate": 5.6117380399435826e-05,
+      "loss": 0.9892,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6577777777777778,
+      "grad_norm": 6.84842586517334,
+      "learning_rate": 5.484220573192307e-05,
+      "loss": 0.961,
+      "step": 1480
+    },
+    {
+      "epoch": 0.6622222222222223,
+      "grad_norm": 6.793154716491699,
+      "learning_rate": 5.3576189348472526e-05,
+      "loss": 0.9772,
+      "step": 1490
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 10.692822456359863,
+      "learning_rate": 5.231958800515164e-05,
+      "loss": 1.0044,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.091882766336e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null