Training in progress, step 1500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afcab61d0f0cd6492620de0981d9e3af3b1d7bf197c5b9a30367af1e1384d769
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:e35f58cfc186debe53f8ca77f3187fcc171f64260bf63f1275d8d0b0ab69bede
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4bf418fd1d2214f3b6dd2acb610220e68b528633af9c01c8a0638ef623a8e37
 size 2062272049

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef2fb6b56d26498118cb8b387fcedcb4debb46e3fe9c3c47660644efe86198ea
 size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63dea8701860badef7f13a7093d7c8f6df4c5eb7423d37c0b1df9d89c9a49eb9
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6eae40f4428968ab5083d1a5e4e97daade1451ea492899254cef072ae8e7b9d7
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b04ef7af3a89dd0eb8778c7ed7d28aeab310d9f53593d47cc2bdc9458a253ac
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4c90e73b569a38f99c2197447433676c2eaa22ce221aeecf0a7d6e7d0501c17
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76df728eeb65e9565f5601b8baa2ec9eb380c004fbfe2e79296e73893ec398b4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0d3e74929cb15c68f9b787eaa5631a6b89640ebdbca5e2e73c4cb4aa37e0203
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.34438226431338786,
   "eval_steps": 300,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -848,6 +848,216 @@
       "learning_rate": 0.000150926304647952,
       "loss": 0.8811,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -867,7 +1077,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.9102593196032e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4304778303917348,
   "eval_steps": 300,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.000150926304647952,
       "loss": 0.8811,
       "step": 1200
+    },
+    {
+      "epoch": 0.3472521165159994,
+      "grad_norm": 6.111181259155273,
+      "learning_rate": 0.00015013268414012742,
+      "loss": 0.8297,
+      "step": 1210
+    },
+    {
+      "epoch": 0.350121968718611,
+      "grad_norm": 6.417325496673584,
+      "learning_rate": 0.00014933482347549303,
+      "loss": 0.8296,
+      "step": 1220
+    },
+    {
+      "epoch": 0.35299182092122255,
+      "grad_norm": 48.331573486328125,
+      "learning_rate": 0.00014853279013605957,
+      "loss": 0.7966,
+      "step": 1230
+    },
+    {
+      "epoch": 0.3558616731238341,
+      "grad_norm": 8.638408660888672,
+      "learning_rate": 0.00014772665195675718,
+      "loss": 0.8522,
+      "step": 1240
+    },
+    {
+      "epoch": 0.3587315253264457,
+      "grad_norm": 6.308197498321533,
+      "learning_rate": 0.00014691647711969803,
+      "loss": 0.8228,
+      "step": 1250
+    },
+    {
+      "epoch": 0.36160137752905724,
+      "grad_norm": 6.23061990737915,
+      "learning_rate": 0.0001461023341484094,
+      "loss": 0.7915,
+      "step": 1260
+    },
+    {
+      "epoch": 0.36447122973166884,
+      "grad_norm": 6.377804756164551,
+      "learning_rate": 0.00014528429190203824,
+      "loss": 0.8486,
+      "step": 1270
+    },
+    {
+      "epoch": 0.3673410819342804,
+      "grad_norm": 6.146363258361816,
+      "learning_rate": 0.00014446241956952714,
+      "loss": 0.8927,
+      "step": 1280
+    },
+    {
+      "epoch": 0.37021093413689193,
+      "grad_norm": 3.900587320327759,
+      "learning_rate": 0.0001436367866637622,
+      "loss": 0.8167,
+      "step": 1290
+    },
+    {
+      "epoch": 0.37308078633950353,
+      "grad_norm": 8.58018684387207,
+      "learning_rate": 0.00014280746301569407,
+      "loss": 0.8128,
+      "step": 1300
+    },
+    {
+      "epoch": 0.3759506385421151,
+      "grad_norm": 5.754461288452148,
+      "learning_rate": 0.00014197451876843138,
+      "loss": 0.8441,
+      "step": 1310
+    },
+    {
+      "epoch": 0.3788204907447266,
+      "grad_norm": 7.290277004241943,
+      "learning_rate": 0.00014113802437130845,
+      "loss": 0.8555,
+      "step": 1320
+    },
+    {
+      "epoch": 0.3816903429473382,
+      "grad_norm": 43.14801788330078,
+      "learning_rate": 0.00014029805057392655,
+      "loss": 0.8299,
+      "step": 1330
+    },
+    {
+      "epoch": 0.38456019514994977,
+      "grad_norm": 5.909049034118652,
+      "learning_rate": 0.0001394546684201701,
+      "loss": 0.8448,
+      "step": 1340
+    },
+    {
+      "epoch": 0.38743004735256137,
+      "grad_norm": 4.810829162597656,
+      "learning_rate": 0.00013860794924219782,
+      "loss": 0.8592,
+      "step": 1350
+    },
+    {
+      "epoch": 0.3902998995551729,
+      "grad_norm": 6.602210998535156,
+      "learning_rate": 0.00013775796465440956,
+      "loss": 0.8351,
+      "step": 1360
+    },
+    {
+      "epoch": 0.39316975175778446,
+      "grad_norm": 7.952111721038818,
+      "learning_rate": 0.0001369047865473893,
+      "loss": 0.8243,
+      "step": 1370
+    },
+    {
+      "epoch": 0.39603960396039606,
+      "grad_norm": 8.271283149719238,
+      "learning_rate": 0.00013604848708182466,
+      "loss": 0.8239,
+      "step": 1380
+    },
+    {
+      "epoch": 0.3989094561630076,
+      "grad_norm": 12.694669723510742,
+      "learning_rate": 0.00013518913868240372,
+      "loss": 0.8381,
+      "step": 1390
+    },
+    {
+      "epoch": 0.40177930836561915,
+      "grad_norm": 22.169252395629883,
+      "learning_rate": 0.00013432681403168932,
+      "loss": 0.8227,
+      "step": 1400
+    },
+    {
+      "epoch": 0.40464916056823075,
+      "grad_norm": 127.96073913574219,
+      "learning_rate": 0.00013346158606397182,
+      "loss": 0.8376,
+      "step": 1410
+    },
+    {
+      "epoch": 0.4075190127708423,
+      "grad_norm": 12.16250991821289,
+      "learning_rate": 0.0001325935279591003,
+      "loss": 0.8253,
+      "step": 1420
+    },
+    {
+      "epoch": 0.4103888649734539,
+      "grad_norm": 11.346808433532715,
+      "learning_rate": 0.00013172271313629315,
+      "loss": 0.8554,
+      "step": 1430
+    },
+    {
+      "epoch": 0.41325871717606544,
+      "grad_norm": 18.371610641479492,
+      "learning_rate": 0.0001308492152479283,
+      "loss": 0.7743,
+      "step": 1440
+    },
+    {
+      "epoch": 0.416128569378677,
+      "grad_norm": 17.174100875854492,
+      "learning_rate": 0.00012997310817331392,
+      "loss": 0.8342,
+      "step": 1450
+    },
+    {
+      "epoch": 0.4189984215812886,
+      "grad_norm": 15.853143692016602,
+      "learning_rate": 0.00012909446601243972,
+      "loss": 0.8514,
+      "step": 1460
+    },
+    {
+      "epoch": 0.4218682737839001,
+      "grad_norm": 6.734909534454346,
+      "learning_rate": 0.00012821336307970965,
+      "loss": 0.7947,
+      "step": 1470
+    },
+    {
+      "epoch": 0.42473812598651167,
+      "grad_norm": 7.687751770019531,
+      "learning_rate": 0.00012732987389765658,
+      "loss": 0.8249,
+      "step": 1480
+    },
+    {
+      "epoch": 0.4276079781891233,
+      "grad_norm": 4.791903972625732,
+      "learning_rate": 0.00012644407319063918,
+      "loss": 0.7755,
+      "step": 1490
+    },
+    {
+      "epoch": 0.4304778303917348,
+      "grad_norm": 3.5958361625671387,
+      "learning_rate": 0.0001255560358785219,
+      "loss": 0.7828,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.137824149504e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null