Training in progress, step 12000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be33c01dee181e33e061344f496bf9f0f8254d9c952504e3f2eff2fd927a507
 size 319352826

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe4d66c1c45da3d7c1f12fac8784e3a9ed3f9c80aaaeb6d876b0d9ad695ad6ac
 size 319352826

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57767e1e2df2301a0767b5a50453dc690b5bf04bbb49968d143ddd3df541b903
 size 900372486

 version https://git-lfs.github.com/spec/v1
+oid sha256:037cbabeb904fe4bc6ddc6347802807d0fa4aee83b97d95773c6ab9e0710b4c5
 size 900372486

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a391d6914515f000a01afb4a1a2c5b3509b792b87df9eab51940ca46c8bfa01
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f66d2cdb2727898aa57d1805f0959aa2d5b4d00101c612d89b884ee5f99403d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:809828103d06d4ed101dc133013fb67d73e4aacc0a915f197e310cb2de50091a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c45c8627a787157525e0441f74e851dbeed0484ecee31ac2a6d27081cbd4784
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3996102cde4d1f082ab988babe46130ecc500251a1ac64fab95d9f2050cfec9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:668b78f9e33a1b391d4ae9971e15c64123216cc17e0701f0c88ed161b79d182b
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4427db14e889501b71e194951d2916ae6e318332ca869cabe18801e4985a8472
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a22c853237523fba49f3eb78490cfffdd83e225ddbf7f5581f622db7e7b1ed5
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e52eba74f68ff2286d13be680b4b69d2294410dac3c4f995d7813f0299e7993b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:75ee9351d0b9f6c92b7d23f6bec3e5476b4b37acddcbc9d54675b0b4f4ee65b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.016294461660613026,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3858,6 +3858,356 @@
       "learning_rate": 4.97407306067778e-05,
       "loss": 25.0612,
       "step": 11000
     }
   ],
   "logging_steps": 20,
@@ -3877,7 +4227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0352843215280275e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.017775776357032393,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.97407306067778e-05,
       "loss": 25.0612,
       "step": 11000
+    },
+    {
+      "epoch": 0.016324087954541416,
+      "grad_norm": 8.875,
+      "learning_rate": 4.9740236713277047e-05,
+      "loss": 24.9356,
+      "step": 11020
+    },
+    {
+      "epoch": 0.016353714248469802,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.973974281977628e-05,
+      "loss": 24.9984,
+      "step": 11040
+    },
+    {
+      "epoch": 0.01638334054239819,
+      "grad_norm": 7.46875,
+      "learning_rate": 4.9739248926275533e-05,
+      "loss": 24.9063,
+      "step": 11060
+    },
+    {
+      "epoch": 0.016412966836326575,
+      "grad_norm": 7.125,
+      "learning_rate": 4.973875503277478e-05,
+      "loss": 25.0004,
+      "step": 11080
+    },
+    {
+      "epoch": 0.016442593130254965,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.973826113927402e-05,
+      "loss": 24.8795,
+      "step": 11100
+    },
+    {
+      "epoch": 0.01647221942418335,
+      "grad_norm": 7.28125,
+      "learning_rate": 4.973776724577326e-05,
+      "loss": 24.9027,
+      "step": 11120
+    },
+    {
+      "epoch": 0.016501845718111738,
+      "grad_norm": 7.53125,
+      "learning_rate": 4.973727335227251e-05,
+      "loss": 24.885,
+      "step": 11140
+    },
+    {
+      "epoch": 0.016531472012040124,
+      "grad_norm": 7.8125,
+      "learning_rate": 4.973677945877175e-05,
+      "loss": 24.9615,
+      "step": 11160
+    },
+    {
+      "epoch": 0.016561098305968514,
+      "grad_norm": 9.125,
+      "learning_rate": 4.973628556527099e-05,
+      "loss": 25.0393,
+      "step": 11180
+    },
+    {
+      "epoch": 0.0165907245998969,
+      "grad_norm": 9.5625,
+      "learning_rate": 4.973579167177024e-05,
+      "loss": 25.0047,
+      "step": 11200
+    },
+    {
+      "epoch": 0.016620350893825287,
+      "grad_norm": 7.6875,
+      "learning_rate": 4.973529777826948e-05,
+      "loss": 24.8962,
+      "step": 11220
+    },
+    {
+      "epoch": 0.016649977187753674,
+      "grad_norm": 8.5,
+      "learning_rate": 4.9734803884768724e-05,
+      "loss": 24.9105,
+      "step": 11240
+    },
+    {
+      "epoch": 0.016679603481682063,
+      "grad_norm": 8.375,
+      "learning_rate": 4.973430999126796e-05,
+      "loss": 24.9264,
+      "step": 11260
+    },
+    {
+      "epoch": 0.01670922977561045,
+      "grad_norm": 11.625,
+      "learning_rate": 4.973381609776721e-05,
+      "loss": 24.9545,
+      "step": 11280
+    },
+    {
+      "epoch": 0.016738856069538836,
+      "grad_norm": 6.875,
+      "learning_rate": 4.9733322204266455e-05,
+      "loss": 24.8835,
+      "step": 11300
+    },
+    {
+      "epoch": 0.016768482363467223,
+      "grad_norm": 7.625,
+      "learning_rate": 4.973282831076569e-05,
+      "loss": 24.8933,
+      "step": 11320
+    },
+    {
+      "epoch": 0.016798108657395613,
+      "grad_norm": 8.375,
+      "learning_rate": 4.9732334417264935e-05,
+      "loss": 24.9687,
+      "step": 11340
+    },
+    {
+      "epoch": 0.016827734951324,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.9731840523764185e-05,
+      "loss": 24.9447,
+      "step": 11360
+    },
+    {
+      "epoch": 0.016857361245252386,
+      "grad_norm": 7.46875,
+      "learning_rate": 4.973134663026343e-05,
+      "loss": 24.8808,
+      "step": 11380
+    },
+    {
+      "epoch": 0.016886987539180772,
+      "grad_norm": 9.125,
+      "learning_rate": 4.9730852736762665e-05,
+      "loss": 24.931,
+      "step": 11400
+    },
+    {
+      "epoch": 0.016916613833109162,
+      "grad_norm": 9.5625,
+      "learning_rate": 4.973035884326191e-05,
+      "loss": 24.9442,
+      "step": 11420
+    },
+    {
+      "epoch": 0.01694624012703755,
+      "grad_norm": 7.09375,
+      "learning_rate": 4.972986494976116e-05,
+      "loss": 24.8634,
+      "step": 11440
+    },
+    {
+      "epoch": 0.016975866420965935,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.97293710562604e-05,
+      "loss": 24.9538,
+      "step": 11460
+    },
+    {
+      "epoch": 0.01700549271489432,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.972887716275964e-05,
+      "loss": 24.8944,
+      "step": 11480
+    },
+    {
+      "epoch": 0.01703511900882271,
+      "grad_norm": 11.25,
+      "learning_rate": 4.972838326925889e-05,
+      "loss": 24.8674,
+      "step": 11500
+    },
+    {
+      "epoch": 0.017064745302751098,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.972788937575813e-05,
+      "loss": 24.9174,
+      "step": 11520
+    },
+    {
+      "epoch": 0.017094371596679484,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.972739548225737e-05,
+      "loss": 24.8759,
+      "step": 11540
+    },
+    {
+      "epoch": 0.01712399789060787,
+      "grad_norm": 10.0625,
+      "learning_rate": 4.972690158875661e-05,
+      "loss": 24.8022,
+      "step": 11560
+    },
+    {
+      "epoch": 0.01715362418453626,
+      "grad_norm": 9.4375,
+      "learning_rate": 4.972640769525586e-05,
+      "loss": 24.8826,
+      "step": 11580
+    },
+    {
+      "epoch": 0.017183250478464647,
+      "grad_norm": 9.0625,
+      "learning_rate": 4.9725913801755106e-05,
+      "loss": 24.8848,
+      "step": 11600
+    },
+    {
+      "epoch": 0.017212876772393033,
+      "grad_norm": 9.4375,
+      "learning_rate": 4.972541990825434e-05,
+      "loss": 24.7912,
+      "step": 11620
+    },
+    {
+      "epoch": 0.01724250306632142,
+      "grad_norm": 8.875,
+      "learning_rate": 4.9724926014753586e-05,
+      "loss": 24.9131,
+      "step": 11640
+    },
+    {
+      "epoch": 0.01727212936024981,
+      "grad_norm": 9.3125,
+      "learning_rate": 4.9724432121252836e-05,
+      "loss": 24.9074,
+      "step": 11660
+    },
+    {
+      "epoch": 0.017301755654178196,
+      "grad_norm": 7.375,
+      "learning_rate": 4.972393822775207e-05,
+      "loss": 24.8813,
+      "step": 11680
+    },
+    {
+      "epoch": 0.017331381948106583,
+      "grad_norm": 7.40625,
+      "learning_rate": 4.9723444334251316e-05,
+      "loss": 24.7468,
+      "step": 11700
+    },
+    {
+      "epoch": 0.01736100824203497,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.972295044075056e-05,
+      "loss": 24.791,
+      "step": 11720
+    },
+    {
+      "epoch": 0.01739063453596336,
+      "grad_norm": 7.3125,
+      "learning_rate": 4.972245654724981e-05,
+      "loss": 24.8677,
+      "step": 11740
+    },
+    {
+      "epoch": 0.017420260829891746,
+      "grad_norm": 11.625,
+      "learning_rate": 4.9721962653749047e-05,
+      "loss": 24.8118,
+      "step": 11760
+    },
+    {
+      "epoch": 0.017449887123820132,
+      "grad_norm": 7.15625,
+      "learning_rate": 4.972146876024829e-05,
+      "loss": 24.8483,
+      "step": 11780
+    },
+    {
+      "epoch": 0.017479513417748522,
+      "grad_norm": 9.8125,
+      "learning_rate": 4.972097486674754e-05,
+      "loss": 24.8652,
+      "step": 11800
+    },
+    {
+      "epoch": 0.01750913971167691,
+      "grad_norm": 7.4375,
+      "learning_rate": 4.972048097324678e-05,
+      "loss": 24.7769,
+      "step": 11820
+    },
+    {
+      "epoch": 0.017538766005605295,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.971998707974602e-05,
+      "loss": 24.8606,
+      "step": 11840
+    },
+    {
+      "epoch": 0.01756839229953368,
+      "grad_norm": 8.25,
+      "learning_rate": 4.9719493186245264e-05,
+      "loss": 24.7523,
+      "step": 11860
+    },
+    {
+      "epoch": 0.01759801859346207,
+      "grad_norm": 9.9375,
+      "learning_rate": 4.9718999292744514e-05,
+      "loss": 24.7848,
+      "step": 11880
+    },
+    {
+      "epoch": 0.017627644887390458,
+      "grad_norm": 7.6875,
+      "learning_rate": 4.971850539924375e-05,
+      "loss": 24.7667,
+      "step": 11900
+    },
+    {
+      "epoch": 0.017657271181318844,
+      "grad_norm": 9.0,
+      "learning_rate": 4.9718011505742994e-05,
+      "loss": 24.7369,
+      "step": 11920
+    },
+    {
+      "epoch": 0.01768689747524723,
+      "grad_norm": 7.28125,
+      "learning_rate": 4.971751761224224e-05,
+      "loss": 24.7954,
+      "step": 11940
+    },
+    {
+      "epoch": 0.01771652376917562,
+      "grad_norm": 8.4375,
+      "learning_rate": 4.971702371874149e-05,
+      "loss": 24.7734,
+      "step": 11960
+    },
+    {
+      "epoch": 0.017746150063104007,
+      "grad_norm": 8.0,
+      "learning_rate": 4.9716529825240724e-05,
+      "loss": 24.8222,
+      "step": 11980
+    },
+    {
+      "epoch": 0.017775776357032393,
+      "grad_norm": 10.625,
+      "learning_rate": 4.971603593173997e-05,
+      "loss": 24.7799,
+      "step": 12000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 2.22031198508611e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null