Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c46250bd52dcffd2137953f30321a4ed3d622b1bca6be15bc5f8f084e4fc31f
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:87f17ddb27c78df3df9ebbdcf34ba0e534bed6b159e38ed164a359bf939c519b
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71e649d70bbaea3f3c60f2aa0818a879521dffa0038d58ed1695489f8bca966b
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d926ca500ef14515d2d612de8ff61253060acb30bb272798b045d8da75c1e72
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7105421fba4235e8fc90f3dbc4569b85e884f75c3232217a25f8f5042cf8247a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:329a377c90ca49d3bcb8c01bcb7bdf9bc769af05915d36720b3201a9c222f867
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1a5b64fb90c999b23793906d64020914f128f72d1523c4f0f8e8ea53ab2425c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:578bef6269d270c9ba7be042609ff28604e2fee3538e234c365c9aa652e62f33
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2671059300557528,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5385,6 +5385,364 @@
       "eval_samples_per_second": 270.066,
       "eval_steps_per_second": 5.671,
       "step": 7500
     }
   ],
   "logging_steps": 10,
@@ -5404,7 +5762,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5084052528902963e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3515796587261362,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 270.066,
       "eval_steps_per_second": 5.671,
       "step": 7500
+    },
+    {
+      "epoch": 1.2687954046291603,
+      "grad_norm": 0.4743061661720276,
+      "learning_rate": 0.00012190597732468595,
+      "loss": 4.406225204467773,
+      "step": 7510
+    },
+    {
+      "epoch": 1.270484879202568,
+      "grad_norm": 0.47182679176330566,
+      "learning_rate": 0.00012143559904956533,
+      "loss": 4.388427734375,
+      "step": 7520
+    },
+    {
+      "epoch": 1.2721743537759758,
+      "grad_norm": 0.4888850152492523,
+      "learning_rate": 0.00012096551205457511,
+      "loss": 4.383931350708008,
+      "step": 7530
+    },
+    {
+      "epoch": 1.2738638283493833,
+      "grad_norm": 0.49569153785705566,
+      "learning_rate": 0.00012049572113333949,
+      "loss": 4.372357177734375,
+      "step": 7540
+    },
+    {
+      "epoch": 1.275553302922791,
+      "grad_norm": 0.47200775146484375,
+      "learning_rate": 0.00012002623107646327,
+      "loss": 4.393280410766602,
+      "step": 7550
+    },
+    {
+      "epoch": 1.2772427774961987,
+      "grad_norm": 0.4849415123462677,
+      "learning_rate": 0.00011955704667148361,
+      "loss": 4.397673416137695,
+      "step": 7560
+    },
+    {
+      "epoch": 1.2789322520696063,
+      "grad_norm": 0.5245839357376099,
+      "learning_rate": 0.00011908817270282048,
+      "loss": 4.423194122314453,
+      "step": 7570
+    },
+    {
+      "epoch": 1.280621726643014,
+      "grad_norm": 0.47324326634407043,
+      "learning_rate": 0.00011861961395172844,
+      "loss": 4.417614364624024,
+      "step": 7580
+    },
+    {
+      "epoch": 1.2823112012164217,
+      "grad_norm": 0.46404823660850525,
+      "learning_rate": 0.00011815137519624767,
+      "loss": 4.41317138671875,
+      "step": 7590
+    },
+    {
+      "epoch": 1.2840006757898292,
+      "grad_norm": 0.46742913126945496,
+      "learning_rate": 0.0001176834612111551,
+      "loss": 4.3837333679199215,
+      "step": 7600
+    },
+    {
+      "epoch": 1.285690150363237,
+      "grad_norm": 0.49143141508102417,
+      "learning_rate": 0.0001172158767679161,
+      "loss": 4.37153205871582,
+      "step": 7610
+    },
+    {
+      "epoch": 1.2873796249366447,
+      "grad_norm": 0.5067402720451355,
+      "learning_rate": 0.00011674862663463538,
+      "loss": 4.377300262451172,
+      "step": 7620
+    },
+    {
+      "epoch": 1.2890690995100524,
+      "grad_norm": 0.4705940783023834,
+      "learning_rate": 0.00011628171557600869,
+      "loss": 4.387155914306641,
+      "step": 7630
+    },
+    {
+      "epoch": 1.2907585740834602,
+      "grad_norm": 0.5150594711303711,
+      "learning_rate": 0.0001158151483532742,
+      "loss": 4.366217041015625,
+      "step": 7640
+    },
+    {
+      "epoch": 1.2924480486568677,
+      "grad_norm": 0.4702792465686798,
+      "learning_rate": 0.00011534892972416382,
+      "loss": 4.3991741180419925,
+      "step": 7650
+    },
+    {
+      "epoch": 1.2941375232302754,
+      "grad_norm": 0.5021132230758667,
+      "learning_rate": 0.00011488306444285465,
+      "loss": 4.408302307128906,
+      "step": 7660
+    },
+    {
+      "epoch": 1.2958269978036832,
+      "grad_norm": 0.46044430136680603,
+      "learning_rate": 0.0001144175572599207,
+      "loss": 4.390703582763672,
+      "step": 7670
+    },
+    {
+      "epoch": 1.2975164723770907,
+      "grad_norm": 0.501556396484375,
+      "learning_rate": 0.00011395241292228435,
+      "loss": 4.350027847290039,
+      "step": 7680
+    },
+    {
+      "epoch": 1.2992059469504984,
+      "grad_norm": 0.4919809103012085,
+      "learning_rate": 0.00011348763617316781,
+      "loss": 4.407309341430664,
+      "step": 7690
+    },
+    {
+      "epoch": 1.3008954215239061,
+      "grad_norm": 0.4790572226047516,
+      "learning_rate": 0.00011302323175204497,
+      "loss": 4.382944107055664,
+      "step": 7700
+    },
+    {
+      "epoch": 1.3025848960973136,
+      "grad_norm": 0.4744700491428375,
+      "learning_rate": 0.00011255920439459302,
+      "loss": 4.376468658447266,
+      "step": 7710
+    },
+    {
+      "epoch": 1.3042743706707214,
+      "grad_norm": 0.4606315791606903,
+      "learning_rate": 0.00011209555883264406,
+      "loss": 4.396706771850586,
+      "step": 7720
+    },
+    {
+      "epoch": 1.3059638452441291,
+      "grad_norm": 0.46377789974212646,
+      "learning_rate": 0.00011163229979413685,
+      "loss": 4.378550720214844,
+      "step": 7730
+    },
+    {
+      "epoch": 1.3076533198175366,
+      "grad_norm": 0.4852358102798462,
+      "learning_rate": 0.00011116943200306871,
+      "loss": 4.369587326049805,
+      "step": 7740
+    },
+    {
+      "epoch": 1.3093427943909444,
+      "grad_norm": 0.47700658440589905,
+      "learning_rate": 0.00011070696017944728,
+      "loss": 4.420570755004883,
+      "step": 7750
+    },
+    {
+      "epoch": 1.311032268964352,
+      "grad_norm": 0.49495404958724976,
+      "learning_rate": 0.00011024488903924235,
+      "loss": 4.396437072753907,
+      "step": 7760
+    },
+    {
+      "epoch": 1.3127217435377598,
+      "grad_norm": 0.4793596863746643,
+      "learning_rate": 0.00010978322329433796,
+      "loss": 4.368120574951172,
+      "step": 7770
+    },
+    {
+      "epoch": 1.3144112181111673,
+      "grad_norm": 0.47642168402671814,
+      "learning_rate": 0.00010932196765248396,
+      "loss": 4.349945449829102,
+      "step": 7780
+    },
+    {
+      "epoch": 1.316100692684575,
+      "grad_norm": 0.470968633890152,
+      "learning_rate": 0.0001088611268172485,
+      "loss": 4.380016326904297,
+      "step": 7790
+    },
+    {
+      "epoch": 1.3177901672579828,
+      "grad_norm": 0.4649656116962433,
+      "learning_rate": 0.00010840070548796967,
+      "loss": 4.385102844238281,
+      "step": 7800
+    },
+    {
+      "epoch": 1.3194796418313905,
+      "grad_norm": 0.4923093318939209,
+      "learning_rate": 0.00010794070835970782,
+      "loss": 4.3910682678222654,
+      "step": 7810
+    },
+    {
+      "epoch": 1.321169116404798,
+      "grad_norm": 0.4957950711250305,
+      "learning_rate": 0.00010748114012319747,
+      "loss": 4.3693492889404295,
+      "step": 7820
+    },
+    {
+      "epoch": 1.3228585909782058,
+      "grad_norm": 0.4974667727947235,
+      "learning_rate": 0.0001070220054647997,
+      "loss": 4.351894760131836,
+      "step": 7830
+    },
+    {
+      "epoch": 1.3245480655516135,
+      "grad_norm": 0.47996777296066284,
+      "learning_rate": 0.00010656330906645422,
+      "loss": 4.377753067016601,
+      "step": 7840
+    },
+    {
+      "epoch": 1.326237540125021,
+      "grad_norm": 0.496206134557724,
+      "learning_rate": 0.00010610505560563163,
+      "loss": 4.364116668701172,
+      "step": 7850
+    },
+    {
+      "epoch": 1.3279270146984288,
+      "grad_norm": 0.4971146881580353,
+      "learning_rate": 0.00010564724975528584,
+      "loss": 4.382867813110352,
+      "step": 7860
+    },
+    {
+      "epoch": 1.3296164892718365,
+      "grad_norm": 0.500912606716156,
+      "learning_rate": 0.00010518989618380632,
+      "loss": 4.386323165893555,
+      "step": 7870
+    },
+    {
+      "epoch": 1.331305963845244,
+      "grad_norm": 0.48914024233818054,
+      "learning_rate": 0.00010473299955497044,
+      "loss": 4.394392013549805,
+      "step": 7880
+    },
+    {
+      "epoch": 1.3329954384186518,
+      "grad_norm": 0.5237129926681519,
+      "learning_rate": 0.000104276564527896,
+      "loss": 4.340487289428711,
+      "step": 7890
+    },
+    {
+      "epoch": 1.3346849129920595,
+      "grad_norm": 0.5235133171081543,
+      "learning_rate": 0.0001038205957569938,
+      "loss": 4.360867309570312,
+      "step": 7900
+    },
+    {
+      "epoch": 1.336374387565467,
+      "grad_norm": 0.506583571434021,
+      "learning_rate": 0.00010336509789191994,
+      "loss": 4.368827056884766,
+      "step": 7910
+    },
+    {
+      "epoch": 1.3380638621388747,
+      "grad_norm": 0.4910382330417633,
+      "learning_rate": 0.00010291007557752861,
+      "loss": 4.372630310058594,
+      "step": 7920
+    },
+    {
+      "epoch": 1.3397533367122825,
+      "grad_norm": 0.4972977340221405,
+      "learning_rate": 0.00010245553345382467,
+      "loss": 4.360449981689453,
+      "step": 7930
+    },
+    {
+      "epoch": 1.3414428112856902,
+      "grad_norm": 0.4779084324836731,
+      "learning_rate": 0.00010200147615591643,
+      "loss": 4.333792877197266,
+      "step": 7940
+    },
+    {
+      "epoch": 1.343132285859098,
+      "grad_norm": 0.48390597105026245,
+      "learning_rate": 0.00010154790831396805,
+      "loss": 4.4007080078125,
+      "step": 7950
+    },
+    {
+      "epoch": 1.3448217604325055,
+      "grad_norm": 0.47715461254119873,
+      "learning_rate": 0.00010109483455315269,
+      "loss": 4.379761123657227,
+      "step": 7960
+    },
+    {
+      "epoch": 1.3465112350059132,
+      "grad_norm": 0.4725069999694824,
+      "learning_rate": 0.00010064225949360525,
+      "loss": 4.364334487915039,
+      "step": 7970
+    },
+    {
+      "epoch": 1.348200709579321,
+      "grad_norm": 0.4733550250530243,
+      "learning_rate": 0.00010019018775037509,
+      "loss": 4.398410034179688,
+      "step": 7980
+    },
+    {
+      "epoch": 1.3498901841527284,
+      "grad_norm": 0.49187690019607544,
+      "learning_rate": 9.973862393337925e-05,
+      "loss": 4.387223815917968,
+      "step": 7990
+    },
+    {
+      "epoch": 1.3515796587261362,
+      "grad_norm": 0.4789150357246399,
+      "learning_rate": 9.928757264735506e-05,
+      "loss": 4.403899383544922,
+      "step": 8000
+    },
+    {
+      "epoch": 1.3515796587261362,
+      "eval_loss": 4.3366875648498535,
+      "eval_runtime": 3.6684,
+      "eval_samples_per_second": 272.602,
+      "eval_steps_per_second": 5.725,
+      "step": 8000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.6756336633197363e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null