Training in progress, step 1000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +711 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b1a0ac2f1926cc0a1931002d53deb7fb42e18ad3c8491e927c266910d415b2d
 size 791869518

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd78f70bc690f6c96ef8249e16cd3eaed70120ea55548486454d9b19a469e2f9
 size 791869518

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a826f1d681160cd4b89a4d224d29d3dd35f09d4180f8b412d770bcd98b2e00ef
 size 2375752250

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdfdcc66bbfd0f7601e8207cf92cc9b52dd079dc47d6e19e50c732b619c60dd8
 size 2375752250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d3f197f6c6558fa8056324f1563ab9e957255f5a1a959362aa4eed7a9545db
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:74386f26f36ed67f56395205881e5db2d0c28ffcbeed50dd95b28771d2dac588
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1a9c65c2869356282cad6b4a0f7dff7f4dd68ab3d9d216c72b7d6cb524f860
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c88f9de084200454883a13c3717941ea3fd433e2f8735507fc30611f9c5501
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:896febe768e17bae5022a95960c041f6425783774ec8859d99d3b149063b1bf9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:965b00d4cb4710ebab57c8787b9925bb3f77b8eeba94a186ec4bc1c2f326ef3f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac482d57e966585467c8ef44dae2869bf7e5d92886f69c11ed7bccc34c07efe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5dc374b8b9a4c45c950f9d136feab85a767081fa59f0c7d68ed3a62060c4949
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1f27d227a20dc320ac283e0938fb2f6e5b475829a583f8c44d1a16a8c828307
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7c212fb779217f1edac0baf44f67b608eefc1e0e4e3f5a9dd7eb557032c1bc
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05a7106aaeaec4b81704e3f4a998b5123cf9342a6733bd9fd2d578e99108c3b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e1effd626ce1e95dd68a0c8089fe19218f2b24dfe9e45ed2cab1c0ebc10ba1
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94120d8d88502ec8d8b623ec7550315caca003b44fcffbb5767ab0de91baefe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:799cc83f60dfc1c4243cfd6403592112414a2eec494e6832f10221c96ff62c20
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:332e4d901be380f740b5d8578f7b80ef1865c7fba83bc288c8a35852205cc668
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:586777c398770c3255d3a1f48c7fef44ea9d89117c627c9ea490e16bfd9a49ba
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3298de4dad69614ea1cbba5a0efb97f176384fffada5231f6dba076b7c6e5edf
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb96e4663ec39ec9f3920ec91963e2a7dc93e87ff87c51ea8d11abe793c9c1d1
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4452111970616061,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -715,6 +715,714 @@
       "eval_samples_per_second": 595.254,
       "eval_steps_per_second": 37.204,
       "step": 500
     }
   ],
   "logging_steps": 5,
@@ -734,7 +1442,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1661789963943936e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8904223941232122,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 595.254,
       "eval_steps_per_second": 37.204,
       "step": 500
+    },
+    {
+      "epoch": 0.4496633090322222,
+      "grad_norm": 153.0,
+      "learning_rate": 1.8356435643564356e-06,
+      "loss": 97.0697,
+      "step": 505
+    },
+    {
+      "epoch": 0.45411542100283825,
+      "grad_norm": 152.375,
+      "learning_rate": 1.8207920792079207e-06,
+      "loss": 96.6341,
+      "step": 510
+    },
+    {
+      "epoch": 0.45856753297345426,
+      "grad_norm": 148.625,
+      "learning_rate": 1.8059405940594058e-06,
+      "loss": 97.238,
+      "step": 515
+    },
+    {
+      "epoch": 0.46301964494407033,
+      "grad_norm": 156.5,
+      "learning_rate": 1.7910891089108912e-06,
+      "loss": 97.0582,
+      "step": 520
+    },
+    {
+      "epoch": 0.4674717569146864,
+      "grad_norm": 156.875,
+      "learning_rate": 1.7762376237623763e-06,
+      "loss": 99.9485,
+      "step": 525
+    },
+    {
+      "epoch": 0.47192386888530247,
+      "grad_norm": 150.5,
+      "learning_rate": 1.7613861386138614e-06,
+      "loss": 98.0501,
+      "step": 530
+    },
+    {
+      "epoch": 0.47637598085591853,
+      "grad_norm": 149.0,
+      "learning_rate": 1.7465346534653465e-06,
+      "loss": 97.4984,
+      "step": 535
+    },
+    {
+      "epoch": 0.4808280928265346,
+      "grad_norm": 159.0,
+      "learning_rate": 1.7316831683168316e-06,
+      "loss": 94.833,
+      "step": 540
+    },
+    {
+      "epoch": 0.48528020479715067,
+      "grad_norm": 154.0,
+      "learning_rate": 1.7168316831683167e-06,
+      "loss": 96.7634,
+      "step": 545
+    },
+    {
+      "epoch": 0.4897323167677667,
+      "grad_norm": 145.75,
+      "learning_rate": 1.7019801980198019e-06,
+      "loss": 96.3564,
+      "step": 550
+    },
+    {
+      "epoch": 0.49418442873838275,
+      "grad_norm": 150.75,
+      "learning_rate": 1.6871287128712874e-06,
+      "loss": 96.0712,
+      "step": 555
+    },
+    {
+      "epoch": 0.4986365407089988,
+      "grad_norm": 149.625,
+      "learning_rate": 1.6722772277227725e-06,
+      "loss": 97.4836,
+      "step": 560
+    },
+    {
+      "epoch": 0.5030886526796149,
+      "grad_norm": 145.375,
+      "learning_rate": 1.6574257425742576e-06,
+      "loss": 98.0151,
+      "step": 565
+    },
+    {
+      "epoch": 0.5075407646502309,
+      "grad_norm": 156.875,
+      "learning_rate": 1.6425742574257427e-06,
+      "loss": 97.3034,
+      "step": 570
+    },
+    {
+      "epoch": 0.511992876620847,
+      "grad_norm": 149.125,
+      "learning_rate": 1.6277227722772279e-06,
+      "loss": 97.3657,
+      "step": 575
+    },
+    {
+      "epoch": 0.516444988591463,
+      "grad_norm": 153.0,
+      "learning_rate": 1.612871287128713e-06,
+      "loss": 96.8924,
+      "step": 580
+    },
+    {
+      "epoch": 0.5208971005620792,
+      "grad_norm": 151.0,
+      "learning_rate": 1.598019801980198e-06,
+      "loss": 97.888,
+      "step": 585
+    },
+    {
+      "epoch": 0.5253492125326952,
+      "grad_norm": 157.5,
+      "learning_rate": 1.5831683168316832e-06,
+      "loss": 95.7355,
+      "step": 590
+    },
+    {
+      "epoch": 0.5298013245033113,
+      "grad_norm": 150.5,
+      "learning_rate": 1.5683168316831683e-06,
+      "loss": 94.4425,
+      "step": 595
+    },
+    {
+      "epoch": 0.5342534364739273,
+      "grad_norm": 153.0,
+      "learning_rate": 1.5534653465346534e-06,
+      "loss": 96.4229,
+      "step": 600
+    },
+    {
+      "epoch": 0.5387055484445433,
+      "grad_norm": 152.875,
+      "learning_rate": 1.5386138613861388e-06,
+      "loss": 96.716,
+      "step": 605
+    },
+    {
+      "epoch": 0.5431576604151594,
+      "grad_norm": 151.75,
+      "learning_rate": 1.5237623762376239e-06,
+      "loss": 96.9523,
+      "step": 610
+    },
+    {
+      "epoch": 0.5476097723857755,
+      "grad_norm": 149.0,
+      "learning_rate": 1.508910891089109e-06,
+      "loss": 96.1208,
+      "step": 615
+    },
+    {
+      "epoch": 0.5520618843563916,
+      "grad_norm": 151.0,
+      "learning_rate": 1.4940594059405941e-06,
+      "loss": 96.7012,
+      "step": 620
+    },
+    {
+      "epoch": 0.5565139963270076,
+      "grad_norm": 148.75,
+      "learning_rate": 1.4792079207920792e-06,
+      "loss": 95.9622,
+      "step": 625
+    },
+    {
+      "epoch": 0.5609661082976237,
+      "grad_norm": 148.0,
+      "learning_rate": 1.4643564356435644e-06,
+      "loss": 96.7668,
+      "step": 630
+    },
+    {
+      "epoch": 0.5654182202682397,
+      "grad_norm": 149.0,
+      "learning_rate": 1.4495049504950495e-06,
+      "loss": 95.4153,
+      "step": 635
+    },
+    {
+      "epoch": 0.5698703322388559,
+      "grad_norm": 149.375,
+      "learning_rate": 1.4346534653465346e-06,
+      "loss": 95.8311,
+      "step": 640
+    },
+    {
+      "epoch": 0.5743224442094719,
+      "grad_norm": 147.25,
+      "learning_rate": 1.4198019801980197e-06,
+      "loss": 97.1089,
+      "step": 645
+    },
+    {
+      "epoch": 0.5787745561800879,
+      "grad_norm": 149.75,
+      "learning_rate": 1.404950495049505e-06,
+      "loss": 96.5063,
+      "step": 650
+    },
+    {
+      "epoch": 0.583226668150704,
+      "grad_norm": 151.0,
+      "learning_rate": 1.3900990099009902e-06,
+      "loss": 97.1067,
+      "step": 655
+    },
+    {
+      "epoch": 0.58767878012132,
+      "grad_norm": 157.625,
+      "learning_rate": 1.3752475247524753e-06,
+      "loss": 96.2562,
+      "step": 660
+    },
+    {
+      "epoch": 0.5921308920919361,
+      "grad_norm": 152.375,
+      "learning_rate": 1.3603960396039604e-06,
+      "loss": 95.2903,
+      "step": 665
+    },
+    {
+      "epoch": 0.5965830040625522,
+      "grad_norm": 151.625,
+      "learning_rate": 1.3455445544554455e-06,
+      "loss": 95.4937,
+      "step": 670
+    },
+    {
+      "epoch": 0.6010351160331683,
+      "grad_norm": 151.625,
+      "learning_rate": 1.3306930693069308e-06,
+      "loss": 95.8772,
+      "step": 675
+    },
+    {
+      "epoch": 0.6054872280037843,
+      "grad_norm": 154.625,
+      "learning_rate": 1.315841584158416e-06,
+      "loss": 96.8501,
+      "step": 680
+    },
+    {
+      "epoch": 0.6099393399744003,
+      "grad_norm": 151.5,
+      "learning_rate": 1.300990099009901e-06,
+      "loss": 96.9895,
+      "step": 685
+    },
+    {
+      "epoch": 0.6143914519450164,
+      "grad_norm": 148.875,
+      "learning_rate": 1.2861386138613862e-06,
+      "loss": 94.545,
+      "step": 690
+    },
+    {
+      "epoch": 0.6188435639156324,
+      "grad_norm": 152.75,
+      "learning_rate": 1.2712871287128713e-06,
+      "loss": 95.3633,
+      "step": 695
+    },
+    {
+      "epoch": 0.6232956758862486,
+      "grad_norm": 153.875,
+      "learning_rate": 1.2564356435643564e-06,
+      "loss": 94.8764,
+      "step": 700
+    },
+    {
+      "epoch": 0.6277477878568646,
+      "grad_norm": 151.375,
+      "learning_rate": 1.2415841584158415e-06,
+      "loss": 94.5789,
+      "step": 705
+    },
+    {
+      "epoch": 0.6321998998274807,
+      "grad_norm": 145.75,
+      "learning_rate": 1.2267326732673267e-06,
+      "loss": 94.5253,
+      "step": 710
+    },
+    {
+      "epoch": 0.6366520117980967,
+      "grad_norm": 151.25,
+      "learning_rate": 1.211881188118812e-06,
+      "loss": 95.8074,
+      "step": 715
+    },
+    {
+      "epoch": 0.6411041237687127,
+      "grad_norm": 152.875,
+      "learning_rate": 1.197029702970297e-06,
+      "loss": 94.3003,
+      "step": 720
+    },
+    {
+      "epoch": 0.6455562357393289,
+      "grad_norm": 149.75,
+      "learning_rate": 1.1821782178217822e-06,
+      "loss": 93.6894,
+      "step": 725
+    },
+    {
+      "epoch": 0.6500083477099449,
+      "grad_norm": 160.5,
+      "learning_rate": 1.1673267326732673e-06,
+      "loss": 93.642,
+      "step": 730
+    },
+    {
+      "epoch": 0.654460459680561,
+      "grad_norm": 149.125,
+      "learning_rate": 1.1524752475247524e-06,
+      "loss": 95.5531,
+      "step": 735
+    },
+    {
+      "epoch": 0.658912571651177,
+      "grad_norm": 155.625,
+      "learning_rate": 1.1376237623762376e-06,
+      "loss": 95.4458,
+      "step": 740
+    },
+    {
+      "epoch": 0.6633646836217931,
+      "grad_norm": 146.5,
+      "learning_rate": 1.1227722772277229e-06,
+      "loss": 95.5642,
+      "step": 745
+    },
+    {
+      "epoch": 0.6678167955924091,
+      "grad_norm": 150.875,
+      "learning_rate": 1.107920792079208e-06,
+      "loss": 91.5858,
+      "step": 750
+    },
+    {
+      "epoch": 0.6722689075630253,
+      "grad_norm": 159.875,
+      "learning_rate": 1.0930693069306931e-06,
+      "loss": 95.2966,
+      "step": 755
+    },
+    {
+      "epoch": 0.6767210195336413,
+      "grad_norm": 147.5,
+      "learning_rate": 1.0782178217821782e-06,
+      "loss": 93.9319,
+      "step": 760
+    },
+    {
+      "epoch": 0.6811731315042573,
+      "grad_norm": 151.25,
+      "learning_rate": 1.0633663366336634e-06,
+      "loss": 96.4605,
+      "step": 765
+    },
+    {
+      "epoch": 0.6856252434748734,
+      "grad_norm": 150.75,
+      "learning_rate": 1.0485148514851485e-06,
+      "loss": 95.4815,
+      "step": 770
+    },
+    {
+      "epoch": 0.6900773554454894,
+      "grad_norm": 152.625,
+      "learning_rate": 1.0336633663366336e-06,
+      "loss": 95.7014,
+      "step": 775
+    },
+    {
+      "epoch": 0.6945294674161056,
+      "grad_norm": 150.0,
+      "learning_rate": 1.018811881188119e-06,
+      "loss": 95.7446,
+      "step": 780
+    },
+    {
+      "epoch": 0.6989815793867216,
+      "grad_norm": 149.75,
+      "learning_rate": 1.003960396039604e-06,
+      "loss": 91.6439,
+      "step": 785
+    },
+    {
+      "epoch": 0.7034336913573377,
+      "grad_norm": 151.0,
+      "learning_rate": 9.891089108910892e-07,
+      "loss": 94.8783,
+      "step": 790
+    },
+    {
+      "epoch": 0.7078858033279537,
+      "grad_norm": 147.875,
+      "learning_rate": 9.742574257425743e-07,
+      "loss": 94.2932,
+      "step": 795
+    },
+    {
+      "epoch": 0.7123379152985697,
+      "grad_norm": 152.5,
+      "learning_rate": 9.594059405940594e-07,
+      "loss": 94.3391,
+      "step": 800
+    },
+    {
+      "epoch": 0.7167900272691858,
+      "grad_norm": 151.625,
+      "learning_rate": 9.445544554455446e-07,
+      "loss": 93.1912,
+      "step": 805
+    },
+    {
+      "epoch": 0.7212421392398018,
+      "grad_norm": 150.5,
+      "learning_rate": 9.297029702970297e-07,
+      "loss": 94.2237,
+      "step": 810
+    },
+    {
+      "epoch": 0.725694251210418,
+      "grad_norm": 146.25,
+      "learning_rate": 9.148514851485148e-07,
+      "loss": 93.2389,
+      "step": 815
+    },
+    {
+      "epoch": 0.730146363181034,
+      "grad_norm": 149.875,
+      "learning_rate": 9e-07,
+      "loss": 94.0122,
+      "step": 820
+    },
+    {
+      "epoch": 0.7345984751516501,
+      "grad_norm": 148.375,
+      "learning_rate": 8.851485148514851e-07,
+      "loss": 94.1428,
+      "step": 825
+    },
+    {
+      "epoch": 0.7390505871222661,
+      "grad_norm": 146.5,
+      "learning_rate": 8.702970297029703e-07,
+      "loss": 92.5999,
+      "step": 830
+    },
+    {
+      "epoch": 0.7435026990928821,
+      "grad_norm": 158.375,
+      "learning_rate": 8.554455445544554e-07,
+      "loss": 93.4235,
+      "step": 835
+    },
+    {
+      "epoch": 0.7479548110634983,
+      "grad_norm": 143.25,
+      "learning_rate": 8.405940594059407e-07,
+      "loss": 94.7491,
+      "step": 840
+    },
+    {
+      "epoch": 0.7524069230341143,
+      "grad_norm": 149.375,
+      "learning_rate": 8.257425742574259e-07,
+      "loss": 93.3154,
+      "step": 845
+    },
+    {
+      "epoch": 0.7568590350047304,
+      "grad_norm": 153.25,
+      "learning_rate": 8.10891089108911e-07,
+      "loss": 91.7949,
+      "step": 850
+    },
+    {
+      "epoch": 0.7613111469753464,
+      "grad_norm": 151.375,
+      "learning_rate": 7.960396039603961e-07,
+      "loss": 91.7284,
+      "step": 855
+    },
+    {
+      "epoch": 0.7657632589459625,
+      "grad_norm": 152.125,
+      "learning_rate": 7.811881188118812e-07,
+      "loss": 93.6502,
+      "step": 860
+    },
+    {
+      "epoch": 0.7702153709165785,
+      "grad_norm": 151.125,
+      "learning_rate": 7.663366336633663e-07,
+      "loss": 94.1399,
+      "step": 865
+    },
+    {
+      "epoch": 0.7746674828871946,
+      "grad_norm": 151.0,
+      "learning_rate": 7.514851485148515e-07,
+      "loss": 92.5499,
+      "step": 870
+    },
+    {
+      "epoch": 0.7791195948578107,
+      "grad_norm": 150.875,
+      "learning_rate": 7.366336633663367e-07,
+      "loss": 93.4188,
+      "step": 875
+    },
+    {
+      "epoch": 0.7835717068284267,
+      "grad_norm": 159.5,
+      "learning_rate": 7.217821782178218e-07,
+      "loss": 90.1312,
+      "step": 880
+    },
+    {
+      "epoch": 0.7880238187990428,
+      "grad_norm": 144.25,
+      "learning_rate": 7.069306930693069e-07,
+      "loss": 91.4897,
+      "step": 885
+    },
+    {
+      "epoch": 0.7924759307696588,
+      "grad_norm": 147.875,
+      "learning_rate": 6.920792079207921e-07,
+      "loss": 93.3765,
+      "step": 890
+    },
+    {
+      "epoch": 0.796928042740275,
+      "grad_norm": 155.0,
+      "learning_rate": 6.772277227722772e-07,
+      "loss": 93.9429,
+      "step": 895
+    },
+    {
+      "epoch": 0.801380154710891,
+      "grad_norm": 145.5,
+      "learning_rate": 6.623762376237624e-07,
+      "loss": 91.7795,
+      "step": 900
+    },
+    {
+      "epoch": 0.8058322666815071,
+      "grad_norm": 148.375,
+      "learning_rate": 6.475247524752476e-07,
+      "loss": 92.5831,
+      "step": 905
+    },
+    {
+      "epoch": 0.8102843786521231,
+      "grad_norm": 152.5,
+      "learning_rate": 6.326732673267327e-07,
+      "loss": 92.3641,
+      "step": 910
+    },
+    {
+      "epoch": 0.8147364906227391,
+      "grad_norm": 148.75,
+      "learning_rate": 6.178217821782178e-07,
+      "loss": 91.3071,
+      "step": 915
+    },
+    {
+      "epoch": 0.8191886025933552,
+      "grad_norm": 152.375,
+      "learning_rate": 6.02970297029703e-07,
+      "loss": 90.2066,
+      "step": 920
+    },
+    {
+      "epoch": 0.8236407145639713,
+      "grad_norm": 148.75,
+      "learning_rate": 5.881188118811882e-07,
+      "loss": 91.9865,
+      "step": 925
+    },
+    {
+      "epoch": 0.8280928265345874,
+      "grad_norm": 145.375,
+      "learning_rate": 5.732673267326733e-07,
+      "loss": 90.7357,
+      "step": 930
+    },
+    {
+      "epoch": 0.8325449385052034,
+      "grad_norm": 153.5,
+      "learning_rate": 5.584158415841584e-07,
+      "loss": 94.0521,
+      "step": 935
+    },
+    {
+      "epoch": 0.8369970504758195,
+      "grad_norm": 147.625,
+      "learning_rate": 5.435643564356436e-07,
+      "loss": 92.177,
+      "step": 940
+    },
+    {
+      "epoch": 0.8414491624464355,
+      "grad_norm": 144.75,
+      "learning_rate": 5.287128712871287e-07,
+      "loss": 93.7151,
+      "step": 945
+    },
+    {
+      "epoch": 0.8459012744170515,
+      "grad_norm": 145.375,
+      "learning_rate": 5.138613861386139e-07,
+      "loss": 90.6827,
+      "step": 950
+    },
+    {
+      "epoch": 0.8503533863876677,
+      "grad_norm": 149.625,
+      "learning_rate": 4.990099009900991e-07,
+      "loss": 90.1044,
+      "step": 955
+    },
+    {
+      "epoch": 0.8548054983582837,
+      "grad_norm": 147.5,
+      "learning_rate": 4.841584158415842e-07,
+      "loss": 90.5797,
+      "step": 960
+    },
+    {
+      "epoch": 0.8592576103288998,
+      "grad_norm": 150.75,
+      "learning_rate": 4.693069306930693e-07,
+      "loss": 90.0814,
+      "step": 965
+    },
+    {
+      "epoch": 0.8637097222995158,
+      "grad_norm": 152.5,
+      "learning_rate": 4.5445544554455447e-07,
+      "loss": 91.7237,
+      "step": 970
+    },
+    {
+      "epoch": 0.8681618342701319,
+      "grad_norm": 152.625,
+      "learning_rate": 4.396039603960396e-07,
+      "loss": 91.0753,
+      "step": 975
+    },
+    {
+      "epoch": 0.872613946240748,
+      "grad_norm": 152.0,
+      "learning_rate": 4.247524752475247e-07,
+      "loss": 91.9936,
+      "step": 980
+    },
+    {
+      "epoch": 0.877066058211364,
+      "grad_norm": 143.5,
+      "learning_rate": 4.099009900990099e-07,
+      "loss": 91.7998,
+      "step": 985
+    },
+    {
+      "epoch": 0.8815181701819801,
+      "grad_norm": 146.25,
+      "learning_rate": 3.950495049504951e-07,
+      "loss": 91.8213,
+      "step": 990
+    },
+    {
+      "epoch": 0.8859702821525961,
+      "grad_norm": 153.375,
+      "learning_rate": 3.801980198019802e-07,
+      "loss": 90.3063,
+      "step": 995
+    },
+    {
+      "epoch": 0.8904223941232122,
+      "grad_norm": 145.25,
+      "learning_rate": 3.653465346534653e-07,
+      "loss": 91.2036,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8904223941232122,
+      "eval_loss": NaN,
+      "eval_runtime": 101.482,
+      "eval_samples_per_second": 596.431,
+      "eval_steps_per_second": 37.278,
+      "step": 1000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 4.332357992788787e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null