Training in progress, step 1000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +711 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa115a9b44eddd31239249af967a9cc68c05d2e90e11fed79b56ff0bcbe835bb
 size 791869518

 version https://git-lfs.github.com/spec/v1
+oid sha256:6415eeae002a06eaee3e6c8d4cb9f7505094d1f36ee4e29e435d17300ed0530d
 size 791869518

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc218283c198560bdfa85f3ab5c42a23aac9930dbda514ca712373372068b858
 size 2375752250

 version https://git-lfs.github.com/spec/v1
+oid sha256:a52ae8230dd79da1bc508a923dbccfd0826e740333dd2ce1ba9f9bed20ef632c
 size 2375752250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d3f197f6c6558fa8056324f1563ab9e957255f5a1a959362aa4eed7a9545db
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:74386f26f36ed67f56395205881e5db2d0c28ffcbeed50dd95b28771d2dac588
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1a9c65c2869356282cad6b4a0f7dff7f4dd68ab3d9d216c72b7d6cb524f860
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c88f9de084200454883a13c3717941ea3fd433e2f8735507fc30611f9c5501
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:896febe768e17bae5022a95960c041f6425783774ec8859d99d3b149063b1bf9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:965b00d4cb4710ebab57c8787b9925bb3f77b8eeba94a186ec4bc1c2f326ef3f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac482d57e966585467c8ef44dae2869bf7e5d92886f69c11ed7bccc34c07efe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5dc374b8b9a4c45c950f9d136feab85a767081fa59f0c7d68ed3a62060c4949
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1f27d227a20dc320ac283e0938fb2f6e5b475829a583f8c44d1a16a8c828307
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7c212fb779217f1edac0baf44f67b608eefc1e0e4e3f5a9dd7eb557032c1bc
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05a7106aaeaec4b81704e3f4a998b5123cf9342a6733bd9fd2d578e99108c3b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e1effd626ce1e95dd68a0c8089fe19218f2b24dfe9e45ed2cab1c0ebc10ba1
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94120d8d88502ec8d8b623ec7550315caca003b44fcffbb5767ab0de91baefe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:799cc83f60dfc1c4243cfd6403592112414a2eec494e6832f10221c96ff62c20
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:332e4d901be380f740b5d8578f7b80ef1865c7fba83bc288c8a35852205cc668
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:586777c398770c3255d3a1f48c7fef44ea9d89117c627c9ea490e16bfd9a49ba
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ac6dc5dc1f7c6772a7fe1da65c3c395e23b56d006497e0dee9efefb278bb143
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf407b3cceb49ac6bb524b596a50ae77a5444821a3bb5dab22e8c85264a65a8c
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.362499433594635,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -715,6 +715,714 @@
       "eval_samples_per_second": 595.745,
       "eval_steps_per_second": 37.241,
       "step": 500
     }
   ],
   "logging_steps": 5,
@@ -734,7 +1442,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1661789963943936e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.72499886718927,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 595.745,
       "eval_steps_per_second": 37.241,
       "step": 500
+    },
+    {
+      "epoch": 0.36612442793058136,
+      "grad_norm": 100.625,
+      "learning_rate": 2.112812248186946e-06,
+      "loss": 90.367,
+      "step": 505
+    },
+    {
+      "epoch": 0.3697494222665277,
+      "grad_norm": 99.125,
+      "learning_rate": 2.1007252215954874e-06,
+      "loss": 89.764,
+      "step": 510
+    },
+    {
+      "epoch": 0.37337441660247406,
+      "grad_norm": 98.0625,
+      "learning_rate": 2.0886381950040293e-06,
+      "loss": 90.377,
+      "step": 515
+    },
+    {
+      "epoch": 0.37699941093842043,
+      "grad_norm": 97.125,
+      "learning_rate": 2.0765511684125707e-06,
+      "loss": 89.3218,
+      "step": 520
+    },
+    {
+      "epoch": 0.38062440527436675,
+      "grad_norm": 99.1875,
+      "learning_rate": 2.064464141821112e-06,
+      "loss": 90.3385,
+      "step": 525
+    },
+    {
+      "epoch": 0.3842493996103131,
+      "grad_norm": 101.125,
+      "learning_rate": 2.0523771152296536e-06,
+      "loss": 88.8969,
+      "step": 530
+    },
+    {
+      "epoch": 0.38787439394625944,
+      "grad_norm": 92.8125,
+      "learning_rate": 2.040290088638195e-06,
+      "loss": 90.3189,
+      "step": 535
+    },
+    {
+      "epoch": 0.3914993882822058,
+      "grad_norm": 93.0625,
+      "learning_rate": 2.0282030620467365e-06,
+      "loss": 88.3214,
+      "step": 540
+    },
+    {
+      "epoch": 0.39512438261815214,
+      "grad_norm": 96.0,
+      "learning_rate": 2.016116035455278e-06,
+      "loss": 90.5051,
+      "step": 545
+    },
+    {
+      "epoch": 0.3987493769540985,
+      "grad_norm": 97.75,
+      "learning_rate": 2.0040290088638194e-06,
+      "loss": 89.0853,
+      "step": 550
+    },
+    {
+      "epoch": 0.4023743712900449,
+      "grad_norm": 96.125,
+      "learning_rate": 1.991941982272361e-06,
+      "loss": 89.5784,
+      "step": 555
+    },
+    {
+      "epoch": 0.4059993656259912,
+      "grad_norm": 93.5625,
+      "learning_rate": 1.9798549556809023e-06,
+      "loss": 89.3408,
+      "step": 560
+    },
+    {
+      "epoch": 0.4096243599619376,
+      "grad_norm": 95.1875,
+      "learning_rate": 1.9677679290894438e-06,
+      "loss": 89.4404,
+      "step": 565
+    },
+    {
+      "epoch": 0.4132493542978839,
+      "grad_norm": 99.1875,
+      "learning_rate": 1.9556809024979856e-06,
+      "loss": 89.5664,
+      "step": 570
+    },
+    {
+      "epoch": 0.41687434863383027,
+      "grad_norm": 90.1875,
+      "learning_rate": 1.943593875906527e-06,
+      "loss": 89.5359,
+      "step": 575
+    },
+    {
+      "epoch": 0.4204993429697766,
+      "grad_norm": 100.625,
+      "learning_rate": 1.9315068493150685e-06,
+      "loss": 88.9519,
+      "step": 580
+    },
+    {
+      "epoch": 0.42412433730572296,
+      "grad_norm": 95.375,
+      "learning_rate": 1.91941982272361e-06,
+      "loss": 89.6489,
+      "step": 585
+    },
+    {
+      "epoch": 0.4277493316416693,
+      "grad_norm": 100.0,
+      "learning_rate": 1.9073327961321514e-06,
+      "loss": 88.3665,
+      "step": 590
+    },
+    {
+      "epoch": 0.43137432597761566,
+      "grad_norm": 92.5,
+      "learning_rate": 1.8952457695406929e-06,
+      "loss": 87.8933,
+      "step": 595
+    },
+    {
+      "epoch": 0.43499932031356203,
+      "grad_norm": 95.125,
+      "learning_rate": 1.8831587429492343e-06,
+      "loss": 89.0427,
+      "step": 600
+    },
+    {
+      "epoch": 0.43862431464950835,
+      "grad_norm": 93.5625,
+      "learning_rate": 1.8710717163577762e-06,
+      "loss": 88.9729,
+      "step": 605
+    },
+    {
+      "epoch": 0.4422493089854547,
+      "grad_norm": 94.125,
+      "learning_rate": 1.8589846897663176e-06,
+      "loss": 88.4542,
+      "step": 610
+    },
+    {
+      "epoch": 0.44587430332140104,
+      "grad_norm": 94.25,
+      "learning_rate": 1.846897663174859e-06,
+      "loss": 87.9236,
+      "step": 615
+    },
+    {
+      "epoch": 0.4494992976573474,
+      "grad_norm": 96.3125,
+      "learning_rate": 1.8348106365834005e-06,
+      "loss": 88.8232,
+      "step": 620
+    },
+    {
+      "epoch": 0.45312429199329374,
+      "grad_norm": 92.875,
+      "learning_rate": 1.822723609991942e-06,
+      "loss": 87.6141,
+      "step": 625
+    },
+    {
+      "epoch": 0.4567492863292401,
+      "grad_norm": 94.8125,
+      "learning_rate": 1.8106365834004834e-06,
+      "loss": 89.5391,
+      "step": 630
+    },
+    {
+      "epoch": 0.4603742806651865,
+      "grad_norm": 96.625,
+      "learning_rate": 1.7985495568090249e-06,
+      "loss": 87.6836,
+      "step": 635
+    },
+    {
+      "epoch": 0.4639992750011328,
+      "grad_norm": 98.5,
+      "learning_rate": 1.7864625302175668e-06,
+      "loss": 88.0843,
+      "step": 640
+    },
+    {
+      "epoch": 0.4676242693370792,
+      "grad_norm": 95.4375,
+      "learning_rate": 1.7743755036261082e-06,
+      "loss": 88.7523,
+      "step": 645
+    },
+    {
+      "epoch": 0.4712492636730255,
+      "grad_norm": 96.9375,
+      "learning_rate": 1.7622884770346497e-06,
+      "loss": 88.2255,
+      "step": 650
+    },
+    {
+      "epoch": 0.4748742580089719,
+      "grad_norm": 95.75,
+      "learning_rate": 1.750201450443191e-06,
+      "loss": 88.399,
+      "step": 655
+    },
+    {
+      "epoch": 0.4784992523449182,
+      "grad_norm": 99.4375,
+      "learning_rate": 1.7381144238517325e-06,
+      "loss": 86.5224,
+      "step": 660
+    },
+    {
+      "epoch": 0.48212424668086457,
+      "grad_norm": 93.125,
+      "learning_rate": 1.726027397260274e-06,
+      "loss": 86.3948,
+      "step": 665
+    },
+    {
+      "epoch": 0.4857492410168109,
+      "grad_norm": 96.3125,
+      "learning_rate": 1.7139403706688154e-06,
+      "loss": 87.6118,
+      "step": 670
+    },
+    {
+      "epoch": 0.48937423535275726,
+      "grad_norm": 95.8125,
+      "learning_rate": 1.701853344077357e-06,
+      "loss": 86.8485,
+      "step": 675
+    },
+    {
+      "epoch": 0.49299922968870363,
+      "grad_norm": 91.3125,
+      "learning_rate": 1.6897663174858985e-06,
+      "loss": 88.4679,
+      "step": 680
+    },
+    {
+      "epoch": 0.49662422402464995,
+      "grad_norm": 93.9375,
+      "learning_rate": 1.67767929089444e-06,
+      "loss": 87.9796,
+      "step": 685
+    },
+    {
+      "epoch": 0.5002492183605963,
+      "grad_norm": 97.3125,
+      "learning_rate": 1.6655922643029814e-06,
+      "loss": 87.4862,
+      "step": 690
+    },
+    {
+      "epoch": 0.5038742126965426,
+      "grad_norm": 91.125,
+      "learning_rate": 1.6535052377115229e-06,
+      "loss": 86.7279,
+      "step": 695
+    },
+    {
+      "epoch": 0.507499207032489,
+      "grad_norm": 94.5,
+      "learning_rate": 1.6414182111200643e-06,
+      "loss": 87.0621,
+      "step": 700
+    },
+    {
+      "epoch": 0.5111242013684354,
+      "grad_norm": 95.5,
+      "learning_rate": 1.6293311845286058e-06,
+      "loss": 87.104,
+      "step": 705
+    },
+    {
+      "epoch": 0.5147491957043817,
+      "grad_norm": 94.9375,
+      "learning_rate": 1.6172441579371477e-06,
+      "loss": 86.7461,
+      "step": 710
+    },
+    {
+      "epoch": 0.518374190040328,
+      "grad_norm": 93.125,
+      "learning_rate": 1.605157131345689e-06,
+      "loss": 87.189,
+      "step": 715
+    },
+    {
+      "epoch": 0.5219991843762745,
+      "grad_norm": 96.5625,
+      "learning_rate": 1.5930701047542306e-06,
+      "loss": 86.5543,
+      "step": 720
+    },
+    {
+      "epoch": 0.5256241787122208,
+      "grad_norm": 94.5,
+      "learning_rate": 1.580983078162772e-06,
+      "loss": 87.1241,
+      "step": 725
+    },
+    {
+      "epoch": 0.5292491730481671,
+      "grad_norm": 93.375,
+      "learning_rate": 1.5688960515713134e-06,
+      "loss": 86.1505,
+      "step": 730
+    },
+    {
+      "epoch": 0.5328741673841134,
+      "grad_norm": 94.625,
+      "learning_rate": 1.556809024979855e-06,
+      "loss": 87.0848,
+      "step": 735
+    },
+    {
+      "epoch": 0.5364991617200598,
+      "grad_norm": 96.375,
+      "learning_rate": 1.5447219983883963e-06,
+      "loss": 86.5279,
+      "step": 740
+    },
+    {
+      "epoch": 0.5401241560560062,
+      "grad_norm": 96.875,
+      "learning_rate": 1.5326349717969382e-06,
+      "loss": 87.5163,
+      "step": 745
+    },
+    {
+      "epoch": 0.5437491503919525,
+      "grad_norm": 96.75,
+      "learning_rate": 1.5205479452054797e-06,
+      "loss": 84.3448,
+      "step": 750
+    },
+    {
+      "epoch": 0.5473741447278989,
+      "grad_norm": 99.0,
+      "learning_rate": 1.5084609186140211e-06,
+      "loss": 86.8625,
+      "step": 755
+    },
+    {
+      "epoch": 0.5509991390638452,
+      "grad_norm": 93.5,
+      "learning_rate": 1.4963738920225626e-06,
+      "loss": 85.2925,
+      "step": 760
+    },
+    {
+      "epoch": 0.5546241333997916,
+      "grad_norm": 94.3125,
+      "learning_rate": 1.484286865431104e-06,
+      "loss": 87.5748,
+      "step": 765
+    },
+    {
+      "epoch": 0.5582491277357379,
+      "grad_norm": 92.75,
+      "learning_rate": 1.4721998388396455e-06,
+      "loss": 86.6436,
+      "step": 770
+    },
+    {
+      "epoch": 0.5618741220716843,
+      "grad_norm": 95.875,
+      "learning_rate": 1.460112812248187e-06,
+      "loss": 85.7076,
+      "step": 775
+    },
+    {
+      "epoch": 0.5654991164076306,
+      "grad_norm": 96.625,
+      "learning_rate": 1.4480257856567283e-06,
+      "loss": 86.4671,
+      "step": 780
+    },
+    {
+      "epoch": 0.5691241107435769,
+      "grad_norm": 95.375,
+      "learning_rate": 1.43593875906527e-06,
+      "loss": 85.973,
+      "step": 785
+    },
+    {
+      "epoch": 0.5727491050795234,
+      "grad_norm": 95.75,
+      "learning_rate": 1.4238517324738115e-06,
+      "loss": 84.9478,
+      "step": 790
+    },
+    {
+      "epoch": 0.5763740994154697,
+      "grad_norm": 94.875,
+      "learning_rate": 1.411764705882353e-06,
+      "loss": 85.6088,
+      "step": 795
+    },
+    {
+      "epoch": 0.579999093751416,
+      "grad_norm": 93.75,
+      "learning_rate": 1.3996776792908943e-06,
+      "loss": 86.5241,
+      "step": 800
+    },
+    {
+      "epoch": 0.5836240880873623,
+      "grad_norm": 93.0625,
+      "learning_rate": 1.387590652699436e-06,
+      "loss": 85.3578,
+      "step": 805
+    },
+    {
+      "epoch": 0.5872490824233088,
+      "grad_norm": 94.25,
+      "learning_rate": 1.3755036261079775e-06,
+      "loss": 86.0338,
+      "step": 810
+    },
+    {
+      "epoch": 0.5908740767592551,
+      "grad_norm": 92.6875,
+      "learning_rate": 1.363416599516519e-06,
+      "loss": 84.5091,
+      "step": 815
+    },
+    {
+      "epoch": 0.5944990710952014,
+      "grad_norm": 92.8125,
+      "learning_rate": 1.3513295729250606e-06,
+      "loss": 85.7377,
+      "step": 820
+    },
+    {
+      "epoch": 0.5981240654311477,
+      "grad_norm": 91.125,
+      "learning_rate": 1.339242546333602e-06,
+      "loss": 84.7625,
+      "step": 825
+    },
+    {
+      "epoch": 0.6017490597670941,
+      "grad_norm": 93.1875,
+      "learning_rate": 1.3271555197421435e-06,
+      "loss": 84.8545,
+      "step": 830
+    },
+    {
+      "epoch": 0.6053740541030405,
+      "grad_norm": 94.8125,
+      "learning_rate": 1.315068493150685e-06,
+      "loss": 85.5188,
+      "step": 835
+    },
+    {
+      "epoch": 0.6089990484389868,
+      "grad_norm": 91.75,
+      "learning_rate": 1.3029814665592266e-06,
+      "loss": 86.0601,
+      "step": 840
+    },
+    {
+      "epoch": 0.6126240427749332,
+      "grad_norm": 94.375,
+      "learning_rate": 1.290894439967768e-06,
+      "loss": 85.4887,
+      "step": 845
+    },
+    {
+      "epoch": 0.6162490371108795,
+      "grad_norm": 95.375,
+      "learning_rate": 1.2788074133763095e-06,
+      "loss": 85.1952,
+      "step": 850
+    },
+    {
+      "epoch": 0.6198740314468258,
+      "grad_norm": 95.1875,
+      "learning_rate": 1.2667203867848511e-06,
+      "loss": 84.1906,
+      "step": 855
+    },
+    {
+      "epoch": 0.6234990257827722,
+      "grad_norm": 92.8125,
+      "learning_rate": 1.2546333601933926e-06,
+      "loss": 84.6792,
+      "step": 860
+    },
+    {
+      "epoch": 0.6271240201187186,
+      "grad_norm": 92.625,
+      "learning_rate": 1.242546333601934e-06,
+      "loss": 85.1767,
+      "step": 865
+    },
+    {
+      "epoch": 0.6307490144546649,
+      "grad_norm": 91.3125,
+      "learning_rate": 1.2304593070104755e-06,
+      "loss": 84.0814,
+      "step": 870
+    },
+    {
+      "epoch": 0.6343740087906112,
+      "grad_norm": 96.1875,
+      "learning_rate": 1.218372280419017e-06,
+      "loss": 84.6096,
+      "step": 875
+    },
+    {
+      "epoch": 0.6379990031265577,
+      "grad_norm": 90.5625,
+      "learning_rate": 1.2062852538275584e-06,
+      "loss": 84.8486,
+      "step": 880
+    },
+    {
+      "epoch": 0.641623997462504,
+      "grad_norm": 92.6875,
+      "learning_rate": 1.1941982272360998e-06,
+      "loss": 84.4379,
+      "step": 885
+    },
+    {
+      "epoch": 0.6452489917984503,
+      "grad_norm": 96.5,
+      "learning_rate": 1.1821112006446415e-06,
+      "loss": 85.6003,
+      "step": 890
+    },
+    {
+      "epoch": 0.6488739861343966,
+      "grad_norm": 96.25,
+      "learning_rate": 1.170024174053183e-06,
+      "loss": 83.5816,
+      "step": 895
+    },
+    {
+      "epoch": 0.652498980470343,
+      "grad_norm": 90.25,
+      "learning_rate": 1.1579371474617244e-06,
+      "loss": 84.2162,
+      "step": 900
+    },
+    {
+      "epoch": 0.6561239748062894,
+      "grad_norm": 98.5,
+      "learning_rate": 1.1458501208702658e-06,
+      "loss": 83.1881,
+      "step": 905
+    },
+    {
+      "epoch": 0.6597489691422357,
+      "grad_norm": 92.0,
+      "learning_rate": 1.1337630942788075e-06,
+      "loss": 84.7499,
+      "step": 910
+    },
+    {
+      "epoch": 0.6633739634781821,
+      "grad_norm": 93.3125,
+      "learning_rate": 1.121676067687349e-06,
+      "loss": 83.7881,
+      "step": 915
+    },
+    {
+      "epoch": 0.6669989578141284,
+      "grad_norm": 94.75,
+      "learning_rate": 1.1095890410958904e-06,
+      "loss": 83.8075,
+      "step": 920
+    },
+    {
+      "epoch": 0.6706239521500748,
+      "grad_norm": 93.4375,
+      "learning_rate": 1.097502014504432e-06,
+      "loss": 83.9208,
+      "step": 925
+    },
+    {
+      "epoch": 0.6742489464860211,
+      "grad_norm": 96.0,
+      "learning_rate": 1.0854149879129735e-06,
+      "loss": 83.8316,
+      "step": 930
+    },
+    {
+      "epoch": 0.6778739408219675,
+      "grad_norm": 97.375,
+      "learning_rate": 1.073327961321515e-06,
+      "loss": 83.665,
+      "step": 935
+    },
+    {
+      "epoch": 0.6814989351579138,
+      "grad_norm": 93.875,
+      "learning_rate": 1.0612409347300566e-06,
+      "loss": 84.09,
+      "step": 940
+    },
+    {
+      "epoch": 0.6851239294938601,
+      "grad_norm": 95.125,
+      "learning_rate": 1.049153908138598e-06,
+      "loss": 83.6363,
+      "step": 945
+    },
+    {
+      "epoch": 0.6887489238298066,
+      "grad_norm": 93.5,
+      "learning_rate": 1.0370668815471395e-06,
+      "loss": 82.6956,
+      "step": 950
+    },
+    {
+      "epoch": 0.6923739181657529,
+      "grad_norm": 91.5,
+      "learning_rate": 1.024979854955681e-06,
+      "loss": 83.8282,
+      "step": 955
+    },
+    {
+      "epoch": 0.6959989125016992,
+      "grad_norm": 101.25,
+      "learning_rate": 1.0128928283642226e-06,
+      "loss": 83.393,
+      "step": 960
+    },
+    {
+      "epoch": 0.6996239068376455,
+      "grad_norm": 93.6875,
+      "learning_rate": 1.000805801772764e-06,
+      "loss": 82.5698,
+      "step": 965
+    },
+    {
+      "epoch": 0.703248901173592,
+      "grad_norm": 94.3125,
+      "learning_rate": 9.887187751813055e-07,
+      "loss": 82.9595,
+      "step": 970
+    },
+    {
+      "epoch": 0.7068738955095383,
+      "grad_norm": 93.5,
+      "learning_rate": 9.76631748589847e-07,
+      "loss": 82.2969,
+      "step": 975
+    },
+    {
+      "epoch": 0.7104988898454846,
+      "grad_norm": 91.125,
+      "learning_rate": 9.645447219983884e-07,
+      "loss": 84.9823,
+      "step": 980
+    },
+    {
+      "epoch": 0.7141238841814309,
+      "grad_norm": 93.0,
+      "learning_rate": 9.524576954069299e-07,
+      "loss": 84.2716,
+      "step": 985
+    },
+    {
+      "epoch": 0.7177488785173773,
+      "grad_norm": 90.5,
+      "learning_rate": 9.403706688154714e-07,
+      "loss": 84.1091,
+      "step": 990
+    },
+    {
+      "epoch": 0.7213738728533237,
+      "grad_norm": 94.5625,
+      "learning_rate": 9.282836422240129e-07,
+      "loss": 82.6404,
+      "step": 995
+    },
+    {
+      "epoch": 0.72499886718927,
+      "grad_norm": 94.5625,
+      "learning_rate": 9.161966156325544e-07,
+      "loss": 82.809,
+      "step": 1000
+    },
+    {
+      "epoch": 0.72499886718927,
+      "eval_loss": NaN,
+      "eval_runtime": 124.4615,
+      "eval_samples_per_second": 597.277,
+      "eval_steps_per_second": 37.337,
+      "step": 1000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 4.332357992788787e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null