Training in progress, step 6000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48a155ae4c2f1f63615bdd337b0b5ed652bff8e8b83bb4bc24fb0cfc623e6078
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:407cea8cd4c1444b6fd3dbbc1796efb64886678cd52d2935445d4ee150b19cd9
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b28b35b5e41936777c51a5fa5d432805146c17847b9a7c678ab34665719f46cc
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:f09e4f286d588fdd8dee70e7788283d8f82c437d873e13a263f824d89ba1dc09
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68504101143d8f31756bfb5adabadc59346f10baace9e1e04a637999bca7775f
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ce1f760bbd4c96a2756283dc0ed0049eaa28a856cc915b2efea1a4cad775044
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb28e61d2d863546c450bf135e54a824ecfc370e40218b4b410a0fa1e1e53c6e
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4119461e04c64bd9cb35fc4677eb47b0256885eb2bf830e5e575de68f0787410
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94d04a536f6efc48f02f6f328cb0be92eb54ca562e65e7cd03aed3515542b679
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1789239bff9adb9c6876b4d099f2ed19463d2be8a749c02ae1a04bf9c4fab87a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f63b3473cad0c65b4cc9604285bfce1333da6f8f62e7bf1092be941afa7abfb
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4821bd33219546f03dfe0ef15028c7679b8d9837b37430def9e4de554b5dc22a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc84402a353f1642492b00b0138b906468b3aa3716c0a961eb9517dfd64eddc9
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7914c18071ba453e15120e4e8596755dd9d2166fc0ded479a8498bd53bfc83d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0e7e5a890dc4ec534fdd34ee6fb22ca3c7361894bd5f6d802dcc5837a56c48c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfaec33f43af8375c51ba9ca0f8679ccb2f8f39889358a6c520af5ba2029ceed
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5df7228970b2d640f85267ef698adb1f626a264c86e555b06e26df1dcc2d3f50
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c51cd242b6ad96b1a7bd50ac0129e12f629372d44073ce6176ca7a37443f9b6
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:734c4337fbba9480b9d67957efc9d136409fe584351d8706c33e82537ca9ef55
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:67dc8d7c29a337d2af8cab636481f46a6a24034554d74820938adde6717b070b
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24e3f3b3c312401a03d2577fb176ebff18d57a48aeb0e30942b0b6dd5b003817
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:480547ac130fa2a4d7ed2c72cff8ffd28b33c257079ad7f33a9553e30ee18b86
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8cb6e990b9d51c770445de8961d1f05d9e1bdd835ad261f276b3041bf7c42c3
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:93d2249e6619e5c532aedb71a6fa0b27cb8510666f06ef4286647cbebdeb62f8
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:384e1d48a1937bab0fb0190765a42c7a944ef3b07f53852f51e6192f4b6ce2ea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4055e4142f36e5b7ad8acd183073cd010060ffca6c79c7221bfc55a921e1e477
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8705274806344522,
   "eval_steps": 20,
-  "global_step": 5900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -44859,6 +44859,766 @@
       "eval_samples_per_second": 5.928,
       "eval_steps_per_second": 0.204,
       "step": 5900
     }
   ],
   "logging_steps": 1,
@@ -44878,7 +45638,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8172760751142339e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8852821836960532,
   "eval_steps": 20,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.928,
       "eval_steps_per_second": 0.204,
       "step": 5900
+    },
+    {
+      "epoch": 0.8706750276650682,
+      "grad_norm": 4.275539398193359,
+      "learning_rate": 1.000873989914234e-06,
+      "loss": 0.0684,
+      "step": 5901
+    },
+    {
+      "epoch": 0.8708225746956842,
+      "grad_norm": 3.274839162826538,
+      "learning_rate": 9.98628987339134e-07,
+      "loss": 0.0949,
+      "step": 5902
+    },
+    {
+      "epoch": 0.8709701217263003,
+      "grad_norm": 2.307234764099121,
+      "learning_rate": 9.963863730764222e-07,
+      "loss": 0.0624,
+      "step": 5903
+    },
+    {
+      "epoch": 0.8711176687569163,
+      "grad_norm": 2.237243413925171,
+      "learning_rate": 9.941461477211301e-07,
+      "loss": 0.086,
+      "step": 5904
+    },
+    {
+      "epoch": 0.8712652157875322,
+      "grad_norm": 2.7823374271392822,
+      "learning_rate": 9.919083118676465e-07,
+      "loss": 0.0639,
+      "step": 5905
+    },
+    {
+      "epoch": 0.8714127628181483,
+      "grad_norm": 3.3530755043029785,
+      "learning_rate": 9.896728661097332e-07,
+      "loss": 0.0129,
+      "step": 5906
+    },
+    {
+      "epoch": 0.8715603098487643,
+      "grad_norm": 1.7607320547103882,
+      "learning_rate": 9.874398110405182e-07,
+      "loss": 0.044,
+      "step": 5907
+    },
+    {
+      "epoch": 0.8717078568793803,
+      "grad_norm": 1.0484280586242676,
+      "learning_rate": 9.852091472524882e-07,
+      "loss": 0.0245,
+      "step": 5908
+    },
+    {
+      "epoch": 0.8718554039099963,
+      "grad_norm": 6.2049055099487305,
+      "learning_rate": 9.829808753375046e-07,
+      "loss": 0.1017,
+      "step": 5909
+    },
+    {
+      "epoch": 0.8720029509406123,
+      "grad_norm": 2.4204776287078857,
+      "learning_rate": 9.807549958867856e-07,
+      "loss": 0.0652,
+      "step": 5910
+    },
+    {
+      "epoch": 0.8721504979712283,
+      "grad_norm": 3.092439651489258,
+      "learning_rate": 9.785315094909188e-07,
+      "loss": 0.1103,
+      "step": 5911
+    },
+    {
+      "epoch": 0.8722980450018444,
+      "grad_norm": 3.280195474624634,
+      "learning_rate": 9.763104167398608e-07,
+      "loss": 0.0362,
+      "step": 5912
+    },
+    {
+      "epoch": 0.8724455920324603,
+      "grad_norm": 1.6988095045089722,
+      "learning_rate": 9.740917182229248e-07,
+      "loss": 0.046,
+      "step": 5913
+    },
+    {
+      "epoch": 0.8725931390630763,
+      "grad_norm": 0.9181917905807495,
+      "learning_rate": 9.718754145287922e-07,
+      "loss": 0.0319,
+      "step": 5914
+    },
+    {
+      "epoch": 0.8727406860936924,
+      "grad_norm": 1.576512336730957,
+      "learning_rate": 9.696615062455118e-07,
+      "loss": 0.0274,
+      "step": 5915
+    },
+    {
+      "epoch": 0.8728882331243084,
+      "grad_norm": 1.6942555904388428,
+      "learning_rate": 9.674499939604964e-07,
+      "loss": 0.0168,
+      "step": 5916
+    },
+    {
+      "epoch": 0.8730357801549243,
+      "grad_norm": 1.1324032545089722,
+      "learning_rate": 9.652408782605161e-07,
+      "loss": 0.0333,
+      "step": 5917
+    },
+    {
+      "epoch": 0.8731833271855404,
+      "grad_norm": 1.4638354778289795,
+      "learning_rate": 9.63034159731715e-07,
+      "loss": 0.0123,
+      "step": 5918
+    },
+    {
+      "epoch": 0.8733308742161564,
+      "grad_norm": 3.813880681991577,
+      "learning_rate": 9.608298389595926e-07,
+      "loss": 0.0558,
+      "step": 5919
+    },
+    {
+      "epoch": 0.8734784212467724,
+      "grad_norm": 2.4182288646698,
+      "learning_rate": 9.586279165290192e-07,
+      "loss": 0.1096,
+      "step": 5920
+    },
+    {
+      "epoch": 0.8734784212467724,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05622292309999466,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.8826,
+      "eval_samples_per_second": 5.834,
+      "eval_steps_per_second": 0.2,
+      "step": 5920
+    },
+    {
+      "epoch": 0.8736259682773884,
+      "grad_norm": 1.3478705883026123,
+      "learning_rate": 9.564283930242258e-07,
+      "loss": 0.033,
+      "step": 5921
+    },
+    {
+      "epoch": 0.8737735153080044,
+      "grad_norm": 2.0680789947509766,
+      "learning_rate": 9.542312690288035e-07,
+      "loss": 0.0784,
+      "step": 5922
+    },
+    {
+      "epoch": 0.8739210623386204,
+      "grad_norm": 3.976668357849121,
+      "learning_rate": 9.52036545125714e-07,
+      "loss": 0.1268,
+      "step": 5923
+    },
+    {
+      "epoch": 0.8740686093692365,
+      "grad_norm": 2.448589563369751,
+      "learning_rate": 9.498442218972748e-07,
+      "loss": 0.0588,
+      "step": 5924
+    },
+    {
+      "epoch": 0.8742161563998525,
+      "grad_norm": 1.7691428661346436,
+      "learning_rate": 9.476542999251714e-07,
+      "loss": 0.0443,
+      "step": 5925
+    },
+    {
+      "epoch": 0.8743637034304684,
+      "grad_norm": 2.7442705631256104,
+      "learning_rate": 9.454667797904515e-07,
+      "loss": 0.0751,
+      "step": 5926
+    },
+    {
+      "epoch": 0.8745112504610845,
+      "grad_norm": 3.767246723175049,
+      "learning_rate": 9.432816620735242e-07,
+      "loss": 0.0461,
+      "step": 5927
+    },
+    {
+      "epoch": 0.8746587974917005,
+      "grad_norm": 2.4902091026306152,
+      "learning_rate": 9.410989473541587e-07,
+      "loss": 0.0497,
+      "step": 5928
+    },
+    {
+      "epoch": 0.8748063445223165,
+      "grad_norm": 4.763408184051514,
+      "learning_rate": 9.389186362114921e-07,
+      "loss": 0.0801,
+      "step": 5929
+    },
+    {
+      "epoch": 0.8749538915529325,
+      "grad_norm": 2.5694327354431152,
+      "learning_rate": 9.367407292240228e-07,
+      "loss": 0.0466,
+      "step": 5930
+    },
+    {
+      "epoch": 0.8751014385835485,
+      "grad_norm": 1.3149958848953247,
+      "learning_rate": 9.345652269696059e-07,
+      "loss": 0.0415,
+      "step": 5931
+    },
+    {
+      "epoch": 0.8752489856141645,
+      "grad_norm": 2.9025168418884277,
+      "learning_rate": 9.323921300254657e-07,
+      "loss": 0.0622,
+      "step": 5932
+    },
+    {
+      "epoch": 0.8753965326447806,
+      "grad_norm": 0.823527455329895,
+      "learning_rate": 9.302214389681807e-07,
+      "loss": 0.0141,
+      "step": 5933
+    },
+    {
+      "epoch": 0.8755440796753965,
+      "grad_norm": 2.63572359085083,
+      "learning_rate": 9.280531543736982e-07,
+      "loss": 0.0447,
+      "step": 5934
+    },
+    {
+      "epoch": 0.8756916267060125,
+      "grad_norm": 2.119584560394287,
+      "learning_rate": 9.258872768173255e-07,
+      "loss": 0.0279,
+      "step": 5935
+    },
+    {
+      "epoch": 0.8758391737366286,
+      "grad_norm": 2.0648109912872314,
+      "learning_rate": 9.237238068737265e-07,
+      "loss": 0.0517,
+      "step": 5936
+    },
+    {
+      "epoch": 0.8759867207672446,
+      "grad_norm": 1.330884337425232,
+      "learning_rate": 9.215627451169318e-07,
+      "loss": 0.0191,
+      "step": 5937
+    },
+    {
+      "epoch": 0.8761342677978605,
+      "grad_norm": 6.870659351348877,
+      "learning_rate": 9.194040921203284e-07,
+      "loss": 0.106,
+      "step": 5938
+    },
+    {
+      "epoch": 0.8762818148284766,
+      "grad_norm": 3.1247828006744385,
+      "learning_rate": 9.172478484566671e-07,
+      "loss": 0.0726,
+      "step": 5939
+    },
+    {
+      "epoch": 0.8764293618590926,
+      "grad_norm": 3.2152442932128906,
+      "learning_rate": 9.150940146980624e-07,
+      "loss": 0.0933,
+      "step": 5940
+    },
+    {
+      "epoch": 0.8764293618590926,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05513066053390503,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.8287,
+      "eval_samples_per_second": 5.84,
+      "eval_steps_per_second": 0.201,
+      "step": 5940
+    },
+    {
+      "epoch": 0.8765769088897086,
+      "grad_norm": 3.2563045024871826,
+      "learning_rate": 9.129425914159839e-07,
+      "loss": 0.0574,
+      "step": 5941
+    },
+    {
+      "epoch": 0.8767244559203246,
+      "grad_norm": 2.5582735538482666,
+      "learning_rate": 9.107935791812605e-07,
+      "loss": 0.0449,
+      "step": 5942
+    },
+    {
+      "epoch": 0.8768720029509406,
+      "grad_norm": 1.2111361026763916,
+      "learning_rate": 9.086469785640862e-07,
+      "loss": 0.0268,
+      "step": 5943
+    },
+    {
+      "epoch": 0.8770195499815566,
+      "grad_norm": 2.597418785095215,
+      "learning_rate": 9.065027901340173e-07,
+      "loss": 0.067,
+      "step": 5944
+    },
+    {
+      "epoch": 0.8771670970121727,
+      "grad_norm": 1.3513870239257812,
+      "learning_rate": 9.043610144599612e-07,
+      "loss": 0.0342,
+      "step": 5945
+    },
+    {
+      "epoch": 0.8773146440427887,
+      "grad_norm": 1.4286096096038818,
+      "learning_rate": 9.022216521101934e-07,
+      "loss": 0.0356,
+      "step": 5946
+    },
+    {
+      "epoch": 0.8774621910734046,
+      "grad_norm": 2.183363437652588,
+      "learning_rate": 9.00084703652343e-07,
+      "loss": 0.0446,
+      "step": 5947
+    },
+    {
+      "epoch": 0.8776097381040207,
+      "grad_norm": 3.5890183448791504,
+      "learning_rate": 8.979501696534032e-07,
+      "loss": 0.0908,
+      "step": 5948
+    },
+    {
+      "epoch": 0.8777572851346367,
+      "grad_norm": 1.664736270904541,
+      "learning_rate": 8.958180506797265e-07,
+      "loss": 0.0466,
+      "step": 5949
+    },
+    {
+      "epoch": 0.8779048321652527,
+      "grad_norm": 3.184309244155884,
+      "learning_rate": 8.936883472970193e-07,
+      "loss": 0.0774,
+      "step": 5950
+    },
+    {
+      "epoch": 0.8780523791958686,
+      "grad_norm": 2.4639813899993896,
+      "learning_rate": 8.915610600703539e-07,
+      "loss": 0.0793,
+      "step": 5951
+    },
+    {
+      "epoch": 0.8781999262264847,
+      "grad_norm": 2.775432825088501,
+      "learning_rate": 8.894361895641568e-07,
+      "loss": 0.0637,
+      "step": 5952
+    },
+    {
+      "epoch": 0.8783474732571007,
+      "grad_norm": 3.227356195449829,
+      "learning_rate": 8.873137363422125e-07,
+      "loss": 0.0733,
+      "step": 5953
+    },
+    {
+      "epoch": 0.8784950202877168,
+      "grad_norm": 1.4808876514434814,
+      "learning_rate": 8.851937009676714e-07,
+      "loss": 0.0535,
+      "step": 5954
+    },
+    {
+      "epoch": 0.8786425673183327,
+      "grad_norm": 2.2464683055877686,
+      "learning_rate": 8.830760840030361e-07,
+      "loss": 0.049,
+      "step": 5955
+    },
+    {
+      "epoch": 0.8787901143489487,
+      "grad_norm": 1.7445260286331177,
+      "learning_rate": 8.80960886010166e-07,
+      "loss": 0.0515,
+      "step": 5956
+    },
+    {
+      "epoch": 0.8789376613795647,
+      "grad_norm": 8.007856369018555,
+      "learning_rate": 8.788481075502831e-07,
+      "loss": 0.0436,
+      "step": 5957
+    },
+    {
+      "epoch": 0.8790852084101808,
+      "grad_norm": 1.341110110282898,
+      "learning_rate": 8.76737749183968e-07,
+      "loss": 0.0147,
+      "step": 5958
+    },
+    {
+      "epoch": 0.8792327554407967,
+      "grad_norm": 1.3692198991775513,
+      "learning_rate": 8.746298114711538e-07,
+      "loss": 0.0286,
+      "step": 5959
+    },
+    {
+      "epoch": 0.8793803024714127,
+      "grad_norm": 2.7240824699401855,
+      "learning_rate": 8.725242949711376e-07,
+      "loss": 0.0482,
+      "step": 5960
+    },
+    {
+      "epoch": 0.8793803024714127,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.055228136479854584,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.0963,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.2,
+      "step": 5960
+    },
+    {
+      "epoch": 0.8795278495020288,
+      "grad_norm": 1.6086735725402832,
+      "learning_rate": 8.704212002425683e-07,
+      "loss": 0.051,
+      "step": 5961
+    },
+    {
+      "epoch": 0.8796753965326448,
+      "grad_norm": 2.4951272010803223,
+      "learning_rate": 8.683205278434559e-07,
+      "loss": 0.0779,
+      "step": 5962
+    },
+    {
+      "epoch": 0.8798229435632607,
+      "grad_norm": 2.1152498722076416,
+      "learning_rate": 8.662222783311691e-07,
+      "loss": 0.0203,
+      "step": 5963
+    },
+    {
+      "epoch": 0.8799704905938768,
+      "grad_norm": 2.3825652599334717,
+      "learning_rate": 8.641264522624282e-07,
+      "loss": 0.0648,
+      "step": 5964
+    },
+    {
+      "epoch": 0.8801180376244928,
+      "grad_norm": 1.6257972717285156,
+      "learning_rate": 8.620330501933161e-07,
+      "loss": 0.0628,
+      "step": 5965
+    },
+    {
+      "epoch": 0.8802655846551088,
+      "grad_norm": 0.8832866549491882,
+      "learning_rate": 8.599420726792696e-07,
+      "loss": 0.0181,
+      "step": 5966
+    },
+    {
+      "epoch": 0.8804131316857248,
+      "grad_norm": 3.3614399433135986,
+      "learning_rate": 8.578535202750793e-07,
+      "loss": 0.0355,
+      "step": 5967
+    },
+    {
+      "epoch": 0.8805606787163408,
+      "grad_norm": 1.1095460653305054,
+      "learning_rate": 8.557673935349021e-07,
+      "loss": 0.0147,
+      "step": 5968
+    },
+    {
+      "epoch": 0.8807082257469568,
+      "grad_norm": 2.085298538208008,
+      "learning_rate": 8.536836930122416e-07,
+      "loss": 0.0692,
+      "step": 5969
+    },
+    {
+      "epoch": 0.8808557727775729,
+      "grad_norm": 1.3290832042694092,
+      "learning_rate": 8.516024192599604e-07,
+      "loss": 0.0471,
+      "step": 5970
+    },
+    {
+      "epoch": 0.8810033198081889,
+      "grad_norm": 1.9308030605316162,
+      "learning_rate": 8.495235728302809e-07,
+      "loss": 0.0326,
+      "step": 5971
+    },
+    {
+      "epoch": 0.8811508668388048,
+      "grad_norm": 3.052764654159546,
+      "learning_rate": 8.474471542747742e-07,
+      "loss": 0.0581,
+      "step": 5972
+    },
+    {
+      "epoch": 0.8812984138694209,
+      "grad_norm": 1.6666488647460938,
+      "learning_rate": 8.453731641443741e-07,
+      "loss": 0.0506,
+      "step": 5973
+    },
+    {
+      "epoch": 0.8814459609000369,
+      "grad_norm": 3.605884075164795,
+      "learning_rate": 8.433016029893692e-07,
+      "loss": 0.0608,
+      "step": 5974
+    },
+    {
+      "epoch": 0.8815935079306529,
+      "grad_norm": 2.5897908210754395,
+      "learning_rate": 8.412324713593978e-07,
+      "loss": 0.0588,
+      "step": 5975
+    },
+    {
+      "epoch": 0.8817410549612689,
+      "grad_norm": 0.7357593774795532,
+      "learning_rate": 8.391657698034616e-07,
+      "loss": 0.0121,
+      "step": 5976
+    },
+    {
+      "epoch": 0.8818886019918849,
+      "grad_norm": 1.547512173652649,
+      "learning_rate": 8.3710149886991e-07,
+      "loss": 0.0598,
+      "step": 5977
+    },
+    {
+      "epoch": 0.8820361490225009,
+      "grad_norm": 1.7373154163360596,
+      "learning_rate": 8.350396591064535e-07,
+      "loss": 0.0567,
+      "step": 5978
+    },
+    {
+      "epoch": 0.882183696053117,
+      "grad_norm": 2.9452950954437256,
+      "learning_rate": 8.329802510601559e-07,
+      "loss": 0.0536,
+      "step": 5979
+    },
+    {
+      "epoch": 0.8823312430837329,
+      "grad_norm": 4.783194065093994,
+      "learning_rate": 8.309232752774343e-07,
+      "loss": 0.1723,
+      "step": 5980
+    },
+    {
+      "epoch": 0.8823312430837329,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.055726367980241776,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.9561,
+      "eval_samples_per_second": 5.711,
+      "eval_steps_per_second": 0.196,
+      "step": 5980
+    },
+    {
+      "epoch": 0.8824787901143489,
+      "grad_norm": 2.6260926723480225,
+      "learning_rate": 8.288687323040568e-07,
+      "loss": 0.0891,
+      "step": 5981
+    },
+    {
+      "epoch": 0.882626337144965,
+      "grad_norm": 2.6471948623657227,
+      "learning_rate": 8.26816622685157e-07,
+      "loss": 0.0756,
+      "step": 5982
+    },
+    {
+      "epoch": 0.882773884175581,
+      "grad_norm": 3.824842691421509,
+      "learning_rate": 8.247669469652142e-07,
+      "loss": 0.1009,
+      "step": 5983
+    },
+    {
+      "epoch": 0.8829214312061969,
+      "grad_norm": 1.891882061958313,
+      "learning_rate": 8.227197056880609e-07,
+      "loss": 0.0769,
+      "step": 5984
+    },
+    {
+      "epoch": 0.883068978236813,
+      "grad_norm": 2.1029231548309326,
+      "learning_rate": 8.206748993968916e-07,
+      "loss": 0.0392,
+      "step": 5985
+    },
+    {
+      "epoch": 0.883216525267429,
+      "grad_norm": 1.9693273305892944,
+      "learning_rate": 8.186325286342456e-07,
+      "loss": 0.055,
+      "step": 5986
+    },
+    {
+      "epoch": 0.883364072298045,
+      "grad_norm": 1.6374262571334839,
+      "learning_rate": 8.165925939420227e-07,
+      "loss": 0.0462,
+      "step": 5987
+    },
+    {
+      "epoch": 0.883511619328661,
+      "grad_norm": 2.6680667400360107,
+      "learning_rate": 8.145550958614745e-07,
+      "loss": 0.086,
+      "step": 5988
+    },
+    {
+      "epoch": 0.883659166359277,
+      "grad_norm": 2.1669082641601562,
+      "learning_rate": 8.12520034933203e-07,
+      "loss": 0.0585,
+      "step": 5989
+    },
+    {
+      "epoch": 0.883806713389893,
+      "grad_norm": 1.926206350326538,
+      "learning_rate": 8.104874116971683e-07,
+      "loss": 0.0491,
+      "step": 5990
+    },
+    {
+      "epoch": 0.8839542604205091,
+      "grad_norm": 1.9720089435577393,
+      "learning_rate": 8.084572266926805e-07,
+      "loss": 0.0514,
+      "step": 5991
+    },
+    {
+      "epoch": 0.8841018074511251,
+      "grad_norm": 0.9564663767814636,
+      "learning_rate": 8.064294804584027e-07,
+      "loss": 0.041,
+      "step": 5992
+    },
+    {
+      "epoch": 0.884249354481741,
+      "grad_norm": 2.2758212089538574,
+      "learning_rate": 8.044041735323549e-07,
+      "loss": 0.0473,
+      "step": 5993
+    },
+    {
+      "epoch": 0.8843969015123571,
+      "grad_norm": 2.2937676906585693,
+      "learning_rate": 8.023813064519037e-07,
+      "loss": 0.0378,
+      "step": 5994
+    },
+    {
+      "epoch": 0.8845444485429731,
+      "grad_norm": 4.157854080200195,
+      "learning_rate": 8.003608797537754e-07,
+      "loss": 0.0982,
+      "step": 5995
+    },
+    {
+      "epoch": 0.8846919955735891,
+      "grad_norm": 3.3299248218536377,
+      "learning_rate": 7.983428939740412e-07,
+      "loss": 0.0517,
+      "step": 5996
+    },
+    {
+      "epoch": 0.884839542604205,
+      "grad_norm": 1.161108374595642,
+      "learning_rate": 7.963273496481294e-07,
+      "loss": 0.0139,
+      "step": 5997
+    },
+    {
+      "epoch": 0.8849870896348211,
+      "grad_norm": 2.8756136894226074,
+      "learning_rate": 7.943142473108234e-07,
+      "loss": 0.1444,
+      "step": 5998
+    },
+    {
+      "epoch": 0.8851346366654371,
+      "grad_norm": 0.6647000908851624,
+      "learning_rate": 7.923035874962504e-07,
+      "loss": 0.0129,
+      "step": 5999
+    },
+    {
+      "epoch": 0.8852821836960532,
+      "grad_norm": 1.4540106058120728,
+      "learning_rate": 7.902953707378925e-07,
+      "loss": 0.0259,
+      "step": 6000
+    },
+    {
+      "epoch": 0.8852821836960532,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05572304502129555,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.6282,
+      "eval_samples_per_second": 5.864,
+      "eval_steps_per_second": 0.201,
+      "step": 6000
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8481947946526966e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null