Training in progress, step 6100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:407cea8cd4c1444b6fd3dbbc1796efb64886678cd52d2935445d4ee150b19cd9
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:4558b733d32e90c4e5c89bcba7e81f8b773afc6aa52a225d4a1952b193271193
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f09e4f286d588fdd8dee70e7788283d8f82c437d873e13a263f824d89ba1dc09
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:481608ef601eeee9cd85ec29231d62de3814d11712fe3bb63383faaa39db9e5b
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ce1f760bbd4c96a2756283dc0ed0049eaa28a856cc915b2efea1a4cad775044
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:596f270fa924dc50f57e12f2747dd1d30dfc07fc2ee00e143030c1b9a7de0239
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4119461e04c64bd9cb35fc4677eb47b0256885eb2bf830e5e575de68f0787410
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9be32303f0039603765d77ac706bef56128491b375b7cab5a7ca9e2dd0c20e1
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1789239bff9adb9c6876b4d099f2ed19463d2be8a749c02ae1a04bf9c4fab87a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1dc871b1d1595e1e47cbc3a3462b01da1390680ed602cc4977fcc0ae598b0ab
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4821bd33219546f03dfe0ef15028c7679b8d9837b37430def9e4de554b5dc22a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7d82623ea7825bea9aa6e58232cb5ab536747b4e2584fee539f8ebb85840589
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7914c18071ba453e15120e4e8596755dd9d2166fc0ded479a8498bd53bfc83d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:8827dca82cdf8c9dc0048ecc8da1ac0c4a5995aa9c070303bd1e4628bd21c2b1
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfaec33f43af8375c51ba9ca0f8679ccb2f8f39889358a6c520af5ba2029ceed
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6644c5e24b376442f37af7277f310848ba0091903a3e17bb78348c667f27d6a
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c51cd242b6ad96b1a7bd50ac0129e12f629372d44073ce6176ca7a37443f9b6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa8e8f4afb4ad3590db680bccacca81a9fea479e638f91fd5eb34e67e733103
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67dc8d7c29a337d2af8cab636481f46a6a24034554d74820938adde6717b070b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2039e0dd851cf50efc5c92eae55ef9d90644f479d007e1a04912e5dfe8b441a
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:480547ac130fa2a4d7ed2c72cff8ffd28b33c257079ad7f33a9553e30ee18b86
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:704157ddb23baa7ea252d705881891eb9017ede4c98afdcc2fe424b1da003854
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93d2249e6619e5c532aedb71a6fa0b27cb8510666f06ef4286647cbebdeb62f8
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f75f460626823b08c0b5d748bd6e356df4fad31b4d6f1bee0ea68d6dd231541
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4055e4142f36e5b7ad8acd183073cd010060ffca6c79c7221bfc55a921e1e477
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ea03a23b5e2bdcb4bd9a8db175e30d4861f4d46b3e4ebdc845dc49850878e7a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8852821836960532,
   "eval_steps": 20,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -45619,6 +45619,766 @@
       "eval_samples_per_second": 5.864,
       "eval_steps_per_second": 0.201,
       "step": 6000
     }
   ],
   "logging_steps": 1,
@@ -45638,7 +46398,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8481947946526966e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.900036886757654,
   "eval_steps": 20,
+  "global_step": 6100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.864,
       "eval_steps_per_second": 0.201,
       "step": 6000
+    },
+    {
+      "epoch": 0.8854297307266691,
+      "grad_norm": 1.9520748853683472,
+      "learning_rate": 7.882895975685912e-07,
+      "loss": 0.039,
+      "step": 6001
+    },
+    {
+      "epoch": 0.8855772777572851,
+      "grad_norm": 1.3660613298416138,
+      "learning_rate": 7.862862685205296e-07,
+      "loss": 0.0214,
+      "step": 6002
+    },
+    {
+      "epoch": 0.8857248247879012,
+      "grad_norm": 3.9320688247680664,
+      "learning_rate": 7.842853841252463e-07,
+      "loss": 0.0278,
+      "step": 6003
+    },
+    {
+      "epoch": 0.8858723718185172,
+      "grad_norm": 1.4639867544174194,
+      "learning_rate": 7.822869449136328e-07,
+      "loss": 0.0421,
+      "step": 6004
+    },
+    {
+      "epoch": 0.8860199188491331,
+      "grad_norm": 3.7693629264831543,
+      "learning_rate": 7.802909514159285e-07,
+      "loss": 0.091,
+      "step": 6005
+    },
+    {
+      "epoch": 0.8861674658797491,
+      "grad_norm": 1.5250922441482544,
+      "learning_rate": 7.782974041617253e-07,
+      "loss": 0.0195,
+      "step": 6006
+    },
+    {
+      "epoch": 0.8863150129103652,
+      "grad_norm": 3.0657765865325928,
+      "learning_rate": 7.763063036799701e-07,
+      "loss": 0.0338,
+      "step": 6007
+    },
+    {
+      "epoch": 0.8864625599409812,
+      "grad_norm": 1.9614242315292358,
+      "learning_rate": 7.743176504989513e-07,
+      "loss": 0.0447,
+      "step": 6008
+    },
+    {
+      "epoch": 0.8866101069715971,
+      "grad_norm": 3.2453866004943848,
+      "learning_rate": 7.723314451463193e-07,
+      "loss": 0.137,
+      "step": 6009
+    },
+    {
+      "epoch": 0.8867576540022132,
+      "grad_norm": 2.51401424407959,
+      "learning_rate": 7.703476881490634e-07,
+      "loss": 0.098,
+      "step": 6010
+    },
+    {
+      "epoch": 0.8869052010328292,
+      "grad_norm": 3.9559733867645264,
+      "learning_rate": 7.683663800335328e-07,
+      "loss": 0.0941,
+      "step": 6011
+    },
+    {
+      "epoch": 0.8870527480634453,
+      "grad_norm": 1.9767736196517944,
+      "learning_rate": 7.663875213254246e-07,
+      "loss": 0.0472,
+      "step": 6012
+    },
+    {
+      "epoch": 0.8872002950940613,
+      "grad_norm": 1.6465672254562378,
+      "learning_rate": 7.644111125497822e-07,
+      "loss": 0.0145,
+      "step": 6013
+    },
+    {
+      "epoch": 0.8873478421246772,
+      "grad_norm": 1.3866339921951294,
+      "learning_rate": 7.624371542310005e-07,
+      "loss": 0.0386,
+      "step": 6014
+    },
+    {
+      "epoch": 0.8874953891552932,
+      "grad_norm": 2.0481443405151367,
+      "learning_rate": 7.604656468928262e-07,
+      "loss": 0.0383,
+      "step": 6015
+    },
+    {
+      "epoch": 0.8876429361859093,
+      "grad_norm": 3.9279582500457764,
+      "learning_rate": 7.584965910583564e-07,
+      "loss": 0.0489,
+      "step": 6016
+    },
+    {
+      "epoch": 0.8877904832165253,
+      "grad_norm": 1.7083287239074707,
+      "learning_rate": 7.565299872500331e-07,
+      "loss": 0.0244,
+      "step": 6017
+    },
+    {
+      "epoch": 0.8879380302471412,
+      "grad_norm": 1.2823542356491089,
+      "learning_rate": 7.545658359896547e-07,
+      "loss": 0.0164,
+      "step": 6018
+    },
+    {
+      "epoch": 0.8880855772777573,
+      "grad_norm": 0.9202921390533447,
+      "learning_rate": 7.526041377983596e-07,
+      "loss": 0.0263,
+      "step": 6019
+    },
+    {
+      "epoch": 0.8882331243083733,
+      "grad_norm": 1.0891423225402832,
+      "learning_rate": 7.506448931966436e-07,
+      "loss": 0.0291,
+      "step": 6020
+    },
+    {
+      "epoch": 0.8882331243083733,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05567174404859543,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.4257,
+      "eval_samples_per_second": 6.009,
+      "eval_steps_per_second": 0.207,
+      "step": 6020
+    },
+    {
+      "epoch": 0.8883806713389893,
+      "grad_norm": 1.6009353399276733,
+      "learning_rate": 7.486881027043491e-07,
+      "loss": 0.0527,
+      "step": 6021
+    },
+    {
+      "epoch": 0.8885282183696053,
+      "grad_norm": 6.035427570343018,
+      "learning_rate": 7.467337668406638e-07,
+      "loss": 0.0817,
+      "step": 6022
+    },
+    {
+      "epoch": 0.8886757654002213,
+      "grad_norm": 1.1803969144821167,
+      "learning_rate": 7.447818861241308e-07,
+      "loss": 0.0216,
+      "step": 6023
+    },
+    {
+      "epoch": 0.8888233124308373,
+      "grad_norm": 2.7183499336242676,
+      "learning_rate": 7.428324610726345e-07,
+      "loss": 0.0815,
+      "step": 6024
+    },
+    {
+      "epoch": 0.8889708594614534,
+      "grad_norm": 1.5589689016342163,
+      "learning_rate": 7.408854922034126e-07,
+      "loss": 0.0311,
+      "step": 6025
+    },
+    {
+      "epoch": 0.8891184064920693,
+      "grad_norm": 3.315922498703003,
+      "learning_rate": 7.389409800330516e-07,
+      "loss": 0.0731,
+      "step": 6026
+    },
+    {
+      "epoch": 0.8892659535226853,
+      "grad_norm": 1.9708974361419678,
+      "learning_rate": 7.369989250774812e-07,
+      "loss": 0.0703,
+      "step": 6027
+    },
+    {
+      "epoch": 0.8894135005533014,
+      "grad_norm": 1.7425222396850586,
+      "learning_rate": 7.350593278519824e-07,
+      "loss": 0.0496,
+      "step": 6028
+    },
+    {
+      "epoch": 0.8895610475839174,
+      "grad_norm": 1.3247371912002563,
+      "learning_rate": 7.331221888711859e-07,
+      "loss": 0.0324,
+      "step": 6029
+    },
+    {
+      "epoch": 0.8897085946145333,
+      "grad_norm": 1.3036816120147705,
+      "learning_rate": 7.311875086490683e-07,
+      "loss": 0.033,
+      "step": 6030
+    },
+    {
+      "epoch": 0.8898561416451494,
+      "grad_norm": 2.608323097229004,
+      "learning_rate": 7.292552876989511e-07,
+      "loss": 0.0983,
+      "step": 6031
+    },
+    {
+      "epoch": 0.8900036886757654,
+      "grad_norm": 2.148296356201172,
+      "learning_rate": 7.273255265335088e-07,
+      "loss": 0.0705,
+      "step": 6032
+    },
+    {
+      "epoch": 0.8901512357063814,
+      "grad_norm": 2.8998477458953857,
+      "learning_rate": 7.253982256647574e-07,
+      "loss": 0.0512,
+      "step": 6033
+    },
+    {
+      "epoch": 0.8902987827369974,
+      "grad_norm": 3.0811049938201904,
+      "learning_rate": 7.234733856040654e-07,
+      "loss": 0.1346,
+      "step": 6034
+    },
+    {
+      "epoch": 0.8904463297676134,
+      "grad_norm": 2.189905881881714,
+      "learning_rate": 7.215510068621467e-07,
+      "loss": 0.0503,
+      "step": 6035
+    },
+    {
+      "epoch": 0.8905938767982294,
+      "grad_norm": 3.884209394454956,
+      "learning_rate": 7.196310899490577e-07,
+      "loss": 0.0547,
+      "step": 6036
+    },
+    {
+      "epoch": 0.8907414238288455,
+      "grad_norm": 1.5360444784164429,
+      "learning_rate": 7.177136353742098e-07,
+      "loss": 0.0523,
+      "step": 6037
+    },
+    {
+      "epoch": 0.8908889708594615,
+      "grad_norm": 1.0694087743759155,
+      "learning_rate": 7.157986436463537e-07,
+      "loss": 0.022,
+      "step": 6038
+    },
+    {
+      "epoch": 0.8910365178900774,
+      "grad_norm": 1.7816051244735718,
+      "learning_rate": 7.138861152735898e-07,
+      "loss": 0.0618,
+      "step": 6039
+    },
+    {
+      "epoch": 0.8911840649206935,
+      "grad_norm": 2.7336528301239014,
+      "learning_rate": 7.119760507633678e-07,
+      "loss": 0.0872,
+      "step": 6040
+    },
+    {
+      "epoch": 0.8911840649206935,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05596858263015747,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.9314,
+      "eval_samples_per_second": 5.947,
+      "eval_steps_per_second": 0.204,
+      "step": 6040
+    },
+    {
+      "epoch": 0.8913316119513095,
+      "grad_norm": 1.510573148727417,
+      "learning_rate": 7.100684506224775e-07,
+      "loss": 0.0494,
+      "step": 6041
+    },
+    {
+      "epoch": 0.8914791589819255,
+      "grad_norm": 4.796574115753174,
+      "learning_rate": 7.081633153570577e-07,
+      "loss": 0.0196,
+      "step": 6042
+    },
+    {
+      "epoch": 0.8916267060125415,
+      "grad_norm": 1.6497973203659058,
+      "learning_rate": 7.06260645472594e-07,
+      "loss": 0.0334,
+      "step": 6043
+    },
+    {
+      "epoch": 0.8917742530431575,
+      "grad_norm": 1.3166993856430054,
+      "learning_rate": 7.043604414739203e-07,
+      "loss": 0.0214,
+      "step": 6044
+    },
+    {
+      "epoch": 0.8919218000737735,
+      "grad_norm": 3.4348347187042236,
+      "learning_rate": 7.024627038652077e-07,
+      "loss": 0.0721,
+      "step": 6045
+    },
+    {
+      "epoch": 0.8920693471043896,
+      "grad_norm": 2.7059199810028076,
+      "learning_rate": 7.005674331499834e-07,
+      "loss": 0.0711,
+      "step": 6046
+    },
+    {
+      "epoch": 0.8922168941350055,
+      "grad_norm": 2.4796156883239746,
+      "learning_rate": 6.98674629831112e-07,
+      "loss": 0.0405,
+      "step": 6047
+    },
+    {
+      "epoch": 0.8923644411656215,
+      "grad_norm": 5.228332042694092,
+      "learning_rate": 6.96784294410806e-07,
+      "loss": 0.1015,
+      "step": 6048
+    },
+    {
+      "epoch": 0.8925119881962376,
+      "grad_norm": 2.4152002334594727,
+      "learning_rate": 6.948964273906278e-07,
+      "loss": 0.0533,
+      "step": 6049
+    },
+    {
+      "epoch": 0.8926595352268536,
+      "grad_norm": 3.5302391052246094,
+      "learning_rate": 6.930110292714765e-07,
+      "loss": 0.0874,
+      "step": 6050
+    },
+    {
+      "epoch": 0.8928070822574695,
+      "grad_norm": 1.5268058776855469,
+      "learning_rate": 6.911281005536031e-07,
+      "loss": 0.037,
+      "step": 6051
+    },
+    {
+      "epoch": 0.8929546292880856,
+      "grad_norm": 2.8932971954345703,
+      "learning_rate": 6.892476417365989e-07,
+      "loss": 0.0532,
+      "step": 6052
+    },
+    {
+      "epoch": 0.8931021763187016,
+      "grad_norm": 2.512969732284546,
+      "learning_rate": 6.873696533193996e-07,
+      "loss": 0.0757,
+      "step": 6053
+    },
+    {
+      "epoch": 0.8932497233493176,
+      "grad_norm": 3.8057785034179688,
+      "learning_rate": 6.85494135800292e-07,
+      "loss": 0.036,
+      "step": 6054
+    },
+    {
+      "epoch": 0.8933972703799336,
+      "grad_norm": 3.723708391189575,
+      "learning_rate": 6.836210896769014e-07,
+      "loss": 0.0765,
+      "step": 6055
+    },
+    {
+      "epoch": 0.8935448174105496,
+      "grad_norm": 2.7616844177246094,
+      "learning_rate": 6.817505154461956e-07,
+      "loss": 0.0504,
+      "step": 6056
+    },
+    {
+      "epoch": 0.8936923644411656,
+      "grad_norm": 2.264693260192871,
+      "learning_rate": 6.798824136044913e-07,
+      "loss": 0.0518,
+      "step": 6057
+    },
+    {
+      "epoch": 0.8938399114717817,
+      "grad_norm": 4.492088317871094,
+      "learning_rate": 6.780167846474506e-07,
+      "loss": 0.1116,
+      "step": 6058
+    },
+    {
+      "epoch": 0.8939874585023977,
+      "grad_norm": 5.52939510345459,
+      "learning_rate": 6.761536290700721e-07,
+      "loss": 0.0688,
+      "step": 6059
+    },
+    {
+      "epoch": 0.8941350055330136,
+      "grad_norm": 2.8091180324554443,
+      "learning_rate": 6.742929473667048e-07,
+      "loss": 0.0819,
+      "step": 6060
+    },
+    {
+      "epoch": 0.8941350055330136,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.0556659959256649,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.6299,
+      "eval_samples_per_second": 5.984,
+      "eval_steps_per_second": 0.206,
+      "step": 6060
+    },
+    {
+      "epoch": 0.8942825525636297,
+      "grad_norm": 2.870699167251587,
+      "learning_rate": 6.724347400310371e-07,
+      "loss": 0.0833,
+      "step": 6061
+    },
+    {
+      "epoch": 0.8944300995942457,
+      "grad_norm": 2.0958855152130127,
+      "learning_rate": 6.705790075561047e-07,
+      "loss": 0.0436,
+      "step": 6062
+    },
+    {
+      "epoch": 0.8945776466248617,
+      "grad_norm": 3.7520968914031982,
+      "learning_rate": 6.687257504342848e-07,
+      "loss": 0.0666,
+      "step": 6063
+    },
+    {
+      "epoch": 0.8947251936554776,
+      "grad_norm": 1.8063980340957642,
+      "learning_rate": 6.668749691572951e-07,
+      "loss": 0.0345,
+      "step": 6064
+    },
+    {
+      "epoch": 0.8948727406860937,
+      "grad_norm": 4.453982830047607,
+      "learning_rate": 6.650266642162029e-07,
+      "loss": 0.1076,
+      "step": 6065
+    },
+    {
+      "epoch": 0.8950202877167097,
+      "grad_norm": 2.0510618686676025,
+      "learning_rate": 6.631808361014113e-07,
+      "loss": 0.0227,
+      "step": 6066
+    },
+    {
+      "epoch": 0.8951678347473258,
+      "grad_norm": 2.578852415084839,
+      "learning_rate": 6.613374853026689e-07,
+      "loss": 0.04,
+      "step": 6067
+    },
+    {
+      "epoch": 0.8953153817779417,
+      "grad_norm": 2.0627481937408447,
+      "learning_rate": 6.594966123090718e-07,
+      "loss": 0.0538,
+      "step": 6068
+    },
+    {
+      "epoch": 0.8954629288085577,
+      "grad_norm": 5.8762617111206055,
+      "learning_rate": 6.576582176090518e-07,
+      "loss": 0.0398,
+      "step": 6069
+    },
+    {
+      "epoch": 0.8956104758391737,
+      "grad_norm": 2.373622179031372,
+      "learning_rate": 6.558223016903842e-07,
+      "loss": 0.0969,
+      "step": 6070
+    },
+    {
+      "epoch": 0.8957580228697898,
+      "grad_norm": 1.838910698890686,
+      "learning_rate": 6.539888650401916e-07,
+      "loss": 0.0363,
+      "step": 6071
+    },
+    {
+      "epoch": 0.8959055699004057,
+      "grad_norm": 10.581929206848145,
+      "learning_rate": 6.521579081449325e-07,
+      "loss": 0.0918,
+      "step": 6072
+    },
+    {
+      "epoch": 0.8960531169310217,
+      "grad_norm": 3.3708910942077637,
+      "learning_rate": 6.503294314904108e-07,
+      "loss": 0.059,
+      "step": 6073
+    },
+    {
+      "epoch": 0.8962006639616378,
+      "grad_norm": 2.5104010105133057,
+      "learning_rate": 6.485034355617748e-07,
+      "loss": 0.0224,
+      "step": 6074
+    },
+    {
+      "epoch": 0.8963482109922538,
+      "grad_norm": 1.8458657264709473,
+      "learning_rate": 6.466799208435081e-07,
+      "loss": 0.0375,
+      "step": 6075
+    },
+    {
+      "epoch": 0.8964957580228697,
+      "grad_norm": 4.009340763092041,
+      "learning_rate": 6.448588878194406e-07,
+      "loss": 0.0681,
+      "step": 6076
+    },
+    {
+      "epoch": 0.8966433050534858,
+      "grad_norm": 1.2859127521514893,
+      "learning_rate": 6.430403369727445e-07,
+      "loss": 0.0283,
+      "step": 6077
+    },
+    {
+      "epoch": 0.8967908520841018,
+      "grad_norm": 1.2199759483337402,
+      "learning_rate": 6.412242687859294e-07,
+      "loss": 0.0296,
+      "step": 6078
+    },
+    {
+      "epoch": 0.8969383991147178,
+      "grad_norm": 2.5927979946136475,
+      "learning_rate": 6.394106837408487e-07,
+      "loss": 0.0468,
+      "step": 6079
+    },
+    {
+      "epoch": 0.8970859461453339,
+      "grad_norm": 7.891746997833252,
+      "learning_rate": 6.375995823186987e-07,
+      "loss": 0.0912,
+      "step": 6080
+    },
+    {
+      "epoch": 0.8970859461453339,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05581069737672806,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.7869,
+      "eval_samples_per_second": 5.965,
+      "eval_steps_per_second": 0.205,
+      "step": 6080
+    },
+    {
+      "epoch": 0.8972334931759498,
+      "grad_norm": 2.4385836124420166,
+      "learning_rate": 6.357909650000094e-07,
+      "loss": 0.0744,
+      "step": 6081
+    },
+    {
+      "epoch": 0.8973810402065658,
+      "grad_norm": 1.913123607635498,
+      "learning_rate": 6.339848322646625e-07,
+      "loss": 0.0558,
+      "step": 6082
+    },
+    {
+      "epoch": 0.8975285872371819,
+      "grad_norm": 2.230882167816162,
+      "learning_rate": 6.321811845918735e-07,
+      "loss": 0.0325,
+      "step": 6083
+    },
+    {
+      "epoch": 0.8976761342677979,
+      "grad_norm": 1.8755987882614136,
+      "learning_rate": 6.303800224601986e-07,
+      "loss": 0.0615,
+      "step": 6084
+    },
+    {
+      "epoch": 0.8978236812984138,
+      "grad_norm": 3.3818376064300537,
+      "learning_rate": 6.285813463475366e-07,
+      "loss": 0.0615,
+      "step": 6085
+    },
+    {
+      "epoch": 0.8979712283290299,
+      "grad_norm": 1.8080580234527588,
+      "learning_rate": 6.267851567311256e-07,
+      "loss": 0.0506,
+      "step": 6086
+    },
+    {
+      "epoch": 0.8981187753596459,
+      "grad_norm": 3.3100953102111816,
+      "learning_rate": 6.249914540875445e-07,
+      "loss": 0.0438,
+      "step": 6087
+    },
+    {
+      "epoch": 0.8982663223902619,
+      "grad_norm": 2.4367289543151855,
+      "learning_rate": 6.232002388927127e-07,
+      "loss": 0.0651,
+      "step": 6088
+    },
+    {
+      "epoch": 0.8984138694208779,
+      "grad_norm": 3.0320327281951904,
+      "learning_rate": 6.214115116218877e-07,
+      "loss": 0.0466,
+      "step": 6089
+    },
+    {
+      "epoch": 0.8985614164514939,
+      "grad_norm": 1.3278833627700806,
+      "learning_rate": 6.19625272749671e-07,
+      "loss": 0.0228,
+      "step": 6090
+    },
+    {
+      "epoch": 0.8987089634821099,
+      "grad_norm": 2.3165955543518066,
+      "learning_rate": 6.178415227499979e-07,
+      "loss": 0.0507,
+      "step": 6091
+    },
+    {
+      "epoch": 0.898856510512726,
+      "grad_norm": 1.7083970308303833,
+      "learning_rate": 6.160602620961487e-07,
+      "loss": 0.043,
+      "step": 6092
+    },
+    {
+      "epoch": 0.8990040575433419,
+      "grad_norm": 2.6195430755615234,
+      "learning_rate": 6.142814912607409e-07,
+      "loss": 0.0706,
+      "step": 6093
+    },
+    {
+      "epoch": 0.8991516045739579,
+      "grad_norm": 2.1232919692993164,
+      "learning_rate": 6.125052107157304e-07,
+      "loss": 0.0561,
+      "step": 6094
+    },
+    {
+      "epoch": 0.899299151604574,
+      "grad_norm": 3.1567232608795166,
+      "learning_rate": 6.107314209324123e-07,
+      "loss": 0.0495,
+      "step": 6095
+    },
+    {
+      "epoch": 0.89944669863519,
+      "grad_norm": 1.2741518020629883,
+      "learning_rate": 6.089601223814268e-07,
+      "loss": 0.0388,
+      "step": 6096
+    },
+    {
+      "epoch": 0.8995942456658059,
+      "grad_norm": 2.4637041091918945,
+      "learning_rate": 6.071913155327447e-07,
+      "loss": 0.0538,
+      "step": 6097
+    },
+    {
+      "epoch": 0.899741792696422,
+      "grad_norm": 2.406578302383423,
+      "learning_rate": 6.054250008556783e-07,
+      "loss": 0.0796,
+      "step": 6098
+    },
+    {
+      "epoch": 0.899889339727038,
+      "grad_norm": 3.432889223098755,
+      "learning_rate": 6.036611788188829e-07,
+      "loss": 0.0655,
+      "step": 6099
+    },
+    {
+      "epoch": 0.900036886757654,
+      "grad_norm": 3.666919708251953,
+      "learning_rate": 6.018998498903472e-07,
+      "loss": 0.0307,
+      "step": 6100
+    },
+    {
+      "epoch": 0.900036886757654,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05625491961836815,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.337,
+      "eval_samples_per_second": 5.898,
+      "eval_steps_per_second": 0.203,
+      "step": 6100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8789295751031685e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null