Training in progress, step 6200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4558b733d32e90c4e5c89bcba7e81f8b773afc6aa52a225d4a1952b193271193
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:9532cf3853865f83aa4b1512fed11a043caac16c7c7a479336cb00c08c47445f
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:481608ef601eeee9cd85ec29231d62de3814d11712fe3bb63383faaa39db9e5b
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac0306f8cd79071439fb2e032b6a794dfe130b78d3f6139dacf123dfc6184db8
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596f270fa924dc50f57e12f2747dd1d30dfc07fc2ee00e143030c1b9a7de0239
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:8952265544fc4294d6fa38bb32c8013d07436ac0fa10a7ef59f2d03aaf69a899
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9be32303f0039603765d77ac706bef56128491b375b7cab5a7ca9e2dd0c20e1
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:74cac162bd00e61ab073a6b6fa81138d15f540573e2730c348646239c0af2746
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1dc871b1d1595e1e47cbc3a3462b01da1390680ed602cc4977fcc0ae598b0ab
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:79f9fd3ffa5c298f49aa683a89f30a3b293edf8a4bf04e3e2e1304208647e606
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7d82623ea7825bea9aa6e58232cb5ab536747b4e2584fee539f8ebb85840589
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b62917f83638a2302f8bdb8e4696e57f59c8864664078b94923b1e2952d78862
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8827dca82cdf8c9dc0048ecc8da1ac0c4a5995aa9c070303bd1e4628bd21c2b1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dddadf1f078604529c0f4d51b0dfabc290ef123390e4b641aa10c7584948cc1
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6644c5e24b376442f37af7277f310848ba0091903a3e17bb78348c667f27d6a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:21fb7db76e3758690c774743f26cd5ccb3de7c9e9ec9421fb6347ba964f73792
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aa8e8f4afb4ad3590db680bccacca81a9fea479e638f91fd5eb34e67e733103
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ebcdd9cb3a00187b7caf8ccddabd7425b6b74eafab1a8a7e286f4cf2c1e0dc5
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2039e0dd851cf50efc5c92eae55ef9d90644f479d007e1a04912e5dfe8b441a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3802beb66fc35db4df22557b4497b6a8fdfdf3e582059b4fe079309c7d84ad1a
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:704157ddb23baa7ea252d705881891eb9017ede4c98afdcc2fe424b1da003854
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:61d911caf90f35f3e5e63bf349703d8ac88e88dcfb0f587f0a27fb4ec2d5b04b
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f75f460626823b08c0b5d748bd6e356df4fad31b4d6f1bee0ea68d6dd231541
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4faf604ceb02aaa7b878afc6f9935dd3d58f0bba74657b78471494e5a2ee20b
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ea03a23b5e2bdcb4bd9a8db175e30d4861f4d46b3e4ebdc845dc49850878e7a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:529be97fb31f3c3cb5a6124f64514f96e9dc11d13d1ad58796326c25a10ede28
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.900036886757654,
   "eval_steps": 20,
-  "global_step": 6100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -46379,6 +46379,766 @@
       "eval_samples_per_second": 5.898,
       "eval_steps_per_second": 0.203,
       "step": 6100
     }
   ],
   "logging_steps": 1,
@@ -46398,7 +47158,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8789295751031685e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9147915898192549,
   "eval_steps": 20,
+  "global_step": 6200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.898,
       "eval_steps_per_second": 0.203,
       "step": 6100
+    },
+    {
+      "epoch": 0.9001844337882701,
+      "grad_norm": 1.5873862504959106,
+      "learning_rate": 6.001410145373998e-07,
+      "loss": 0.0303,
+      "step": 6101
+    },
+    {
+      "epoch": 0.900331980818886,
+      "grad_norm": 2.3204448223114014,
+      "learning_rate": 5.983846732267118e-07,
+      "loss": 0.0738,
+      "step": 6102
+    },
+    {
+      "epoch": 0.900479527849502,
+      "grad_norm": 3.2990872859954834,
+      "learning_rate": 5.966308264242837e-07,
+      "loss": 0.0545,
+      "step": 6103
+    },
+    {
+      "epoch": 0.9006270748801181,
+      "grad_norm": 2.091925859451294,
+      "learning_rate": 5.948794745954655e-07,
+      "loss": 0.0608,
+      "step": 6104
+    },
+    {
+      "epoch": 0.9007746219107341,
+      "grad_norm": 2.3603947162628174,
+      "learning_rate": 5.931306182049335e-07,
+      "loss": 0.0288,
+      "step": 6105
+    },
+    {
+      "epoch": 0.90092216894135,
+      "grad_norm": 3.0553927421569824,
+      "learning_rate": 5.913842577167117e-07,
+      "loss": 0.0304,
+      "step": 6106
+    },
+    {
+      "epoch": 0.9010697159719661,
+      "grad_norm": 1.18839693069458,
+      "learning_rate": 5.896403935941564e-07,
+      "loss": 0.0255,
+      "step": 6107
+    },
+    {
+      "epoch": 0.9012172630025821,
+      "grad_norm": 0.8999655842781067,
+      "learning_rate": 5.878990262999628e-07,
+      "loss": 0.0247,
+      "step": 6108
+    },
+    {
+      "epoch": 0.9013648100331981,
+      "grad_norm": 1.7418278455734253,
+      "learning_rate": 5.861601562961639e-07,
+      "loss": 0.0533,
+      "step": 6109
+    },
+    {
+      "epoch": 0.901512357063814,
+      "grad_norm": 1.063058853149414,
+      "learning_rate": 5.844237840441291e-07,
+      "loss": 0.0156,
+      "step": 6110
+    },
+    {
+      "epoch": 0.9016599040944301,
+      "grad_norm": 4.956036567687988,
+      "learning_rate": 5.826899100045669e-07,
+      "loss": 0.1087,
+      "step": 6111
+    },
+    {
+      "epoch": 0.9018074511250461,
+      "grad_norm": 0.6496356725692749,
+      "learning_rate": 5.809585346375235e-07,
+      "loss": 0.0248,
+      "step": 6112
+    },
+    {
+      "epoch": 0.9019549981556622,
+      "grad_norm": 4.678279876708984,
+      "learning_rate": 5.792296584023782e-07,
+      "loss": 0.0501,
+      "step": 6113
+    },
+    {
+      "epoch": 0.9021025451862781,
+      "grad_norm": 2.635258674621582,
+      "learning_rate": 5.775032817578486e-07,
+      "loss": 0.0709,
+      "step": 6114
+    },
+    {
+      "epoch": 0.9022500922168941,
+      "grad_norm": 1.1114413738250732,
+      "learning_rate": 5.757794051619936e-07,
+      "loss": 0.0233,
+      "step": 6115
+    },
+    {
+      "epoch": 0.9023976392475102,
+      "grad_norm": 2.946363925933838,
+      "learning_rate": 5.740580290722042e-07,
+      "loss": 0.0664,
+      "step": 6116
+    },
+    {
+      "epoch": 0.9025451862781262,
+      "grad_norm": 3.6926958560943604,
+      "learning_rate": 5.723391539452061e-07,
+      "loss": 0.049,
+      "step": 6117
+    },
+    {
+      "epoch": 0.9026927333087421,
+      "grad_norm": 3.990233898162842,
+      "learning_rate": 5.70622780237069e-07,
+      "loss": 0.1301,
+      "step": 6118
+    },
+    {
+      "epoch": 0.9028402803393581,
+      "grad_norm": 1.862289547920227,
+      "learning_rate": 5.689089084031896e-07,
+      "loss": 0.0485,
+      "step": 6119
+    },
+    {
+      "epoch": 0.9029878273699742,
+      "grad_norm": 1.8196097612380981,
+      "learning_rate": 5.671975388983086e-07,
+      "loss": 0.0271,
+      "step": 6120
+    },
+    {
+      "epoch": 0.9029878273699742,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05541698634624481,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.5394,
+      "eval_samples_per_second": 5.995,
+      "eval_steps_per_second": 0.206,
+      "step": 6120
+    },
+    {
+      "epoch": 0.9031353744005902,
+      "grad_norm": 0.9414036273956299,
+      "learning_rate": 5.654886721764997e-07,
+      "loss": 0.0153,
+      "step": 6121
+    },
+    {
+      "epoch": 0.9032829214312061,
+      "grad_norm": 1.2081336975097656,
+      "learning_rate": 5.637823086911698e-07,
+      "loss": 0.0251,
+      "step": 6122
+    },
+    {
+      "epoch": 0.9034304684618222,
+      "grad_norm": 2.001443386077881,
+      "learning_rate": 5.620784488950681e-07,
+      "loss": 0.0558,
+      "step": 6123
+    },
+    {
+      "epoch": 0.9035780154924382,
+      "grad_norm": 1.7640726566314697,
+      "learning_rate": 5.603770932402719e-07,
+      "loss": 0.0503,
+      "step": 6124
+    },
+    {
+      "epoch": 0.9037255625230542,
+      "grad_norm": 5.103485107421875,
+      "learning_rate": 5.586782421781989e-07,
+      "loss": 0.1603,
+      "step": 6125
+    },
+    {
+      "epoch": 0.9038731095536703,
+      "grad_norm": 1.4745298624038696,
+      "learning_rate": 5.569818961596041e-07,
+      "loss": 0.0552,
+      "step": 6126
+    },
+    {
+      "epoch": 0.9040206565842862,
+      "grad_norm": 1.9164541959762573,
+      "learning_rate": 5.552880556345719e-07,
+      "loss": 0.0409,
+      "step": 6127
+    },
+    {
+      "epoch": 0.9041682036149022,
+      "grad_norm": 3.4288718700408936,
+      "learning_rate": 5.535967210525239e-07,
+      "loss": 0.0773,
+      "step": 6128
+    },
+    {
+      "epoch": 0.9043157506455183,
+      "grad_norm": 1.621910572052002,
+      "learning_rate": 5.519078928622212e-07,
+      "loss": 0.0666,
+      "step": 6129
+    },
+    {
+      "epoch": 0.9044632976761343,
+      "grad_norm": 1.874854564666748,
+      "learning_rate": 5.502215715117553e-07,
+      "loss": 0.0426,
+      "step": 6130
+    },
+    {
+      "epoch": 0.9046108447067502,
+      "grad_norm": 3.9866039752960205,
+      "learning_rate": 5.485377574485528e-07,
+      "loss": 0.0918,
+      "step": 6131
+    },
+    {
+      "epoch": 0.9047583917373663,
+      "grad_norm": 2.3686044216156006,
+      "learning_rate": 5.468564511193786e-07,
+      "loss": 0.0882,
+      "step": 6132
+    },
+    {
+      "epoch": 0.9049059387679823,
+      "grad_norm": 2.9734747409820557,
+      "learning_rate": 5.451776529703256e-07,
+      "loss": 0.1109,
+      "step": 6133
+    },
+    {
+      "epoch": 0.9050534857985983,
+      "grad_norm": 2.4147839546203613,
+      "learning_rate": 5.435013634468289e-07,
+      "loss": 0.0677,
+      "step": 6134
+    },
+    {
+      "epoch": 0.9052010328292143,
+      "grad_norm": 4.090640068054199,
+      "learning_rate": 5.418275829936537e-07,
+      "loss": 0.0467,
+      "step": 6135
+    },
+    {
+      "epoch": 0.9053485798598303,
+      "grad_norm": 7.092474460601807,
+      "learning_rate": 5.401563120548991e-07,
+      "loss": 0.0388,
+      "step": 6136
+    },
+    {
+      "epoch": 0.9054961268904463,
+      "grad_norm": 2.077030897140503,
+      "learning_rate": 5.384875510740007e-07,
+      "loss": 0.0505,
+      "step": 6137
+    },
+    {
+      "epoch": 0.9056436739210624,
+      "grad_norm": 2.185776710510254,
+      "learning_rate": 5.368213004937262e-07,
+      "loss": 0.0583,
+      "step": 6138
+    },
+    {
+      "epoch": 0.9057912209516783,
+      "grad_norm": 2.0845303535461426,
+      "learning_rate": 5.351575607561766e-07,
+      "loss": 0.0499,
+      "step": 6139
+    },
+    {
+      "epoch": 0.9059387679822943,
+      "grad_norm": 1.5722860097885132,
+      "learning_rate": 5.334963323027919e-07,
+      "loss": 0.0405,
+      "step": 6140
+    },
+    {
+      "epoch": 0.9059387679822943,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05552350729703903,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.1374,
+      "eval_samples_per_second": 5.922,
+      "eval_steps_per_second": 0.204,
+      "step": 6140
+    },
+    {
+      "epoch": 0.9060863150129104,
+      "grad_norm": 4.133938789367676,
+      "learning_rate": 5.318376155743387e-07,
+      "loss": 0.0862,
+      "step": 6141
+    },
+    {
+      "epoch": 0.9062338620435264,
+      "grad_norm": 1.9547992944717407,
+      "learning_rate": 5.301814110109205e-07,
+      "loss": 0.0653,
+      "step": 6142
+    },
+    {
+      "epoch": 0.9063814090741423,
+      "grad_norm": 3.051151990890503,
+      "learning_rate": 5.285277190519744e-07,
+      "loss": 0.0737,
+      "step": 6143
+    },
+    {
+      "epoch": 0.9065289561047584,
+      "grad_norm": 1.4388315677642822,
+      "learning_rate": 5.268765401362718e-07,
+      "loss": 0.0179,
+      "step": 6144
+    },
+    {
+      "epoch": 0.9066765031353744,
+      "grad_norm": 1.3435120582580566,
+      "learning_rate": 5.252278747019146e-07,
+      "loss": 0.0307,
+      "step": 6145
+    },
+    {
+      "epoch": 0.9068240501659904,
+      "grad_norm": 2.0128400325775146,
+      "learning_rate": 5.235817231863405e-07,
+      "loss": 0.0618,
+      "step": 6146
+    },
+    {
+      "epoch": 0.9069715971966065,
+      "grad_norm": 1.971063256263733,
+      "learning_rate": 5.219380860263168e-07,
+      "loss": 0.0684,
+      "step": 6147
+    },
+    {
+      "epoch": 0.9071191442272224,
+      "grad_norm": 1.8959208726882935,
+      "learning_rate": 5.20296963657948e-07,
+      "loss": 0.0111,
+      "step": 6148
+    },
+    {
+      "epoch": 0.9072666912578384,
+      "grad_norm": 4.560550212860107,
+      "learning_rate": 5.186583565166692e-07,
+      "loss": 0.1139,
+      "step": 6149
+    },
+    {
+      "epoch": 0.9074142382884545,
+      "grad_norm": 2.025960922241211,
+      "learning_rate": 5.17022265037247e-07,
+      "loss": 0.051,
+      "step": 6150
+    },
+    {
+      "epoch": 0.9075617853190705,
+      "grad_norm": 2.0765039920806885,
+      "learning_rate": 5.153886896537829e-07,
+      "loss": 0.0616,
+      "step": 6151
+    },
+    {
+      "epoch": 0.9077093323496864,
+      "grad_norm": 1.6943057775497437,
+      "learning_rate": 5.137576307997083e-07,
+      "loss": 0.0418,
+      "step": 6152
+    },
+    {
+      "epoch": 0.9078568793803025,
+      "grad_norm": 3.1802217960357666,
+      "learning_rate": 5.121290889077879e-07,
+      "loss": 0.0782,
+      "step": 6153
+    },
+    {
+      "epoch": 0.9080044264109185,
+      "grad_norm": 5.109692573547363,
+      "learning_rate": 5.105030644101206e-07,
+      "loss": 0.0681,
+      "step": 6154
+    },
+    {
+      "epoch": 0.9081519734415345,
+      "grad_norm": 2.058464527130127,
+      "learning_rate": 5.088795577381356e-07,
+      "loss": 0.0458,
+      "step": 6155
+    },
+    {
+      "epoch": 0.9082995204721505,
+      "grad_norm": 2.1350038051605225,
+      "learning_rate": 5.072585693225918e-07,
+      "loss": 0.0465,
+      "step": 6156
+    },
+    {
+      "epoch": 0.9084470675027665,
+      "grad_norm": 0.7591288685798645,
+      "learning_rate": 5.056400995935829e-07,
+      "loss": 0.018,
+      "step": 6157
+    },
+    {
+      "epoch": 0.9085946145333825,
+      "grad_norm": 4.6449761390686035,
+      "learning_rate": 5.040241489805365e-07,
+      "loss": 0.1426,
+      "step": 6158
+    },
+    {
+      "epoch": 0.9087421615639986,
+      "grad_norm": 6.209170341491699,
+      "learning_rate": 5.024107179122051e-07,
+      "loss": 0.164,
+      "step": 6159
+    },
+    {
+      "epoch": 0.9088897085946145,
+      "grad_norm": 2.090540647506714,
+      "learning_rate": 5.007998068166786e-07,
+      "loss": 0.0175,
+      "step": 6160
+    },
+    {
+      "epoch": 0.9088897085946145,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05504719540476799,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.3101,
+      "eval_samples_per_second": 5.901,
+      "eval_steps_per_second": 0.203,
+      "step": 6160
+    },
+    {
+      "epoch": 0.9090372556252305,
+      "grad_norm": 3.121851682662964,
+      "learning_rate": 4.991914161213751e-07,
+      "loss": 0.032,
+      "step": 6161
+    },
+    {
+      "epoch": 0.9091848026558466,
+      "grad_norm": 0.8654899597167969,
+      "learning_rate": 4.975855462530465e-07,
+      "loss": 0.0127,
+      "step": 6162
+    },
+    {
+      "epoch": 0.9093323496864626,
+      "grad_norm": 1.8461565971374512,
+      "learning_rate": 4.959821976377743e-07,
+      "loss": 0.0472,
+      "step": 6163
+    },
+    {
+      "epoch": 0.9094798967170785,
+      "grad_norm": 1.1268733739852905,
+      "learning_rate": 4.943813707009693e-07,
+      "loss": 0.0343,
+      "step": 6164
+    },
+    {
+      "epoch": 0.9096274437476946,
+      "grad_norm": 2.749328374862671,
+      "learning_rate": 4.927830658673771e-07,
+      "loss": 0.1282,
+      "step": 6165
+    },
+    {
+      "epoch": 0.9097749907783106,
+      "grad_norm": 1.882821798324585,
+      "learning_rate": 4.911872835610721e-07,
+      "loss": 0.0469,
+      "step": 6166
+    },
+    {
+      "epoch": 0.9099225378089266,
+      "grad_norm": 2.297895669937134,
+      "learning_rate": 4.895940242054564e-07,
+      "loss": 0.0466,
+      "step": 6167
+    },
+    {
+      "epoch": 0.9100700848395427,
+      "grad_norm": 2.072247266769409,
+      "learning_rate": 4.880032882232699e-07,
+      "loss": 0.0569,
+      "step": 6168
+    },
+    {
+      "epoch": 0.9102176318701586,
+      "grad_norm": 3.2294955253601074,
+      "learning_rate": 4.864150760365771e-07,
+      "loss": 0.1044,
+      "step": 6169
+    },
+    {
+      "epoch": 0.9103651789007746,
+      "grad_norm": 1.4208635091781616,
+      "learning_rate": 4.848293880667732e-07,
+      "loss": 0.0203,
+      "step": 6170
+    },
+    {
+      "epoch": 0.9105127259313907,
+      "grad_norm": 3.2182838916778564,
+      "learning_rate": 4.83246224734587e-07,
+      "loss": 0.0434,
+      "step": 6171
+    },
+    {
+      "epoch": 0.9106602729620067,
+      "grad_norm": 3.255988359451294,
+      "learning_rate": 4.81665586460075e-07,
+      "loss": 0.0959,
+      "step": 6172
+    },
+    {
+      "epoch": 0.9108078199926226,
+      "grad_norm": 4.523223876953125,
+      "learning_rate": 4.800874736626226e-07,
+      "loss": 0.0774,
+      "step": 6173
+    },
+    {
+      "epoch": 0.9109553670232386,
+      "grad_norm": 1.8783808946609497,
+      "learning_rate": 4.785118867609507e-07,
+      "loss": 0.0606,
+      "step": 6174
+    },
+    {
+      "epoch": 0.9111029140538547,
+      "grad_norm": 2.5650320053100586,
+      "learning_rate": 4.769388261731012e-07,
+      "loss": 0.0939,
+      "step": 6175
+    },
+    {
+      "epoch": 0.9112504610844707,
+      "grad_norm": 5.402647495269775,
+      "learning_rate": 4.7536829231645156e-07,
+      "loss": 0.0886,
+      "step": 6176
+    },
+    {
+      "epoch": 0.9113980081150866,
+      "grad_norm": 3.0229949951171875,
+      "learning_rate": 4.738002856077117e-07,
+      "loss": 0.0827,
+      "step": 6177
+    },
+    {
+      "epoch": 0.9115455551457027,
+      "grad_norm": 1.8020105361938477,
+      "learning_rate": 4.722348064629123e-07,
+      "loss": 0.0423,
+      "step": 6178
+    },
+    {
+      "epoch": 0.9116931021763187,
+      "grad_norm": 1.6765297651290894,
+      "learning_rate": 4.706718552974221e-07,
+      "loss": 0.0494,
+      "step": 6179
+    },
+    {
+      "epoch": 0.9118406492069348,
+      "grad_norm": 1.5524864196777344,
+      "learning_rate": 4.691114325259327e-07,
+      "loss": 0.0459,
+      "step": 6180
+    },
+    {
+      "epoch": 0.9118406492069348,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05488729849457741,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 51.2558,
+      "eval_samples_per_second": 5.677,
+      "eval_steps_per_second": 0.195,
+      "step": 6180
+    },
+    {
+      "epoch": 0.9119881962375507,
+      "grad_norm": 1.8164972066879272,
+      "learning_rate": 4.6755353856246635e-07,
+      "loss": 0.0531,
+      "step": 6181
+    },
+    {
+      "epoch": 0.9121357432681667,
+      "grad_norm": 2.300924301147461,
+      "learning_rate": 4.6599817382037895e-07,
+      "loss": 0.0215,
+      "step": 6182
+    },
+    {
+      "epoch": 0.9122832902987827,
+      "grad_norm": 1.35698664188385,
+      "learning_rate": 4.644453387123504e-07,
+      "loss": 0.0215,
+      "step": 6183
+    },
+    {
+      "epoch": 0.9124308373293988,
+      "grad_norm": 2.6017749309539795,
+      "learning_rate": 4.6289503365038904e-07,
+      "loss": 0.0511,
+      "step": 6184
+    },
+    {
+      "epoch": 0.9125783843600147,
+      "grad_norm": 0.7743318676948547,
+      "learning_rate": 4.6134725904583565e-07,
+      "loss": 0.0137,
+      "step": 6185
+    },
+    {
+      "epoch": 0.9127259313906307,
+      "grad_norm": 2.4677441120147705,
+      "learning_rate": 4.598020153093552e-07,
+      "loss": 0.0779,
+      "step": 6186
+    },
+    {
+      "epoch": 0.9128734784212468,
+      "grad_norm": 2.9131996631622314,
+      "learning_rate": 4.582593028509452e-07,
+      "loss": 0.062,
+      "step": 6187
+    },
+    {
+      "epoch": 0.9130210254518628,
+      "grad_norm": 1.517683982849121,
+      "learning_rate": 4.567191220799305e-07,
+      "loss": 0.0688,
+      "step": 6188
+    },
+    {
+      "epoch": 0.9131685724824787,
+      "grad_norm": 3.0885980129241943,
+      "learning_rate": 4.55181473404962e-07,
+      "loss": 0.0986,
+      "step": 6189
+    },
+    {
+      "epoch": 0.9133161195130948,
+      "grad_norm": 1.978442907333374,
+      "learning_rate": 4.536463572340222e-07,
+      "loss": 0.0489,
+      "step": 6190
+    },
+    {
+      "epoch": 0.9134636665437108,
+      "grad_norm": 1.8119323253631592,
+      "learning_rate": 4.5211377397441857e-07,
+      "loss": 0.0523,
+      "step": 6191
+    },
+    {
+      "epoch": 0.9136112135743268,
+      "grad_norm": 0.8473356366157532,
+      "learning_rate": 4.505837240327882e-07,
+      "loss": 0.0098,
+      "step": 6192
+    },
+    {
+      "epoch": 0.9137587606049429,
+      "grad_norm": 0.7812674045562744,
+      "learning_rate": 4.490562078150962e-07,
+      "loss": 0.0172,
+      "step": 6193
+    },
+    {
+      "epoch": 0.9139063076355588,
+      "grad_norm": 2.3568999767303467,
+      "learning_rate": 4.4753122572663397e-07,
+      "loss": 0.0394,
+      "step": 6194
+    },
+    {
+      "epoch": 0.9140538546661748,
+      "grad_norm": 4.555817604064941,
+      "learning_rate": 4.460087781720179e-07,
+      "loss": 0.089,
+      "step": 6195
+    },
+    {
+      "epoch": 0.9142014016967909,
+      "grad_norm": 1.3016505241394043,
+      "learning_rate": 4.4448886555520266e-07,
+      "loss": 0.0215,
+      "step": 6196
+    },
+    {
+      "epoch": 0.9143489487274069,
+      "grad_norm": 1.2897732257843018,
+      "learning_rate": 4.4297148827946e-07,
+      "loss": 0.0215,
+      "step": 6197
+    },
+    {
+      "epoch": 0.9144964957580228,
+      "grad_norm": 2.542720079421997,
+      "learning_rate": 4.414566467473891e-07,
+      "loss": 0.026,
+      "step": 6198
+    },
+    {
+      "epoch": 0.9146440427886389,
+      "grad_norm": 1.3125649690628052,
+      "learning_rate": 4.399443413609228e-07,
+      "loss": 0.038,
+      "step": 6199
+    },
+    {
+      "epoch": 0.9147915898192549,
+      "grad_norm": 2.4134104251861572,
+      "learning_rate": 4.384345725213157e-07,
+      "loss": 0.0631,
+      "step": 6200
+    },
+    {
+      "epoch": 0.9147915898192549,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.055400192737579346,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.8115,
+      "eval_samples_per_second": 5.842,
+      "eval_steps_per_second": 0.201,
+      "step": 6200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9099781569372488e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null