Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91f268d6f1c02a6bcffe9b69cb02125edf3ed394508b0a72915847d4abf4d38a
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce35a7d9d3ee41577a6667581545907c05369b98efeb251f2496e6bc41c8ec77
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4390c765a10454451e6637f646c7ee3de5916471255934f2b28005336ff62ab
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:3183b1742cfca72c52d940d8e04287494b43efa4116947a96e4cccfcd21348d1
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbf4488f97f48d8eec5fe4fb5c65e0fc203257e006d2da3dac449c5f11befd59
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4205a4ab8bd014921ab915be98db9b55bb90c27eea063f468f810bebf254273d
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16f57e6baab85aef9f3987e89ed9bb24ff8783133cdb8b05b1f0c42f465789fd
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:27c49502b98af6483397efb3fb254c6f7e946e966f58d1d19162f8d43a197fae
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e56c527a4b46ce93e60755b5246f49c281427d55e2aecbe9bd806b47a31ec3f0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b45efd5b804d9c79be3d4548ed087b9258b26177b6f16e8676684fc7e504f116
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40c4fc9de677d8f30c357d4f0c52cbec65a101eb8050f52cbae690a0c85c9ae3
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f06d05203698d9a4d1d043d4f6ec8e5d78d608cb2c2042bf829842852ccf38a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca4a0923d94e13dcc2f3e7c5ec43790d1d0f6dc4dffd5897d4a43bfbefc9684a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9238ae75b55c27a76fd44d1a52af2ef5fcef2e2d365994a5ae17e1a8621203d8
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5736f7c3c93a7e68e3969752bf23448739cb265393b70d1a9888a852386f4db1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f463169e3e2cc274a980569fa1cb4cfa88e7201ab5723d1c28049cdf5ad735
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88bbe0dc30d7f00590a26acb3b9f980e2398fa208f750dab94c02256be71eee9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5fd10842b846f23f804b87787b0db7af5bfcba064be8c3070f885069f8f09eb
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9aeac2ef30f0ea83b5fe26f1910a995da1dcae2b9e5b67b95fc89866c365f45
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:2450d0f517cf62b4f3a015159fe38db28367eb0c801cb5225a1b0f787d5dab99
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67a02ed65f1e8b1d5b53759509278028feb0bbbd832210bb513184a0c3914508
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e779a0b2c2a3ad985f3f55d1ce49fd69594728e960e944e220a1338fd43bc335
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7621b58e8394fb77a4651720150070950e3a4b44cfe98ababeb6f8601fb569ee
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b87d7520e5c4522a68dbd37ed2479be5e1a14db81e2ef489ecd23f9218d190e0
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:219024013de80e1e441f10f45b80072241f3d99e22bf7c142252fbd0909bf2bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e4d36ee848a393c30e3e5c4fa3aa77d375c6146cf30c4d23f89f99b1beaf537
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09276437847866419,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 5.726,
       "eval_steps_per_second": 0.187,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.184988301085901e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.18552875695732837,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.726,
       "eval_steps_per_second": 0.187,
       "step": 100
+    },
+    {
+      "epoch": 0.09369202226345083,
+      "grad_norm": 4.2124924659729,
+      "learning_rate": 1.8703703703703707e-05,
+      "loss": 0.2609,
+      "step": 101
+    },
+    {
+      "epoch": 0.09461966604823747,
+      "grad_norm": 5.753302097320557,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.3886,
+      "step": 102
+    },
+    {
+      "epoch": 0.09554730983302412,
+      "grad_norm": 4.0034050941467285,
+      "learning_rate": 1.9074074074074075e-05,
+      "loss": 0.2714,
+      "step": 103
+    },
+    {
+      "epoch": 0.09647495361781076,
+      "grad_norm": 7.041585922241211,
+      "learning_rate": 1.925925925925926e-05,
+      "loss": 0.3665,
+      "step": 104
+    },
+    {
+      "epoch": 0.09740259740259741,
+      "grad_norm": 5.10760498046875,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.3047,
+      "step": 105
+    },
+    {
+      "epoch": 0.09833024118738404,
+      "grad_norm": 7.445008754730225,
+      "learning_rate": 1.962962962962963e-05,
+      "loss": 0.2991,
+      "step": 106
+    },
+    {
+      "epoch": 0.09925788497217068,
+      "grad_norm": 5.59462833404541,
+      "learning_rate": 1.9814814814814816e-05,
+      "loss": 0.3124,
+      "step": 107
+    },
+    {
+      "epoch": 0.10018552875695733,
+      "grad_norm": 4.407949447631836,
+      "learning_rate": 2e-05,
+      "loss": 0.2371,
+      "step": 108
+    },
+    {
+      "epoch": 0.10111317254174397,
+      "grad_norm": 7.777821063995361,
+      "learning_rate": 1.999994755236596e-05,
+      "loss": 0.4208,
+      "step": 109
+    },
+    {
+      "epoch": 0.10204081632653061,
+      "grad_norm": 9.282930374145508,
+      "learning_rate": 1.999979021001399e-05,
+      "loss": 0.2394,
+      "step": 110
+    },
+    {
+      "epoch": 0.10296846011131726,
+      "grad_norm": 3.985445976257324,
+      "learning_rate": 1.999952797459453e-05,
+      "loss": 0.3059,
+      "step": 111
+    },
+    {
+      "epoch": 0.1038961038961039,
+      "grad_norm": 8.832866668701172,
+      "learning_rate": 1.999916084885832e-05,
+      "loss": 0.2748,
+      "step": 112
+    },
+    {
+      "epoch": 0.10482374768089053,
+      "grad_norm": 3.676673173904419,
+      "learning_rate": 1.9998688836656322e-05,
+      "loss": 0.2271,
+      "step": 113
+    },
+    {
+      "epoch": 0.10575139146567718,
+      "grad_norm": 4.632993698120117,
+      "learning_rate": 1.9998111942939727e-05,
+      "loss": 0.292,
+      "step": 114
+    },
+    {
+      "epoch": 0.10667903525046382,
+      "grad_norm": 4.095834732055664,
+      "learning_rate": 1.9997430173759876e-05,
+      "loss": 0.2222,
+      "step": 115
+    },
+    {
+      "epoch": 0.10760667903525047,
+      "grad_norm": 5.404327392578125,
+      "learning_rate": 1.9996643536268202e-05,
+      "loss": 0.3083,
+      "step": 116
+    },
+    {
+      "epoch": 0.10853432282003711,
+      "grad_norm": 5.261657238006592,
+      "learning_rate": 1.9995752038716166e-05,
+      "loss": 0.2628,
+      "step": 117
+    },
+    {
+      "epoch": 0.10946196660482375,
+      "grad_norm": 5.081439018249512,
+      "learning_rate": 1.9994755690455154e-05,
+      "loss": 0.3403,
+      "step": 118
+    },
+    {
+      "epoch": 0.11038961038961038,
+      "grad_norm": 8.73869800567627,
+      "learning_rate": 1.999365450193638e-05,
+      "loss": 0.2949,
+      "step": 119
+    },
+    {
+      "epoch": 0.11131725417439703,
+      "grad_norm": 6.3659586906433105,
+      "learning_rate": 1.99924484847108e-05,
+      "loss": 0.2925,
+      "step": 120
+    },
+    {
+      "epoch": 0.11131725417439703,
+      "eval_accuracy": 0.8015521064301552,
+      "eval_f1": 0.5095890410958904,
+      "eval_loss": 0.500335693359375,
+      "eval_precision": 0.8303571428571429,
+      "eval_recall": 0.3675889328063241,
+      "eval_runtime": 48.0846,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 0.187,
+      "step": 120
+    },
+    {
+      "epoch": 0.11224489795918367,
+      "grad_norm": 4.58190393447876,
+      "learning_rate": 1.9991137651428957e-05,
+      "loss": 0.2265,
+      "step": 121
+    },
+    {
+      "epoch": 0.11317254174397032,
+      "grad_norm": 5.173889636993408,
+      "learning_rate": 1.998972201584088e-05,
+      "loss": 0.2239,
+      "step": 122
+    },
+    {
+      "epoch": 0.11410018552875696,
+      "grad_norm": 4.783614158630371,
+      "learning_rate": 1.998820159279591e-05,
+      "loss": 0.2998,
+      "step": 123
+    },
+    {
+      "epoch": 0.1150278293135436,
+      "grad_norm": 3.5412709712982178,
+      "learning_rate": 1.9986576398242566e-05,
+      "loss": 0.2021,
+      "step": 124
+    },
+    {
+      "epoch": 0.11595547309833024,
+      "grad_norm": 3.692047119140625,
+      "learning_rate": 1.998484644922837e-05,
+      "loss": 0.2432,
+      "step": 125
+    },
+    {
+      "epoch": 0.11688311688311688,
+      "grad_norm": 2.976855993270874,
+      "learning_rate": 1.9983011763899674e-05,
+      "loss": 0.2703,
+      "step": 126
+    },
+    {
+      "epoch": 0.11781076066790352,
+      "grad_norm": 5.132311820983887,
+      "learning_rate": 1.998107236150145e-05,
+      "loss": 0.3625,
+      "step": 127
+    },
+    {
+      "epoch": 0.11873840445269017,
+      "grad_norm": 5.332205772399902,
+      "learning_rate": 1.997902826237712e-05,
+      "loss": 0.3431,
+      "step": 128
+    },
+    {
+      "epoch": 0.11966604823747681,
+      "grad_norm": 7.54325532913208,
+      "learning_rate": 1.997687948796831e-05,
+      "loss": 0.2762,
+      "step": 129
+    },
+    {
+      "epoch": 0.12059369202226346,
+      "grad_norm": 4.39344596862793,
+      "learning_rate": 1.997462606081465e-05,
+      "loss": 0.2178,
+      "step": 130
+    },
+    {
+      "epoch": 0.12152133580705009,
+      "grad_norm": 4.67897891998291,
+      "learning_rate": 1.997226800455352e-05,
+      "loss": 0.2575,
+      "step": 131
+    },
+    {
+      "epoch": 0.12244897959183673,
+      "grad_norm": 2.7064077854156494,
+      "learning_rate": 1.9969805343919822e-05,
+      "loss": 0.1973,
+      "step": 132
+    },
+    {
+      "epoch": 0.12337662337662338,
+      "grad_norm": 2.841456413269043,
+      "learning_rate": 1.9967238104745695e-05,
+      "loss": 0.186,
+      "step": 133
+    },
+    {
+      "epoch": 0.12430426716141002,
+      "grad_norm": 5.078066349029541,
+      "learning_rate": 1.9964566313960265e-05,
+      "loss": 0.2899,
+      "step": 134
+    },
+    {
+      "epoch": 0.12523191094619665,
+      "grad_norm": 3.5166287422180176,
+      "learning_rate": 1.9961789999589357e-05,
+      "loss": 0.2397,
+      "step": 135
+    },
+    {
+      "epoch": 0.1261595547309833,
+      "grad_norm": 3.0311009883880615,
+      "learning_rate": 1.995890919075519e-05,
+      "loss": 0.2042,
+      "step": 136
+    },
+    {
+      "epoch": 0.12708719851576994,
+      "grad_norm": 4.455051898956299,
+      "learning_rate": 1.995592391767608e-05,
+      "loss": 0.1938,
+      "step": 137
+    },
+    {
+      "epoch": 0.1280148423005566,
+      "grad_norm": 3.05238676071167,
+      "learning_rate": 1.995283421166614e-05,
+      "loss": 0.2134,
+      "step": 138
+    },
+    {
+      "epoch": 0.12894248608534323,
+      "grad_norm": 2.5545527935028076,
+      "learning_rate": 1.994964010513492e-05,
+      "loss": 0.1558,
+      "step": 139
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "grad_norm": 3.169755458831787,
+      "learning_rate": 1.9946341631587086e-05,
+      "loss": 0.1912,
+      "step": 140
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "eval_accuracy": 0.8004434589800443,
+      "eval_f1": 0.5,
+      "eval_loss": 0.45746758580207825,
+      "eval_precision": 0.8411214953271028,
+      "eval_recall": 0.3557312252964427,
+      "eval_runtime": 48.503,
+      "eval_samples_per_second": 5.69,
+      "eval_steps_per_second": 0.186,
+      "step": 140
+    },
+    {
+      "epoch": 0.13079777365491652,
+      "grad_norm": 5.176037788391113,
+      "learning_rate": 1.9942938825622064e-05,
+      "loss": 0.261,
+      "step": 141
+    },
+    {
+      "epoch": 0.13172541743970315,
+      "grad_norm": 4.5571513175964355,
+      "learning_rate": 1.9939431722933678e-05,
+      "loss": 0.1861,
+      "step": 142
+    },
+    {
+      "epoch": 0.1326530612244898,
+      "grad_norm": 4.165744304656982,
+      "learning_rate": 1.993582036030978e-05,
+      "loss": 0.252,
+      "step": 143
+    },
+    {
+      "epoch": 0.13358070500927643,
+      "grad_norm": 3.6084752082824707,
+      "learning_rate": 1.9932104775631847e-05,
+      "loss": 0.2091,
+      "step": 144
+    },
+    {
+      "epoch": 0.1345083487940631,
+      "grad_norm": 5.7025837898254395,
+      "learning_rate": 1.992828500787461e-05,
+      "loss": 0.2875,
+      "step": 145
+    },
+    {
+      "epoch": 0.13543599257884972,
+      "grad_norm": 3.954706907272339,
+      "learning_rate": 1.9924361097105624e-05,
+      "loss": 0.147,
+      "step": 146
+    },
+    {
+      "epoch": 0.13636363636363635,
+      "grad_norm": 3.246682643890381,
+      "learning_rate": 1.992033308448486e-05,
+      "loss": 0.1406,
+      "step": 147
+    },
+    {
+      "epoch": 0.137291280148423,
+      "grad_norm": 7.386576175689697,
+      "learning_rate": 1.9916201012264255e-05,
+      "loss": 0.2637,
+      "step": 148
+    },
+    {
+      "epoch": 0.13821892393320964,
+      "grad_norm": 11.797701835632324,
+      "learning_rate": 1.9911964923787295e-05,
+      "loss": 0.2989,
+      "step": 149
+    },
+    {
+      "epoch": 0.1391465677179963,
+      "grad_norm": 4.424801349639893,
+      "learning_rate": 1.990762486348855e-05,
+      "loss": 0.2059,
+      "step": 150
+    },
+    {
+      "epoch": 0.14007421150278293,
+      "grad_norm": 6.5464582443237305,
+      "learning_rate": 1.9903180876893195e-05,
+      "loss": 0.3335,
+      "step": 151
+    },
+    {
+      "epoch": 0.14100185528756956,
+      "grad_norm": 6.232185363769531,
+      "learning_rate": 1.989863301061654e-05,
+      "loss": 0.1652,
+      "step": 152
+    },
+    {
+      "epoch": 0.14192949907235622,
+      "grad_norm": 7.7785162925720215,
+      "learning_rate": 1.9893981312363563e-05,
+      "loss": 0.3246,
+      "step": 153
+    },
+    {
+      "epoch": 0.14285714285714285,
+      "grad_norm": 4.034485340118408,
+      "learning_rate": 1.9889225830928365e-05,
+      "loss": 0.1639,
+      "step": 154
+    },
+    {
+      "epoch": 0.1437847866419295,
+      "grad_norm": 4.565614223480225,
+      "learning_rate": 1.9884366616193707e-05,
+      "loss": 0.2567,
+      "step": 155
+    },
+    {
+      "epoch": 0.14471243042671614,
+      "grad_norm": 4.671913146972656,
+      "learning_rate": 1.987940371913044e-05,
+      "loss": 0.2956,
+      "step": 156
+    },
+    {
+      "epoch": 0.1456400742115028,
+      "grad_norm": 4.866475582122803,
+      "learning_rate": 1.987433719179702e-05,
+      "loss": 0.1732,
+      "step": 157
+    },
+    {
+      "epoch": 0.14656771799628943,
+      "grad_norm": 7.748964786529541,
+      "learning_rate": 1.9869167087338908e-05,
+      "loss": 0.3068,
+      "step": 158
+    },
+    {
+      "epoch": 0.14749536178107606,
+      "grad_norm": 3.243945837020874,
+      "learning_rate": 1.986389345998806e-05,
+      "loss": 0.2172,
+      "step": 159
+    },
+    {
+      "epoch": 0.14842300556586271,
+      "grad_norm": 2.541400671005249,
+      "learning_rate": 1.9858516365062334e-05,
+      "loss": 0.1991,
+      "step": 160
+    },
+    {
+      "epoch": 0.14842300556586271,
+      "eval_accuracy": 0.811529933481153,
+      "eval_f1": 0.5478723404255319,
+      "eval_loss": 0.4108695983886719,
+      "eval_precision": 0.8373983739837398,
+      "eval_recall": 0.40711462450592883,
+      "eval_runtime": 49.0091,
+      "eval_samples_per_second": 5.632,
+      "eval_steps_per_second": 0.184,
+      "step": 160
+    },
+    {
+      "epoch": 0.14935064935064934,
+      "grad_norm": 3.5915067195892334,
+      "learning_rate": 1.9853035858964907e-05,
+      "loss": 0.2252,
+      "step": 161
+    },
+    {
+      "epoch": 0.150278293135436,
+      "grad_norm": 3.297874927520752,
+      "learning_rate": 1.9847451999183692e-05,
+      "loss": 0.2025,
+      "step": 162
+    },
+    {
+      "epoch": 0.15120593692022263,
+      "grad_norm": 7.80188512802124,
+      "learning_rate": 1.9841764844290744e-05,
+      "loss": 0.3563,
+      "step": 163
+    },
+    {
+      "epoch": 0.15213358070500926,
+      "grad_norm": 4.962357044219971,
+      "learning_rate": 1.9835974453941623e-05,
+      "loss": 0.2331,
+      "step": 164
+    },
+    {
+      "epoch": 0.15306122448979592,
+      "grad_norm": 4.794024467468262,
+      "learning_rate": 1.983008088887478e-05,
+      "loss": 0.2759,
+      "step": 165
+    },
+    {
+      "epoch": 0.15398886827458255,
+      "grad_norm": 5.007259368896484,
+      "learning_rate": 1.9824084210910924e-05,
+      "loss": 0.1732,
+      "step": 166
+    },
+    {
+      "epoch": 0.1549165120593692,
+      "grad_norm": 4.154080390930176,
+      "learning_rate": 1.9817984482952378e-05,
+      "loss": 0.199,
+      "step": 167
+    },
+    {
+      "epoch": 0.15584415584415584,
+      "grad_norm": 5.933828830718994,
+      "learning_rate": 1.9811781768982392e-05,
+      "loss": 0.3237,
+      "step": 168
+    },
+    {
+      "epoch": 0.1567717996289425,
+      "grad_norm": 4.5709943771362305,
+      "learning_rate": 1.980547613406451e-05,
+      "loss": 0.2356,
+      "step": 169
+    },
+    {
+      "epoch": 0.15769944341372913,
+      "grad_norm": 4.232250690460205,
+      "learning_rate": 1.9799067644341844e-05,
+      "loss": 0.2318,
+      "step": 170
+    },
+    {
+      "epoch": 0.15862708719851576,
+      "grad_norm": 5.491664886474609,
+      "learning_rate": 1.9792556367036432e-05,
+      "loss": 0.2551,
+      "step": 171
+    },
+    {
+      "epoch": 0.15955473098330242,
+      "grad_norm": 3.584186315536499,
+      "learning_rate": 1.978594237044849e-05,
+      "loss": 0.1733,
+      "step": 172
+    },
+    {
+      "epoch": 0.16048237476808905,
+      "grad_norm": 2.8872857093811035,
+      "learning_rate": 1.977922572395571e-05,
+      "loss": 0.2076,
+      "step": 173
+    },
+    {
+      "epoch": 0.1614100185528757,
+      "grad_norm": 4.199950695037842,
+      "learning_rate": 1.977240649801253e-05,
+      "loss": 0.2076,
+      "step": 174
+    },
+    {
+      "epoch": 0.16233766233766234,
+      "grad_norm": 3.1421799659729004,
+      "learning_rate": 1.9765484764149413e-05,
+      "loss": 0.2281,
+      "step": 175
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 4.832352638244629,
+      "learning_rate": 1.9758460594972068e-05,
+      "loss": 0.1834,
+      "step": 176
+    },
+    {
+      "epoch": 0.16419294990723562,
+      "grad_norm": 2.8222384452819824,
+      "learning_rate": 1.9751334064160708e-05,
+      "loss": 0.1908,
+      "step": 177
+    },
+    {
+      "epoch": 0.16512059369202226,
+      "grad_norm": 3.1630570888519287,
+      "learning_rate": 1.9744105246469264e-05,
+      "loss": 0.1962,
+      "step": 178
+    },
+    {
+      "epoch": 0.1660482374768089,
+      "grad_norm": 3.811518669128418,
+      "learning_rate": 1.9736774217724614e-05,
+      "loss": 0.1786,
+      "step": 179
+    },
+    {
+      "epoch": 0.16697588126159554,
+      "grad_norm": 4.223273754119873,
+      "learning_rate": 1.9729341054825783e-05,
+      "loss": 0.2153,
+      "step": 180
+    },
+    {
+      "epoch": 0.16697588126159554,
+      "eval_accuracy": 0.8337028824833703,
+      "eval_f1": 0.6268656716417911,
+      "eval_loss": 0.37183114886283875,
+      "eval_precision": 0.8456375838926175,
+      "eval_recall": 0.4980237154150198,
+      "eval_runtime": 48.5694,
+      "eval_samples_per_second": 5.683,
+      "eval_steps_per_second": 0.185,
+      "step": 180
+    },
+    {
+      "epoch": 0.1679035250463822,
+      "grad_norm": 3.9425668716430664,
+      "learning_rate": 1.972180583574313e-05,
+      "loss": 0.1998,
+      "step": 181
+    },
+    {
+      "epoch": 0.16883116883116883,
+      "grad_norm": 5.5068840980529785,
+      "learning_rate": 1.9714168639517543e-05,
+      "loss": 0.2466,
+      "step": 182
+    },
+    {
+      "epoch": 0.16975881261595546,
+      "grad_norm": 6.162604808807373,
+      "learning_rate": 1.9706429546259592e-05,
+      "loss": 0.163,
+      "step": 183
+    },
+    {
+      "epoch": 0.17068645640074212,
+      "grad_norm": 5.026734828948975,
+      "learning_rate": 1.9698588637148705e-05,
+      "loss": 0.275,
+      "step": 184
+    },
+    {
+      "epoch": 0.17161410018552875,
+      "grad_norm": 6.298387050628662,
+      "learning_rate": 1.9690645994432307e-05,
+      "loss": 0.1692,
+      "step": 185
+    },
+    {
+      "epoch": 0.1725417439703154,
+      "grad_norm": 5.307831287384033,
+      "learning_rate": 1.9682601701424958e-05,
+      "loss": 0.2499,
+      "step": 186
+    },
+    {
+      "epoch": 0.17346938775510204,
+      "grad_norm": 6.9988203048706055,
+      "learning_rate": 1.9674455842507494e-05,
+      "loss": 0.2434,
+      "step": 187
+    },
+    {
+      "epoch": 0.17439703153988867,
+      "grad_norm": 4.128062725067139,
+      "learning_rate": 1.9666208503126115e-05,
+      "loss": 0.1976,
+      "step": 188
+    },
+    {
+      "epoch": 0.17532467532467533,
+      "grad_norm": 3.3845396041870117,
+      "learning_rate": 1.9657859769791506e-05,
+      "loss": 0.1355,
+      "step": 189
+    },
+    {
+      "epoch": 0.17625231910946196,
+      "grad_norm": 3.59576416015625,
+      "learning_rate": 1.9649409730077934e-05,
+      "loss": 0.2027,
+      "step": 190
+    },
+    {
+      "epoch": 0.17717996289424862,
+      "grad_norm": 3.110616683959961,
+      "learning_rate": 1.9640858472622316e-05,
+      "loss": 0.2039,
+      "step": 191
+    },
+    {
+      "epoch": 0.17810760667903525,
+      "grad_norm": 3.8708298206329346,
+      "learning_rate": 1.9632206087123296e-05,
+      "loss": 0.2163,
+      "step": 192
+    },
+    {
+      "epoch": 0.1790352504638219,
+      "grad_norm": 5.087402820587158,
+      "learning_rate": 1.9623452664340305e-05,
+      "loss": 0.2631,
+      "step": 193
+    },
+    {
+      "epoch": 0.17996289424860853,
+      "grad_norm": 3.7053322792053223,
+      "learning_rate": 1.9614598296092603e-05,
+      "loss": 0.2034,
+      "step": 194
+    },
+    {
+      "epoch": 0.18089053803339517,
+      "grad_norm": 4.846376419067383,
+      "learning_rate": 1.9605643075258323e-05,
+      "loss": 0.2071,
+      "step": 195
+    },
+    {
+      "epoch": 0.18181818181818182,
+      "grad_norm": 3.7219040393829346,
+      "learning_rate": 1.9596587095773496e-05,
+      "loss": 0.2516,
+      "step": 196
+    },
+    {
+      "epoch": 0.18274582560296845,
+      "grad_norm": 5.604904651641846,
+      "learning_rate": 1.958743045263106e-05,
+      "loss": 0.2076,
+      "step": 197
+    },
+    {
+      "epoch": 0.1836734693877551,
+      "grad_norm": 2.9652745723724365,
+      "learning_rate": 1.957817324187987e-05,
+      "loss": 0.1752,
+      "step": 198
+    },
+    {
+      "epoch": 0.18460111317254174,
+      "grad_norm": 4.468489646911621,
+      "learning_rate": 1.956881556062369e-05,
+      "loss": 0.2177,
+      "step": 199
+    },
+    {
+      "epoch": 0.18552875695732837,
+      "grad_norm": 4.231448173522949,
+      "learning_rate": 1.9559357507020163e-05,
+      "loss": 0.1638,
+      "step": 200
+    },
+    {
+      "epoch": 0.18552875695732837,
+      "eval_accuracy": 0.8237250554323725,
+      "eval_f1": 0.5826771653543307,
+      "eval_loss": 0.36573752760887146,
+      "eval_precision": 0.8671875,
+      "eval_recall": 0.43873517786561267,
+      "eval_runtime": 49.5575,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.182,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.403110712901632e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null