Training in progress, step 6400, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b28a8c69423684ee4c64da8962a7bfc59ba0c98b1b135f97d468efb2d682b7f3
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da094bb58aa315c0dbf65d109a4451df66be453e2431cf1a0c4ecdd9ceebd97
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:256356e5f5f129661266fd2ec5986d64e8a618f50386558442d8fd5e211f9d75
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:96e263ebb8f2a41872ded496e1dc52ad7720376bb634867f9591a3794ab7d3a1
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4400418753cdae533886a325d8574dc0fd9e84c371d8423f3b0575671aff9b5
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:344a82b08f46e3470679d0297ce3f97fd02b801ccee0da6f53e77cf6d7ea9808
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6d0003531b8a67ee8629b1863a22b3c8772704ff5ae56a9428b25b3f9af27ca
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e62e952e34e8732a682ff9a8aa0dfece0ec8b2415897d03feab5a9570104b06d
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d59b6204db24eaafdf19a89c40f08932737a129af907b8fa01e86a38e864b7b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:948187477401863aff3f049c3c44b0abdb0be5c10934fb97375600a1ce977bb0
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a488e42a6c1233774282544efdbb895b44374f17a7953d74ea138b797268fdd1
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:25236c04c8f8da3260ea3459f91081dcddc5d5ea2cbe8eabd6054cce06f92faa
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a157099efd1a2813560e813b422c6d600f68c33a2bb205d7f3a61370a041b79
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:640b6e661958d243cae1ea127f269a99af317657fa786eb7dc174d158d645b7d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd7f94bcc3a523e515db8e62f1b61f8f766e6f97044ede3fb1d022d6fec18097
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1f1752f740240735a873bcf35d461dfe262e32638d88fc837774925e8080436
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f80073c48585f31ea8d8b021958a20a34c2dfc7e8e8ec02b7ace68d8369bd89d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d98bdde773257c04b20ce747461dedaea858963e3b0ee34044400ab89897a43
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3b6324078ae2ab8d58a5fe3558de31400b69d699a72fa9072c4fd896d7f841
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:8504bbd2ddff94c982c1681f6db902504da78219fcef7f6818b65d415605b80c
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeb00a30bd3348fef7fa7a0dc88bf9a7a5a32f4484761a26220beef20b2e2ee5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:196065f493df1d03858eb23e309a1135c0371a98a32ac2a517518646388ed9cf
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95a2a891e4d47fc182ed74e57aef0f749cc61efcda057957b66e209db024a9f5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7fed0b4c620538bfc967033b7c4ab483c5214d361a87603ce37022eafee14fa
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f98eaae48265d25e6b8b613f21a112d74712c3c7822c1f5228bd295d2e702437
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:60228bdd3999ee852e9677ac091321938441c1f39b0d501df20ea306992b3f39
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9295462928808558,
   "eval_steps": 20,
-  "global_step": 6300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -47899,6 +47899,766 @@
       "eval_samples_per_second": 5.799,
       "eval_steps_per_second": 0.199,
       "step": 6300
     }
   ],
   "logging_steps": 1,
@@ -47918,7 +48678,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9408628309913764e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9443009959424566,
   "eval_steps": 20,
+  "global_step": 6400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.799,
       "eval_steps_per_second": 0.199,
       "step": 6300
+    },
+    {
+      "epoch": 0.9296938399114718,
+      "grad_norm": 3.9481570720672607,
+      "learning_rate": 2.990815310757078e-07,
+      "loss": 0.0607,
+      "step": 6301
+    },
+    {
+      "epoch": 0.9298413869420878,
+      "grad_norm": 3.901336908340454,
+      "learning_rate": 2.978324747844996e-07,
+      "loss": 0.0626,
+      "step": 6302
+    },
+    {
+      "epoch": 0.9299889339727038,
+      "grad_norm": 1.755456566810608,
+      "learning_rate": 2.9658599274635435e-07,
+      "loss": 0.0784,
+      "step": 6303
+    },
+    {
+      "epoch": 0.9301364810033198,
+      "grad_norm": 1.976046085357666,
+      "learning_rate": 2.953420852919997e-07,
+      "loss": 0.0357,
+      "step": 6304
+    },
+    {
+      "epoch": 0.9302840280339358,
+      "grad_norm": 1.2929192781448364,
+      "learning_rate": 2.941007527514772e-07,
+      "loss": 0.0359,
+      "step": 6305
+    },
+    {
+      "epoch": 0.9304315750645519,
+      "grad_norm": 4.491754531860352,
+      "learning_rate": 2.9286199545414675e-07,
+      "loss": 0.0641,
+      "step": 6306
+    },
+    {
+      "epoch": 0.9305791220951678,
+      "grad_norm": 2.579371690750122,
+      "learning_rate": 2.916258137286876e-07,
+      "loss": 0.0456,
+      "step": 6307
+    },
+    {
+      "epoch": 0.9307266691257838,
+      "grad_norm": 3.1688661575317383,
+      "learning_rate": 2.9039220790308965e-07,
+      "loss": 0.0636,
+      "step": 6308
+    },
+    {
+      "epoch": 0.9308742161563999,
+      "grad_norm": 1.6486138105392456,
+      "learning_rate": 2.8916117830466215e-07,
+      "loss": 0.0534,
+      "step": 6309
+    },
+    {
+      "epoch": 0.9310217631870159,
+      "grad_norm": 1.5931568145751953,
+      "learning_rate": 2.8793272526003504e-07,
+      "loss": 0.0462,
+      "step": 6310
+    },
+    {
+      "epoch": 0.9311693102176318,
+      "grad_norm": 2.7471938133239746,
+      "learning_rate": 2.8670684909514854e-07,
+      "loss": 0.0801,
+      "step": 6311
+    },
+    {
+      "epoch": 0.9313168572482479,
+      "grad_norm": 2.7132720947265625,
+      "learning_rate": 2.854835501352615e-07,
+      "loss": 0.0797,
+      "step": 6312
+    },
+    {
+      "epoch": 0.9314644042788639,
+      "grad_norm": 2.3825271129608154,
+      "learning_rate": 2.842628287049498e-07,
+      "loss": 0.0573,
+      "step": 6313
+    },
+    {
+      "epoch": 0.9316119513094799,
+      "grad_norm": 4.8826680183410645,
+      "learning_rate": 2.830446851281021e-07,
+      "loss": 0.0617,
+      "step": 6314
+    },
+    {
+      "epoch": 0.9317594983400959,
+      "grad_norm": 1.6326963901519775,
+      "learning_rate": 2.818291197279277e-07,
+      "loss": 0.0433,
+      "step": 6315
+    },
+    {
+      "epoch": 0.9319070453707119,
+      "grad_norm": 4.223081588745117,
+      "learning_rate": 2.806161328269508e-07,
+      "loss": 0.0342,
+      "step": 6316
+    },
+    {
+      "epoch": 0.9320545924013279,
+      "grad_norm": 1.6812433004379272,
+      "learning_rate": 2.7940572474700724e-07,
+      "loss": 0.0363,
+      "step": 6317
+    },
+    {
+      "epoch": 0.932202139431944,
+      "grad_norm": 1.4430614709854126,
+      "learning_rate": 2.781978958092535e-07,
+      "loss": 0.0376,
+      "step": 6318
+    },
+    {
+      "epoch": 0.9323496864625599,
+      "grad_norm": 1.3855177164077759,
+      "learning_rate": 2.769926463341599e-07,
+      "loss": 0.0322,
+      "step": 6319
+    },
+    {
+      "epoch": 0.9324972334931759,
+      "grad_norm": 0.8598216772079468,
+      "learning_rate": 2.7578997664151176e-07,
+      "loss": 0.0238,
+      "step": 6320
+    },
+    {
+      "epoch": 0.9324972334931759,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05572595074772835,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.1318,
+      "eval_samples_per_second": 5.923,
+      "eval_steps_per_second": 0.204,
+      "step": 6320
+    },
+    {
+      "epoch": 0.932644780523792,
+      "grad_norm": 2.7048840522766113,
+      "learning_rate": 2.745898870504116e-07,
+      "loss": 0.1049,
+      "step": 6321
+    },
+    {
+      "epoch": 0.932792327554408,
+      "grad_norm": 3.241443634033203,
+      "learning_rate": 2.733923778792769e-07,
+      "loss": 0.119,
+      "step": 6322
+    },
+    {
+      "epoch": 0.932939874585024,
+      "grad_norm": 3.209383249282837,
+      "learning_rate": 2.721974494458368e-07,
+      "loss": 0.0777,
+      "step": 6323
+    },
+    {
+      "epoch": 0.93308742161564,
+      "grad_norm": 3.865638494491577,
+      "learning_rate": 2.7100510206714225e-07,
+      "loss": 0.0896,
+      "step": 6324
+    },
+    {
+      "epoch": 0.933234968646256,
+      "grad_norm": 3.3464627265930176,
+      "learning_rate": 2.6981533605955455e-07,
+      "loss": 0.046,
+      "step": 6325
+    },
+    {
+      "epoch": 0.933382515676872,
+      "grad_norm": 1.673051118850708,
+      "learning_rate": 2.686281517387501e-07,
+      "loss": 0.058,
+      "step": 6326
+    },
+    {
+      "epoch": 0.9335300627074881,
+      "grad_norm": 1.3582005500793457,
+      "learning_rate": 2.674435494197247e-07,
+      "loss": 0.023,
+      "step": 6327
+    },
+    {
+      "epoch": 0.933677609738104,
+      "grad_norm": 1.89664626121521,
+      "learning_rate": 2.662615294167836e-07,
+      "loss": 0.0617,
+      "step": 6328
+    },
+    {
+      "epoch": 0.93382515676872,
+      "grad_norm": 1.3908201456069946,
+      "learning_rate": 2.650820920435493e-07,
+      "loss": 0.0196,
+      "step": 6329
+    },
+    {
+      "epoch": 0.9339727037993361,
+      "grad_norm": 1.5495145320892334,
+      "learning_rate": 2.639052376129614e-07,
+      "loss": 0.0203,
+      "step": 6330
+    },
+    {
+      "epoch": 0.9341202508299521,
+      "grad_norm": 4.128423690795898,
+      "learning_rate": 2.6273096643727015e-07,
+      "loss": 0.0518,
+      "step": 6331
+    },
+    {
+      "epoch": 0.934267797860568,
+      "grad_norm": 1.1344972848892212,
+      "learning_rate": 2.61559278828043e-07,
+      "loss": 0.0158,
+      "step": 6332
+    },
+    {
+      "epoch": 0.934415344891184,
+      "grad_norm": 3.8028311729431152,
+      "learning_rate": 2.603901750961602e-07,
+      "loss": 0.0839,
+      "step": 6333
+    },
+    {
+      "epoch": 0.9345628919218001,
+      "grad_norm": 1.9522721767425537,
+      "learning_rate": 2.5922365555181686e-07,
+      "loss": 0.0402,
+      "step": 6334
+    },
+    {
+      "epoch": 0.9347104389524161,
+      "grad_norm": 2.5471351146698,
+      "learning_rate": 2.5805972050452434e-07,
+      "loss": 0.0524,
+      "step": 6335
+    },
+    {
+      "epoch": 0.934857985983032,
+      "grad_norm": 6.653663158416748,
+      "learning_rate": 2.568983702631067e-07,
+      "loss": 0.1402,
+      "step": 6336
+    },
+    {
+      "epoch": 0.9350055330136481,
+      "grad_norm": 0.4973243176937103,
+      "learning_rate": 2.5573960513570085e-07,
+      "loss": 0.0042,
+      "step": 6337
+    },
+    {
+      "epoch": 0.9351530800442641,
+      "grad_norm": 2.1447861194610596,
+      "learning_rate": 2.5458342542975855e-07,
+      "loss": 0.0523,
+      "step": 6338
+    },
+    {
+      "epoch": 0.9353006270748802,
+      "grad_norm": 2.394932985305786,
+      "learning_rate": 2.5342983145205003e-07,
+      "loss": 0.0951,
+      "step": 6339
+    },
+    {
+      "epoch": 0.9354481741054961,
+      "grad_norm": 3.6239054203033447,
+      "learning_rate": 2.5227882350865154e-07,
+      "loss": 0.0703,
+      "step": 6340
+    },
+    {
+      "epoch": 0.9354481741054961,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05495457723736763,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.8024,
+      "eval_samples_per_second": 5.963,
+      "eval_steps_per_second": 0.205,
+      "step": 6340
+    },
+    {
+      "epoch": 0.9355957211361121,
+      "grad_norm": 1.973219394683838,
+      "learning_rate": 2.5113040190495986e-07,
+      "loss": 0.0354,
+      "step": 6341
+    },
+    {
+      "epoch": 0.9357432681667281,
+      "grad_norm": 4.711592674255371,
+      "learning_rate": 2.4998456694568016e-07,
+      "loss": 0.0819,
+      "step": 6342
+    },
+    {
+      "epoch": 0.9358908151973442,
+      "grad_norm": 1.5042883157730103,
+      "learning_rate": 2.488413189348371e-07,
+      "loss": 0.0336,
+      "step": 6343
+    },
+    {
+      "epoch": 0.9360383622279601,
+      "grad_norm": 3.2596170902252197,
+      "learning_rate": 2.477006581757657e-07,
+      "loss": 0.0782,
+      "step": 6344
+    },
+    {
+      "epoch": 0.9361859092585761,
+      "grad_norm": 3.104275703430176,
+      "learning_rate": 2.4656258497111285e-07,
+      "loss": 0.0566,
+      "step": 6345
+    },
+    {
+      "epoch": 0.9363334562891922,
+      "grad_norm": 1.263534426689148,
+      "learning_rate": 2.454270996228425e-07,
+      "loss": 0.0165,
+      "step": 6346
+    },
+    {
+      "epoch": 0.9364810033198082,
+      "grad_norm": 1.779310941696167,
+      "learning_rate": 2.4429420243222924e-07,
+      "loss": 0.0441,
+      "step": 6347
+    },
+    {
+      "epoch": 0.9366285503504242,
+      "grad_norm": 2.7920477390289307,
+      "learning_rate": 2.431638936998615e-07,
+      "loss": 0.0906,
+      "step": 6348
+    },
+    {
+      "epoch": 0.9367760973810402,
+      "grad_norm": 3.6723668575286865,
+      "learning_rate": 2.420361737256438e-07,
+      "loss": 0.0574,
+      "step": 6349
+    },
+    {
+      "epoch": 0.9369236444116562,
+      "grad_norm": 1.9342572689056396,
+      "learning_rate": 2.4091104280878906e-07,
+      "loss": 0.0695,
+      "step": 6350
+    },
+    {
+      "epoch": 0.9370711914422722,
+      "grad_norm": 1.4174875020980835,
+      "learning_rate": 2.3978850124782736e-07,
+      "loss": 0.023,
+      "step": 6351
+    },
+    {
+      "epoch": 0.9372187384728883,
+      "grad_norm": 4.9079389572143555,
+      "learning_rate": 2.3866854934059823e-07,
+      "loss": 0.0569,
+      "step": 6352
+    },
+    {
+      "epoch": 0.9373662855035042,
+      "grad_norm": 1.6540197134017944,
+      "learning_rate": 2.375511873842562e-07,
+      "loss": 0.0381,
+      "step": 6353
+    },
+    {
+      "epoch": 0.9375138325341202,
+      "grad_norm": 4.948291301727295,
+      "learning_rate": 2.3643641567526966e-07,
+      "loss": 0.0529,
+      "step": 6354
+    },
+    {
+      "epoch": 0.9376613795647363,
+      "grad_norm": 2.5287394523620605,
+      "learning_rate": 2.3532423450941755e-07,
+      "loss": 0.1042,
+      "step": 6355
+    },
+    {
+      "epoch": 0.9378089265953523,
+      "grad_norm": 2.72228741645813,
+      "learning_rate": 2.3421464418179163e-07,
+      "loss": 0.0786,
+      "step": 6356
+    },
+    {
+      "epoch": 0.9379564736259682,
+      "grad_norm": 0.9982196092605591,
+      "learning_rate": 2.331076449867975e-07,
+      "loss": 0.0208,
+      "step": 6357
+    },
+    {
+      "epoch": 0.9381040206565843,
+      "grad_norm": 2.173036575317383,
+      "learning_rate": 2.3200323721815244e-07,
+      "loss": 0.0312,
+      "step": 6358
+    },
+    {
+      "epoch": 0.9382515676872003,
+      "grad_norm": 2.706411123275757,
+      "learning_rate": 2.309014211688865e-07,
+      "loss": 0.0505,
+      "step": 6359
+    },
+    {
+      "epoch": 0.9383991147178163,
+      "grad_norm": 2.960676908493042,
+      "learning_rate": 2.2980219713134133e-07,
+      "loss": 0.0772,
+      "step": 6360
+    },
+    {
+      "epoch": 0.9383991147178163,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.055578552186489105,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.2114,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 0.203,
+      "step": 6360
+    },
+    {
+      "epoch": 0.9385466617484323,
+      "grad_norm": 2.327997922897339,
+      "learning_rate": 2.2870556539717258e-07,
+      "loss": 0.0591,
+      "step": 6361
+    },
+    {
+      "epoch": 0.9386942087790483,
+      "grad_norm": 1.6461297273635864,
+      "learning_rate": 2.2761152625734527e-07,
+      "loss": 0.0382,
+      "step": 6362
+    },
+    {
+      "epoch": 0.9388417558096643,
+      "grad_norm": 1.021716594696045,
+      "learning_rate": 2.2652008000214055e-07,
+      "loss": 0.0326,
+      "step": 6363
+    },
+    {
+      "epoch": 0.9389893028402804,
+      "grad_norm": 1.242136001586914,
+      "learning_rate": 2.2543122692114672e-07,
+      "loss": 0.0328,
+      "step": 6364
+    },
+    {
+      "epoch": 0.9391368498708963,
+      "grad_norm": 1.448472499847412,
+      "learning_rate": 2.2434496730326937e-07,
+      "loss": 0.0381,
+      "step": 6365
+    },
+    {
+      "epoch": 0.9392843969015123,
+      "grad_norm": 3.8739380836486816,
+      "learning_rate": 2.2326130143671908e-07,
+      "loss": 0.046,
+      "step": 6366
+    },
+    {
+      "epoch": 0.9394319439321284,
+      "grad_norm": 2.4928221702575684,
+      "learning_rate": 2.2218022960902696e-07,
+      "loss": 0.0498,
+      "step": 6367
+    },
+    {
+      "epoch": 0.9395794909627444,
+      "grad_norm": 2.8968076705932617,
+      "learning_rate": 2.21101752107028e-07,
+      "loss": 0.0644,
+      "step": 6368
+    },
+    {
+      "epoch": 0.9397270379933604,
+      "grad_norm": 3.011594295501709,
+      "learning_rate": 2.200258692168744e-07,
+      "loss": 0.1531,
+      "step": 6369
+    },
+    {
+      "epoch": 0.9398745850239764,
+      "grad_norm": 1.3657293319702148,
+      "learning_rate": 2.1895258122402563e-07,
+      "loss": 0.0265,
+      "step": 6370
+    },
+    {
+      "epoch": 0.9400221320545924,
+      "grad_norm": 1.2389910221099854,
+      "learning_rate": 2.1788188841325497e-07,
+      "loss": 0.0218,
+      "step": 6371
+    },
+    {
+      "epoch": 0.9401696790852084,
+      "grad_norm": 8.222478866577148,
+      "learning_rate": 2.1681379106864853e-07,
+      "loss": 0.0657,
+      "step": 6372
+    },
+    {
+      "epoch": 0.9403172261158245,
+      "grad_norm": 2.385483980178833,
+      "learning_rate": 2.157482894735996e-07,
+      "loss": 0.016,
+      "step": 6373
+    },
+    {
+      "epoch": 0.9404647731464404,
+      "grad_norm": 2.611680507659912,
+      "learning_rate": 2.146853839108165e-07,
+      "loss": 0.0888,
+      "step": 6374
+    },
+    {
+      "epoch": 0.9406123201770564,
+      "grad_norm": 3.23009991645813,
+      "learning_rate": 2.1362507466231808e-07,
+      "loss": 0.0801,
+      "step": 6375
+    },
+    {
+      "epoch": 0.9407598672076725,
+      "grad_norm": 0.6852890849113464,
+      "learning_rate": 2.1256736200943152e-07,
+      "loss": 0.0077,
+      "step": 6376
+    },
+    {
+      "epoch": 0.9409074142382885,
+      "grad_norm": 0.5792398452758789,
+      "learning_rate": 2.1151224623280008e-07,
+      "loss": 0.0139,
+      "step": 6377
+    },
+    {
+      "epoch": 0.9410549612689044,
+      "grad_norm": 1.1180408000946045,
+      "learning_rate": 2.104597276123721e-07,
+      "loss": 0.0198,
+      "step": 6378
+    },
+    {
+      "epoch": 0.9412025082995205,
+      "grad_norm": 2.6714653968811035,
+      "learning_rate": 2.0940980642741304e-07,
+      "loss": 0.0531,
+      "step": 6379
+    },
+    {
+      "epoch": 0.9413500553301365,
+      "grad_norm": 4.037075519561768,
+      "learning_rate": 2.0836248295649342e-07,
+      "loss": 0.0697,
+      "step": 6380
+    },
+    {
+      "epoch": 0.9413500553301365,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05569841340184212,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.1432,
+      "eval_samples_per_second": 5.921,
+      "eval_steps_per_second": 0.203,
+      "step": 6380
+    },
+    {
+      "epoch": 0.9414976023607525,
+      "grad_norm": 1.3099905252456665,
+      "learning_rate": 2.0731775747749761e-07,
+      "loss": 0.0283,
+      "step": 6381
+    },
+    {
+      "epoch": 0.9416451493913685,
+      "grad_norm": 3.0591821670532227,
+      "learning_rate": 2.0627563026762053e-07,
+      "loss": 0.0455,
+      "step": 6382
+    },
+    {
+      "epoch": 0.9417926964219845,
+      "grad_norm": 1.2957801818847656,
+      "learning_rate": 2.0523610160336883e-07,
+      "loss": 0.0367,
+      "step": 6383
+    },
+    {
+      "epoch": 0.9419402434526005,
+      "grad_norm": 4.634521007537842,
+      "learning_rate": 2.0419917176055514e-07,
+      "loss": 0.05,
+      "step": 6384
+    },
+    {
+      "epoch": 0.9420877904832166,
+      "grad_norm": 2.9300975799560547,
+      "learning_rate": 2.0316484101430722e-07,
+      "loss": 0.0338,
+      "step": 6385
+    },
+    {
+      "epoch": 0.9422353375138325,
+      "grad_norm": 2.606213092803955,
+      "learning_rate": 2.021331096390622e-07,
+      "loss": 0.0643,
+      "step": 6386
+    },
+    {
+      "epoch": 0.9423828845444485,
+      "grad_norm": 0.7693409323692322,
+      "learning_rate": 2.0110397790856552e-07,
+      "loss": 0.0224,
+      "step": 6387
+    },
+    {
+      "epoch": 0.9425304315750646,
+      "grad_norm": 3.6793739795684814,
+      "learning_rate": 2.0007744609587542e-07,
+      "loss": 0.0514,
+      "step": 6388
+    },
+    {
+      "epoch": 0.9426779786056806,
+      "grad_norm": 1.294873595237732,
+      "learning_rate": 1.9905351447335742e-07,
+      "loss": 0.0233,
+      "step": 6389
+    },
+    {
+      "epoch": 0.9428255256362966,
+      "grad_norm": 1.8262622356414795,
+      "learning_rate": 1.980321833126908e-07,
+      "loss": 0.075,
+      "step": 6390
+    },
+    {
+      "epoch": 0.9429730726669125,
+      "grad_norm": 2.2138702869415283,
+      "learning_rate": 1.9701345288486328e-07,
+      "loss": 0.0569,
+      "step": 6391
+    },
+    {
+      "epoch": 0.9431206196975286,
+      "grad_norm": 1.8159193992614746,
+      "learning_rate": 1.9599732346016974e-07,
+      "loss": 0.0345,
+      "step": 6392
+    },
+    {
+      "epoch": 0.9432681667281446,
+      "grad_norm": 3.349161386489868,
+      "learning_rate": 1.949837953082201e-07,
+      "loss": 0.1248,
+      "step": 6393
+    },
+    {
+      "epoch": 0.9434157137587607,
+      "grad_norm": 1.3875066041946411,
+      "learning_rate": 1.939728686979292e-07,
+      "loss": 0.012,
+      "step": 6394
+    },
+    {
+      "epoch": 0.9435632607893766,
+      "grad_norm": 1.954710602760315,
+      "learning_rate": 1.9296454389752362e-07,
+      "loss": 0.0378,
+      "step": 6395
+    },
+    {
+      "epoch": 0.9437108078199926,
+      "grad_norm": 3.135584592819214,
+      "learning_rate": 1.9195882117454267e-07,
+      "loss": 0.1147,
+      "step": 6396
+    },
+    {
+      "epoch": 0.9438583548506086,
+      "grad_norm": 2.1549274921417236,
+      "learning_rate": 1.909557007958307e-07,
+      "loss": 0.0458,
+      "step": 6397
+    },
+    {
+      "epoch": 0.9440059018812247,
+      "grad_norm": 3.548346519470215,
+      "learning_rate": 1.8995518302754145e-07,
+      "loss": 0.0478,
+      "step": 6398
+    },
+    {
+      "epoch": 0.9441534489118406,
+      "grad_norm": 1.0740330219268799,
+      "learning_rate": 1.8895726813514258e-07,
+      "loss": 0.0244,
+      "step": 6399
+    },
+    {
+      "epoch": 0.9443009959424566,
+      "grad_norm": 3.005735397338867,
+      "learning_rate": 1.8796195638340676e-07,
+      "loss": 0.0446,
+      "step": 6400
+    },
+    {
+      "epoch": 0.9443009959424566,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05581614002585411,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.0804,
+      "eval_samples_per_second": 5.929,
+      "eval_steps_per_second": 0.204,
+      "step": 6400
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9720278275952476e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null