Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2b93ad52642a85b05dfeb12298d5fc96031e28deca183e4c2c08dee55390519
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bdd41feecab147e3702fc9a09ae4f3759d0fd2eaf5075a4794809ea853b57dd
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2efb917810cc2f95e9f9ce9dbedd055ab564155034f3abefbe6e2c2aba3ca26d
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f2060b9ac678bc735c6aa21c657746c6a3eb4a708a65a556806c9e6a69997c6
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1074fb3e5da840427a8c2bea51f33775455c187a3952a36a214f784d7d2276f
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebff2e905977f2cd428ca1b24f49468350b74d9cb1dcc0461fc80243ceab581f
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:125e0693505ee7832ee7ccc24457433cbae25876a3094529f034b3e75b927697
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:49631406cb95eb8f8daf261c6428aa3afdceb3aad5aba318de0a43ed481d41ef
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a160bd7b9e08e738f42a7a457989e3c22a3b5edc1387393e647818565d70087c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a376864c68cd8140d4a8c8d1313d2085fad00b426c9d7c50f67377d9024c806b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecc75e35548f117f565dab4461f84d0eafe694b50abee164ab9bef5eab3b4ee4
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9094a7c70774e5fb0f079bf19e64d3aeedab732ea28f3fdbd261beb1471e797d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ae5b867cd013595180bd2ccabeca150c9cfa9878165ccfecdfd9293bc574562
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:91267c676fe033603ed303ba35beb8e62450b6e31dad2048d004a26b33530e19
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a70ec7443f662da848c4b8210fe462d74b2d7a68b35699dc79e5bd86cb1eae2
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3945204a1afc847a21741b668c19c312b7ccf92d58c6fff63a70c9d4b3319dfb
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c76de5da5afcc5abc533d34acaa4a5f75726ae0dddef8d03dce20b4b0bb16b26
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:076df3ee78299c9288fa283b2488d4715dfacbcac9821b1d2a66d28531d8f15a
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe6768c650c318d7513b359980365700ed7262b73426a2846102802665f07202
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b361c84c477f7c6235201218f1bc29b4f72aab9464107d1a89dee126263148f
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:984877f9215c7cb40eee3a9c80335cc677560aa6c451b66bba02e1f3bd6a640f
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9e69d08de85b535829406b9c04296fe936a0eae9bdb9304ab3a2b07dbf3dab6
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61f55f74596ac7956ac8ae93c9417eb4717b8e1452599a0c994329e13b642c3c
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:de91bcd34728c2f7b26ffa826160ccbb9c4c2a7079f6d8d402251e4d4d317506
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:976dc23b255118d6686ca07b5635c96d50eb321a91532eac8dd124ba2740fad5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:60135211e354b13f48a59683d9bc3cfc0bb1db62799fa50234aa03cb59f58850
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.423728813559322,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.6,
       "eval_steps_per_second": 0.192,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5414191977188557e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5084745762711864,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.6,
       "eval_steps_per_second": 0.192,
       "step": 500
+    },
+    {
+      "epoch": 0.4245762711864407,
+      "grad_norm": 3.1827445030212402,
+      "learning_rate": 1.4239583120967125e-05,
+      "loss": 0.0485,
+      "step": 501
+    },
+    {
+      "epoch": 0.42542372881355933,
+      "grad_norm": 1.7482115030288696,
+      "learning_rate": 1.4212772868165957e-05,
+      "loss": 0.0151,
+      "step": 502
+    },
+    {
+      "epoch": 0.42627118644067796,
+      "grad_norm": 1.0564489364624023,
+      "learning_rate": 1.418592575000813e-05,
+      "loss": 0.007,
+      "step": 503
+    },
+    {
+      "epoch": 0.4271186440677966,
+      "grad_norm": 1.7804484367370605,
+      "learning_rate": 1.4159042001428827e-05,
+      "loss": 0.0103,
+      "step": 504
+    },
+    {
+      "epoch": 0.4279661016949153,
+      "grad_norm": 0.9321497082710266,
+      "learning_rate": 1.4132121857683782e-05,
+      "loss": 0.0152,
+      "step": 505
+    },
+    {
+      "epoch": 0.4288135593220339,
+      "grad_norm": 0.712197482585907,
+      "learning_rate": 1.4105165554347227e-05,
+      "loss": 0.0035,
+      "step": 506
+    },
+    {
+      "epoch": 0.42966101694915254,
+      "grad_norm": 0.5874913930892944,
+      "learning_rate": 1.4078173327309807e-05,
+      "loss": 0.0045,
+      "step": 507
+    },
+    {
+      "epoch": 0.43050847457627117,
+      "grad_norm": 1.6754646301269531,
+      "learning_rate": 1.4051145412776536e-05,
+      "loss": 0.0134,
+      "step": 508
+    },
+    {
+      "epoch": 0.43135593220338986,
+      "grad_norm": 0.6901799440383911,
+      "learning_rate": 1.4024082047264729e-05,
+      "loss": 0.0049,
+      "step": 509
+    },
+    {
+      "epoch": 0.4322033898305085,
+      "grad_norm": 1.6095439195632935,
+      "learning_rate": 1.3996983467601921e-05,
+      "loss": 0.0113,
+      "step": 510
+    },
+    {
+      "epoch": 0.4330508474576271,
+      "grad_norm": 2.4264211654663086,
+      "learning_rate": 1.3969849910923803e-05,
+      "loss": 0.0281,
+      "step": 511
+    },
+    {
+      "epoch": 0.43389830508474575,
+      "grad_norm": 0.8501647114753723,
+      "learning_rate": 1.3942681614672144e-05,
+      "loss": 0.0042,
+      "step": 512
+    },
+    {
+      "epoch": 0.4347457627118644,
+      "grad_norm": 1.2504135370254517,
+      "learning_rate": 1.3915478816592715e-05,
+      "loss": 0.0069,
+      "step": 513
+    },
+    {
+      "epoch": 0.43559322033898307,
+      "grad_norm": 0.24446320533752441,
+      "learning_rate": 1.388824175473321e-05,
+      "loss": 0.0013,
+      "step": 514
+    },
+    {
+      "epoch": 0.4364406779661017,
+      "grad_norm": 2.65307354927063,
+      "learning_rate": 1.3860970667441147e-05,
+      "loss": 0.0194,
+      "step": 515
+    },
+    {
+      "epoch": 0.43728813559322033,
+      "grad_norm": 1.6779959201812744,
+      "learning_rate": 1.3833665793361816e-05,
+      "loss": 0.0159,
+      "step": 516
+    },
+    {
+      "epoch": 0.43813559322033896,
+      "grad_norm": 1.3321099281311035,
+      "learning_rate": 1.3806327371436159e-05,
+      "loss": 0.0118,
+      "step": 517
+    },
+    {
+      "epoch": 0.43898305084745765,
+      "grad_norm": 0.5509894490242004,
+      "learning_rate": 1.3778955640898686e-05,
+      "loss": 0.0026,
+      "step": 518
+    },
+    {
+      "epoch": 0.4398305084745763,
+      "grad_norm": 1.3254811763763428,
+      "learning_rate": 1.3751550841275394e-05,
+      "loss": 0.0135,
+      "step": 519
+    },
+    {
+      "epoch": 0.4406779661016949,
+      "grad_norm": 1.8219112157821655,
+      "learning_rate": 1.372411321238166e-05,
+      "loss": 0.0139,
+      "step": 520
+    },
+    {
+      "epoch": 0.4406779661016949,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0005393382161855698,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.6981,
+      "eval_samples_per_second": 5.76,
+      "eval_steps_per_second": 0.197,
+      "step": 520
+    },
+    {
+      "epoch": 0.44152542372881354,
+      "grad_norm": 1.3557311296463013,
+      "learning_rate": 1.3696642994320146e-05,
+      "loss": 0.0138,
+      "step": 521
+    },
+    {
+      "epoch": 0.4423728813559322,
+      "grad_norm": 0.22216911613941193,
+      "learning_rate": 1.3669140427478693e-05,
+      "loss": 0.0015,
+      "step": 522
+    },
+    {
+      "epoch": 0.44322033898305085,
+      "grad_norm": 0.794339120388031,
+      "learning_rate": 1.3641605752528225e-05,
+      "loss": 0.0082,
+      "step": 523
+    },
+    {
+      "epoch": 0.4440677966101695,
+      "grad_norm": 1.4078831672668457,
+      "learning_rate": 1.3614039210420638e-05,
+      "loss": 0.0057,
+      "step": 524
+    },
+    {
+      "epoch": 0.4449152542372881,
+      "grad_norm": 2.3533213138580322,
+      "learning_rate": 1.3586441042386694e-05,
+      "loss": 0.0198,
+      "step": 525
+    },
+    {
+      "epoch": 0.4457627118644068,
+      "grad_norm": 3.0721018314361572,
+      "learning_rate": 1.3558811489933909e-05,
+      "loss": 0.0254,
+      "step": 526
+    },
+    {
+      "epoch": 0.44661016949152543,
+      "grad_norm": 1.831836223602295,
+      "learning_rate": 1.353115079484444e-05,
+      "loss": 0.0169,
+      "step": 527
+    },
+    {
+      "epoch": 0.44745762711864406,
+      "grad_norm": 1.5127922296524048,
+      "learning_rate": 1.3503459199172969e-05,
+      "loss": 0.0075,
+      "step": 528
+    },
+    {
+      "epoch": 0.4483050847457627,
+      "grad_norm": 2.0667357444763184,
+      "learning_rate": 1.3475736945244575e-05,
+      "loss": 0.0122,
+      "step": 529
+    },
+    {
+      "epoch": 0.4491525423728814,
+      "grad_norm": 0.386496365070343,
+      "learning_rate": 1.3447984275652638e-05,
+      "loss": 0.0023,
+      "step": 530
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.4718012511730194,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.0034,
+      "step": 531
+    },
+    {
+      "epoch": 0.45084745762711864,
+      "grad_norm": 2.439950466156006,
+      "learning_rate": 1.3392388661180303e-05,
+      "loss": 0.0186,
+      "step": 532
+    },
+    {
+      "epoch": 0.4516949152542373,
+      "grad_norm": 0.8340148329734802,
+      "learning_rate": 1.3364546202808966e-05,
+      "loss": 0.0067,
+      "step": 533
+    },
+    {
+      "epoch": 0.45254237288135596,
+      "grad_norm": 2.2126450538635254,
+      "learning_rate": 1.3336674301787942e-05,
+      "loss": 0.0187,
+      "step": 534
+    },
+    {
+      "epoch": 0.4533898305084746,
+      "grad_norm": 0.4377054274082184,
+      "learning_rate": 1.330877320202014e-05,
+      "loss": 0.0028,
+      "step": 535
+    },
+    {
+      "epoch": 0.4542372881355932,
+      "grad_norm": 1.3909966945648193,
+      "learning_rate": 1.3280843147663988e-05,
+      "loss": 0.0131,
+      "step": 536
+    },
+    {
+      "epoch": 0.45508474576271185,
+      "grad_norm": 0.3523927330970764,
+      "learning_rate": 1.325288438313129e-05,
+      "loss": 0.0016,
+      "step": 537
+    },
+    {
+      "epoch": 0.4559322033898305,
+      "grad_norm": 3.0238094329833984,
+      "learning_rate": 1.322489715308509e-05,
+      "loss": 0.0175,
+      "step": 538
+    },
+    {
+      "epoch": 0.45677966101694917,
+      "grad_norm": 1.9963982105255127,
+      "learning_rate": 1.3196881702437525e-05,
+      "loss": 0.0181,
+      "step": 539
+    },
+    {
+      "epoch": 0.4576271186440678,
+      "grad_norm": 1.146183729171753,
+      "learning_rate": 1.3168838276347691e-05,
+      "loss": 0.0161,
+      "step": 540
+    },
+    {
+      "epoch": 0.4576271186440678,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0002900932158809155,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.127,
+      "eval_samples_per_second": 5.711,
+      "eval_steps_per_second": 0.196,
+      "step": 540
+    },
+    {
+      "epoch": 0.45847457627118643,
+      "grad_norm": 1.0082005262374878,
+      "learning_rate": 1.314076712021949e-05,
+      "loss": 0.0081,
+      "step": 541
+    },
+    {
+      "epoch": 0.45932203389830506,
+      "grad_norm": 0.8905977606773376,
+      "learning_rate": 1.3112668479699486e-05,
+      "loss": 0.0037,
+      "step": 542
+    },
+    {
+      "epoch": 0.46016949152542375,
+      "grad_norm": 1.1065611839294434,
+      "learning_rate": 1.3084542600674756e-05,
+      "loss": 0.0048,
+      "step": 543
+    },
+    {
+      "epoch": 0.4610169491525424,
+      "grad_norm": 1.939026951789856,
+      "learning_rate": 1.305638972927074e-05,
+      "loss": 0.009,
+      "step": 544
+    },
+    {
+      "epoch": 0.461864406779661,
+      "grad_norm": 2.5424704551696777,
+      "learning_rate": 1.3028210111849079e-05,
+      "loss": 0.0121,
+      "step": 545
+    },
+    {
+      "epoch": 0.46271186440677964,
+      "grad_norm": 0.8510853052139282,
+      "learning_rate": 1.3000003995005462e-05,
+      "loss": 0.0053,
+      "step": 546
+    },
+    {
+      "epoch": 0.4635593220338983,
+      "grad_norm": 4.978145599365234,
+      "learning_rate": 1.297177162556748e-05,
+      "loss": 0.0365,
+      "step": 547
+    },
+    {
+      "epoch": 0.46440677966101696,
+      "grad_norm": 1.0519256591796875,
+      "learning_rate": 1.294351325059245e-05,
+      "loss": 0.0046,
+      "step": 548
+    },
+    {
+      "epoch": 0.4652542372881356,
+      "grad_norm": 2.549281120300293,
+      "learning_rate": 1.291522911736526e-05,
+      "loss": 0.0192,
+      "step": 549
+    },
+    {
+      "epoch": 0.4661016949152542,
+      "grad_norm": 1.8708372116088867,
+      "learning_rate": 1.2886919473396212e-05,
+      "loss": 0.0121,
+      "step": 550
+    },
+    {
+      "epoch": 0.4669491525423729,
+      "grad_norm": 3.6299774646759033,
+      "learning_rate": 1.2858584566418837e-05,
+      "loss": 0.0233,
+      "step": 551
+    },
+    {
+      "epoch": 0.46779661016949153,
+      "grad_norm": 1.1099425554275513,
+      "learning_rate": 1.2830224644387742e-05,
+      "loss": 0.0084,
+      "step": 552
+    },
+    {
+      "epoch": 0.46864406779661016,
+      "grad_norm": 3.3964803218841553,
+      "learning_rate": 1.2801839955476444e-05,
+      "loss": 0.0413,
+      "step": 553
+    },
+    {
+      "epoch": 0.4694915254237288,
+      "grad_norm": 2.0021309852600098,
+      "learning_rate": 1.277343074807519e-05,
+      "loss": 0.0144,
+      "step": 554
+    },
+    {
+      "epoch": 0.4703389830508475,
+      "grad_norm": 2.881606340408325,
+      "learning_rate": 1.2744997270788777e-05,
+      "loss": 0.0354,
+      "step": 555
+    },
+    {
+      "epoch": 0.4711864406779661,
+      "grad_norm": 0.47970932722091675,
+      "learning_rate": 1.2716539772434389e-05,
+      "loss": 0.0022,
+      "step": 556
+    },
+    {
+      "epoch": 0.47203389830508474,
+      "grad_norm": 0.41695287823677063,
+      "learning_rate": 1.2688058502039416e-05,
+      "loss": 0.0023,
+      "step": 557
+    },
+    {
+      "epoch": 0.4728813559322034,
+      "grad_norm": 2.176729440689087,
+      "learning_rate": 1.2659553708839273e-05,
+      "loss": 0.0271,
+      "step": 558
+    },
+    {
+      "epoch": 0.47372881355932206,
+      "grad_norm": 0.9656859636306763,
+      "learning_rate": 1.2631025642275212e-05,
+      "loss": 0.0075,
+      "step": 559
+    },
+    {
+      "epoch": 0.4745762711864407,
+      "grad_norm": 0.5131775140762329,
+      "learning_rate": 1.2602474551992165e-05,
+      "loss": 0.0027,
+      "step": 560
+    },
+    {
+      "epoch": 0.4745762711864407,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0001880442287074402,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.0747,
+      "eval_samples_per_second": 5.831,
+      "eval_steps_per_second": 0.2,
+      "step": 560
+    },
+    {
+      "epoch": 0.4754237288135593,
+      "grad_norm": 1.1515014171600342,
+      "learning_rate": 1.2573900687836525e-05,
+      "loss": 0.0114,
+      "step": 561
+    },
+    {
+      "epoch": 0.47627118644067795,
+      "grad_norm": 0.5253351926803589,
+      "learning_rate": 1.2545304299853977e-05,
+      "loss": 0.0038,
+      "step": 562
+    },
+    {
+      "epoch": 0.47711864406779664,
+      "grad_norm": 0.9620082378387451,
+      "learning_rate": 1.2516685638287318e-05,
+      "loss": 0.0053,
+      "step": 563
+    },
+    {
+      "epoch": 0.47796610169491527,
+      "grad_norm": 0.7079916596412659,
+      "learning_rate": 1.248804495357425e-05,
+      "loss": 0.0038,
+      "step": 564
+    },
+    {
+      "epoch": 0.4788135593220339,
+      "grad_norm": 1.2482668161392212,
+      "learning_rate": 1.2459382496345199e-05,
+      "loss": 0.0042,
+      "step": 565
+    },
+    {
+      "epoch": 0.47966101694915253,
+      "grad_norm": 0.6608754992485046,
+      "learning_rate": 1.2430698517421117e-05,
+      "loss": 0.006,
+      "step": 566
+    },
+    {
+      "epoch": 0.48050847457627116,
+      "grad_norm": 0.9836096167564392,
+      "learning_rate": 1.2401993267811293e-05,
+      "loss": 0.0087,
+      "step": 567
+    },
+    {
+      "epoch": 0.48135593220338985,
+      "grad_norm": 2.097402334213257,
+      "learning_rate": 1.2373266998711152e-05,
+      "loss": 0.0165,
+      "step": 568
+    },
+    {
+      "epoch": 0.4822033898305085,
+      "grad_norm": 0.6762765645980835,
+      "learning_rate": 1.2344519961500048e-05,
+      "loss": 0.0038,
+      "step": 569
+    },
+    {
+      "epoch": 0.4830508474576271,
+      "grad_norm": 0.8983291983604431,
+      "learning_rate": 1.2315752407739093e-05,
+      "loss": 0.0044,
+      "step": 570
+    },
+    {
+      "epoch": 0.48389830508474574,
+      "grad_norm": 1.4723248481750488,
+      "learning_rate": 1.2286964589168917e-05,
+      "loss": 0.0062,
+      "step": 571
+    },
+    {
+      "epoch": 0.4847457627118644,
+      "grad_norm": 1.0354115962982178,
+      "learning_rate": 1.2258156757707496e-05,
+      "loss": 0.0098,
+      "step": 572
+    },
+    {
+      "epoch": 0.48559322033898306,
+      "grad_norm": 0.8155727982521057,
+      "learning_rate": 1.2229329165447931e-05,
+      "loss": 0.0124,
+      "step": 573
+    },
+    {
+      "epoch": 0.4864406779661017,
+      "grad_norm": 2.297771692276001,
+      "learning_rate": 1.220048206465625e-05,
+      "loss": 0.0094,
+      "step": 574
+    },
+    {
+      "epoch": 0.4872881355932203,
+      "grad_norm": 1.3691686391830444,
+      "learning_rate": 1.217161570776919e-05,
+      "loss": 0.0039,
+      "step": 575
+    },
+    {
+      "epoch": 0.488135593220339,
+      "grad_norm": 2.56219744682312,
+      "learning_rate": 1.2142730347392007e-05,
+      "loss": 0.0088,
+      "step": 576
+    },
+    {
+      "epoch": 0.48898305084745763,
+      "grad_norm": 1.2534739971160889,
+      "learning_rate": 1.2113826236296245e-05,
+      "loss": 0.0046,
+      "step": 577
+    },
+    {
+      "epoch": 0.48983050847457626,
+      "grad_norm": 0.3140455186367035,
+      "learning_rate": 1.2084903627417535e-05,
+      "loss": 0.001,
+      "step": 578
+    },
+    {
+      "epoch": 0.4906779661016949,
+      "grad_norm": 2.9673843383789062,
+      "learning_rate": 1.2055962773853379e-05,
+      "loss": 0.0261,
+      "step": 579
+    },
+    {
+      "epoch": 0.4915254237288136,
+      "grad_norm": 1.1575368642807007,
+      "learning_rate": 1.2027003928860936e-05,
+      "loss": 0.0039,
+      "step": 580
+    },
+    {
+      "epoch": 0.4915254237288136,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00029336303123272955,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 51.1721,
+      "eval_samples_per_second": 5.706,
+      "eval_steps_per_second": 0.195,
+      "step": 580
+    },
+    {
+      "epoch": 0.4923728813559322,
+      "grad_norm": 0.5004251003265381,
+      "learning_rate": 1.1998027345854811e-05,
+      "loss": 0.002,
+      "step": 581
+    },
+    {
+      "epoch": 0.49322033898305084,
+      "grad_norm": 1.6102720499038696,
+      "learning_rate": 1.1969033278404816e-05,
+      "loss": 0.0071,
+      "step": 582
+    },
+    {
+      "epoch": 0.4940677966101695,
+      "grad_norm": 0.36238208413124084,
+      "learning_rate": 1.1940021980233784e-05,
+      "loss": 0.0021,
+      "step": 583
+    },
+    {
+      "epoch": 0.49491525423728816,
+      "grad_norm": 1.1167278289794922,
+      "learning_rate": 1.1910993705215323e-05,
+      "loss": 0.0026,
+      "step": 584
+    },
+    {
+      "epoch": 0.4957627118644068,
+      "grad_norm": 1.2431293725967407,
+      "learning_rate": 1.1881948707371609e-05,
+      "loss": 0.0186,
+      "step": 585
+    },
+    {
+      "epoch": 0.4966101694915254,
+      "grad_norm": 2.63661789894104,
+      "learning_rate": 1.1852887240871145e-05,
+      "loss": 0.024,
+      "step": 586
+    },
+    {
+      "epoch": 0.49745762711864405,
+      "grad_norm": 0.9267066717147827,
+      "learning_rate": 1.1823809560026558e-05,
+      "loss": 0.0055,
+      "step": 587
+    },
+    {
+      "epoch": 0.49830508474576274,
+      "grad_norm": 2.153548240661621,
+      "learning_rate": 1.1794715919292368e-05,
+      "loss": 0.0189,
+      "step": 588
+    },
+    {
+      "epoch": 0.49915254237288137,
+      "grad_norm": 1.1179004907608032,
+      "learning_rate": 1.1765606573262745e-05,
+      "loss": 0.0091,
+      "step": 589
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.7604763507843018,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0038,
+      "step": 590
+    },
+    {
+      "epoch": 0.5008474576271187,
+      "grad_norm": 1.1166861057281494,
+      "learning_rate": 1.1707341784378865e-05,
+      "loss": 0.004,
+      "step": 591
+    },
+    {
+      "epoch": 0.5016949152542373,
+      "grad_norm": 2.1006617546081543,
+      "learning_rate": 1.1678186851391218e-05,
+      "loss": 0.0119,
+      "step": 592
+    },
+    {
+      "epoch": 0.502542372881356,
+      "grad_norm": 0.9687687754631042,
+      "learning_rate": 1.1649017232836899e-05,
+      "loss": 0.0031,
+      "step": 593
+    },
+    {
+      "epoch": 0.5033898305084745,
+      "grad_norm": 1.6780524253845215,
+      "learning_rate": 1.1619833183974959e-05,
+      "loss": 0.0095,
+      "step": 594
+    },
+    {
+      "epoch": 0.5042372881355932,
+      "grad_norm": 1.265393614768982,
+      "learning_rate": 1.1590634960190722e-05,
+      "loss": 0.0113,
+      "step": 595
+    },
+    {
+      "epoch": 0.5050847457627119,
+      "grad_norm": 2.153305768966675,
+      "learning_rate": 1.1561422816993555e-05,
+      "loss": 0.021,
+      "step": 596
+    },
+    {
+      "epoch": 0.5059322033898305,
+      "grad_norm": 1.4506266117095947,
+      "learning_rate": 1.1532197010014636e-05,
+      "loss": 0.0091,
+      "step": 597
+    },
+    {
+      "epoch": 0.5067796610169492,
+      "grad_norm": 2.4317758083343506,
+      "learning_rate": 1.1502957795004706e-05,
+      "loss": 0.0171,
+      "step": 598
+    },
+    {
+      "epoch": 0.5076271186440678,
+      "grad_norm": 1.4479554891586304,
+      "learning_rate": 1.1473705427831843e-05,
+      "loss": 0.0055,
+      "step": 599
+    },
+    {
+      "epoch": 0.5084745762711864,
+      "grad_norm": 1.9250199794769287,
+      "learning_rate": 1.1444440164479215e-05,
+      "loss": 0.0067,
+      "step": 600
+    },
+    {
+      "epoch": 0.5084745762711864,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.00014447586727328598,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.9263,
+      "eval_samples_per_second": 5.849,
+      "eval_steps_per_second": 0.2,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.849773217934213e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null