Training in progress, step 500, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cd061667d62cdf6b8e885ae672a4fa1817a64172c0dc13f261537a3e31f28db
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:046ad15b3a172be6c8a55556a3c20f15ef4ee714b05b61a7d6c92d4c6c9e3474
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87e886c2d84e224bcf754622b2803a8b4b64da30bce7eb4e4a3fb75b1b091c5e
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:c99483ad02ea22340771991cc6669d1256f76d10e032f69951c7480de7534bf0
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d01731a1af4d71978b316124603e4caa090cc86ccd121d20f40ef90314e39721
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:15aeeac899877619eba9935ba0590b8f1fa55e2d75c220d96a220798bf78d453
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6befdc931c99a6a9572bf364f4fbf3a16a16ac047bda664b290f7eaf2d6f0509
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:c991dfb7fae6e7e8e823a6ff78f7059aa6c3e2ee08cfa323cee3a4c276002a52
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d08e96af21e8b93e1cae1c1f298c74bd5cb903e59a95e666fe5d23d7c34e828
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2efd166763c9a22763a8e34b47f368dce987da9bde3aa0da236e9078b6b587f0
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:800dcee3d49bf7c4fb9af44a7247d8c8a98f39fbe21de15901e57a24fee6d511
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e892fe343502bd3fc0cfd63b8565786111da6ae6996697589256c318e3c3076d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95e1a7c487043377d57b4e529a8c41b121f1a82a2bf5513187f81cd357b2a6fd
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e97d6a38ca3edf5744f51d03cec6812554f609ad1d7c762e2e3dcca3bc8af260
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cc70fc94ad214460b8f53afbc67815e264058229327612b212b333c955747d2
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:13a2e456b9f475387054566e8f129204eb628e3726aee77c4412ff11fc720706
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ffe6f9ada3514f92495fec3edd9e5bfa7e16527e9f4d407a243ffca3a335369
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:99b43935a8d0c3ec7f6a15b5d02d38b25daf586d495f97529bae66a69e46d216
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea26ba6138daf1586403be19f69bfdf220f2970f3306409052e7562dbee71e8f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:31626c13f5c4cf0cf88e6b691ef4408c4d52105b3855f7889d25ca5f4f0a0734
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:350fe26b744c676e14aee27774ebc4bcf6a2961db0854ea02d257bc061e2b80c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:04807176bb2c22eeb6b0258c9226b2dfd4f8b8398c96841c95458ef393e0f56a
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8aa0e29a92b309693c410bb08006a182de233c5acd31c16b7450cbb9c31feeb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:40e15fa019a19c6cd7ce2d72f5afc609c5c0b834df5220f887d5ba71dae814ca
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f4d7d51569641046d070ffaf530561887033fff68178c32329f5f5841b1a076
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:689f27834221968cbb24970b2a0ef37515a668dd8bd2e8a00c81e11a90d7d4a4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.502092050209205,
   "eval_steps": 20,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3059,6 +3059,766 @@
       "eval_samples_per_second": 5.361,
       "eval_steps_per_second": 0.174,
       "step": 400
     }
   ],
   "logging_steps": 1,
@@ -3078,7 +3838,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4611649697467597e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6276150627615062,
   "eval_steps": 20,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.361,
       "eval_steps_per_second": 0.174,
       "step": 400
+    },
+    {
+      "epoch": 0.5033472803347281,
+      "grad_norm": 3.5723674297332764,
+      "learning_rate": 1.1616326878747115e-05,
+      "loss": 0.2269,
+      "step": 401
+    },
+    {
+      "epoch": 0.5046025104602511,
+      "grad_norm": 3.2594027519226074,
+      "learning_rate": 1.1573011405714214e-05,
+      "loss": 0.2535,
+      "step": 402
+    },
+    {
+      "epoch": 0.505857740585774,
+      "grad_norm": 4.008416652679443,
+      "learning_rate": 1.1529665649264388e-05,
+      "loss": 0.2676,
+      "step": 403
+    },
+    {
+      "epoch": 0.507112970711297,
+      "grad_norm": 4.401585102081299,
+      "learning_rate": 1.1486290443884666e-05,
+      "loss": 0.2613,
+      "step": 404
+    },
+    {
+      "epoch": 0.5083682008368201,
+      "grad_norm": 4.80834436416626,
+      "learning_rate": 1.1442886624629035e-05,
+      "loss": 0.3053,
+      "step": 405
+    },
+    {
+      "epoch": 0.5096234309623431,
+      "grad_norm": 4.229012489318848,
+      "learning_rate": 1.1399455027102327e-05,
+      "loss": 0.241,
+      "step": 406
+    },
+    {
+      "epoch": 0.5108786610878661,
+      "grad_norm": 3.3926737308502197,
+      "learning_rate": 1.1355996487444178e-05,
+      "loss": 0.1874,
+      "step": 407
+    },
+    {
+      "epoch": 0.5121338912133891,
+      "grad_norm": 6.564388751983643,
+      "learning_rate": 1.131251184231291e-05,
+      "loss": 0.2087,
+      "step": 408
+    },
+    {
+      "epoch": 0.5133891213389121,
+      "grad_norm": 4.077323913574219,
+      "learning_rate": 1.1269001928869414e-05,
+      "loss": 0.2787,
+      "step": 409
+    },
+    {
+      "epoch": 0.5146443514644351,
+      "grad_norm": 4.169933319091797,
+      "learning_rate": 1.122546758476105e-05,
+      "loss": 0.2701,
+      "step": 410
+    },
+    {
+      "epoch": 0.5158995815899582,
+      "grad_norm": 4.548664093017578,
+      "learning_rate": 1.1181909648105511e-05,
+      "loss": 0.2711,
+      "step": 411
+    },
+    {
+      "epoch": 0.5171548117154812,
+      "grad_norm": 7.507246971130371,
+      "learning_rate": 1.1138328957474691e-05,
+      "loss": 0.2761,
+      "step": 412
+    },
+    {
+      "epoch": 0.5184100418410041,
+      "grad_norm": 4.293572425842285,
+      "learning_rate": 1.1094726351878549e-05,
+      "loss": 0.2451,
+      "step": 413
+    },
+    {
+      "epoch": 0.5196652719665272,
+      "grad_norm": 4.692587852478027,
+      "learning_rate": 1.1051102670748939e-05,
+      "loss": 0.2841,
+      "step": 414
+    },
+    {
+      "epoch": 0.5209205020920502,
+      "grad_norm": 3.3623526096343994,
+      "learning_rate": 1.1007458753923455e-05,
+      "loss": 0.245,
+      "step": 415
+    },
+    {
+      "epoch": 0.5221757322175732,
+      "grad_norm": 4.157695770263672,
+      "learning_rate": 1.0963795441629275e-05,
+      "loss": 0.2193,
+      "step": 416
+    },
+    {
+      "epoch": 0.5234309623430963,
+      "grad_norm": 5.14530086517334,
+      "learning_rate": 1.0920113574466975e-05,
+      "loss": 0.3033,
+      "step": 417
+    },
+    {
+      "epoch": 0.5246861924686193,
+      "grad_norm": 4.993683338165283,
+      "learning_rate": 1.0876413993394346e-05,
+      "loss": 0.2947,
+      "step": 418
+    },
+    {
+      "epoch": 0.5259414225941422,
+      "grad_norm": 6.235597610473633,
+      "learning_rate": 1.0832697539710197e-05,
+      "loss": 0.2765,
+      "step": 419
+    },
+    {
+      "epoch": 0.5271966527196653,
+      "grad_norm": 3.5556070804595947,
+      "learning_rate": 1.0788965055038179e-05,
+      "loss": 0.2743,
+      "step": 420
+    },
+    {
+      "epoch": 0.5271966527196653,
+      "eval_accuracy": 0.8543046357615894,
+      "eval_f1": 0.695852534562212,
+      "eval_loss": 0.30108267068862915,
+      "eval_precision": 0.8388888888888889,
+      "eval_recall": 0.594488188976378,
+      "eval_runtime": 53.2652,
+      "eval_samples_per_second": 5.2,
+      "eval_steps_per_second": 0.169,
+      "step": 420
+    },
+    {
+      "epoch": 0.5284518828451883,
+      "grad_norm": 3.676478624343872,
+      "learning_rate": 1.0745217381310562e-05,
+      "loss": 0.2493,
+      "step": 421
+    },
+    {
+      "epoch": 0.5297071129707113,
+      "grad_norm": 2.608015775680542,
+      "learning_rate": 1.0701455360752038e-05,
+      "loss": 0.2325,
+      "step": 422
+    },
+    {
+      "epoch": 0.5309623430962344,
+      "grad_norm": 3.949383497238159,
+      "learning_rate": 1.0657679835863497e-05,
+      "loss": 0.3002,
+      "step": 423
+    },
+    {
+      "epoch": 0.5322175732217573,
+      "grad_norm": 4.198700904846191,
+      "learning_rate": 1.0613891649405816e-05,
+      "loss": 0.1867,
+      "step": 424
+    },
+    {
+      "epoch": 0.5334728033472803,
+      "grad_norm": 4.353850364685059,
+      "learning_rate": 1.0570091644383631e-05,
+      "loss": 0.2605,
+      "step": 425
+    },
+    {
+      "epoch": 0.5347280334728034,
+      "grad_norm": 3.590062379837036,
+      "learning_rate": 1.0526280664029105e-05,
+      "loss": 0.2438,
+      "step": 426
+    },
+    {
+      "epoch": 0.5359832635983264,
+      "grad_norm": 3.3330376148223877,
+      "learning_rate": 1.0482459551785705e-05,
+      "loss": 0.1865,
+      "step": 427
+    },
+    {
+      "epoch": 0.5372384937238494,
+      "grad_norm": 3.8933749198913574,
+      "learning_rate": 1.0438629151291944e-05,
+      "loss": 0.3091,
+      "step": 428
+    },
+    {
+      "epoch": 0.5384937238493723,
+      "grad_norm": 3.451763153076172,
+      "learning_rate": 1.0394790306365154e-05,
+      "loss": 0.2454,
+      "step": 429
+    },
+    {
+      "epoch": 0.5397489539748954,
+      "grad_norm": 3.9449098110198975,
+      "learning_rate": 1.0350943860985249e-05,
+      "loss": 0.2863,
+      "step": 430
+    },
+    {
+      "epoch": 0.5410041841004184,
+      "grad_norm": 3.1234138011932373,
+      "learning_rate": 1.0307090659278453e-05,
+      "loss": 0.2382,
+      "step": 431
+    },
+    {
+      "epoch": 0.5422594142259414,
+      "grad_norm": 4.012730598449707,
+      "learning_rate": 1.0263231545501068e-05,
+      "loss": 0.1927,
+      "step": 432
+    },
+    {
+      "epoch": 0.5435146443514645,
+      "grad_norm": 3.3617918491363525,
+      "learning_rate": 1.0219367364023216e-05,
+      "loss": 0.2557,
+      "step": 433
+    },
+    {
+      "epoch": 0.5447698744769874,
+      "grad_norm": 3.0772593021392822,
+      "learning_rate": 1.0175498959312572e-05,
+      "loss": 0.2144,
+      "step": 434
+    },
+    {
+      "epoch": 0.5460251046025104,
+      "grad_norm": 3.1349897384643555,
+      "learning_rate": 1.013162717591813e-05,
+      "loss": 0.2583,
+      "step": 435
+    },
+    {
+      "epoch": 0.5472803347280335,
+      "grad_norm": 3.4480161666870117,
+      "learning_rate": 1.0087752858453923e-05,
+      "loss": 0.2406,
+      "step": 436
+    },
+    {
+      "epoch": 0.5485355648535565,
+      "grad_norm": 7.350139617919922,
+      "learning_rate": 1.0043876851582763e-05,
+      "loss": 0.2542,
+      "step": 437
+    },
+    {
+      "epoch": 0.5497907949790795,
+      "grad_norm": 3.588282346725464,
+      "learning_rate": 1e-05,
+      "loss": 0.2763,
+      "step": 438
+    },
+    {
+      "epoch": 0.5510460251046025,
+      "grad_norm": 4.360295295715332,
+      "learning_rate": 9.956123148417239e-06,
+      "loss": 0.3057,
+      "step": 439
+    },
+    {
+      "epoch": 0.5523012552301255,
+      "grad_norm": 2.705050468444824,
+      "learning_rate": 9.91224714154608e-06,
+      "loss": 0.2248,
+      "step": 440
+    },
+    {
+      "epoch": 0.5523012552301255,
+      "eval_accuracy": 0.8532008830022075,
+      "eval_f1": 0.6928406466512702,
+      "eval_loss": 0.3030659258365631,
+      "eval_precision": 0.8379888268156425,
+      "eval_recall": 0.5905511811023622,
+      "eval_runtime": 53.3187,
+      "eval_samples_per_second": 5.195,
+      "eval_steps_per_second": 0.169,
+      "step": 440
+    },
+    {
+      "epoch": 0.5535564853556485,
+      "grad_norm": 8.555684089660645,
+      "learning_rate": 9.86837282408187e-06,
+      "loss": 0.2456,
+      "step": 441
+    },
+    {
+      "epoch": 0.5548117154811716,
+      "grad_norm": 4.036064624786377,
+      "learning_rate": 9.82450104068743e-06,
+      "loss": 0.2197,
+      "step": 442
+    },
+    {
+      "epoch": 0.5560669456066946,
+      "grad_norm": 3.9498164653778076,
+      "learning_rate": 9.78063263597679e-06,
+      "loss": 0.2475,
+      "step": 443
+    },
+    {
+      "epoch": 0.5573221757322175,
+      "grad_norm": 5.120787620544434,
+      "learning_rate": 9.736768454498935e-06,
+      "loss": 0.2361,
+      "step": 444
+    },
+    {
+      "epoch": 0.5585774058577406,
+      "grad_norm": 3.8310952186584473,
+      "learning_rate": 9.692909340721549e-06,
+      "loss": 0.1948,
+      "step": 445
+    },
+    {
+      "epoch": 0.5598326359832636,
+      "grad_norm": 7.724740982055664,
+      "learning_rate": 9.649056139014754e-06,
+      "loss": 0.2821,
+      "step": 446
+    },
+    {
+      "epoch": 0.5610878661087866,
+      "grad_norm": 3.3741142749786377,
+      "learning_rate": 9.605209693634849e-06,
+      "loss": 0.2063,
+      "step": 447
+    },
+    {
+      "epoch": 0.5623430962343097,
+      "grad_norm": 4.161517143249512,
+      "learning_rate": 9.561370848708061e-06,
+      "loss": 0.2638,
+      "step": 448
+    },
+    {
+      "epoch": 0.5635983263598326,
+      "grad_norm": 4.094989776611328,
+      "learning_rate": 9.517540448214299e-06,
+      "loss": 0.2374,
+      "step": 449
+    },
+    {
+      "epoch": 0.5648535564853556,
+      "grad_norm": 5.402541160583496,
+      "learning_rate": 9.473719335970896e-06,
+      "loss": 0.2456,
+      "step": 450
+    },
+    {
+      "epoch": 0.5661087866108787,
+      "grad_norm": 3.0757880210876465,
+      "learning_rate": 9.429908355616372e-06,
+      "loss": 0.1735,
+      "step": 451
+    },
+    {
+      "epoch": 0.5673640167364017,
+      "grad_norm": 3.2094337940216064,
+      "learning_rate": 9.38610835059419e-06,
+      "loss": 0.1759,
+      "step": 452
+    },
+    {
+      "epoch": 0.5686192468619247,
+      "grad_norm": 6.4844489097595215,
+      "learning_rate": 9.342320164136506e-06,
+      "loss": 0.274,
+      "step": 453
+    },
+    {
+      "epoch": 0.5698744769874478,
+      "grad_norm": 3.759528636932373,
+      "learning_rate": 9.298544639247965e-06,
+      "loss": 0.2074,
+      "step": 454
+    },
+    {
+      "epoch": 0.5711297071129707,
+      "grad_norm": 4.877233028411865,
+      "learning_rate": 9.25478261868944e-06,
+      "loss": 0.2442,
+      "step": 455
+    },
+    {
+      "epoch": 0.5723849372384937,
+      "grad_norm": 4.176396369934082,
+      "learning_rate": 9.211034944961825e-06,
+      "loss": 0.2082,
+      "step": 456
+    },
+    {
+      "epoch": 0.5736401673640167,
+      "grad_norm": 4.096301078796387,
+      "learning_rate": 9.167302460289804e-06,
+      "loss": 0.2556,
+      "step": 457
+    },
+    {
+      "epoch": 0.5748953974895398,
+      "grad_norm": 3.9278416633605957,
+      "learning_rate": 9.123586006605658e-06,
+      "loss": 0.1989,
+      "step": 458
+    },
+    {
+      "epoch": 0.5761506276150627,
+      "grad_norm": 6.082350254058838,
+      "learning_rate": 9.079886425533026e-06,
+      "loss": 0.3095,
+      "step": 459
+    },
+    {
+      "epoch": 0.5774058577405857,
+      "grad_norm": 4.512117862701416,
+      "learning_rate": 9.036204558370725e-06,
+      "loss": 0.2149,
+      "step": 460
+    },
+    {
+      "epoch": 0.5774058577405857,
+      "eval_accuracy": 0.8609271523178808,
+      "eval_f1": 0.7307692307692307,
+      "eval_loss": 0.28679677844047546,
+      "eval_precision": 0.7990654205607477,
+      "eval_recall": 0.6732283464566929,
+      "eval_runtime": 52.9315,
+      "eval_samples_per_second": 5.233,
+      "eval_steps_per_second": 0.17,
+      "step": 460
+    },
+    {
+      "epoch": 0.5786610878661088,
+      "grad_norm": 5.169907569885254,
+      "learning_rate": 8.992541246076552e-06,
+      "loss": 0.2715,
+      "step": 461
+    },
+    {
+      "epoch": 0.5799163179916318,
+      "grad_norm": 7.113213539123535,
+      "learning_rate": 8.948897329251066e-06,
+      "loss": 0.2462,
+      "step": 462
+    },
+    {
+      "epoch": 0.5811715481171548,
+      "grad_norm": 6.822581768035889,
+      "learning_rate": 8.905273648121455e-06,
+      "loss": 0.2062,
+      "step": 463
+    },
+    {
+      "epoch": 0.5824267782426779,
+      "grad_norm": 4.880428314208984,
+      "learning_rate": 8.861671042525312e-06,
+      "loss": 0.2825,
+      "step": 464
+    },
+    {
+      "epoch": 0.5836820083682008,
+      "grad_norm": 4.777677536010742,
+      "learning_rate": 8.818090351894492e-06,
+      "loss": 0.2439,
+      "step": 465
+    },
+    {
+      "epoch": 0.5849372384937238,
+      "grad_norm": 4.444671154022217,
+      "learning_rate": 8.774532415238954e-06,
+      "loss": 0.2612,
+      "step": 466
+    },
+    {
+      "epoch": 0.5861924686192469,
+      "grad_norm": 4.537267208099365,
+      "learning_rate": 8.730998071130589e-06,
+      "loss": 0.2002,
+      "step": 467
+    },
+    {
+      "epoch": 0.5874476987447699,
+      "grad_norm": 2.443470001220703,
+      "learning_rate": 8.68748815768709e-06,
+      "loss": 0.205,
+      "step": 468
+    },
+    {
+      "epoch": 0.5887029288702929,
+      "grad_norm": 3.0930683612823486,
+      "learning_rate": 8.64400351255582e-06,
+      "loss": 0.1858,
+      "step": 469
+    },
+    {
+      "epoch": 0.5899581589958159,
+      "grad_norm": 4.16900634765625,
+      "learning_rate": 8.600544972897678e-06,
+      "loss": 0.2589,
+      "step": 470
+    },
+    {
+      "epoch": 0.5912133891213389,
+      "grad_norm": 3.5443623065948486,
+      "learning_rate": 8.55711337537097e-06,
+      "loss": 0.2245,
+      "step": 471
+    },
+    {
+      "epoch": 0.5924686192468619,
+      "grad_norm": 4.173429012298584,
+      "learning_rate": 8.513709556115335e-06,
+      "loss": 0.2116,
+      "step": 472
+    },
+    {
+      "epoch": 0.593723849372385,
+      "grad_norm": 4.342430114746094,
+      "learning_rate": 8.470334350735615e-06,
+      "loss": 0.2919,
+      "step": 473
+    },
+    {
+      "epoch": 0.594979079497908,
+      "grad_norm": 3.233147144317627,
+      "learning_rate": 8.42698859428579e-06,
+      "loss": 0.2359,
+      "step": 474
+    },
+    {
+      "epoch": 0.5962343096234309,
+      "grad_norm": 3.438584327697754,
+      "learning_rate": 8.383673121252887e-06,
+      "loss": 0.2049,
+      "step": 475
+    },
+    {
+      "epoch": 0.597489539748954,
+      "grad_norm": 6.184849739074707,
+      "learning_rate": 8.340388765540923e-06,
+      "loss": 0.2746,
+      "step": 476
+    },
+    {
+      "epoch": 0.598744769874477,
+      "grad_norm": 3.2504115104675293,
+      "learning_rate": 8.297136360454844e-06,
+      "loss": 0.2135,
+      "step": 477
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 5.307207107543945,
+      "learning_rate": 8.253916738684497e-06,
+      "loss": 0.2292,
+      "step": 478
+    },
+    {
+      "epoch": 0.6012552301255231,
+      "grad_norm": 8.800402641296387,
+      "learning_rate": 8.21073073228858e-06,
+      "loss": 0.3836,
+      "step": 479
+    },
+    {
+      "epoch": 0.602510460251046,
+      "grad_norm": 3.201681613922119,
+      "learning_rate": 8.16757917267863e-06,
+      "loss": 0.1998,
+      "step": 480
+    },
+    {
+      "epoch": 0.602510460251046,
+      "eval_accuracy": 0.8587196467991169,
+      "eval_f1": 0.7117117117117117,
+      "eval_loss": 0.2975335419178009,
+      "eval_precision": 0.8315789473684211,
+      "eval_recall": 0.6220472440944882,
+      "eval_runtime": 52.1942,
+      "eval_samples_per_second": 5.307,
+      "eval_steps_per_second": 0.172,
+      "step": 480
+    },
+    {
+      "epoch": 0.603765690376569,
+      "grad_norm": 4.214263916015625,
+      "learning_rate": 8.124462890603027e-06,
+      "loss": 0.2576,
+      "step": 481
+    },
+    {
+      "epoch": 0.605020920502092,
+      "grad_norm": 4.688704490661621,
+      "learning_rate": 8.081382716130982e-06,
+      "loss": 0.2174,
+      "step": 482
+    },
+    {
+      "epoch": 0.6062761506276151,
+      "grad_norm": 4.108887672424316,
+      "learning_rate": 8.038339478636581e-06,
+      "loss": 0.2709,
+      "step": 483
+    },
+    {
+      "epoch": 0.6075313807531381,
+      "grad_norm": 3.246297597885132,
+      "learning_rate": 7.995334006782793e-06,
+      "loss": 0.2215,
+      "step": 484
+    },
+    {
+      "epoch": 0.608786610878661,
+      "grad_norm": 4.0921454429626465,
+      "learning_rate": 7.95236712850553e-06,
+      "loss": 0.2766,
+      "step": 485
+    },
+    {
+      "epoch": 0.6100418410041841,
+      "grad_norm": 3.6497576236724854,
+      "learning_rate": 7.909439670997706e-06,
+      "loss": 0.2337,
+      "step": 486
+    },
+    {
+      "epoch": 0.6112970711297071,
+      "grad_norm": 3.3551504611968994,
+      "learning_rate": 7.866552460693314e-06,
+      "loss": 0.208,
+      "step": 487
+    },
+    {
+      "epoch": 0.6125523012552301,
+      "grad_norm": 4.46877384185791,
+      "learning_rate": 7.823706323251512e-06,
+      "loss": 0.2493,
+      "step": 488
+    },
+    {
+      "epoch": 0.6138075313807532,
+      "grad_norm": 4.38779878616333,
+      "learning_rate": 7.78090208354072e-06,
+      "loss": 0.2635,
+      "step": 489
+    },
+    {
+      "epoch": 0.6150627615062761,
+      "grad_norm": 5.72041130065918,
+      "learning_rate": 7.738140565622758e-06,
+      "loss": 0.2348,
+      "step": 490
+    },
+    {
+      "epoch": 0.6163179916317991,
+      "grad_norm": 5.17399263381958,
+      "learning_rate": 7.69542259273697e-06,
+      "loss": 0.2208,
+      "step": 491
+    },
+    {
+      "epoch": 0.6175732217573222,
+      "grad_norm": 3.7989094257354736,
+      "learning_rate": 7.652748987284375e-06,
+      "loss": 0.256,
+      "step": 492
+    },
+    {
+      "epoch": 0.6188284518828452,
+      "grad_norm": 3.5693840980529785,
+      "learning_rate": 7.610120570811833e-06,
+      "loss": 0.2408,
+      "step": 493
+    },
+    {
+      "epoch": 0.6200836820083682,
+      "grad_norm": 3.3571958541870117,
+      "learning_rate": 7.567538163996237e-06,
+      "loss": 0.2263,
+      "step": 494
+    },
+    {
+      "epoch": 0.6213389121338913,
+      "grad_norm": 5.469134330749512,
+      "learning_rate": 7.525002586628707e-06,
+      "loss": 0.2335,
+      "step": 495
+    },
+    {
+      "epoch": 0.6225941422594142,
+      "grad_norm": 2.846597909927368,
+      "learning_rate": 7.4825146575988e-06,
+      "loss": 0.204,
+      "step": 496
+    },
+    {
+      "epoch": 0.6238493723849372,
+      "grad_norm": 6.401832103729248,
+      "learning_rate": 7.440075194878769e-06,
+      "loss": 0.2643,
+      "step": 497
+    },
+    {
+      "epoch": 0.6251046025104603,
+      "grad_norm": 4.148714065551758,
+      "learning_rate": 7.397685015507781e-06,
+      "loss": 0.1882,
+      "step": 498
+    },
+    {
+      "epoch": 0.6263598326359833,
+      "grad_norm": 3.8023147583007812,
+      "learning_rate": 7.355344935576221e-06,
+      "loss": 0.179,
+      "step": 499
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "grad_norm": 3.7073490619659424,
+      "learning_rate": 7.313055770209961e-06,
+      "loss": 0.2459,
+      "step": 500
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "eval_accuracy": 0.8509933774834437,
+      "eval_f1": 0.6882217090069284,
+      "eval_loss": 0.29779428243637085,
+      "eval_precision": 0.8324022346368715,
+      "eval_recall": 0.5866141732283464,
+      "eval_runtime": 52.9024,
+      "eval_samples_per_second": 5.236,
+      "eval_steps_per_second": 0.17,
+      "step": 500
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.8275482733012582e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null