Training in progress, step 6600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b70b1bdd1598615c49c4b9a7faeeaa85e0df1ab80935c4de9703e337cbef5419
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d4fccc41669d8adadb54f68349f74f89ffff09966ac60dcb53a6e48cd78c003
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc84cdd38d4fb81c57c92e318089a0050c59636f80d52d59c7e95dfd9fd62580
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:67369eaffaaf23fcc57a3579d2b350eecf84593e088e012b88be2cddfbf73336
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4712250438ce35119c47f3071be3ca85a4fce51b421eda9263e5ccdc56ad810
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b50419c39b978efc4f0a7211e73d09aa76109771056a53f0af1043bfa2a908e
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03a7d0375d4dc32e11bcee4d7faf50e1efa9d4c215c6763c2e4a46a246814940
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:558bd7a1550e1f29246bbb3508f6e1aeea579c63ac91e9658afafb526206e361
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f97937888bf353d4425445e26e6749a80bf045549b1996cc08838b4dfb4b8dc4
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b3c3c85375cb3b52f1d532892946383bc9042f73634efc9351ea34228856e5f
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11d0834123efa7f652e2e631a76ccc6e13c613f625cb331ed1e2b81641ebca01
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc71fae38f9e58f7ed5e1e8ac6eae4e0afc3c45a3119840f87936211ac808bef
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:352b2435cc0fdbc839b93fecae50d3830aa0717204cfab826aa5127ee89d2407
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8ed0d0c7fd248cf46be28fe84a80281716dee0a1579c90e502dfbf7a133a4db
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58cce52d813acc463fc99594977081fcbdb55dfd090284d6dbc8cb7c0ca23dd0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:318d0617050b5302b7b9fd244c0bcdb8dedde6e6db48bf8d3bfab29c9662237c
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89592922c71a0801bf0d6fdc601852fa0221a03b1ab5fb935185066acc67448f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8b1b52eaa5cc0adbc5ad547706bdc14a1c79b929a785b296eb1b0d394f8b5e5
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc83c14767c41315dc8ec259110c74b59ff4daddfa2add8ceb7d6ecfcf304840
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:01f0a58e9f4a9804440e8394c58ad8351def40b4f77ca1177f17b91d40c5e86b
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9011b070f191d0e0ac40350bb8e4c21dd15e660927e0930b9cd365a37b434167
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bcc5c1e32fe134cab8ae52b6ee4359379c0b414157c020ab3e06d21256e51f1
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd7e984441e517b75f1d23d418db3472b205bd6171ca12f9c999f36bc527e641
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a32c65375a0b35f1aa52aca5fe27b9247b98c2cd81ac883e623d8b0225929b
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c58e283a30a20e60ecca74baeb4de711e3041934465bd25e1ee1e0167c92157
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab30ef4bf6ec4e411aa77a20b4b6abd224f83b1f055386091808c7312483b117
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9590556990040575,
   "eval_steps": 20,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -49419,6 +49419,766 @@
       "eval_samples_per_second": 5.795,
       "eval_steps_per_second": 0.199,
       "step": 6500
     }
   ],
   "logging_steps": 1,
@@ -49438,7 +50198,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0029445559969382e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9738104020656584,
   "eval_steps": 20,
+  "global_step": 6600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.795,
       "eval_steps_per_second": 0.199,
       "step": 6500
+    },
+    {
+      "epoch": 0.9592032460346736,
+      "grad_norm": 1.29558265209198,
+      "learning_rate": 1.0088789060987203e-07,
+      "loss": 0.0439,
+      "step": 6501
+    },
+    {
+      "epoch": 0.9593507930652896,
+      "grad_norm": 2.059356689453125,
+      "learning_rate": 1.001593639838705e-07,
+      "loss": 0.0357,
+      "step": 6502
+    },
+    {
+      "epoch": 0.9594983400959056,
+      "grad_norm": 2.024535894393921,
+      "learning_rate": 9.943346405906995e-08,
+      "loss": 0.0594,
+      "step": 6503
+    },
+    {
+      "epoch": 0.9596458871265215,
+      "grad_norm": 4.6369194984436035,
+      "learning_rate": 9.871019102807078e-08,
+      "loss": 0.032,
+      "step": 6504
+    },
+    {
+      "epoch": 0.9597934341571376,
+      "grad_norm": 2.1632497310638428,
+      "learning_rate": 9.798954508277836e-08,
+      "loss": 0.0678,
+      "step": 6505
+    },
+    {
+      "epoch": 0.9599409811877536,
+      "grad_norm": 1.632851004600525,
+      "learning_rate": 9.727152641439863e-08,
+      "loss": 0.0408,
+      "step": 6506
+    },
+    {
+      "epoch": 0.9600885282183697,
+      "grad_norm": 2.7389848232269287,
+      "learning_rate": 9.655613521344364e-08,
+      "loss": 0.069,
+      "step": 6507
+    },
+    {
+      "epoch": 0.9602360752489856,
+      "grad_norm": 1.2255512475967407,
+      "learning_rate": 9.584337166972602e-08,
+      "loss": 0.0368,
+      "step": 6508
+    },
+    {
+      "epoch": 0.9603836222796016,
+      "grad_norm": 1.3319123983383179,
+      "learning_rate": 9.513323597235891e-08,
+      "loss": 0.0386,
+      "step": 6509
+    },
+    {
+      "epoch": 0.9605311693102176,
+      "grad_norm": 1.6762546300888062,
+      "learning_rate": 9.442572830976604e-08,
+      "loss": 0.0321,
+      "step": 6510
+    },
+    {
+      "epoch": 0.9606787163408337,
+      "grad_norm": 2.6606414318084717,
+      "learning_rate": 9.372084886966392e-08,
+      "loss": 0.0583,
+      "step": 6511
+    },
+    {
+      "epoch": 0.9608262633714496,
+      "grad_norm": 3.4116148948669434,
+      "learning_rate": 9.301859783907852e-08,
+      "loss": 0.0465,
+      "step": 6512
+    },
+    {
+      "epoch": 0.9609738104020656,
+      "grad_norm": 3.545358657836914,
+      "learning_rate": 9.231897540433743e-08,
+      "loss": 0.0457,
+      "step": 6513
+    },
+    {
+      "epoch": 0.9611213574326817,
+      "grad_norm": 4.891258239746094,
+      "learning_rate": 9.162198175106774e-08,
+      "loss": 0.0335,
+      "step": 6514
+    },
+    {
+      "epoch": 0.9612689044632977,
+      "grad_norm": 1.9941608905792236,
+      "learning_rate": 9.092761706420261e-08,
+      "loss": 0.0461,
+      "step": 6515
+    },
+    {
+      "epoch": 0.9614164514939136,
+      "grad_norm": 2.0398828983306885,
+      "learning_rate": 9.02358815279758e-08,
+      "loss": 0.0509,
+      "step": 6516
+    },
+    {
+      "epoch": 0.9615639985245297,
+      "grad_norm": 2.310847759246826,
+      "learning_rate": 8.95467753259227e-08,
+      "loss": 0.0463,
+      "step": 6517
+    },
+    {
+      "epoch": 0.9617115455551457,
+      "grad_norm": 1.7646315097808838,
+      "learning_rate": 8.886029864088375e-08,
+      "loss": 0.0301,
+      "step": 6518
+    },
+    {
+      "epoch": 0.9618590925857617,
+      "grad_norm": 2.1775879859924316,
+      "learning_rate": 8.8176451655001e-08,
+      "loss": 0.0298,
+      "step": 6519
+    },
+    {
+      "epoch": 0.9620066396163777,
+      "grad_norm": 2.04054856300354,
+      "learning_rate": 8.749523454971487e-08,
+      "loss": 0.067,
+      "step": 6520
+    },
+    {
+      "epoch": 0.9620066396163777,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.05519821122288704,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 51.0031,
+      "eval_samples_per_second": 5.706,
+      "eval_steps_per_second": 0.196,
+      "step": 6520
+    },
+    {
+      "epoch": 0.9621541866469937,
+      "grad_norm": 1.858306884765625,
+      "learning_rate": 8.681664750577413e-08,
+      "loss": 0.0475,
+      "step": 6521
+    },
+    {
+      "epoch": 0.9623017336776097,
+      "grad_norm": 1.6353979110717773,
+      "learning_rate": 8.614069070322473e-08,
+      "loss": 0.0516,
+      "step": 6522
+    },
+    {
+      "epoch": 0.9624492807082258,
+      "grad_norm": 2.2677900791168213,
+      "learning_rate": 8.546736432141656e-08,
+      "loss": 0.0316,
+      "step": 6523
+    },
+    {
+      "epoch": 0.9625968277388418,
+      "grad_norm": 2.1024563312530518,
+      "learning_rate": 8.479666853900448e-08,
+      "loss": 0.0266,
+      "step": 6524
+    },
+    {
+      "epoch": 0.9627443747694577,
+      "grad_norm": 1.6655795574188232,
+      "learning_rate": 8.412860353393947e-08,
+      "loss": 0.0227,
+      "step": 6525
+    },
+    {
+      "epoch": 0.9628919218000738,
+      "grad_norm": 3.0254976749420166,
+      "learning_rate": 8.346316948347865e-08,
+      "loss": 0.0635,
+      "step": 6526
+    },
+    {
+      "epoch": 0.9630394688306898,
+      "grad_norm": 1.5075454711914062,
+      "learning_rate": 8.280036656418078e-08,
+      "loss": 0.0412,
+      "step": 6527
+    },
+    {
+      "epoch": 0.9631870158613058,
+      "grad_norm": 1.4006476402282715,
+      "learning_rate": 8.214019495190407e-08,
+      "loss": 0.0334,
+      "step": 6528
+    },
+    {
+      "epoch": 0.9633345628919218,
+      "grad_norm": 2.3075265884399414,
+      "learning_rate": 8.148265482181173e-08,
+      "loss": 0.0269,
+      "step": 6529
+    },
+    {
+      "epoch": 0.9634821099225378,
+      "grad_norm": 1.0943922996520996,
+      "learning_rate": 8.082774634836754e-08,
+      "loss": 0.0353,
+      "step": 6530
+    },
+    {
+      "epoch": 0.9636296569531538,
+      "grad_norm": 2.751830577850342,
+      "learning_rate": 8.017546970533585e-08,
+      "loss": 0.0331,
+      "step": 6531
+    },
+    {
+      "epoch": 0.9637772039837699,
+      "grad_norm": 1.7253575325012207,
+      "learning_rate": 7.952582506578487e-08,
+      "loss": 0.0539,
+      "step": 6532
+    },
+    {
+      "epoch": 0.9639247510143858,
+      "grad_norm": 2.3146719932556152,
+      "learning_rate": 7.88788126020823e-08,
+      "loss": 0.0372,
+      "step": 6533
+    },
+    {
+      "epoch": 0.9640722980450018,
+      "grad_norm": 3.143972396850586,
+      "learning_rate": 7.823443248589746e-08,
+      "loss": 0.0955,
+      "step": 6534
+    },
+    {
+      "epoch": 0.9642198450756179,
+      "grad_norm": 1.9397855997085571,
+      "learning_rate": 7.759268488820471e-08,
+      "loss": 0.0694,
+      "step": 6535
+    },
+    {
+      "epoch": 0.9643673921062339,
+      "grad_norm": 2.692070484161377,
+      "learning_rate": 7.695356997927561e-08,
+      "loss": 0.0671,
+      "step": 6536
+    },
+    {
+      "epoch": 0.9645149391368498,
+      "grad_norm": 5.281672954559326,
+      "learning_rate": 7.631708792868453e-08,
+      "loss": 0.0625,
+      "step": 6537
+    },
+    {
+      "epoch": 0.9646624861674659,
+      "grad_norm": 2.2048943042755127,
+      "learning_rate": 7.568323890530971e-08,
+      "loss": 0.0905,
+      "step": 6538
+    },
+    {
+      "epoch": 0.9648100331980819,
+      "grad_norm": 1.996284008026123,
+      "learning_rate": 7.505202307732774e-08,
+      "loss": 0.0426,
+      "step": 6539
+    },
+    {
+      "epoch": 0.9649575802286979,
+      "grad_norm": 2.583498001098633,
+      "learning_rate": 7.442344061221684e-08,
+      "loss": 0.0626,
+      "step": 6540
+    },
+    {
+      "epoch": 0.9649575802286979,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05510440468788147,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.8894,
+      "eval_samples_per_second": 5.833,
+      "eval_steps_per_second": 0.2,
+      "step": 6540
+    },
+    {
+      "epoch": 0.9651051272593139,
+      "grad_norm": 1.578550934791565,
+      "learning_rate": 7.37974916767581e-08,
+      "loss": 0.0493,
+      "step": 6541
+    },
+    {
+      "epoch": 0.9652526742899299,
+      "grad_norm": 4.190537452697754,
+      "learning_rate": 7.317417643703417e-08,
+      "loss": 0.0503,
+      "step": 6542
+    },
+    {
+      "epoch": 0.9654002213205459,
+      "grad_norm": 2.9617536067962646,
+      "learning_rate": 7.255349505842502e-08,
+      "loss": 0.1048,
+      "step": 6543
+    },
+    {
+      "epoch": 0.965547768351162,
+      "grad_norm": 2.5437979698181152,
+      "learning_rate": 7.193544770561777e-08,
+      "loss": 0.0317,
+      "step": 6544
+    },
+    {
+      "epoch": 0.965695315381778,
+      "grad_norm": 1.3040310144424438,
+      "learning_rate": 7.132003454259461e-08,
+      "loss": 0.0471,
+      "step": 6545
+    },
+    {
+      "epoch": 0.9658428624123939,
+      "grad_norm": 2.7270450592041016,
+      "learning_rate": 7.07072557326438e-08,
+      "loss": 0.0799,
+      "step": 6546
+    },
+    {
+      "epoch": 0.96599040944301,
+      "grad_norm": 2.9314723014831543,
+      "learning_rate": 7.009711143835197e-08,
+      "loss": 0.0726,
+      "step": 6547
+    },
+    {
+      "epoch": 0.966137956473626,
+      "grad_norm": 1.3996440172195435,
+      "learning_rate": 6.948960182160624e-08,
+      "loss": 0.0272,
+      "step": 6548
+    },
+    {
+      "epoch": 0.966285503504242,
+      "grad_norm": 3.6665632724761963,
+      "learning_rate": 6.888472704359661e-08,
+      "loss": 0.0339,
+      "step": 6549
+    },
+    {
+      "epoch": 0.966433050534858,
+      "grad_norm": 5.509788513183594,
+      "learning_rate": 6.828248726481357e-08,
+      "loss": 0.0541,
+      "step": 6550
+    },
+    {
+      "epoch": 0.966580597565474,
+      "grad_norm": 1.3570910692214966,
+      "learning_rate": 6.768288264504597e-08,
+      "loss": 0.0237,
+      "step": 6551
+    },
+    {
+      "epoch": 0.96672814459609,
+      "grad_norm": 4.248430252075195,
+      "learning_rate": 6.708591334338655e-08,
+      "loss": 0.093,
+      "step": 6552
+    },
+    {
+      "epoch": 0.9668756916267061,
+      "grad_norm": 2.7404448986053467,
+      "learning_rate": 6.649157951822859e-08,
+      "loss": 0.1065,
+      "step": 6553
+    },
+    {
+      "epoch": 0.967023238657322,
+      "grad_norm": 3.5840132236480713,
+      "learning_rate": 6.589988132726488e-08,
+      "loss": 0.069,
+      "step": 6554
+    },
+    {
+      "epoch": 0.967170785687938,
+      "grad_norm": 1.6288326978683472,
+      "learning_rate": 6.53108189274887e-08,
+      "loss": 0.0352,
+      "step": 6555
+    },
+    {
+      "epoch": 0.967318332718554,
+      "grad_norm": 2.5016865730285645,
+      "learning_rate": 6.472439247519502e-08,
+      "loss": 0.043,
+      "step": 6556
+    },
+    {
+      "epoch": 0.9674658797491701,
+      "grad_norm": 3.6651065349578857,
+      "learning_rate": 6.414060212597939e-08,
+      "loss": 0.1105,
+      "step": 6557
+    },
+    {
+      "epoch": 0.967613426779786,
+      "grad_norm": 3.1000683307647705,
+      "learning_rate": 6.35594480347368e-08,
+      "loss": 0.0607,
+      "step": 6558
+    },
+    {
+      "epoch": 0.967760973810402,
+      "grad_norm": 2.166266441345215,
+      "learning_rate": 6.298093035566278e-08,
+      "loss": 0.057,
+      "step": 6559
+    },
+    {
+      "epoch": 0.9679085208410181,
+      "grad_norm": 1.484336495399475,
+      "learning_rate": 6.240504924225566e-08,
+      "loss": 0.0275,
+      "step": 6560
+    },
+    {
+      "epoch": 0.9679085208410181,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05525950714945793,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 51.4712,
+      "eval_samples_per_second": 5.654,
+      "eval_steps_per_second": 0.194,
+      "step": 6560
+    },
+    {
+      "epoch": 0.9680560678716341,
+      "grad_norm": 3.557420015335083,
+      "learning_rate": 6.183180484731211e-08,
+      "loss": 0.0435,
+      "step": 6561
+    },
+    {
+      "epoch": 0.96820361490225,
+      "grad_norm": 1.5809874534606934,
+      "learning_rate": 6.126119732292935e-08,
+      "loss": 0.0234,
+      "step": 6562
+    },
+    {
+      "epoch": 0.9683511619328661,
+      "grad_norm": 1.9705631732940674,
+      "learning_rate": 6.069322682050516e-08,
+      "loss": 0.0528,
+      "step": 6563
+    },
+    {
+      "epoch": 0.9684987089634821,
+      "grad_norm": 1.1486409902572632,
+      "learning_rate": 6.0127893490739e-08,
+      "loss": 0.0193,
+      "step": 6564
+    },
+    {
+      "epoch": 0.9686462559940981,
+      "grad_norm": 2.3699090480804443,
+      "learning_rate": 5.956519748362755e-08,
+      "loss": 0.1015,
+      "step": 6565
+    },
+    {
+      "epoch": 0.9687938030247141,
+      "grad_norm": 1.836517095565796,
+      "learning_rate": 5.900513894847027e-08,
+      "loss": 0.0327,
+      "step": 6566
+    },
+    {
+      "epoch": 0.9689413500553301,
+      "grad_norm": 6.853978633880615,
+      "learning_rate": 5.8447718033868286e-08,
+      "loss": 0.0787,
+      "step": 6567
+    },
+    {
+      "epoch": 0.9690888970859461,
+      "grad_norm": 5.050530910491943,
+      "learning_rate": 5.7892934887717746e-08,
+      "loss": 0.1619,
+      "step": 6568
+    },
+    {
+      "epoch": 0.9692364441165622,
+      "grad_norm": 1.7064549922943115,
+      "learning_rate": 5.734078965721867e-08,
+      "loss": 0.0448,
+      "step": 6569
+    },
+    {
+      "epoch": 0.9693839911471782,
+      "grad_norm": 2.607844114303589,
+      "learning_rate": 5.679128248887167e-08,
+      "loss": 0.0592,
+      "step": 6570
+    },
+    {
+      "epoch": 0.9695315381777941,
+      "grad_norm": 1.541534423828125,
+      "learning_rate": 5.624441352847565e-08,
+      "loss": 0.0363,
+      "step": 6571
+    },
+    {
+      "epoch": 0.9696790852084102,
+      "grad_norm": 4.141221046447754,
+      "learning_rate": 5.5700182921128995e-08,
+      "loss": 0.0448,
+      "step": 6572
+    },
+    {
+      "epoch": 0.9698266322390262,
+      "grad_norm": 2.9067554473876953,
+      "learning_rate": 5.515859081123287e-08,
+      "loss": 0.1044,
+      "step": 6573
+    },
+    {
+      "epoch": 0.9699741792696422,
+      "grad_norm": 4.378636360168457,
+      "learning_rate": 5.461963734248565e-08,
+      "loss": 0.0584,
+      "step": 6574
+    },
+    {
+      "epoch": 0.9701217263002582,
+      "grad_norm": 2.6484222412109375,
+      "learning_rate": 5.4083322657886293e-08,
+      "loss": 0.0497,
+      "step": 6575
+    },
+    {
+      "epoch": 0.9702692733308742,
+      "grad_norm": 1.6235097646713257,
+      "learning_rate": 5.3549646899733186e-08,
+      "loss": 0.0712,
+      "step": 6576
+    },
+    {
+      "epoch": 0.9704168203614902,
+      "grad_norm": 5.442991733551025,
+      "learning_rate": 5.301861020962751e-08,
+      "loss": 0.0672,
+      "step": 6577
+    },
+    {
+      "epoch": 0.9705643673921063,
+      "grad_norm": 1.869346022605896,
+      "learning_rate": 5.249021272846766e-08,
+      "loss": 0.0376,
+      "step": 6578
+    },
+    {
+      "epoch": 0.9707119144227222,
+      "grad_norm": 1.3902775049209595,
+      "learning_rate": 5.1964454596450387e-08,
+      "loss": 0.0533,
+      "step": 6579
+    },
+    {
+      "epoch": 0.9708594614533382,
+      "grad_norm": 1.305187463760376,
+      "learning_rate": 5.14413359530741e-08,
+      "loss": 0.0196,
+      "step": 6580
+    },
+    {
+      "epoch": 0.9708594614533382,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.0551002100110054,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.6556,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 0.197,
+      "step": 6580
+    },
+    {
+      "epoch": 0.9710070084839543,
+      "grad_norm": 1.7406283617019653,
+      "learning_rate": 5.0920856937137775e-08,
+      "loss": 0.0479,
+      "step": 6581
+    },
+    {
+      "epoch": 0.9711545555145703,
+      "grad_norm": 1.1636487245559692,
+      "learning_rate": 5.040301768673761e-08,
+      "loss": 0.0181,
+      "step": 6582
+    },
+    {
+      "epoch": 0.9713021025451862,
+      "grad_norm": 3.7341973781585693,
+      "learning_rate": 4.9887818339272586e-08,
+      "loss": 0.0836,
+      "step": 6583
+    },
+    {
+      "epoch": 0.9714496495758023,
+      "grad_norm": 2.6138193607330322,
+      "learning_rate": 4.93752590314367e-08,
+      "loss": 0.0552,
+      "step": 6584
+    },
+    {
+      "epoch": 0.9715971966064183,
+      "grad_norm": 9.698671340942383,
+      "learning_rate": 4.886533989922781e-08,
+      "loss": 0.0285,
+      "step": 6585
+    },
+    {
+      "epoch": 0.9717447436370343,
+      "grad_norm": 2.1348674297332764,
+      "learning_rate": 4.8358061077942163e-08,
+      "loss": 0.0314,
+      "step": 6586
+    },
+    {
+      "epoch": 0.9718922906676503,
+      "grad_norm": 1.8118903636932373,
+      "learning_rate": 4.785342270217319e-08,
+      "loss": 0.0358,
+      "step": 6587
+    },
+    {
+      "epoch": 0.9720398376982663,
+      "grad_norm": 1.8762260675430298,
+      "learning_rate": 4.735142490581601e-08,
+      "loss": 0.0485,
+      "step": 6588
+    },
+    {
+      "epoch": 0.9721873847288823,
+      "grad_norm": 2.3938488960266113,
+      "learning_rate": 4.6852067822065195e-08,
+      "loss": 0.0594,
+      "step": 6589
+    },
+    {
+      "epoch": 0.9723349317594984,
+      "grad_norm": 2.4276046752929688,
+      "learning_rate": 4.6355351583412534e-08,
+      "loss": 0.0807,
+      "step": 6590
+    },
+    {
+      "epoch": 0.9724824787901144,
+      "grad_norm": 1.4129104614257812,
+      "learning_rate": 4.5861276321651495e-08,
+      "loss": 0.0256,
+      "step": 6591
+    },
+    {
+      "epoch": 0.9726300258207303,
+      "grad_norm": 2.190324544906616,
+      "learning_rate": 4.5369842167874986e-08,
+      "loss": 0.033,
+      "step": 6592
+    },
+    {
+      "epoch": 0.9727775728513464,
+      "grad_norm": 2.735649347305298,
+      "learning_rate": 4.4881049252472056e-08,
+      "loss": 0.055,
+      "step": 6593
+    },
+    {
+      "epoch": 0.9729251198819624,
+      "grad_norm": 1.2812883853912354,
+      "learning_rate": 4.439489770513339e-08,
+      "loss": 0.0378,
+      "step": 6594
+    },
+    {
+      "epoch": 0.9730726669125784,
+      "grad_norm": 1.0837053060531616,
+      "learning_rate": 4.391138765484915e-08,
+      "loss": 0.0207,
+      "step": 6595
+    },
+    {
+      "epoch": 0.9732202139431944,
+      "grad_norm": 2.2297704219818115,
+      "learning_rate": 4.343051922990782e-08,
+      "loss": 0.0474,
+      "step": 6596
+    },
+    {
+      "epoch": 0.9733677609738104,
+      "grad_norm": 4.039227485656738,
+      "learning_rate": 4.295229255789623e-08,
+      "loss": 0.058,
+      "step": 6597
+    },
+    {
+      "epoch": 0.9735153080044264,
+      "grad_norm": 3.033900737762451,
+      "learning_rate": 4.247670776570178e-08,
+      "loss": 0.0861,
+      "step": 6598
+    },
+    {
+      "epoch": 0.9736628550350425,
+      "grad_norm": 2.549617052078247,
+      "learning_rate": 4.200376497951131e-08,
+      "loss": 0.1002,
+      "step": 6599
+    },
+    {
+      "epoch": 0.9738104020656584,
+      "grad_norm": 2.654305934906006,
+      "learning_rate": 4.153346432480776e-08,
+      "loss": 0.0986,
+      "step": 6600
+    },
+    {
+      "epoch": 0.9738104020656584,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05549389496445656,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.8482,
+      "eval_samples_per_second": 5.723,
+      "eval_steps_per_second": 0.197,
+      "step": 6600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0335814788555735e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null