Training in progress, step 6500, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8da094bb58aa315c0dbf65d109a4451df66be453e2431cf1a0c4ecdd9ceebd97
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:b70b1bdd1598615c49c4b9a7faeeaa85e0df1ab80935c4de9703e337cbef5419
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96e263ebb8f2a41872ded496e1dc52ad7720376bb634867f9591a3794ab7d3a1
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc84cdd38d4fb81c57c92e318089a0050c59636f80d52d59c7e95dfd9fd62580
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:344a82b08f46e3470679d0297ce3f97fd02b801ccee0da6f53e77cf6d7ea9808
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4712250438ce35119c47f3071be3ca85a4fce51b421eda9263e5ccdc56ad810
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e62e952e34e8732a682ff9a8aa0dfece0ec8b2415897d03feab5a9570104b06d
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:03a7d0375d4dc32e11bcee4d7faf50e1efa9d4c215c6763c2e4a46a246814940
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:948187477401863aff3f049c3c44b0abdb0be5c10934fb97375600a1ce977bb0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f97937888bf353d4425445e26e6749a80bf045549b1996cc08838b4dfb4b8dc4
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25236c04c8f8da3260ea3459f91081dcddc5d5ea2cbe8eabd6054cce06f92faa
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:11d0834123efa7f652e2e631a76ccc6e13c613f625cb331ed1e2b81641ebca01
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:640b6e661958d243cae1ea127f269a99af317657fa786eb7dc174d158d645b7d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:352b2435cc0fdbc839b93fecae50d3830aa0717204cfab826aa5127ee89d2407
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1f1752f740240735a873bcf35d461dfe262e32638d88fc837774925e8080436
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:58cce52d813acc463fc99594977081fcbdb55dfd090284d6dbc8cb7c0ca23dd0
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d98bdde773257c04b20ce747461dedaea858963e3b0ee34044400ab89897a43
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:89592922c71a0801bf0d6fdc601852fa0221a03b1ab5fb935185066acc67448f
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8504bbd2ddff94c982c1681f6db902504da78219fcef7f6818b65d415605b80c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc83c14767c41315dc8ec259110c74b59ff4daddfa2add8ceb7d6ecfcf304840
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:196065f493df1d03858eb23e309a1135c0371a98a32ac2a517518646388ed9cf
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9011b070f191d0e0ac40350bb8e4c21dd15e660927e0930b9cd365a37b434167
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7fed0b4c620538bfc967033b7c4ab483c5214d361a87603ce37022eafee14fa
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd7e984441e517b75f1d23d418db3472b205bd6171ca12f9c999f36bc527e641
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60228bdd3999ee852e9677ac091321938441c1f39b0d501df20ea306992b3f39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c58e283a30a20e60ecca74baeb4de711e3041934465bd25e1ee1e0167c92157
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9443009959424566,
   "eval_steps": 20,
-  "global_step": 6400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -48659,6 +48659,766 @@
       "eval_samples_per_second": 5.929,
       "eval_steps_per_second": 0.204,
       "step": 6400
     }
   ],
   "logging_steps": 1,
@@ -48678,7 +49438,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9720278275952476e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9590556990040575,
   "eval_steps": 20,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.929,
       "eval_steps_per_second": 0.204,
       "step": 6400
+    },
+    {
+      "epoch": 0.9444485429730727,
+      "grad_norm": 5.365920543670654,
+      "learning_rate": 1.8696924803641825e-07,
+      "loss": 0.0539,
+      "step": 6401
+    },
+    {
+      "epoch": 0.9445960900036887,
+      "grad_norm": 1.1807736158370972,
+      "learning_rate": 1.8597914335757085e-07,
+      "loss": 0.0485,
+      "step": 6402
+    },
+    {
+      "epoch": 0.9447436370343046,
+      "grad_norm": 1.9345782995224,
+      "learning_rate": 1.8499164260956548e-07,
+      "loss": 0.025,
+      "step": 6403
+    },
+    {
+      "epoch": 0.9448911840649207,
+      "grad_norm": 2.943807363510132,
+      "learning_rate": 1.840067460544137e-07,
+      "loss": 0.0545,
+      "step": 6404
+    },
+    {
+      "epoch": 0.9450387310955367,
+      "grad_norm": 1.9922869205474854,
+      "learning_rate": 1.830244539534376e-07,
+      "loss": 0.0358,
+      "step": 6405
+    },
+    {
+      "epoch": 0.9451862781261527,
+      "grad_norm": 2.3645715713500977,
+      "learning_rate": 1.820447665672631e-07,
+      "loss": 0.0791,
+      "step": 6406
+    },
+    {
+      "epoch": 0.9453338251567687,
+      "grad_norm": 2.1656434535980225,
+      "learning_rate": 1.810676841558301e-07,
+      "loss": 0.0472,
+      "step": 6407
+    },
+    {
+      "epoch": 0.9454813721873847,
+      "grad_norm": 1.5175650119781494,
+      "learning_rate": 1.8009320697838672e-07,
+      "loss": 0.024,
+      "step": 6408
+    },
+    {
+      "epoch": 0.9456289192180007,
+      "grad_norm": 1.9532819986343384,
+      "learning_rate": 1.791213352934851e-07,
+      "loss": 0.045,
+      "step": 6409
+    },
+    {
+      "epoch": 0.9457764662486168,
+      "grad_norm": 1.9861067533493042,
+      "learning_rate": 1.7815206935899332e-07,
+      "loss": 0.0689,
+      "step": 6410
+    },
+    {
+      "epoch": 0.9459240132792327,
+      "grad_norm": 5.2447967529296875,
+      "learning_rate": 1.771854094320835e-07,
+      "loss": 0.0425,
+      "step": 6411
+    },
+    {
+      "epoch": 0.9460715603098487,
+      "grad_norm": 2.146310567855835,
+      "learning_rate": 1.7622135576923495e-07,
+      "loss": 0.0601,
+      "step": 6412
+    },
+    {
+      "epoch": 0.9462191073404648,
+      "grad_norm": 2.063035726547241,
+      "learning_rate": 1.7525990862624188e-07,
+      "loss": 0.0776,
+      "step": 6413
+    },
+    {
+      "epoch": 0.9463666543710808,
+      "grad_norm": 2.2232484817504883,
+      "learning_rate": 1.7430106825819804e-07,
+      "loss": 0.0306,
+      "step": 6414
+    },
+    {
+      "epoch": 0.9465142014016968,
+      "grad_norm": 1.885646939277649,
+      "learning_rate": 1.7334483491951327e-07,
+      "loss": 0.0365,
+      "step": 6415
+    },
+    {
+      "epoch": 0.9466617484323128,
+      "grad_norm": 2.823607921600342,
+      "learning_rate": 1.7239120886390347e-07,
+      "loss": 0.0833,
+      "step": 6416
+    },
+    {
+      "epoch": 0.9468092954629288,
+      "grad_norm": 3.014352798461914,
+      "learning_rate": 1.7144019034438851e-07,
+      "loss": 0.0913,
+      "step": 6417
+    },
+    {
+      "epoch": 0.9469568424935448,
+      "grad_norm": 2.5719082355499268,
+      "learning_rate": 1.7049177961330432e-07,
+      "loss": 0.0422,
+      "step": 6418
+    },
+    {
+      "epoch": 0.9471043895241609,
+      "grad_norm": 2.7025134563446045,
+      "learning_rate": 1.6954597692228626e-07,
+      "loss": 0.1112,
+      "step": 6419
+    },
+    {
+      "epoch": 0.9472519365547768,
+      "grad_norm": 1.737754464149475,
+      "learning_rate": 1.6860278252228358e-07,
+      "loss": 0.0323,
+      "step": 6420
+    },
+    {
+      "epoch": 0.9472519365547768,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05500521510839462,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.669,
+      "eval_samples_per_second": 5.979,
+      "eval_steps_per_second": 0.205,
+      "step": 6420
+    },
+    {
+      "epoch": 0.9473994835853928,
+      "grad_norm": 2.6450870037078857,
+      "learning_rate": 1.6766219666355278e-07,
+      "loss": 0.0535,
+      "step": 6421
+    },
+    {
+      "epoch": 0.9475470306160089,
+      "grad_norm": 2.7876486778259277,
+      "learning_rate": 1.6672421959565755e-07,
+      "loss": 0.0498,
+      "step": 6422
+    },
+    {
+      "epoch": 0.9476945776466249,
+      "grad_norm": 4.724228858947754,
+      "learning_rate": 1.6578885156746548e-07,
+      "loss": 0.0836,
+      "step": 6423
+    },
+    {
+      "epoch": 0.9478421246772408,
+      "grad_norm": 1.4518014192581177,
+      "learning_rate": 1.648560928271592e-07,
+      "loss": 0.0291,
+      "step": 6424
+    },
+    {
+      "epoch": 0.9479896717078569,
+      "grad_norm": 2.3440370559692383,
+      "learning_rate": 1.6392594362222515e-07,
+      "loss": 0.0662,
+      "step": 6425
+    },
+    {
+      "epoch": 0.9481372187384729,
+      "grad_norm": 1.8037214279174805,
+      "learning_rate": 1.629984041994559e-07,
+      "loss": 0.0443,
+      "step": 6426
+    },
+    {
+      "epoch": 0.9482847657690889,
+      "grad_norm": 0.7664615511894226,
+      "learning_rate": 1.6207347480495462e-07,
+      "loss": 0.0098,
+      "step": 6427
+    },
+    {
+      "epoch": 0.9484323127997049,
+      "grad_norm": 3.4400036334991455,
+      "learning_rate": 1.6115115568412942e-07,
+      "loss": 0.084,
+      "step": 6428
+    },
+    {
+      "epoch": 0.9485798598303209,
+      "grad_norm": 2.720244884490967,
+      "learning_rate": 1.602314470816968e-07,
+      "loss": 0.0446,
+      "step": 6429
+    },
+    {
+      "epoch": 0.9487274068609369,
+      "grad_norm": 1.642297625541687,
+      "learning_rate": 1.5931434924168377e-07,
+      "loss": 0.0146,
+      "step": 6430
+    },
+    {
+      "epoch": 0.948874953891553,
+      "grad_norm": 2.7700729370117188,
+      "learning_rate": 1.583998624074179e-07,
+      "loss": 0.0629,
+      "step": 6431
+    },
+    {
+      "epoch": 0.9490225009221689,
+      "grad_norm": 4.600953578948975,
+      "learning_rate": 1.5748798682154177e-07,
+      "loss": 0.1125,
+      "step": 6432
+    },
+    {
+      "epoch": 0.9491700479527849,
+      "grad_norm": 1.555990219116211,
+      "learning_rate": 1.5657872272599738e-07,
+      "loss": 0.0382,
+      "step": 6433
+    },
+    {
+      "epoch": 0.949317594983401,
+      "grad_norm": 2.383833408355713,
+      "learning_rate": 1.5567207036203957e-07,
+      "loss": 0.0967,
+      "step": 6434
+    },
+    {
+      "epoch": 0.949465142014017,
+      "grad_norm": 3.316439390182495,
+      "learning_rate": 1.5476802997022812e-07,
+      "loss": 0.1172,
+      "step": 6435
+    },
+    {
+      "epoch": 0.949612689044633,
+      "grad_norm": 4.898162841796875,
+      "learning_rate": 1.538666017904311e-07,
+      "loss": 0.1416,
+      "step": 6436
+    },
+    {
+      "epoch": 0.949760236075249,
+      "grad_norm": 2.7083256244659424,
+      "learning_rate": 1.5296778606181839e-07,
+      "loss": 0.057,
+      "step": 6437
+    },
+    {
+      "epoch": 0.949907783105865,
+      "grad_norm": 2.0090880393981934,
+      "learning_rate": 1.5207158302287472e-07,
+      "loss": 0.0365,
+      "step": 6438
+    },
+    {
+      "epoch": 0.950055330136481,
+      "grad_norm": 2.323190689086914,
+      "learning_rate": 1.5117799291138657e-07,
+      "loss": 0.0455,
+      "step": 6439
+    },
+    {
+      "epoch": 0.9502028771670971,
+      "grad_norm": 2.2493746280670166,
+      "learning_rate": 1.502870159644465e-07,
+      "loss": 0.0496,
+      "step": 6440
+    },
+    {
+      "epoch": 0.9502028771670971,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.055333010852336884,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 49.0651,
+      "eval_samples_per_second": 5.931,
+      "eval_steps_per_second": 0.204,
+      "step": 6440
+    },
+    {
+      "epoch": 0.950350424197713,
+      "grad_norm": 9.028923034667969,
+      "learning_rate": 1.4939865241845652e-07,
+      "loss": 0.1114,
+      "step": 6441
+    },
+    {
+      "epoch": 0.950497971228329,
+      "grad_norm": 3.4927148818969727,
+      "learning_rate": 1.4851290250912365e-07,
+      "loss": 0.0462,
+      "step": 6442
+    },
+    {
+      "epoch": 0.950645518258945,
+      "grad_norm": 1.9196674823760986,
+      "learning_rate": 1.476297664714621e-07,
+      "loss": 0.0741,
+      "step": 6443
+    },
+    {
+      "epoch": 0.9507930652895611,
+      "grad_norm": 0.9236531257629395,
+      "learning_rate": 1.4674924453979223e-07,
+      "loss": 0.0087,
+      "step": 6444
+    },
+    {
+      "epoch": 0.950940612320177,
+      "grad_norm": 1.8691339492797852,
+      "learning_rate": 1.4587133694774048e-07,
+      "loss": 0.0449,
+      "step": 6445
+    },
+    {
+      "epoch": 0.951088159350793,
+      "grad_norm": 3.3348920345306396,
+      "learning_rate": 1.4499604392824052e-07,
+      "loss": 0.0528,
+      "step": 6446
+    },
+    {
+      "epoch": 0.9512357063814091,
+      "grad_norm": 3.1573545932769775,
+      "learning_rate": 1.4412336571353103e-07,
+      "loss": 0.1077,
+      "step": 6447
+    },
+    {
+      "epoch": 0.9513832534120251,
+      "grad_norm": 1.6667567491531372,
+      "learning_rate": 1.4325330253515902e-07,
+      "loss": 0.0289,
+      "step": 6448
+    },
+    {
+      "epoch": 0.951530800442641,
+      "grad_norm": 2.5860416889190674,
+      "learning_rate": 1.4238585462397536e-07,
+      "loss": 0.076,
+      "step": 6449
+    },
+    {
+      "epoch": 0.9516783474732571,
+      "grad_norm": 2.118489980697632,
+      "learning_rate": 1.4152102221013708e-07,
+      "loss": 0.0561,
+      "step": 6450
+    },
+    {
+      "epoch": 0.9518258945038731,
+      "grad_norm": 1.936941385269165,
+      "learning_rate": 1.4065880552310952e-07,
+      "loss": 0.0525,
+      "step": 6451
+    },
+    {
+      "epoch": 0.9519734415344892,
+      "grad_norm": 1.3135408163070679,
+      "learning_rate": 1.3979920479166187e-07,
+      "loss": 0.0513,
+      "step": 6452
+    },
+    {
+      "epoch": 0.9521209885651051,
+      "grad_norm": 2.240351915359497,
+      "learning_rate": 1.389422202438706e-07,
+      "loss": 0.0541,
+      "step": 6453
+    },
+    {
+      "epoch": 0.9522685355957211,
+      "grad_norm": 4.377660751342773,
+      "learning_rate": 1.3808785210711606e-07,
+      "loss": 0.0642,
+      "step": 6454
+    },
+    {
+      "epoch": 0.9524160826263371,
+      "grad_norm": 4.16725492477417,
+      "learning_rate": 1.3723610060808801e-07,
+      "loss": 0.0707,
+      "step": 6455
+    },
+    {
+      "epoch": 0.9525636296569532,
+      "grad_norm": 1.5783486366271973,
+      "learning_rate": 1.3638696597277678e-07,
+      "loss": 0.0347,
+      "step": 6456
+    },
+    {
+      "epoch": 0.9527111766875692,
+      "grad_norm": 0.9976248741149902,
+      "learning_rate": 1.3554044842648217e-07,
+      "loss": 0.0198,
+      "step": 6457
+    },
+    {
+      "epoch": 0.9528587237181851,
+      "grad_norm": 2.819964647293091,
+      "learning_rate": 1.3469654819381118e-07,
+      "loss": 0.0753,
+      "step": 6458
+    },
+    {
+      "epoch": 0.9530062707488012,
+      "grad_norm": 0.9899864196777344,
+      "learning_rate": 1.3385526549867022e-07,
+      "loss": 0.013,
+      "step": 6459
+    },
+    {
+      "epoch": 0.9531538177794172,
+      "grad_norm": 2.6590030193328857,
+      "learning_rate": 1.3301660056427745e-07,
+      "loss": 0.0809,
+      "step": 6460
+    },
+    {
+      "epoch": 0.9531538177794172,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05532016232609749,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.7081,
+      "eval_samples_per_second": 5.974,
+      "eval_steps_per_second": 0.205,
+      "step": 6460
+    },
+    {
+      "epoch": 0.9533013648100332,
+      "grad_norm": 2.229666233062744,
+      "learning_rate": 1.3218055361315262e-07,
+      "loss": 0.0684,
+      "step": 6461
+    },
+    {
+      "epoch": 0.9534489118406492,
+      "grad_norm": 2.2530157566070557,
+      "learning_rate": 1.3134712486712165e-07,
+      "loss": 0.0549,
+      "step": 6462
+    },
+    {
+      "epoch": 0.9535964588712652,
+      "grad_norm": 2.005972146987915,
+      "learning_rate": 1.3051631454731873e-07,
+      "loss": 0.0462,
+      "step": 6463
+    },
+    {
+      "epoch": 0.9537440059018812,
+      "grad_norm": 3.3792154788970947,
+      "learning_rate": 1.2968812287417753e-07,
+      "loss": 0.1276,
+      "step": 6464
+    },
+    {
+      "epoch": 0.9538915529324973,
+      "grad_norm": 3.6405813694000244,
+      "learning_rate": 1.288625500674412e-07,
+      "loss": 0.0681,
+      "step": 6465
+    },
+    {
+      "epoch": 0.9540390999631132,
+      "grad_norm": 1.7894163131713867,
+      "learning_rate": 1.2803959634615782e-07,
+      "loss": 0.0496,
+      "step": 6466
+    },
+    {
+      "epoch": 0.9541866469937292,
+      "grad_norm": 0.9998230934143066,
+      "learning_rate": 1.272192619286805e-07,
+      "loss": 0.0204,
+      "step": 6467
+    },
+    {
+      "epoch": 0.9543341940243453,
+      "grad_norm": 2.581663131713867,
+      "learning_rate": 1.2640154703266405e-07,
+      "loss": 0.0972,
+      "step": 6468
+    },
+    {
+      "epoch": 0.9544817410549613,
+      "grad_norm": 1.5313342809677124,
+      "learning_rate": 1.2558645187507267e-07,
+      "loss": 0.0412,
+      "step": 6469
+    },
+    {
+      "epoch": 0.9546292880855772,
+      "grad_norm": 2.740792751312256,
+      "learning_rate": 1.247739766721734e-07,
+      "loss": 0.0527,
+      "step": 6470
+    },
+    {
+      "epoch": 0.9547768351161933,
+      "grad_norm": 1.9213531017303467,
+      "learning_rate": 1.2396412163953709e-07,
+      "loss": 0.0462,
+      "step": 6471
+    },
+    {
+      "epoch": 0.9549243821468093,
+      "grad_norm": 2.4002788066864014,
+      "learning_rate": 1.2315688699204298e-07,
+      "loss": 0.0869,
+      "step": 6472
+    },
+    {
+      "epoch": 0.9550719291774253,
+      "grad_norm": 4.3059186935424805,
+      "learning_rate": 1.2235227294387085e-07,
+      "loss": 0.0794,
+      "step": 6473
+    },
+    {
+      "epoch": 0.9552194762080413,
+      "grad_norm": 2.3202598094940186,
+      "learning_rate": 1.2155027970850776e-07,
+      "loss": 0.0262,
+      "step": 6474
+    },
+    {
+      "epoch": 0.9553670232386573,
+      "grad_norm": 2.168534517288208,
+      "learning_rate": 1.2075090749874451e-07,
+      "loss": 0.0299,
+      "step": 6475
+    },
+    {
+      "epoch": 0.9555145702692733,
+      "grad_norm": 4.975533485412598,
+      "learning_rate": 1.1995415652667598e-07,
+      "loss": 0.1115,
+      "step": 6476
+    },
+    {
+      "epoch": 0.9556621172998894,
+      "grad_norm": 2.08109450340271,
+      "learning_rate": 1.1916002700370411e-07,
+      "loss": 0.0311,
+      "step": 6477
+    },
+    {
+      "epoch": 0.9558096643305053,
+      "grad_norm": 3.003537654876709,
+      "learning_rate": 1.183685191405315e-07,
+      "loss": 0.033,
+      "step": 6478
+    },
+    {
+      "epoch": 0.9559572113611213,
+      "grad_norm": 1.9444817304611206,
+      "learning_rate": 1.1757963314716791e-07,
+      "loss": 0.051,
+      "step": 6479
+    },
+    {
+      "epoch": 0.9561047583917374,
+      "grad_norm": 2.8040788173675537,
+      "learning_rate": 1.1679336923292594e-07,
+      "loss": 0.0706,
+      "step": 6480
+    },
+    {
+      "epoch": 0.9561047583917374,
+      "eval_accuracy": 0.9797395079594791,
+      "eval_f1": 0.9653465346534653,
+      "eval_loss": 0.05492851138114929,
+      "eval_precision": 0.9848484848484849,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 48.3996,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 0.207,
+      "step": 6480
+    },
+    {
+      "epoch": 0.9562523054223534,
+      "grad_norm": 5.251060485839844,
+      "learning_rate": 1.1600972760642426e-07,
+      "loss": 0.0943,
+      "step": 6481
+    },
+    {
+      "epoch": 0.9563998524529694,
+      "grad_norm": 2.8643219470977783,
+      "learning_rate": 1.1522870847558432e-07,
+      "loss": 0.0305,
+      "step": 6482
+    },
+    {
+      "epoch": 0.9565473994835854,
+      "grad_norm": 3.2723355293273926,
+      "learning_rate": 1.1445031204763146e-07,
+      "loss": 0.0637,
+      "step": 6483
+    },
+    {
+      "epoch": 0.9566949465142014,
+      "grad_norm": 3.418752908706665,
+      "learning_rate": 1.1367453852909493e-07,
+      "loss": 0.0994,
+      "step": 6484
+    },
+    {
+      "epoch": 0.9568424935448174,
+      "grad_norm": 0.9884876608848572,
+      "learning_rate": 1.1290138812581009e-07,
+      "loss": 0.0218,
+      "step": 6485
+    },
+    {
+      "epoch": 0.9569900405754335,
+      "grad_norm": 2.2045938968658447,
+      "learning_rate": 1.1213086104291615e-07,
+      "loss": 0.032,
+      "step": 6486
+    },
+    {
+      "epoch": 0.9571375876060494,
+      "grad_norm": 2.34030818939209,
+      "learning_rate": 1.1136295748485293e-07,
+      "loss": 0.0321,
+      "step": 6487
+    },
+    {
+      "epoch": 0.9572851346366654,
+      "grad_norm": 2.480587959289551,
+      "learning_rate": 1.1059767765536856e-07,
+      "loss": 0.0331,
+      "step": 6488
+    },
+    {
+      "epoch": 0.9574326816672815,
+      "grad_norm": 2.711378574371338,
+      "learning_rate": 1.098350217575117e-07,
+      "loss": 0.0592,
+      "step": 6489
+    },
+    {
+      "epoch": 0.9575802286978975,
+      "grad_norm": 1.1604716777801514,
+      "learning_rate": 1.0907498999363609e-07,
+      "loss": 0.015,
+      "step": 6490
+    },
+    {
+      "epoch": 0.9577277757285134,
+      "grad_norm": 1.9541465044021606,
+      "learning_rate": 1.0831758256539925e-07,
+      "loss": 0.043,
+      "step": 6491
+    },
+    {
+      "epoch": 0.9578753227591295,
+      "grad_norm": 6.780413627624512,
+      "learning_rate": 1.075627996737627e-07,
+      "loss": 0.0828,
+      "step": 6492
+    },
+    {
+      "epoch": 0.9580228697897455,
+      "grad_norm": 0.8017694354057312,
+      "learning_rate": 1.0681064151899068e-07,
+      "loss": 0.0084,
+      "step": 6493
+    },
+    {
+      "epoch": 0.9581704168203615,
+      "grad_norm": 1.1130073070526123,
+      "learning_rate": 1.0606110830065131e-07,
+      "loss": 0.011,
+      "step": 6494
+    },
+    {
+      "epoch": 0.9583179638509775,
+      "grad_norm": 2.2371890544891357,
+      "learning_rate": 1.0531420021761662e-07,
+      "loss": 0.0579,
+      "step": 6495
+    },
+    {
+      "epoch": 0.9584655108815935,
+      "grad_norm": 2.2667269706726074,
+      "learning_rate": 1.0456991746806366e-07,
+      "loss": 0.03,
+      "step": 6496
+    },
+    {
+      "epoch": 0.9586130579122095,
+      "grad_norm": 0.9488065242767334,
+      "learning_rate": 1.0382826024946891e-07,
+      "loss": 0.0154,
+      "step": 6497
+    },
+    {
+      "epoch": 0.9587606049428256,
+      "grad_norm": 2.35026478767395,
+      "learning_rate": 1.0308922875861493e-07,
+      "loss": 0.0377,
+      "step": 6498
+    },
+    {
+      "epoch": 0.9589081519734415,
+      "grad_norm": 1.9522687196731567,
+      "learning_rate": 1.0235282319158823e-07,
+      "loss": 0.0769,
+      "step": 6499
+    },
+    {
+      "epoch": 0.9590556990040575,
+      "grad_norm": 4.399130344390869,
+      "learning_rate": 1.0161904374377696e-07,
+      "loss": 0.0716,
+      "step": 6500
+    },
+    {
+      "epoch": 0.9590556990040575,
+      "eval_accuracy": 0.9782923299565847,
+      "eval_f1": 0.9629629629629629,
+      "eval_loss": 0.05545896664261818,
+      "eval_precision": 0.9798994974874372,
+      "eval_recall": 0.9466019417475728,
+      "eval_runtime": 50.2134,
+      "eval_samples_per_second": 5.795,
+      "eval_steps_per_second": 0.199,
+      "step": 6500
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0029445559969382e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null