Training in progress, step 750, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1063 -5

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:452d0f9d1042253e8914402f94761bc464f5303bfd52cb0843a491e93226040a
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:25fac366caff47f3aa93b902a05a2db29e00272a8c7b84d3056cc6748adca598
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94a9efd27bf25f6bfa3bb282296a1f8060e1cad35653d41640c612190fdaccdb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0b30a3c14ac7dc4dae39d2d5246237636a6a753e5435443e23ebc635d2d081d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe2ff5e4594f25cb309b1c1086b90d427c93663b3e9c4495a78ba41b13564b7d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a994b6cec1e66468861e932ae00811a4390034f78f383e9ebce5b2fbf8eafd7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.12594458438287154,
   "eval_steps": 150,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4247,6 +4247,1064 @@
       "eval_samples_per_second": 6.686,
       "eval_steps_per_second": 3.343,
       "step": 600
     }
   ],
   "logging_steps": 1,
@@ -4261,7 +5319,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
@@ -4270,12 +5328,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.292998858801152e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.1574307304785894,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.686,
       "eval_steps_per_second": 3.343,
       "step": 600
+    },
+    {
+      "epoch": 0.12615449202350965,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011780272298947175,
+      "loss": 0.0,
+      "step": 601
+    },
+    {
+      "epoch": 0.12636439966414778,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011757093414507408,
+      "loss": 0.0,
+      "step": 602
+    },
+    {
+      "epoch": 0.1265743073047859,
+      "grad_norm": NaN,
+      "learning_rate": 0.000117339047850476,
+      "loss": 0.0,
+      "step": 603
+    },
+    {
+      "epoch": 0.12678421494542402,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011710706539174268,
+      "loss": 0.0,
+      "step": 604
+    },
+    {
+      "epoch": 0.12699412258606213,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011687498805547257,
+      "loss": 0.0,
+      "step": 605
+    },
+    {
+      "epoch": 0.12720403022670027,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011664281712879033,
+      "loss": 0.0,
+      "step": 606
+    },
+    {
+      "epoch": 0.12741393786733837,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011641055389933977,
+      "loss": 0.0,
+      "step": 607
+    },
+    {
+      "epoch": 0.12762384550797648,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001161781996552765,
+      "loss": 0.0,
+      "step": 608
+    },
+    {
+      "epoch": 0.12783375314861462,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011594575568526094,
+      "loss": 0.0,
+      "step": 609
+    },
+    {
+      "epoch": 0.12804366078925272,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011571322327845116,
+      "loss": 0.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.12825356842989086,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011548060372449571,
+      "loss": 0.0,
+      "step": 611
+    },
+    {
+      "epoch": 0.12846347607052896,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011524789831352649,
+      "loss": 0.0,
+      "step": 612
+    },
+    {
+      "epoch": 0.1286733837111671,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001150151083361515,
+      "loss": 0.0,
+      "step": 613
+    },
+    {
+      "epoch": 0.1288832913518052,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011478223508344783,
+      "loss": 0.0,
+      "step": 614
+    },
+    {
+      "epoch": 0.12909319899244331,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011454927984695438,
+      "loss": 0.0,
+      "step": 615
+    },
+    {
+      "epoch": 0.12930310663308145,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011431624391866476,
+      "loss": 0.0,
+      "step": 616
+    },
+    {
+      "epoch": 0.12951301427371956,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011408312859102009,
+      "loss": 0.0,
+      "step": 617
+    },
+    {
+      "epoch": 0.1297229219143577,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011384993515690183,
+      "loss": 0.0,
+      "step": 618
+    },
+    {
+      "epoch": 0.1299328295549958,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011361666490962468,
+      "loss": 0.0,
+      "step": 619
+    },
+    {
+      "epoch": 0.13014273719563393,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001133833191429293,
+      "loss": 0.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.13035264483627204,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011314989915097523,
+      "loss": 0.0,
+      "step": 621
+    },
+    {
+      "epoch": 0.13056255247691015,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011291640622833362,
+      "loss": 0.0,
+      "step": 622
+    },
+    {
+      "epoch": 0.13077246011754828,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001126828416699802,
+      "loss": 0.0,
+      "step": 623
+    },
+    {
+      "epoch": 0.1309823677581864,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011244920677128786,
+      "loss": 0.0,
+      "step": 624
+    },
+    {
+      "epoch": 0.13119227539882453,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011221550282801971,
+      "loss": 0.0,
+      "step": 625
+    },
+    {
+      "epoch": 0.13140218303946263,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011198173113632177,
+      "loss": 0.0,
+      "step": 626
+    },
+    {
+      "epoch": 0.13161209068010077,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011174789299271577,
+      "loss": 0.0,
+      "step": 627
+    },
+    {
+      "epoch": 0.13182199832073888,
+      "grad_norm": NaN,
+      "learning_rate": 0.000111513989694092,
+      "loss": 0.0,
+      "step": 628
+    },
+    {
+      "epoch": 0.13203190596137698,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011128002253770211,
+      "loss": 0.0,
+      "step": 629
+    },
+    {
+      "epoch": 0.13224181360201512,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011104599282115191,
+      "loss": 0.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.13245172124265323,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011081190184239419,
+      "loss": 0.0,
+      "step": 631
+    },
+    {
+      "epoch": 0.13266162888329136,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001105777508997215,
+      "loss": 0.0,
+      "step": 632
+    },
+    {
+      "epoch": 0.13287153652392947,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001103435412917589,
+      "loss": 0.0,
+      "step": 633
+    },
+    {
+      "epoch": 0.1330814441645676,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011010927431745692,
+      "loss": 0.0,
+      "step": 634
+    },
+    {
+      "epoch": 0.1332913518052057,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001098749512760842,
+      "loss": 0.0,
+      "step": 635
+    },
+    {
+      "epoch": 0.13350125944584382,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001096405734672203,
+      "loss": 0.0,
+      "step": 636
+    },
+    {
+      "epoch": 0.13371116708648195,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010940614219074854,
+      "loss": 0.0,
+      "step": 637
+    },
+    {
+      "epoch": 0.13392107472712006,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001091716587468488,
+      "loss": 0.0,
+      "step": 638
+    },
+    {
+      "epoch": 0.1341309823677582,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010893712443599028,
+      "loss": 0.0,
+      "step": 639
+    },
+    {
+      "epoch": 0.1343408900083963,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001087025405589243,
+      "loss": 0.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.13455079764903444,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010846790841667705,
+      "loss": 0.0,
+      "step": 641
+    },
+    {
+      "epoch": 0.13476070528967254,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010823322931054246,
+      "loss": 0.0,
+      "step": 642
+    },
+    {
+      "epoch": 0.13497061293031065,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001079985045420748,
+      "loss": 0.0,
+      "step": 643
+    },
+    {
+      "epoch": 0.1351805205709488,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001077637354130818,
+      "loss": 0.0,
+      "step": 644
+    },
+    {
+      "epoch": 0.1353904282115869,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010752892322561701,
+      "loss": 0.0,
+      "step": 645
+    },
+    {
+      "epoch": 0.13560033585222503,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010729406928197289,
+      "loss": 0.0,
+      "step": 646
+    },
+    {
+      "epoch": 0.13581024349286314,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010705917488467345,
+      "loss": 0.0,
+      "step": 647
+    },
+    {
+      "epoch": 0.13602015113350127,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001068242413364671,
+      "loss": 0.0,
+      "step": 648
+    },
+    {
+      "epoch": 0.13623005877413938,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010658926994031937,
+      "loss": 0.0,
+      "step": 649
+    },
+    {
+      "epoch": 0.13643996641477749,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010635426199940566,
+      "loss": 0.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.13664987405541562,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010611921881710409,
+      "loss": 0.0,
+      "step": 651
+    },
+    {
+      "epoch": 0.13685978169605373,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010588414169698824,
+      "loss": 0.0,
+      "step": 652
+    },
+    {
+      "epoch": 0.13706968933669186,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010564903194281988,
+      "loss": 0.0,
+      "step": 653
+    },
+    {
+      "epoch": 0.13727959697732997,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010541389085854176,
+      "loss": 0.0,
+      "step": 654
+    },
+    {
+      "epoch": 0.1374895046179681,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010517871974827047,
+      "loss": 0.0,
+      "step": 655
+    },
+    {
+      "epoch": 0.1376994122586062,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010494351991628903,
+      "loss": 0.0,
+      "step": 656
+    },
+    {
+      "epoch": 0.13790931989924432,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010470829266703983,
+      "loss": 0.0,
+      "step": 657
+    },
+    {
+      "epoch": 0.13811922753988246,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010447303930511727,
+      "loss": 0.0,
+      "step": 658
+    },
+    {
+      "epoch": 0.13832913518052056,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010423776113526058,
+      "loss": 0.0,
+      "step": 659
+    },
+    {
+      "epoch": 0.1385390428211587,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010400245946234659,
+      "loss": 0.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.1387489504617968,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001037671355913825,
+      "loss": 0.0,
+      "step": 661
+    },
+    {
+      "epoch": 0.13895885810243494,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010353179082749857,
+      "loss": 0.0,
+      "step": 662
+    },
+    {
+      "epoch": 0.13916876574307305,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010329642647594102,
+      "loss": 0.0,
+      "step": 663
+    },
+    {
+      "epoch": 0.13937867338371115,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001030610438420646,
+      "loss": 0.0,
+      "step": 664
+    },
+    {
+      "epoch": 0.1395885810243493,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001028256442313255,
+      "loss": 0.0,
+      "step": 665
+    },
+    {
+      "epoch": 0.1397984886649874,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010259022894927411,
+      "loss": 0.0,
+      "step": 666
+    },
+    {
+      "epoch": 0.14000839630562553,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010235479930154763,
+      "loss": 0.0,
+      "step": 667
+    },
+    {
+      "epoch": 0.14021830394626364,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001021193565938631,
+      "loss": 0.0,
+      "step": 668
+    },
+    {
+      "epoch": 0.14042821158690177,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001018839021320098,
+      "loss": 0.0,
+      "step": 669
+    },
+    {
+      "epoch": 0.14063811922753988,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010164843722184232,
+      "loss": 0.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.140848026868178,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001014129631692732,
+      "loss": 0.0,
+      "step": 671
+    },
+    {
+      "epoch": 0.14105793450881612,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010117748128026561,
+      "loss": 0.0,
+      "step": 672
+    },
+    {
+      "epoch": 0.14126784214945423,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010094199286082624,
+      "loss": 0.0,
+      "step": 673
+    },
+    {
+      "epoch": 0.14147774979009237,
+      "grad_norm": NaN,
+      "learning_rate": 0.000100706499216998,
+      "loss": 0.0,
+      "step": 674
+    },
+    {
+      "epoch": 0.14168765743073047,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010047100165485272,
+      "loss": 0.0,
+      "step": 675
+    },
+    {
+      "epoch": 0.1418975650713686,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010023550148048404,
+      "loss": 0.0,
+      "step": 676
+    },
+    {
+      "epoch": 0.14210747271200672,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001,
+      "loss": 0.0,
+      "step": 677
+    },
+    {
+      "epoch": 0.14231738035264482,
+      "grad_norm": NaN,
+      "learning_rate": 9.9764498519516e-05,
+      "loss": 0.0,
+      "step": 678
+    },
+    {
+      "epoch": 0.14252728799328296,
+      "grad_norm": NaN,
+      "learning_rate": 9.95289983451473e-05,
+      "loss": 0.0,
+      "step": 679
+    },
+    {
+      "epoch": 0.14273719563392107,
+      "grad_norm": NaN,
+      "learning_rate": 9.929350078300203e-05,
+      "loss": 0.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.1429471032745592,
+      "grad_norm": NaN,
+      "learning_rate": 9.905800713917379e-05,
+      "loss": 0.0,
+      "step": 681
+    },
+    {
+      "epoch": 0.1431570109151973,
+      "grad_norm": NaN,
+      "learning_rate": 9.882251871973441e-05,
+      "loss": 0.0,
+      "step": 682
+    },
+    {
+      "epoch": 0.14336691855583544,
+      "grad_norm": NaN,
+      "learning_rate": 9.858703683072683e-05,
+      "loss": 0.0,
+      "step": 683
+    },
+    {
+      "epoch": 0.14357682619647355,
+      "grad_norm": NaN,
+      "learning_rate": 9.835156277815767e-05,
+      "loss": 0.0,
+      "step": 684
+    },
+    {
+      "epoch": 0.14378673383711166,
+      "grad_norm": NaN,
+      "learning_rate": 9.811609786799021e-05,
+      "loss": 0.0,
+      "step": 685
+    },
+    {
+      "epoch": 0.1439966414777498,
+      "grad_norm": NaN,
+      "learning_rate": 9.788064340613691e-05,
+      "loss": 0.0,
+      "step": 686
+    },
+    {
+      "epoch": 0.1442065491183879,
+      "grad_norm": NaN,
+      "learning_rate": 9.764520069845237e-05,
+      "loss": 0.0,
+      "step": 687
+    },
+    {
+      "epoch": 0.14441645675902604,
+      "grad_norm": NaN,
+      "learning_rate": 9.740977105072591e-05,
+      "loss": 0.0,
+      "step": 688
+    },
+    {
+      "epoch": 0.14462636439966414,
+      "grad_norm": NaN,
+      "learning_rate": 9.71743557686745e-05,
+      "loss": 0.0,
+      "step": 689
+    },
+    {
+      "epoch": 0.14483627204030228,
+      "grad_norm": NaN,
+      "learning_rate": 9.693895615793542e-05,
+      "loss": 0.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.14504617968094038,
+      "grad_norm": NaN,
+      "learning_rate": 9.670357352405899e-05,
+      "loss": 0.0,
+      "step": 691
+    },
+    {
+      "epoch": 0.1452560873215785,
+      "grad_norm": NaN,
+      "learning_rate": 9.646820917250145e-05,
+      "loss": 0.0,
+      "step": 692
+    },
+    {
+      "epoch": 0.14546599496221663,
+      "grad_norm": NaN,
+      "learning_rate": 9.623286440861753e-05,
+      "loss": 0.0,
+      "step": 693
+    },
+    {
+      "epoch": 0.14567590260285473,
+      "grad_norm": NaN,
+      "learning_rate": 9.599754053765344e-05,
+      "loss": 0.0,
+      "step": 694
+    },
+    {
+      "epoch": 0.14588581024349287,
+      "grad_norm": NaN,
+      "learning_rate": 9.576223886473947e-05,
+      "loss": 0.0,
+      "step": 695
+    },
+    {
+      "epoch": 0.14609571788413098,
+      "grad_norm": NaN,
+      "learning_rate": 9.552696069488278e-05,
+      "loss": 0.0,
+      "step": 696
+    },
+    {
+      "epoch": 0.1463056255247691,
+      "grad_norm": NaN,
+      "learning_rate": 9.529170733296021e-05,
+      "loss": 0.0,
+      "step": 697
+    },
+    {
+      "epoch": 0.14651553316540722,
+      "grad_norm": NaN,
+      "learning_rate": 9.505648008371096e-05,
+      "loss": 0.0,
+      "step": 698
+    },
+    {
+      "epoch": 0.14672544080604533,
+      "grad_norm": NaN,
+      "learning_rate": 9.482128025172956e-05,
+      "loss": 0.0,
+      "step": 699
+    },
+    {
+      "epoch": 0.14693534844668346,
+      "grad_norm": NaN,
+      "learning_rate": 9.458610914145826e-05,
+      "loss": 0.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.14714525608732157,
+      "grad_norm": NaN,
+      "learning_rate": 9.435096805718016e-05,
+      "loss": 0.0,
+      "step": 701
+    },
+    {
+      "epoch": 0.1473551637279597,
+      "grad_norm": NaN,
+      "learning_rate": 9.411585830301178e-05,
+      "loss": 0.0,
+      "step": 702
+    },
+    {
+      "epoch": 0.1475650713685978,
+      "grad_norm": NaN,
+      "learning_rate": 9.388078118289593e-05,
+      "loss": 0.0,
+      "step": 703
+    },
+    {
+      "epoch": 0.14777497900923595,
+      "grad_norm": NaN,
+      "learning_rate": 9.364573800059437e-05,
+      "loss": 0.0,
+      "step": 704
+    },
+    {
+      "epoch": 0.14798488664987405,
+      "grad_norm": NaN,
+      "learning_rate": 9.341073005968065e-05,
+      "loss": 0.0,
+      "step": 705
+    },
+    {
+      "epoch": 0.1481947942905122,
+      "grad_norm": NaN,
+      "learning_rate": 9.317575866353292e-05,
+      "loss": 0.0,
+      "step": 706
+    },
+    {
+      "epoch": 0.1484047019311503,
+      "grad_norm": NaN,
+      "learning_rate": 9.294082511532658e-05,
+      "loss": 0.0,
+      "step": 707
+    },
+    {
+      "epoch": 0.1486146095717884,
+      "grad_norm": NaN,
+      "learning_rate": 9.270593071802714e-05,
+      "loss": 0.0,
+      "step": 708
+    },
+    {
+      "epoch": 0.14882451721242654,
+      "grad_norm": NaN,
+      "learning_rate": 9.247107677438302e-05,
+      "loss": 0.0,
+      "step": 709
+    },
+    {
+      "epoch": 0.14903442485306465,
+      "grad_norm": NaN,
+      "learning_rate": 9.223626458691823e-05,
+      "loss": 0.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.14924433249370278,
+      "grad_norm": NaN,
+      "learning_rate": 9.20014954579252e-05,
+      "loss": 0.0,
+      "step": 711
+    },
+    {
+      "epoch": 0.1494542401343409,
+      "grad_norm": NaN,
+      "learning_rate": 9.176677068945755e-05,
+      "loss": 0.0,
+      "step": 712
+    },
+    {
+      "epoch": 0.14966414777497902,
+      "grad_norm": NaN,
+      "learning_rate": 9.153209158332295e-05,
+      "loss": 0.0,
+      "step": 713
+    },
+    {
+      "epoch": 0.14987405541561713,
+      "grad_norm": NaN,
+      "learning_rate": 9.129745944107571e-05,
+      "loss": 0.0,
+      "step": 714
+    },
+    {
+      "epoch": 0.15008396305625524,
+      "grad_norm": NaN,
+      "learning_rate": 9.106287556400973e-05,
+      "loss": 0.0,
+      "step": 715
+    },
+    {
+      "epoch": 0.15029387069689337,
+      "grad_norm": NaN,
+      "learning_rate": 9.082834125315122e-05,
+      "loss": 0.0,
+      "step": 716
+    },
+    {
+      "epoch": 0.15050377833753148,
+      "grad_norm": NaN,
+      "learning_rate": 9.059385780925148e-05,
+      "loss": 0.0,
+      "step": 717
+    },
+    {
+      "epoch": 0.15071368597816961,
+      "grad_norm": NaN,
+      "learning_rate": 9.035942653277972e-05,
+      "loss": 0.0,
+      "step": 718
+    },
+    {
+      "epoch": 0.15092359361880772,
+      "grad_norm": NaN,
+      "learning_rate": 9.012504872391581e-05,
+      "loss": 0.0,
+      "step": 719
+    },
+    {
+      "epoch": 0.15113350125944586,
+      "grad_norm": NaN,
+      "learning_rate": 8.98907256825431e-05,
+      "loss": 0.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.15134340890008396,
+      "grad_norm": NaN,
+      "learning_rate": 8.965645870824112e-05,
+      "loss": 0.0,
+      "step": 721
+    },
+    {
+      "epoch": 0.15155331654072207,
+      "grad_norm": NaN,
+      "learning_rate": 8.942224910027856e-05,
+      "loss": 0.0,
+      "step": 722
+    },
+    {
+      "epoch": 0.1517632241813602,
+      "grad_norm": NaN,
+      "learning_rate": 8.918809815760585e-05,
+      "loss": 0.0,
+      "step": 723
+    },
+    {
+      "epoch": 0.15197313182199831,
+      "grad_norm": NaN,
+      "learning_rate": 8.895400717884814e-05,
+      "loss": 0.0,
+      "step": 724
+    },
+    {
+      "epoch": 0.15218303946263645,
+      "grad_norm": NaN,
+      "learning_rate": 8.87199774622979e-05,
+      "loss": 0.0,
+      "step": 725
+    },
+    {
+      "epoch": 0.15239294710327456,
+      "grad_norm": NaN,
+      "learning_rate": 8.8486010305908e-05,
+      "loss": 0.0,
+      "step": 726
+    },
+    {
+      "epoch": 0.1526028547439127,
+      "grad_norm": NaN,
+      "learning_rate": 8.825210700728425e-05,
+      "loss": 0.0,
+      "step": 727
+    },
+    {
+      "epoch": 0.1528127623845508,
+      "grad_norm": NaN,
+      "learning_rate": 8.801826886367825e-05,
+      "loss": 0.0,
+      "step": 728
+    },
+    {
+      "epoch": 0.1530226700251889,
+      "grad_norm": NaN,
+      "learning_rate": 8.77844971719803e-05,
+      "loss": 0.0,
+      "step": 729
+    },
+    {
+      "epoch": 0.15323257766582704,
+      "grad_norm": NaN,
+      "learning_rate": 8.755079322871215e-05,
+      "loss": 0.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.15344248530646515,
+      "grad_norm": NaN,
+      "learning_rate": 8.731715833001983e-05,
+      "loss": 0.0,
+      "step": 731
+    },
+    {
+      "epoch": 0.15365239294710328,
+      "grad_norm": NaN,
+      "learning_rate": 8.708359377166639e-05,
+      "loss": 0.0,
+      "step": 732
+    },
+    {
+      "epoch": 0.1538623005877414,
+      "grad_norm": NaN,
+      "learning_rate": 8.68501008490248e-05,
+      "loss": 0.0,
+      "step": 733
+    },
+    {
+      "epoch": 0.15407220822837953,
+      "grad_norm": NaN,
+      "learning_rate": 8.661668085707073e-05,
+      "loss": 0.0,
+      "step": 734
+    },
+    {
+      "epoch": 0.15428211586901763,
+      "grad_norm": NaN,
+      "learning_rate": 8.638333509037536e-05,
+      "loss": 0.0,
+      "step": 735
+    },
+    {
+      "epoch": 0.15449202350965574,
+      "grad_norm": NaN,
+      "learning_rate": 8.61500648430982e-05,
+      "loss": 0.0,
+      "step": 736
+    },
+    {
+      "epoch": 0.15470193115029388,
+      "grad_norm": NaN,
+      "learning_rate": 8.591687140897995e-05,
+      "loss": 0.0,
+      "step": 737
+    },
+    {
+      "epoch": 0.15491183879093198,
+      "grad_norm": NaN,
+      "learning_rate": 8.568375608133526e-05,
+      "loss": 0.0,
+      "step": 738
+    },
+    {
+      "epoch": 0.15512174643157012,
+      "grad_norm": NaN,
+      "learning_rate": 8.54507201530456e-05,
+      "loss": 0.0,
+      "step": 739
+    },
+    {
+      "epoch": 0.15533165407220823,
+      "grad_norm": NaN,
+      "learning_rate": 8.521776491655216e-05,
+      "loss": 0.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.15554156171284636,
+      "grad_norm": NaN,
+      "learning_rate": 8.49848916638485e-05,
+      "loss": 0.0,
+      "step": 741
+    },
+    {
+      "epoch": 0.15575146935348447,
+      "grad_norm": NaN,
+      "learning_rate": 8.475210168647352e-05,
+      "loss": 0.0,
+      "step": 742
+    },
+    {
+      "epoch": 0.15596137699412257,
+      "grad_norm": NaN,
+      "learning_rate": 8.45193962755043e-05,
+      "loss": 0.0,
+      "step": 743
+    },
+    {
+      "epoch": 0.1561712846347607,
+      "grad_norm": NaN,
+      "learning_rate": 8.428677672154887e-05,
+      "loss": 0.0,
+      "step": 744
+    },
+    {
+      "epoch": 0.15638119227539882,
+      "grad_norm": NaN,
+      "learning_rate": 8.40542443147391e-05,
+      "loss": 0.0,
+      "step": 745
+    },
+    {
+      "epoch": 0.15659109991603695,
+      "grad_norm": NaN,
+      "learning_rate": 8.382180034472353e-05,
+      "loss": 0.0,
+      "step": 746
+    },
+    {
+      "epoch": 0.15680100755667506,
+      "grad_norm": NaN,
+      "learning_rate": 8.358944610066024e-05,
+      "loss": 0.0,
+      "step": 747
+    },
+    {
+      "epoch": 0.1570109151973132,
+      "grad_norm": NaN,
+      "learning_rate": 8.335718287120968e-05,
+      "loss": 0.0,
+      "step": 748
+    },
+    {
+      "epoch": 0.1572208228379513,
+      "grad_norm": NaN,
+      "learning_rate": 8.312501194452747e-05,
+      "loss": 0.0,
+      "step": 749
+    },
+    {
+      "epoch": 0.1574307304785894,
+      "grad_norm": NaN,
+      "learning_rate": 8.289293460825737e-05,
+      "loss": 0.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.1574307304785894,
+      "eval_loss": NaN,
+      "eval_runtime": 237.5294,
+      "eval_samples_per_second": 6.685,
+      "eval_steps_per_second": 3.343,
+      "step": 750
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 4
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.36624857350144e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null