{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.999346832135859,
  "eval_steps": 500,
  "global_step": 1722,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.017417809710428913,
      "grad_norm": 10.378825586435497,
      "learning_rate": 5e-06,
      "loss": 1.0838,
      "step": 10
    },
    {
      "epoch": 0.034835619420857826,
      "grad_norm": 4.271546912407876,
      "learning_rate": 5e-06,
      "loss": 0.9373,
      "step": 20
    },
    {
      "epoch": 0.05225342913128674,
      "grad_norm": 2.1390120781164823,
      "learning_rate": 5e-06,
      "loss": 0.8909,
      "step": 30
    },
    {
      "epoch": 0.06967123884171565,
      "grad_norm": 1.4309168874054254,
      "learning_rate": 5e-06,
      "loss": 0.8639,
      "step": 40
    },
    {
      "epoch": 0.08708904855214457,
      "grad_norm": 1.5406276876095664,
      "learning_rate": 5e-06,
      "loss": 0.8433,
      "step": 50
    },
    {
      "epoch": 0.10450685826257348,
      "grad_norm": 1.2501465404617618,
      "learning_rate": 5e-06,
      "loss": 0.8247,
      "step": 60
    },
    {
      "epoch": 0.1219246679730024,
      "grad_norm": 0.9239834135671998,
      "learning_rate": 5e-06,
      "loss": 0.8126,
      "step": 70
    },
    {
      "epoch": 0.1393424776834313,
      "grad_norm": 0.8433941860985329,
      "learning_rate": 5e-06,
      "loss": 0.8046,
      "step": 80
    },
    {
      "epoch": 0.15676028739386022,
      "grad_norm": 1.097647182335265,
      "learning_rate": 5e-06,
      "loss": 0.796,
      "step": 90
    },
    {
      "epoch": 0.17417809710428914,
      "grad_norm": 1.0683416519694173,
      "learning_rate": 5e-06,
      "loss": 0.7903,
      "step": 100
    },
    {
      "epoch": 0.19159590681471805,
      "grad_norm": 1.572717136046009,
      "learning_rate": 5e-06,
      "loss": 0.7846,
      "step": 110
    },
    {
      "epoch": 0.20901371652514697,
      "grad_norm": 0.9249575894994505,
      "learning_rate": 5e-06,
      "loss": 0.7806,
      "step": 120
    },
    {
      "epoch": 0.2264315262355759,
      "grad_norm": 0.8193084838390464,
      "learning_rate": 5e-06,
      "loss": 0.7783,
      "step": 130
    },
    {
      "epoch": 0.2438493359460048,
      "grad_norm": 0.8732647330500742,
      "learning_rate": 5e-06,
      "loss": 0.7725,
      "step": 140
    },
    {
      "epoch": 0.2612671456564337,
      "grad_norm": 0.7448079044745952,
      "learning_rate": 5e-06,
      "loss": 0.773,
      "step": 150
    },
    {
      "epoch": 0.2786849553668626,
      "grad_norm": 0.9898862055097742,
      "learning_rate": 5e-06,
      "loss": 0.7695,
      "step": 160
    },
    {
      "epoch": 0.29610276507729155,
      "grad_norm": 0.7272776397879028,
      "learning_rate": 5e-06,
      "loss": 0.7705,
      "step": 170
    },
    {
      "epoch": 0.31352057478772044,
      "grad_norm": 1.0826222911505594,
      "learning_rate": 5e-06,
      "loss": 0.7737,
      "step": 180
    },
    {
      "epoch": 0.3309383844981494,
      "grad_norm": 0.6748830770235253,
      "learning_rate": 5e-06,
      "loss": 0.7611,
      "step": 190
    },
    {
      "epoch": 0.3483561942085783,
      "grad_norm": 0.7359625796839507,
      "learning_rate": 5e-06,
      "loss": 0.7609,
      "step": 200
    },
    {
      "epoch": 0.36577400391900716,
      "grad_norm": 0.6962279114859433,
      "learning_rate": 5e-06,
      "loss": 0.756,
      "step": 210
    },
    {
      "epoch": 0.3831918136294361,
      "grad_norm": 0.6255149151141138,
      "learning_rate": 5e-06,
      "loss": 0.7617,
      "step": 220
    },
    {
      "epoch": 0.400609623339865,
      "grad_norm": 0.7052369366480614,
      "learning_rate": 5e-06,
      "loss": 0.7569,
      "step": 230
    },
    {
      "epoch": 0.41802743305029394,
      "grad_norm": 0.6097155207889393,
      "learning_rate": 5e-06,
      "loss": 0.7546,
      "step": 240
    },
    {
      "epoch": 0.43544524276072283,
      "grad_norm": 0.6836967619335058,
      "learning_rate": 5e-06,
      "loss": 0.7613,
      "step": 250
    },
    {
      "epoch": 0.4528630524711518,
      "grad_norm": 0.5747669710959988,
      "learning_rate": 5e-06,
      "loss": 0.7568,
      "step": 260
    },
    {
      "epoch": 0.47028086218158066,
      "grad_norm": 0.8293746415280457,
      "learning_rate": 5e-06,
      "loss": 0.755,
      "step": 270
    },
    {
      "epoch": 0.4876986718920096,
      "grad_norm": 0.6240762658588678,
      "learning_rate": 5e-06,
      "loss": 0.7512,
      "step": 280
    },
    {
      "epoch": 0.5051164816024385,
      "grad_norm": 0.604817000368227,
      "learning_rate": 5e-06,
      "loss": 0.7565,
      "step": 290
    },
    {
      "epoch": 0.5225342913128674,
      "grad_norm": 0.7975782732234052,
      "learning_rate": 5e-06,
      "loss": 0.7536,
      "step": 300
    },
    {
      "epoch": 0.5399521010232963,
      "grad_norm": 0.9097401207787359,
      "learning_rate": 5e-06,
      "loss": 0.7449,
      "step": 310
    },
    {
      "epoch": 0.5573699107337252,
      "grad_norm": 0.5850865591811083,
      "learning_rate": 5e-06,
      "loss": 0.7476,
      "step": 320
    },
    {
      "epoch": 0.5747877204441542,
      "grad_norm": 0.7135182489392279,
      "learning_rate": 5e-06,
      "loss": 0.7446,
      "step": 330
    },
    {
      "epoch": 0.5922055301545831,
      "grad_norm": 0.7289623389467091,
      "learning_rate": 5e-06,
      "loss": 0.7461,
      "step": 340
    },
    {
      "epoch": 0.6096233398650119,
      "grad_norm": 0.7209085909740518,
      "learning_rate": 5e-06,
      "loss": 0.7441,
      "step": 350
    },
    {
      "epoch": 0.6270411495754409,
      "grad_norm": 0.7124009797840823,
      "learning_rate": 5e-06,
      "loss": 0.7426,
      "step": 360
    },
    {
      "epoch": 0.6444589592858698,
      "grad_norm": 0.7812743047985142,
      "learning_rate": 5e-06,
      "loss": 0.7425,
      "step": 370
    },
    {
      "epoch": 0.6618767689962988,
      "grad_norm": 0.9348863468860681,
      "learning_rate": 5e-06,
      "loss": 0.7426,
      "step": 380
    },
    {
      "epoch": 0.6792945787067276,
      "grad_norm": 0.8887235387086234,
      "learning_rate": 5e-06,
      "loss": 0.7443,
      "step": 390
    },
    {
      "epoch": 0.6967123884171565,
      "grad_norm": 0.5644550564287659,
      "learning_rate": 5e-06,
      "loss": 0.7462,
      "step": 400
    },
    {
      "epoch": 0.7141301981275855,
      "grad_norm": 0.7133759479394518,
      "learning_rate": 5e-06,
      "loss": 0.7392,
      "step": 410
    },
    {
      "epoch": 0.7315480078380143,
      "grad_norm": 0.6322425713640688,
      "learning_rate": 5e-06,
      "loss": 0.7438,
      "step": 420
    },
    {
      "epoch": 0.7489658175484433,
      "grad_norm": 0.653356418355363,
      "learning_rate": 5e-06,
      "loss": 0.7353,
      "step": 430
    },
    {
      "epoch": 0.7663836272588722,
      "grad_norm": 0.7172550980138845,
      "learning_rate": 5e-06,
      "loss": 0.7362,
      "step": 440
    },
    {
      "epoch": 0.7838014369693012,
      "grad_norm": 0.5961758862117608,
      "learning_rate": 5e-06,
      "loss": 0.7374,
      "step": 450
    },
    {
      "epoch": 0.80121924667973,
      "grad_norm": 0.682099366244341,
      "learning_rate": 5e-06,
      "loss": 0.7361,
      "step": 460
    },
    {
      "epoch": 0.8186370563901589,
      "grad_norm": 0.6035807917106119,
      "learning_rate": 5e-06,
      "loss": 0.7394,
      "step": 470
    },
    {
      "epoch": 0.8360548661005879,
      "grad_norm": 0.6420432430762913,
      "learning_rate": 5e-06,
      "loss": 0.7427,
      "step": 480
    },
    {
      "epoch": 0.8534726758110167,
      "grad_norm": 0.6771119733640588,
      "learning_rate": 5e-06,
      "loss": 0.7423,
      "step": 490
    },
    {
      "epoch": 0.8708904855214457,
      "grad_norm": 0.7126075005956054,
      "learning_rate": 5e-06,
      "loss": 0.7383,
      "step": 500
    },
    {
      "epoch": 0.8883082952318746,
      "grad_norm": 0.7584360793951261,
      "learning_rate": 5e-06,
      "loss": 0.7321,
      "step": 510
    },
    {
      "epoch": 0.9057261049423035,
      "grad_norm": 0.7439364499749611,
      "learning_rate": 5e-06,
      "loss": 0.7371,
      "step": 520
    },
    {
      "epoch": 0.9231439146527324,
      "grad_norm": 0.6529063351558732,
      "learning_rate": 5e-06,
      "loss": 0.74,
      "step": 530
    },
    {
      "epoch": 0.9405617243631613,
      "grad_norm": 0.6579238997317206,
      "learning_rate": 5e-06,
      "loss": 0.7339,
      "step": 540
    },
    {
      "epoch": 0.9579795340735903,
      "grad_norm": 0.6529747723949795,
      "learning_rate": 5e-06,
      "loss": 0.7366,
      "step": 550
    },
    {
      "epoch": 0.9753973437840192,
      "grad_norm": 0.7465822819939318,
      "learning_rate": 5e-06,
      "loss": 0.7329,
      "step": 560
    },
    {
      "epoch": 0.992815153494448,
      "grad_norm": 0.6744574449718616,
      "learning_rate": 5e-06,
      "loss": 0.7336,
      "step": 570
    },
    {
      "epoch": 0.9997822773786197,
      "eval_loss": 0.7317857146263123,
      "eval_runtime": 402.0076,
      "eval_samples_per_second": 38.482,
      "eval_steps_per_second": 0.602,
      "step": 574
    },
    {
      "epoch": 1.010232963204877,
      "grad_norm": 0.7094322700801018,
      "learning_rate": 5e-06,
      "loss": 0.763,
      "step": 580
    },
    {
      "epoch": 1.027650772915306,
      "grad_norm": 0.619008567608486,
      "learning_rate": 5e-06,
      "loss": 0.6821,
      "step": 590
    },
    {
      "epoch": 1.0450685826257349,
      "grad_norm": 0.7720080238431899,
      "learning_rate": 5e-06,
      "loss": 0.6814,
      "step": 600
    },
    {
      "epoch": 1.0624863923361638,
      "grad_norm": 0.613074115463787,
      "learning_rate": 5e-06,
      "loss": 0.6871,
      "step": 610
    },
    {
      "epoch": 1.0799042020465925,
      "grad_norm": 0.8529977128112323,
      "learning_rate": 5e-06,
      "loss": 0.6916,
      "step": 620
    },
    {
      "epoch": 1.0973220117570215,
      "grad_norm": 0.6185916445154745,
      "learning_rate": 5e-06,
      "loss": 0.6852,
      "step": 630
    },
    {
      "epoch": 1.1147398214674504,
      "grad_norm": 0.5960552407712587,
      "learning_rate": 5e-06,
      "loss": 0.6902,
      "step": 640
    },
    {
      "epoch": 1.1321576311778794,
      "grad_norm": 0.6992739712457544,
      "learning_rate": 5e-06,
      "loss": 0.6838,
      "step": 650
    },
    {
      "epoch": 1.1495754408883083,
      "grad_norm": 0.6896093508843089,
      "learning_rate": 5e-06,
      "loss": 0.6883,
      "step": 660
    },
    {
      "epoch": 1.1669932505987373,
      "grad_norm": 0.7618446264021529,
      "learning_rate": 5e-06,
      "loss": 0.6866,
      "step": 670
    },
    {
      "epoch": 1.1844110603091662,
      "grad_norm": 0.5993982811906263,
      "learning_rate": 5e-06,
      "loss": 0.6864,
      "step": 680
    },
    {
      "epoch": 1.201828870019595,
      "grad_norm": 0.7774490221678223,
      "learning_rate": 5e-06,
      "loss": 0.6904,
      "step": 690
    },
    {
      "epoch": 1.2192466797300239,
      "grad_norm": 0.7209322592758776,
      "learning_rate": 5e-06,
      "loss": 0.6843,
      "step": 700
    },
    {
      "epoch": 1.2366644894404528,
      "grad_norm": 0.5933996592162579,
      "learning_rate": 5e-06,
      "loss": 0.6858,
      "step": 710
    },
    {
      "epoch": 1.2540822991508818,
      "grad_norm": 0.603096793298619,
      "learning_rate": 5e-06,
      "loss": 0.6895,
      "step": 720
    },
    {
      "epoch": 1.2715001088613107,
      "grad_norm": 0.6254264453133531,
      "learning_rate": 5e-06,
      "loss": 0.6848,
      "step": 730
    },
    {
      "epoch": 1.2889179185717397,
      "grad_norm": 0.6255696330381725,
      "learning_rate": 5e-06,
      "loss": 0.6846,
      "step": 740
    },
    {
      "epoch": 1.3063357282821686,
      "grad_norm": 0.5954700919121718,
      "learning_rate": 5e-06,
      "loss": 0.6857,
      "step": 750
    },
    {
      "epoch": 1.3237535379925975,
      "grad_norm": 0.605017152001749,
      "learning_rate": 5e-06,
      "loss": 0.6833,
      "step": 760
    },
    {
      "epoch": 1.3411713477030263,
      "grad_norm": 0.6374571812243335,
      "learning_rate": 5e-06,
      "loss": 0.6835,
      "step": 770
    },
    {
      "epoch": 1.3585891574134552,
      "grad_norm": 0.7034685309687484,
      "learning_rate": 5e-06,
      "loss": 0.6862,
      "step": 780
    },
    {
      "epoch": 1.3760069671238842,
      "grad_norm": 0.6478857838671078,
      "learning_rate": 5e-06,
      "loss": 0.6834,
      "step": 790
    },
    {
      "epoch": 1.393424776834313,
      "grad_norm": 0.6774648068840645,
      "learning_rate": 5e-06,
      "loss": 0.6835,
      "step": 800
    },
    {
      "epoch": 1.410842586544742,
      "grad_norm": 0.7999211706624636,
      "learning_rate": 5e-06,
      "loss": 0.6849,
      "step": 810
    },
    {
      "epoch": 1.428260396255171,
      "grad_norm": 0.7093553520320318,
      "learning_rate": 5e-06,
      "loss": 0.6874,
      "step": 820
    },
    {
      "epoch": 1.4456782059655997,
      "grad_norm": 0.6339150451411103,
      "learning_rate": 5e-06,
      "loss": 0.6817,
      "step": 830
    },
    {
      "epoch": 1.4630960156760286,
      "grad_norm": 0.6378354921425449,
      "learning_rate": 5e-06,
      "loss": 0.687,
      "step": 840
    },
    {
      "epoch": 1.4805138253864576,
      "grad_norm": 0.6060950779002315,
      "learning_rate": 5e-06,
      "loss": 0.6852,
      "step": 850
    },
    {
      "epoch": 1.4979316350968865,
      "grad_norm": 0.7027258672686724,
      "learning_rate": 5e-06,
      "loss": 0.6866,
      "step": 860
    },
    {
      "epoch": 1.5153494448073155,
      "grad_norm": 0.6241403475122037,
      "learning_rate": 5e-06,
      "loss": 0.6831,
      "step": 870
    },
    {
      "epoch": 1.5327672545177444,
      "grad_norm": 0.7090161192507007,
      "learning_rate": 5e-06,
      "loss": 0.6827,
      "step": 880
    },
    {
      "epoch": 1.5501850642281734,
      "grad_norm": 0.6858971984003965,
      "learning_rate": 5e-06,
      "loss": 0.6792,
      "step": 890
    },
    {
      "epoch": 1.5676028739386023,
      "grad_norm": 0.6546584740097385,
      "learning_rate": 5e-06,
      "loss": 0.6806,
      "step": 900
    },
    {
      "epoch": 1.5850206836490313,
      "grad_norm": 0.6020087571697199,
      "learning_rate": 5e-06,
      "loss": 0.6799,
      "step": 910
    },
    {
      "epoch": 1.6024384933594602,
      "grad_norm": 0.6501182817858244,
      "learning_rate": 5e-06,
      "loss": 0.6857,
      "step": 920
    },
    {
      "epoch": 1.619856303069889,
      "grad_norm": 0.584870256422628,
      "learning_rate": 5e-06,
      "loss": 0.6803,
      "step": 930
    },
    {
      "epoch": 1.6372741127803179,
      "grad_norm": 0.6317587237334846,
      "learning_rate": 5e-06,
      "loss": 0.6855,
      "step": 940
    },
    {
      "epoch": 1.6546919224907468,
      "grad_norm": 0.5912078658288651,
      "learning_rate": 5e-06,
      "loss": 0.6831,
      "step": 950
    },
    {
      "epoch": 1.6721097322011755,
      "grad_norm": 0.6128368243065496,
      "learning_rate": 5e-06,
      "loss": 0.6808,
      "step": 960
    },
    {
      "epoch": 1.6895275419116045,
      "grad_norm": 0.7946845578841991,
      "learning_rate": 5e-06,
      "loss": 0.6878,
      "step": 970
    },
    {
      "epoch": 1.7069453516220334,
      "grad_norm": 0.6757515701163817,
      "learning_rate": 5e-06,
      "loss": 0.6854,
      "step": 980
    },
    {
      "epoch": 1.7243631613324624,
      "grad_norm": 0.6571419210311429,
      "learning_rate": 5e-06,
      "loss": 0.6823,
      "step": 990
    },
    {
      "epoch": 1.7417809710428913,
      "grad_norm": 0.7598031996788027,
      "learning_rate": 5e-06,
      "loss": 0.6797,
      "step": 1000
    },
    {
      "epoch": 1.7591987807533203,
      "grad_norm": 0.6670752253306316,
      "learning_rate": 5e-06,
      "loss": 0.6842,
      "step": 1010
    },
    {
      "epoch": 1.7766165904637492,
      "grad_norm": 0.6401962122300333,
      "learning_rate": 5e-06,
      "loss": 0.6812,
      "step": 1020
    },
    {
      "epoch": 1.7940344001741781,
      "grad_norm": 0.7117175290423249,
      "learning_rate": 5e-06,
      "loss": 0.6824,
      "step": 1030
    },
    {
      "epoch": 1.811452209884607,
      "grad_norm": 0.5800625845659623,
      "learning_rate": 5e-06,
      "loss": 0.6803,
      "step": 1040
    },
    {
      "epoch": 1.828870019595036,
      "grad_norm": 0.7320040356270946,
      "learning_rate": 5e-06,
      "loss": 0.6803,
      "step": 1050
    },
    {
      "epoch": 1.846287829305465,
      "grad_norm": 0.6283167554926344,
      "learning_rate": 5e-06,
      "loss": 0.6839,
      "step": 1060
    },
    {
      "epoch": 1.8637056390158937,
      "grad_norm": 0.8371943589394946,
      "learning_rate": 5e-06,
      "loss": 0.6812,
      "step": 1070
    },
    {
      "epoch": 1.8811234487263226,
      "grad_norm": 0.6257083963805145,
      "learning_rate": 5e-06,
      "loss": 0.6838,
      "step": 1080
    },
    {
      "epoch": 1.8985412584367516,
      "grad_norm": 0.5986261297946587,
      "learning_rate": 5e-06,
      "loss": 0.6797,
      "step": 1090
    },
    {
      "epoch": 1.9159590681471805,
      "grad_norm": 0.6170171924536151,
      "learning_rate": 5e-06,
      "loss": 0.6797,
      "step": 1100
    },
    {
      "epoch": 1.9333768778576093,
      "grad_norm": 0.5700527826150651,
      "learning_rate": 5e-06,
      "loss": 0.681,
      "step": 1110
    },
    {
      "epoch": 1.9507946875680382,
      "grad_norm": 0.7918614747451274,
      "learning_rate": 5e-06,
      "loss": 0.6836,
      "step": 1120
    },
    {
      "epoch": 1.9682124972784671,
      "grad_norm": 0.6423488525843636,
      "learning_rate": 5e-06,
      "loss": 0.6841,
      "step": 1130
    },
    {
      "epoch": 1.985630306988896,
      "grad_norm": 0.5727071414052627,
      "learning_rate": 5e-06,
      "loss": 0.6807,
      "step": 1140
    },
    {
      "epoch": 1.9995645547572392,
      "eval_loss": 0.7203673124313354,
      "eval_runtime": 394.6464,
      "eval_samples_per_second": 39.2,
      "eval_steps_per_second": 0.613,
      "step": 1148
    },
    {
      "epoch": 2.003048116699325,
      "grad_norm": 0.9442473115477681,
      "learning_rate": 5e-06,
      "loss": 0.7309,
      "step": 1150
    },
    {
      "epoch": 2.020465926409754,
      "grad_norm": 0.7483105880106439,
      "learning_rate": 5e-06,
      "loss": 0.6325,
      "step": 1160
    },
    {
      "epoch": 2.037883736120183,
      "grad_norm": 0.7540713563935749,
      "learning_rate": 5e-06,
      "loss": 0.6307,
      "step": 1170
    },
    {
      "epoch": 2.055301545830612,
      "grad_norm": 0.6724851440947269,
      "learning_rate": 5e-06,
      "loss": 0.6337,
      "step": 1180
    },
    {
      "epoch": 2.072719355541041,
      "grad_norm": 0.8087552584080454,
      "learning_rate": 5e-06,
      "loss": 0.6291,
      "step": 1190
    },
    {
      "epoch": 2.0901371652514698,
      "grad_norm": 0.5977695571055209,
      "learning_rate": 5e-06,
      "loss": 0.6303,
      "step": 1200
    },
    {
      "epoch": 2.1075549749618987,
      "grad_norm": 0.7569591780057143,
      "learning_rate": 5e-06,
      "loss": 0.63,
      "step": 1210
    },
    {
      "epoch": 2.1249727846723276,
      "grad_norm": 0.7224022820617728,
      "learning_rate": 5e-06,
      "loss": 0.6319,
      "step": 1220
    },
    {
      "epoch": 2.142390594382756,
      "grad_norm": 0.9103041866730269,
      "learning_rate": 5e-06,
      "loss": 0.6338,
      "step": 1230
    },
    {
      "epoch": 2.159808404093185,
      "grad_norm": 0.6573119068550747,
      "learning_rate": 5e-06,
      "loss": 0.6315,
      "step": 1240
    },
    {
      "epoch": 2.177226213803614,
      "grad_norm": 0.7130793786888794,
      "learning_rate": 5e-06,
      "loss": 0.6307,
      "step": 1250
    },
    {
      "epoch": 2.194644023514043,
      "grad_norm": 0.6787527348130123,
      "learning_rate": 5e-06,
      "loss": 0.635,
      "step": 1260
    },
    {
      "epoch": 2.212061833224472,
      "grad_norm": 0.7583316967190475,
      "learning_rate": 5e-06,
      "loss": 0.6328,
      "step": 1270
    },
    {
      "epoch": 2.229479642934901,
      "grad_norm": 0.9232698200191256,
      "learning_rate": 5e-06,
      "loss": 0.6392,
      "step": 1280
    },
    {
      "epoch": 2.24689745264533,
      "grad_norm": 0.7252346361915288,
      "learning_rate": 5e-06,
      "loss": 0.6347,
      "step": 1290
    },
    {
      "epoch": 2.2643152623557588,
      "grad_norm": 0.6362752959635848,
      "learning_rate": 5e-06,
      "loss": 0.6304,
      "step": 1300
    },
    {
      "epoch": 2.2817330720661877,
      "grad_norm": 0.6085958821854244,
      "learning_rate": 5e-06,
      "loss": 0.6354,
      "step": 1310
    },
    {
      "epoch": 2.2991508817766166,
      "grad_norm": 0.6106358089516802,
      "learning_rate": 5e-06,
      "loss": 0.6319,
      "step": 1320
    },
    {
      "epoch": 2.3165686914870456,
      "grad_norm": 0.6704766246511351,
      "learning_rate": 5e-06,
      "loss": 0.6361,
      "step": 1330
    },
    {
      "epoch": 2.3339865011974745,
      "grad_norm": 0.7134352783772538,
      "learning_rate": 5e-06,
      "loss": 0.6363,
      "step": 1340
    },
    {
      "epoch": 2.3514043109079035,
      "grad_norm": 0.691476396805842,
      "learning_rate": 5e-06,
      "loss": 0.6408,
      "step": 1350
    },
    {
      "epoch": 2.3688221206183324,
      "grad_norm": 0.6591953333036876,
      "learning_rate": 5e-06,
      "loss": 0.6333,
      "step": 1360
    },
    {
      "epoch": 2.3862399303287614,
      "grad_norm": 0.6492399404200755,
      "learning_rate": 5e-06,
      "loss": 0.6328,
      "step": 1370
    },
    {
      "epoch": 2.40365774003919,
      "grad_norm": 0.615428906926297,
      "learning_rate": 5e-06,
      "loss": 0.6413,
      "step": 1380
    },
    {
      "epoch": 2.421075549749619,
      "grad_norm": 0.6178851722594154,
      "learning_rate": 5e-06,
      "loss": 0.6362,
      "step": 1390
    },
    {
      "epoch": 2.4384933594600477,
      "grad_norm": 0.6630448901048148,
      "learning_rate": 5e-06,
      "loss": 0.6354,
      "step": 1400
    },
    {
      "epoch": 2.4559111691704767,
      "grad_norm": 0.6761352769262333,
      "learning_rate": 5e-06,
      "loss": 0.6364,
      "step": 1410
    },
    {
      "epoch": 2.4733289788809056,
      "grad_norm": 0.6840809680625406,
      "learning_rate": 5e-06,
      "loss": 0.6347,
      "step": 1420
    },
    {
      "epoch": 2.4907467885913346,
      "grad_norm": 0.7752711880925182,
      "learning_rate": 5e-06,
      "loss": 0.6375,
      "step": 1430
    },
    {
      "epoch": 2.5081645983017635,
      "grad_norm": 0.671961987869029,
      "learning_rate": 5e-06,
      "loss": 0.638,
      "step": 1440
    },
    {
      "epoch": 2.5255824080121925,
      "grad_norm": 0.6066582748163826,
      "learning_rate": 5e-06,
      "loss": 0.6356,
      "step": 1450
    },
    {
      "epoch": 2.5430002177226214,
      "grad_norm": 0.6494968644059873,
      "learning_rate": 5e-06,
      "loss": 0.64,
      "step": 1460
    },
    {
      "epoch": 2.5604180274330504,
      "grad_norm": 0.6819270998889235,
      "learning_rate": 5e-06,
      "loss": 0.6392,
      "step": 1470
    },
    {
      "epoch": 2.5778358371434793,
      "grad_norm": 0.6720899123226914,
      "learning_rate": 5e-06,
      "loss": 0.638,
      "step": 1480
    },
    {
      "epoch": 2.5952536468539082,
      "grad_norm": 0.8865903590224419,
      "learning_rate": 5e-06,
      "loss": 0.6418,
      "step": 1490
    },
    {
      "epoch": 2.612671456564337,
      "grad_norm": 0.8255525182739956,
      "learning_rate": 5e-06,
      "loss": 0.637,
      "step": 1500
    },
    {
      "epoch": 2.6300892662747657,
      "grad_norm": 0.6926869297282812,
      "learning_rate": 5e-06,
      "loss": 0.6359,
      "step": 1510
    },
    {
      "epoch": 2.647507075985195,
      "grad_norm": 0.7064032548106364,
      "learning_rate": 5e-06,
      "loss": 0.6372,
      "step": 1520
    },
    {
      "epoch": 2.6649248856956236,
      "grad_norm": 0.6147984872224924,
      "learning_rate": 5e-06,
      "loss": 0.6393,
      "step": 1530
    },
    {
      "epoch": 2.6823426954060525,
      "grad_norm": 0.6504099699536218,
      "learning_rate": 5e-06,
      "loss": 0.6399,
      "step": 1540
    },
    {
      "epoch": 2.6997605051164815,
      "grad_norm": 0.563483068339733,
      "learning_rate": 5e-06,
      "loss": 0.6348,
      "step": 1550
    },
    {
      "epoch": 2.7171783148269104,
      "grad_norm": 0.730022824759867,
      "learning_rate": 5e-06,
      "loss": 0.6358,
      "step": 1560
    },
    {
      "epoch": 2.7345961245373394,
      "grad_norm": 0.7435338593643929,
      "learning_rate": 5e-06,
      "loss": 0.6416,
      "step": 1570
    },
    {
      "epoch": 2.7520139342477683,
      "grad_norm": 0.7041374525178048,
      "learning_rate": 5e-06,
      "loss": 0.6312,
      "step": 1580
    },
    {
      "epoch": 2.7694317439581972,
      "grad_norm": 0.6185370005773447,
      "learning_rate": 5e-06,
      "loss": 0.6369,
      "step": 1590
    },
    {
      "epoch": 2.786849553668626,
      "grad_norm": 0.597751813516521,
      "learning_rate": 5e-06,
      "loss": 0.6376,
      "step": 1600
    },
    {
      "epoch": 2.804267363379055,
      "grad_norm": 0.6525590591893353,
      "learning_rate": 5e-06,
      "loss": 0.638,
      "step": 1610
    },
    {
      "epoch": 2.821685173089484,
      "grad_norm": 0.6520966089133831,
      "learning_rate": 5e-06,
      "loss": 0.6363,
      "step": 1620
    },
    {
      "epoch": 2.839102982799913,
      "grad_norm": 0.6318597492523834,
      "learning_rate": 5e-06,
      "loss": 0.6392,
      "step": 1630
    },
    {
      "epoch": 2.856520792510342,
      "grad_norm": 0.7325044927855683,
      "learning_rate": 5e-06,
      "loss": 0.6369,
      "step": 1640
    },
    {
      "epoch": 2.873938602220771,
      "grad_norm": 0.6253335500365848,
      "learning_rate": 5e-06,
      "loss": 0.636,
      "step": 1650
    },
    {
      "epoch": 2.8913564119311994,
      "grad_norm": 0.6704613482673505,
      "learning_rate": 5e-06,
      "loss": 0.6376,
      "step": 1660
    },
    {
      "epoch": 2.908774221641629,
      "grad_norm": 0.7273411977567759,
      "learning_rate": 5e-06,
      "loss": 0.6386,
      "step": 1670
    },
    {
      "epoch": 2.9261920313520573,
      "grad_norm": 0.6268248741184522,
      "learning_rate": 5e-06,
      "loss": 0.6378,
      "step": 1680
    },
    {
      "epoch": 2.9436098410624862,
      "grad_norm": 0.5745167165482074,
      "learning_rate": 5e-06,
      "loss": 0.6392,
      "step": 1690
    },
    {
      "epoch": 2.961027650772915,
      "grad_norm": 0.6046462612164668,
      "learning_rate": 5e-06,
      "loss": 0.642,
      "step": 1700
    },
    {
      "epoch": 2.978445460483344,
      "grad_norm": 0.6397198084499147,
      "learning_rate": 5e-06,
      "loss": 0.6381,
      "step": 1710
    },
    {
      "epoch": 2.995863270193773,
      "grad_norm": 0.7413825248918653,
      "learning_rate": 5e-06,
      "loss": 0.638,
      "step": 1720
    },
    {
      "epoch": 2.999346832135859,
      "eval_loss": 0.7229765057563782,
      "eval_runtime": 389.254,
      "eval_samples_per_second": 39.743,
      "eval_steps_per_second": 0.622,
      "step": 1722
    },
    {
      "epoch": 2.999346832135859,
      "step": 1722,
      "total_flos": 2884204756992000.0,
      "train_loss": 0.6974312729536448,
      "train_runtime": 56418.3982,
      "train_samples_per_second": 15.629,
      "train_steps_per_second": 0.031
    }
  ],
  "logging_steps": 10,
  "max_steps": 1722,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2884204756992000.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}