{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3309431880860452,
  "eval_steps": 300.0,
  "global_step": 300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0011031439602868175,
      "grad_norm": 80.42967325823248,
      "learning_rate": 2.3e-06,
      "loss": 1.6655548810958862,
      "step": 1,
      "token_acc": 0.6208588957055214
    },
    {
      "epoch": 0.005515719801434087,
      "grad_norm": 12.936447236966638,
      "learning_rate": 2.3e-06,
      "loss": 1.6539018154144287,
      "step": 5,
      "token_acc": 0.6644312612844984
    },
    {
      "epoch": 0.011031439602868174,
      "grad_norm": 7.485145348211075,
      "learning_rate": 2.3e-06,
      "loss": 1.1399970054626465,
      "step": 10,
      "token_acc": 0.716547901821061
    },
    {
      "epoch": 0.01654715940430226,
      "grad_norm": 7.10761756326815,
      "learning_rate": 2.3e-06,
      "loss": 1.1828346252441406,
      "step": 15,
      "token_acc": 0.6928796755295178
    },
    {
      "epoch": 0.02206287920573635,
      "grad_norm": 5.659684098393193,
      "learning_rate": 2.3e-06,
      "loss": 1.0604573249816895,
      "step": 20,
      "token_acc": 0.7371653156472611
    },
    {
      "epoch": 0.027578599007170437,
      "grad_norm": 6.432203040875114,
      "learning_rate": 2.3e-06,
      "loss": 1.0374173164367675,
      "step": 25,
      "token_acc": 0.7369089984748348
    },
    {
      "epoch": 0.03309431880860452,
      "grad_norm": 6.0637637354614125,
      "learning_rate": 2.3e-06,
      "loss": 0.9596109390258789,
      "step": 30,
      "token_acc": 0.7449127906976745
    },
    {
      "epoch": 0.03861003861003861,
      "grad_norm": 5.9792048911606335,
      "learning_rate": 2.3e-06,
      "loss": 0.9912214279174805,
      "step": 35,
      "token_acc": 0.7413617886178862
    },
    {
      "epoch": 0.0441257584114727,
      "grad_norm": 6.031366828095079,
      "learning_rate": 2.3e-06,
      "loss": 1.0473726272583008,
      "step": 40,
      "token_acc": 0.727144535840188
    },
    {
      "epoch": 0.049641478212906785,
      "grad_norm": 6.186527950833231,
      "learning_rate": 2.3e-06,
      "loss": 0.9992570877075195,
      "step": 45,
      "token_acc": 0.7360217714002969
    },
    {
      "epoch": 0.05515719801434087,
      "grad_norm": 5.923085345386395,
      "learning_rate": 2.3e-06,
      "loss": 1.002680206298828,
      "step": 50,
      "token_acc": 0.7391618497109826
    },
    {
      "epoch": 0.06067291781577496,
      "grad_norm": 4.9260097226563255,
      "learning_rate": 2.3e-06,
      "loss": 0.8863202095031738,
      "step": 55,
      "token_acc": 0.7527737578388809
    },
    {
      "epoch": 0.06618863761720904,
      "grad_norm": 5.560254131314214,
      "learning_rate": 2.3e-06,
      "loss": 0.9248697280883789,
      "step": 60,
      "token_acc": 0.7579394848712178
    },
    {
      "epoch": 0.07170435741864313,
      "grad_norm": 5.180260599645047,
      "learning_rate": 2.3e-06,
      "loss": 1.004658317565918,
      "step": 65,
      "token_acc": 0.7360208062418726
    },
    {
      "epoch": 0.07722007722007722,
      "grad_norm": 6.299333554712354,
      "learning_rate": 2.3e-06,
      "loss": 0.9439926147460938,
      "step": 70,
      "token_acc": 0.751812046988253
    },
    {
      "epoch": 0.0827357970215113,
      "grad_norm": 5.622631000909693,
      "learning_rate": 2.3e-06,
      "loss": 0.8676441192626954,
      "step": 75,
      "token_acc": 0.760814889336016
    },
    {
      "epoch": 0.0882515168229454,
      "grad_norm": 5.613397002114218,
      "learning_rate": 2.3e-06,
      "loss": 0.8931824684143066,
      "step": 80,
      "token_acc": 0.7616038882138517
    },
    {
      "epoch": 0.09376723662437948,
      "grad_norm": 5.897499862699952,
      "learning_rate": 2.3e-06,
      "loss": 1.0003661155700683,
      "step": 85,
      "token_acc": 0.7361477572559367
    },
    {
      "epoch": 0.09928295642581357,
      "grad_norm": 5.838989842949948,
      "learning_rate": 2.3e-06,
      "loss": 0.8919829368591309,
      "step": 90,
      "token_acc": 0.7569311663479924
    },
    {
      "epoch": 0.10479867622724766,
      "grad_norm": 5.732772113211347,
      "learning_rate": 2.3e-06,
      "loss": 0.9857375144958496,
      "step": 95,
      "token_acc": 0.7319040543409042
    },
    {
      "epoch": 0.11031439602868175,
      "grad_norm": 5.887155914575355,
      "learning_rate": 2.3e-06,
      "loss": 0.9643180847167969,
      "step": 100,
      "token_acc": 0.7468728678644531
    },
    {
      "epoch": 0.11583011583011583,
      "grad_norm": 5.409153898947996,
      "learning_rate": 2.3e-06,
      "loss": 0.9775169372558594,
      "step": 105,
      "token_acc": 0.7443522360534809
    },
    {
      "epoch": 0.12134583563154992,
      "grad_norm": 5.738347427048291,
      "learning_rate": 2.3e-06,
      "loss": 1.0265106201171874,
      "step": 110,
      "token_acc": 0.7265641025641025
    },
    {
      "epoch": 0.126861555432984,
      "grad_norm": 5.38681474950728,
      "learning_rate": 2.3e-06,
      "loss": 0.9541057586669922,
      "step": 115,
      "token_acc": 0.747302805082714
    },
    {
      "epoch": 0.13237727523441808,
      "grad_norm": 5.856303394018206,
      "learning_rate": 2.3e-06,
      "loss": 0.8228609085083007,
      "step": 120,
      "token_acc": 0.7779299014238773
    },
    {
      "epoch": 0.13789299503585217,
      "grad_norm": 6.568516319919617,
      "learning_rate": 2.3e-06,
      "loss": 0.9721288681030273,
      "step": 125,
      "token_acc": 0.7395016151361329
    },
    {
      "epoch": 0.14340871483728626,
      "grad_norm": 5.54045872938136,
      "learning_rate": 2.3e-06,
      "loss": 0.9882600784301758,
      "step": 130,
      "token_acc": 0.7350409836065573
    },
    {
      "epoch": 0.14892443463872035,
      "grad_norm": 5.612320181227532,
      "learning_rate": 2.3e-06,
      "loss": 0.9342703819274902,
      "step": 135,
      "token_acc": 0.7464104263309035
    },
    {
      "epoch": 0.15444015444015444,
      "grad_norm": 5.925987985108847,
      "learning_rate": 2.3e-06,
      "loss": 0.9266027450561524,
      "step": 140,
      "token_acc": 0.7487753673897831
    },
    {
      "epoch": 0.15995587424158852,
      "grad_norm": 5.59653045493395,
      "learning_rate": 2.3e-06,
      "loss": 0.8937458038330078,
      "step": 145,
      "token_acc": 0.7624970664163342
    },
    {
      "epoch": 0.1654715940430226,
      "grad_norm": 5.374039667260155,
      "learning_rate": 2.3e-06,
      "loss": 0.8537099838256836,
      "step": 150,
      "token_acc": 0.7640309304065852
    },
    {
      "epoch": 0.1709873138444567,
      "grad_norm": 5.376937826461383,
      "learning_rate": 2.3e-06,
      "loss": 0.8238465309143066,
      "step": 155,
      "token_acc": 0.7761599210266535
    },
    {
      "epoch": 0.1765030336458908,
      "grad_norm": 6.0245180163205285,
      "learning_rate": 2.3e-06,
      "loss": 0.8189101219177246,
      "step": 160,
      "token_acc": 0.7774302840761012
    },
    {
      "epoch": 0.18201875344732488,
      "grad_norm": 5.571460118689288,
      "learning_rate": 2.3e-06,
      "loss": 0.8788368225097656,
      "step": 165,
      "token_acc": 0.760459995106435
    },
    {
      "epoch": 0.18753447324875896,
      "grad_norm": 5.088793082374291,
      "learning_rate": 2.3e-06,
      "loss": 0.8897226333618165,
      "step": 170,
      "token_acc": 0.7589285714285714
    },
    {
      "epoch": 0.19305019305019305,
      "grad_norm": 5.578076711526945,
      "learning_rate": 2.3e-06,
      "loss": 0.8561611175537109,
      "step": 175,
      "token_acc": 0.7607285429141717
    },
    {
      "epoch": 0.19856591285162714,
      "grad_norm": 5.81713562547314,
      "learning_rate": 2.3e-06,
      "loss": 0.8790461540222168,
      "step": 180,
      "token_acc": 0.753576372865713
    },
    {
      "epoch": 0.20408163265306123,
      "grad_norm": 5.254765297480428,
      "learning_rate": 2.3e-06,
      "loss": 0.7894742965698243,
      "step": 185,
      "token_acc": 0.7727930535455861
    },
    {
      "epoch": 0.20959735245449532,
      "grad_norm": 5.076375360468776,
      "learning_rate": 2.3e-06,
      "loss": 0.8446966171264648,
      "step": 190,
      "token_acc": 0.7672064777327935
    },
    {
      "epoch": 0.2151130722559294,
      "grad_norm": 5.763028979469674,
      "learning_rate": 2.3e-06,
      "loss": 0.961794662475586,
      "step": 195,
      "token_acc": 0.7398701589433624
    },
    {
      "epoch": 0.2206287920573635,
      "grad_norm": 5.351427081900536,
      "learning_rate": 2.3e-06,
      "loss": 0.9339935302734375,
      "step": 200,
      "token_acc": 0.7431607506217499
    },
    {
      "epoch": 0.22614451185879758,
      "grad_norm": 5.713651299205875,
      "learning_rate": 2.3e-06,
      "loss": 0.918415641784668,
      "step": 205,
      "token_acc": 0.7481903926299627
    },
    {
      "epoch": 0.23166023166023167,
      "grad_norm": 5.8891737450130535,
      "learning_rate": 2.3e-06,
      "loss": 0.9010303497314454,
      "step": 210,
      "token_acc": 0.7571428571428571
    },
    {
      "epoch": 0.23717595146166576,
      "grad_norm": 5.4902683255452915,
      "learning_rate": 2.3e-06,
      "loss": 0.8169702529907227,
      "step": 215,
      "token_acc": 0.7799597180261832
    },
    {
      "epoch": 0.24269167126309985,
      "grad_norm": 5.777757326601303,
      "learning_rate": 2.3e-06,
      "loss": 0.9132566452026367,
      "step": 220,
      "token_acc": 0.7451829400303096
    },
    {
      "epoch": 0.24820739106453393,
      "grad_norm": 5.440176086672954,
      "learning_rate": 2.3e-06,
      "loss": 0.9655065536499023,
      "step": 225,
      "token_acc": 0.7356965174129353
    },
    {
      "epoch": 0.253723110865968,
      "grad_norm": 5.65109550423067,
      "learning_rate": 2.3e-06,
      "loss": 0.9338722229003906,
      "step": 230,
      "token_acc": 0.740830755634114
    },
    {
      "epoch": 0.2592388306674021,
      "grad_norm": 5.558767495868624,
      "learning_rate": 2.3e-06,
      "loss": 0.9302779197692871,
      "step": 235,
      "token_acc": 0.7472228044435129
    },
    {
      "epoch": 0.26475455046883617,
      "grad_norm": 5.0652164247691,
      "learning_rate": 2.3e-06,
      "loss": 0.8661215782165528,
      "step": 240,
      "token_acc": 0.7648968235566891
    },
    {
      "epoch": 0.2702702702702703,
      "grad_norm": 5.301144006085399,
      "learning_rate": 2.3e-06,
      "loss": 0.9218810081481934,
      "step": 245,
      "token_acc": 0.7493386243386243
    },
    {
      "epoch": 0.27578599007170435,
      "grad_norm": 5.6495062752144625,
      "learning_rate": 2.3e-06,
      "loss": 0.7810210227966309,
      "step": 250,
      "token_acc": 0.7860394537177542
    },
    {
      "epoch": 0.28130170987313846,
      "grad_norm": 5.522127957882286,
      "learning_rate": 2.3e-06,
      "loss": 0.8038553237915039,
      "step": 255,
      "token_acc": 0.7727514635444386
    },
    {
      "epoch": 0.2868174296745725,
      "grad_norm": 5.2610053652109405,
      "learning_rate": 2.3e-06,
      "loss": 0.8923781394958497,
      "step": 260,
      "token_acc": 0.7542778918548939
    },
    {
      "epoch": 0.29233314947600664,
      "grad_norm": 5.613909953834712,
      "learning_rate": 2.3e-06,
      "loss": 0.8282554626464844,
      "step": 265,
      "token_acc": 0.7708383377372088
    },
    {
      "epoch": 0.2978488692774407,
      "grad_norm": 4.960174308621677,
      "learning_rate": 2.3e-06,
      "loss": 0.939533805847168,
      "step": 270,
      "token_acc": 0.745945945945946
    },
    {
      "epoch": 0.3033645890788748,
      "grad_norm": 5.338393166552948,
      "learning_rate": 2.3e-06,
      "loss": 0.7566696166992187,
      "step": 275,
      "token_acc": 0.7783882783882784
    },
    {
      "epoch": 0.3088803088803089,
      "grad_norm": 5.85539301408898,
      "learning_rate": 2.3e-06,
      "loss": 0.7774906158447266,
      "step": 280,
      "token_acc": 0.778774673160728
    },
    {
      "epoch": 0.314396028681743,
      "grad_norm": 5.5554378762103305,
      "learning_rate": 2.3e-06,
      "loss": 0.8302905082702636,
      "step": 285,
      "token_acc": 0.7736331119059785
    },
    {
      "epoch": 0.31991174848317705,
      "grad_norm": 5.64607545742485,
      "learning_rate": 2.3e-06,
      "loss": 0.8949955940246582,
      "step": 290,
      "token_acc": 0.7522200563136235
    },
    {
      "epoch": 0.32542746828461117,
      "grad_norm": 5.545223764081705,
      "learning_rate": 2.3e-06,
      "loss": 0.9496533393859863,
      "step": 295,
      "token_acc": 0.739816799844085
    },
    {
      "epoch": 0.3309431880860452,
      "grad_norm": 5.102348588101583,
      "learning_rate": 2.3e-06,
      "loss": 0.8521288871765137,
      "step": 300,
      "token_acc": 0.7637759710930443
    }
  ],
  "logging_steps": 5,
  "max_steps": 907,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 757108596277248.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}