{
  "best_global_step": 1500,
  "best_metric": 0.08702504634857178,
  "best_model_checkpoint": "./deit-ena24/checkpoint-1500",
  "epoch": 2.0,
  "eval_steps": 100,
  "global_step": 1536,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 17.389280319213867,
      "learning_rate": 0.00019895833333333332,
      "loss": 2.9049,
      "step": 10
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 9.115043640136719,
      "learning_rate": 0.00019765625,
      "loss": 2.4518,
      "step": 20
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 12.339580535888672,
      "learning_rate": 0.00019635416666666667,
      "loss": 2.1528,
      "step": 30
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 10.528745651245117,
      "learning_rate": 0.00019505208333333335,
      "loss": 1.8847,
      "step": 40
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 13.872097969055176,
      "learning_rate": 0.00019375000000000002,
      "loss": 1.5077,
      "step": 50
    },
    {
      "epoch": 0.078125,
      "grad_norm": 10.003462791442871,
      "learning_rate": 0.0001924479166666667,
      "loss": 1.6212,
      "step": 60
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 9.745753288269043,
      "learning_rate": 0.00019114583333333334,
      "loss": 1.4213,
      "step": 70
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 11.599836349487305,
      "learning_rate": 0.00018984375000000002,
      "loss": 1.1694,
      "step": 80
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 9.780190467834473,
      "learning_rate": 0.0001885416666666667,
      "loss": 1.2436,
      "step": 90
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 10.261496543884277,
      "learning_rate": 0.00018723958333333334,
      "loss": 1.2994,
      "step": 100
    },
    {
      "epoch": 0.13020833333333334,
      "eval_accuracy": 0.7091603053435115,
      "eval_loss": 1.0313907861709595,
      "eval_runtime": 76.1557,
      "eval_samples_per_second": 17.202,
      "eval_steps_per_second": 2.153,
      "step": 100
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 4.307476043701172,
      "learning_rate": 0.0001859375,
      "loss": 0.9726,
      "step": 110
    },
    {
      "epoch": 0.15625,
      "grad_norm": 4.482115745544434,
      "learning_rate": 0.0001846354166666667,
      "loss": 0.9136,
      "step": 120
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 10.434115409851074,
      "learning_rate": 0.00018333333333333334,
      "loss": 1.174,
      "step": 130
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 7.202164173126221,
      "learning_rate": 0.00018203125,
      "loss": 1.0398,
      "step": 140
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 9.057433128356934,
      "learning_rate": 0.00018072916666666668,
      "loss": 1.1173,
      "step": 150
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 9.836210250854492,
      "learning_rate": 0.00017942708333333333,
      "loss": 1.0324,
      "step": 160
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 10.416736602783203,
      "learning_rate": 0.000178125,
      "loss": 0.8376,
      "step": 170
    },
    {
      "epoch": 0.234375,
      "grad_norm": 9.645381927490234,
      "learning_rate": 0.00017682291666666668,
      "loss": 1.0451,
      "step": 180
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 6.324252128601074,
      "learning_rate": 0.00017552083333333333,
      "loss": 0.9295,
      "step": 190
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 10.500443458557129,
      "learning_rate": 0.00017434895833333332,
      "loss": 0.8789,
      "step": 200
    },
    {
      "epoch": 0.2604166666666667,
      "eval_accuracy": 0.832824427480916,
      "eval_loss": 0.6169306635856628,
      "eval_runtime": 74.0427,
      "eval_samples_per_second": 17.692,
      "eval_steps_per_second": 2.215,
      "step": 200
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 4.5985426902771,
      "learning_rate": 0.000173046875,
      "loss": 0.5329,
      "step": 210
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 14.19344425201416,
      "learning_rate": 0.00017174479166666667,
      "loss": 0.9277,
      "step": 220
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 14.22638988494873,
      "learning_rate": 0.00017044270833333335,
      "loss": 0.5978,
      "step": 230
    },
    {
      "epoch": 0.3125,
      "grad_norm": 13.808385848999023,
      "learning_rate": 0.00016914062500000002,
      "loss": 0.9471,
      "step": 240
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 8.194628715515137,
      "learning_rate": 0.0001678385416666667,
      "loss": 0.7974,
      "step": 250
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 6.944046497344971,
      "learning_rate": 0.00016653645833333334,
      "loss": 0.7594,
      "step": 260
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 10.181632041931152,
      "learning_rate": 0.00016523437500000002,
      "loss": 0.6775,
      "step": 270
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 10.24155330657959,
      "learning_rate": 0.0001639322916666667,
      "loss": 0.7947,
      "step": 280
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 16.16265296936035,
      "learning_rate": 0.00016263020833333334,
      "loss": 0.9477,
      "step": 290
    },
    {
      "epoch": 0.390625,
      "grad_norm": 6.4330854415893555,
      "learning_rate": 0.000161328125,
      "loss": 0.4592,
      "step": 300
    },
    {
      "epoch": 0.390625,
      "eval_accuracy": 0.8297709923664122,
      "eval_loss": 0.5233694911003113,
      "eval_runtime": 73.7696,
      "eval_samples_per_second": 17.758,
      "eval_steps_per_second": 2.223,
      "step": 300
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 12.111241340637207,
      "learning_rate": 0.0001600260416666667,
      "loss": 0.5299,
      "step": 310
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 3.2816293239593506,
      "learning_rate": 0.00015872395833333334,
      "loss": 0.4756,
      "step": 320
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 7.979568004608154,
      "learning_rate": 0.000157421875,
      "loss": 0.7101,
      "step": 330
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 8.652854919433594,
      "learning_rate": 0.00015611979166666668,
      "loss": 0.3024,
      "step": 340
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 19.324499130249023,
      "learning_rate": 0.00015481770833333333,
      "loss": 0.5419,
      "step": 350
    },
    {
      "epoch": 0.46875,
      "grad_norm": 9.747488021850586,
      "learning_rate": 0.000153515625,
      "loss": 0.6965,
      "step": 360
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 10.455299377441406,
      "learning_rate": 0.00015221354166666668,
      "loss": 0.4206,
      "step": 370
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 11.353675842285156,
      "learning_rate": 0.00015091145833333333,
      "loss": 0.703,
      "step": 380
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 4.012916564941406,
      "learning_rate": 0.000149609375,
      "loss": 0.3157,
      "step": 390
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 2.673285484313965,
      "learning_rate": 0.00014830729166666668,
      "loss": 0.6806,
      "step": 400
    },
    {
      "epoch": 0.5208333333333334,
      "eval_accuracy": 0.8488549618320611,
      "eval_loss": 0.5430881381034851,
      "eval_runtime": 73.216,
      "eval_samples_per_second": 17.892,
      "eval_steps_per_second": 2.24,
      "step": 400
    },
    {
      "epoch": 0.5338541666666666,
      "grad_norm": 11.449606895446777,
      "learning_rate": 0.00014700520833333332,
      "loss": 0.6442,
      "step": 410
    },
    {
      "epoch": 0.546875,
      "grad_norm": 4.395051956176758,
      "learning_rate": 0.000145703125,
      "loss": 0.4426,
      "step": 420
    },
    {
      "epoch": 0.5598958333333334,
      "grad_norm": 5.8134589195251465,
      "learning_rate": 0.00014440104166666667,
      "loss": 0.3574,
      "step": 430
    },
    {
      "epoch": 0.5729166666666666,
      "grad_norm": 20.417043685913086,
      "learning_rate": 0.00014309895833333332,
      "loss": 0.231,
      "step": 440
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 9.442773818969727,
      "learning_rate": 0.000141796875,
      "loss": 0.3883,
      "step": 450
    },
    {
      "epoch": 0.5989583333333334,
      "grad_norm": 13.765786170959473,
      "learning_rate": 0.00014049479166666667,
      "loss": 1.0674,
      "step": 460
    },
    {
      "epoch": 0.6119791666666666,
      "grad_norm": 2.9523134231567383,
      "learning_rate": 0.00013919270833333334,
      "loss": 0.4618,
      "step": 470
    },
    {
      "epoch": 0.625,
      "grad_norm": 10.51352310180664,
      "learning_rate": 0.00013789062500000002,
      "loss": 0.4457,
      "step": 480
    },
    {
      "epoch": 0.6380208333333334,
      "grad_norm": 3.431385040283203,
      "learning_rate": 0.0001365885416666667,
      "loss": 0.3465,
      "step": 490
    },
    {
      "epoch": 0.6510416666666666,
      "grad_norm": 0.633951723575592,
      "learning_rate": 0.00013528645833333334,
      "loss": 0.4878,
      "step": 500
    },
    {
      "epoch": 0.6510416666666666,
      "eval_accuracy": 0.8854961832061069,
      "eval_loss": 0.39052021503448486,
      "eval_runtime": 73.354,
      "eval_samples_per_second": 17.859,
      "eval_steps_per_second": 2.236,
      "step": 500
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 0.7576056122779846,
      "learning_rate": 0.00013398437500000002,
      "loss": 0.3139,
      "step": 510
    },
    {
      "epoch": 0.6770833333333334,
      "grad_norm": 12.045547485351562,
      "learning_rate": 0.0001326822916666667,
      "loss": 0.6528,
      "step": 520
    },
    {
      "epoch": 0.6901041666666666,
      "grad_norm": 11.16480827331543,
      "learning_rate": 0.00013138020833333334,
      "loss": 0.6615,
      "step": 530
    },
    {
      "epoch": 0.703125,
      "grad_norm": 4.185828685760498,
      "learning_rate": 0.000130078125,
      "loss": 0.3707,
      "step": 540
    },
    {
      "epoch": 0.7161458333333334,
      "grad_norm": 9.450407028198242,
      "learning_rate": 0.0001287760416666667,
      "loss": 0.3682,
      "step": 550
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 13.412630081176758,
      "learning_rate": 0.00012747395833333333,
      "loss": 0.6444,
      "step": 560
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 5.66330623626709,
      "learning_rate": 0.000126171875,
      "loss": 0.3466,
      "step": 570
    },
    {
      "epoch": 0.7552083333333334,
      "grad_norm": 6.60795259475708,
      "learning_rate": 0.00012486979166666668,
      "loss": 0.2802,
      "step": 580
    },
    {
      "epoch": 0.7682291666666666,
      "grad_norm": 8.81129264831543,
      "learning_rate": 0.00012356770833333333,
      "loss": 0.2426,
      "step": 590
    },
    {
      "epoch": 0.78125,
      "grad_norm": 16.469572067260742,
      "learning_rate": 0.000122265625,
      "loss": 0.4643,
      "step": 600
    },
    {
      "epoch": 0.78125,
      "eval_accuracy": 0.9091603053435114,
      "eval_loss": 0.3280966579914093,
      "eval_runtime": 73.163,
      "eval_samples_per_second": 17.905,
      "eval_steps_per_second": 2.242,
      "step": 600
    },
    {
      "epoch": 0.7942708333333334,
      "grad_norm": 0.8865923881530762,
      "learning_rate": 0.00012096354166666668,
      "loss": 0.1578,
      "step": 610
    },
    {
      "epoch": 0.8072916666666666,
      "grad_norm": 8.116411209106445,
      "learning_rate": 0.00011966145833333333,
      "loss": 0.3884,
      "step": 620
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 9.369128227233887,
      "learning_rate": 0.000118359375,
      "loss": 0.2877,
      "step": 630
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 2.700255870819092,
      "learning_rate": 0.00011705729166666668,
      "loss": 0.3879,
      "step": 640
    },
    {
      "epoch": 0.8463541666666666,
      "grad_norm": 11.327605247497559,
      "learning_rate": 0.00011575520833333334,
      "loss": 0.3547,
      "step": 650
    },
    {
      "epoch": 0.859375,
      "grad_norm": 13.358592987060547,
      "learning_rate": 0.00011445312500000001,
      "loss": 0.223,
      "step": 660
    },
    {
      "epoch": 0.8723958333333334,
      "grad_norm": 1.7891099452972412,
      "learning_rate": 0.00011315104166666667,
      "loss": 0.2712,
      "step": 670
    },
    {
      "epoch": 0.8854166666666666,
      "grad_norm": 7.728662014007568,
      "learning_rate": 0.00011184895833333333,
      "loss": 0.3005,
      "step": 680
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 0.3444841802120209,
      "learning_rate": 0.00011054687500000001,
      "loss": 0.2482,
      "step": 690
    },
    {
      "epoch": 0.9114583333333334,
      "grad_norm": 17.376832962036133,
      "learning_rate": 0.00010924479166666668,
      "loss": 0.3765,
      "step": 700
    },
    {
      "epoch": 0.9114583333333334,
      "eval_accuracy": 0.9290076335877863,
      "eval_loss": 0.23975874483585358,
      "eval_runtime": 74.0909,
      "eval_samples_per_second": 17.681,
      "eval_steps_per_second": 2.213,
      "step": 700
    },
    {
      "epoch": 0.9244791666666666,
      "grad_norm": 10.517160415649414,
      "learning_rate": 0.00010794270833333333,
      "loss": 0.5821,
      "step": 710
    },
    {
      "epoch": 0.9375,
      "grad_norm": 11.038665771484375,
      "learning_rate": 0.000106640625,
      "loss": 0.4436,
      "step": 720
    },
    {
      "epoch": 0.9505208333333334,
      "grad_norm": 0.33208587765693665,
      "learning_rate": 0.00010533854166666668,
      "loss": 0.2146,
      "step": 730
    },
    {
      "epoch": 0.9635416666666666,
      "grad_norm": 9.220067977905273,
      "learning_rate": 0.00010403645833333333,
      "loss": 0.3492,
      "step": 740
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 2.6065292358398438,
      "learning_rate": 0.000102734375,
      "loss": 0.1438,
      "step": 750
    },
    {
      "epoch": 0.9895833333333334,
      "grad_norm": 4.513604164123535,
      "learning_rate": 0.00010143229166666668,
      "loss": 0.1498,
      "step": 760
    },
    {
      "epoch": 1.0026041666666667,
      "grad_norm": 3.247533082962036,
      "learning_rate": 0.00010013020833333334,
      "loss": 0.4945,
      "step": 770
    },
    {
      "epoch": 1.015625,
      "grad_norm": 0.5809522867202759,
      "learning_rate": 9.8828125e-05,
      "loss": 0.1109,
      "step": 780
    },
    {
      "epoch": 1.0286458333333333,
      "grad_norm": 0.056700680404901505,
      "learning_rate": 9.752604166666667e-05,
      "loss": 0.1214,
      "step": 790
    },
    {
      "epoch": 1.0416666666666667,
      "grad_norm": 4.652562618255615,
      "learning_rate": 9.622395833333335e-05,
      "loss": 0.1379,
      "step": 800
    },
    {
      "epoch": 1.0416666666666667,
      "eval_accuracy": 0.9412213740458015,
      "eval_loss": 0.1860814392566681,
      "eval_runtime": 72.941,
      "eval_samples_per_second": 17.96,
      "eval_steps_per_second": 2.248,
      "step": 800
    },
    {
      "epoch": 1.0546875,
      "grad_norm": 0.06134684756398201,
      "learning_rate": 9.492187500000001e-05,
      "loss": 0.2437,
      "step": 810
    },
    {
      "epoch": 1.0677083333333333,
      "grad_norm": 0.16209521889686584,
      "learning_rate": 9.361979166666667e-05,
      "loss": 0.0196,
      "step": 820
    },
    {
      "epoch": 1.0807291666666667,
      "grad_norm": 0.44997701048851013,
      "learning_rate": 9.231770833333334e-05,
      "loss": 0.0405,
      "step": 830
    },
    {
      "epoch": 1.09375,
      "grad_norm": 0.03530073165893555,
      "learning_rate": 9.1015625e-05,
      "loss": 0.0271,
      "step": 840
    },
    {
      "epoch": 1.1067708333333333,
      "grad_norm": 0.05656661093235016,
      "learning_rate": 8.971354166666667e-05,
      "loss": 0.0251,
      "step": 850
    },
    {
      "epoch": 1.1197916666666667,
      "grad_norm": 0.021418265998363495,
      "learning_rate": 8.841145833333334e-05,
      "loss": 0.1329,
      "step": 860
    },
    {
      "epoch": 1.1328125,
      "grad_norm": 0.34486091136932373,
      "learning_rate": 8.7109375e-05,
      "loss": 0.2791,
      "step": 870
    },
    {
      "epoch": 1.1458333333333333,
      "grad_norm": 0.06410683691501617,
      "learning_rate": 8.580729166666666e-05,
      "loss": 0.1949,
      "step": 880
    },
    {
      "epoch": 1.1588541666666667,
      "grad_norm": 6.918659687042236,
      "learning_rate": 8.450520833333334e-05,
      "loss": 0.1949,
      "step": 890
    },
    {
      "epoch": 1.171875,
      "grad_norm": 6.987488746643066,
      "learning_rate": 8.3203125e-05,
      "loss": 0.1422,
      "step": 900
    },
    {
      "epoch": 1.171875,
      "eval_accuracy": 0.9526717557251908,
      "eval_loss": 0.16571925580501556,
      "eval_runtime": 73.0507,
      "eval_samples_per_second": 17.933,
      "eval_steps_per_second": 2.245,
      "step": 900
    },
    {
      "epoch": 1.1848958333333333,
      "grad_norm": 0.6016131043434143,
      "learning_rate": 8.190104166666667e-05,
      "loss": 0.1011,
      "step": 910
    },
    {
      "epoch": 1.1979166666666667,
      "grad_norm": 5.640698432922363,
      "learning_rate": 8.059895833333335e-05,
      "loss": 0.2341,
      "step": 920
    },
    {
      "epoch": 1.2109375,
      "grad_norm": 0.18673600256443024,
      "learning_rate": 7.929687500000001e-05,
      "loss": 0.1911,
      "step": 930
    },
    {
      "epoch": 1.2239583333333333,
      "grad_norm": 0.04827206954360008,
      "learning_rate": 7.799479166666667e-05,
      "loss": 0.0774,
      "step": 940
    },
    {
      "epoch": 1.2369791666666667,
      "grad_norm": 13.114850044250488,
      "learning_rate": 7.669270833333334e-05,
      "loss": 0.1671,
      "step": 950
    },
    {
      "epoch": 1.25,
      "grad_norm": 9.023773193359375,
      "learning_rate": 7.5390625e-05,
      "loss": 0.1245,
      "step": 960
    },
    {
      "epoch": 1.2630208333333333,
      "grad_norm": 0.04247788339853287,
      "learning_rate": 7.408854166666667e-05,
      "loss": 0.0857,
      "step": 970
    },
    {
      "epoch": 1.2760416666666667,
      "grad_norm": 0.023064516484737396,
      "learning_rate": 7.278645833333334e-05,
      "loss": 0.0907,
      "step": 980
    },
    {
      "epoch": 1.2890625,
      "grad_norm": 2.6537017822265625,
      "learning_rate": 7.1484375e-05,
      "loss": 0.0719,
      "step": 990
    },
    {
      "epoch": 1.3020833333333333,
      "grad_norm": 11.02077865600586,
      "learning_rate": 7.018229166666666e-05,
      "loss": 0.2655,
      "step": 1000
    },
    {
      "epoch": 1.3020833333333333,
      "eval_accuracy": 0.9557251908396946,
      "eval_loss": 0.1525699943304062,
      "eval_runtime": 73.7356,
      "eval_samples_per_second": 17.766,
      "eval_steps_per_second": 2.224,
      "step": 1000
    },
    {
      "epoch": 1.3151041666666667,
      "grad_norm": 0.44301870465278625,
      "learning_rate": 6.888020833333334e-05,
      "loss": 0.1678,
      "step": 1010
    },
    {
      "epoch": 1.328125,
      "grad_norm": 0.7671974301338196,
      "learning_rate": 6.7578125e-05,
      "loss": 0.0759,
      "step": 1020
    },
    {
      "epoch": 1.3411458333333333,
      "grad_norm": 7.202826499938965,
      "learning_rate": 6.627604166666667e-05,
      "loss": 0.0838,
      "step": 1030
    },
    {
      "epoch": 1.3541666666666667,
      "grad_norm": 0.1176716759800911,
      "learning_rate": 6.497395833333335e-05,
      "loss": 0.0988,
      "step": 1040
    },
    {
      "epoch": 1.3671875,
      "grad_norm": 0.06393478810787201,
      "learning_rate": 6.367187500000001e-05,
      "loss": 0.0869,
      "step": 1050
    },
    {
      "epoch": 1.3802083333333333,
      "grad_norm": 0.5057088732719421,
      "learning_rate": 6.236979166666667e-05,
      "loss": 0.0964,
      "step": 1060
    },
    {
      "epoch": 1.3932291666666667,
      "grad_norm": 0.056153714656829834,
      "learning_rate": 6.106770833333334e-05,
      "loss": 0.0229,
      "step": 1070
    },
    {
      "epoch": 1.40625,
      "grad_norm": 0.0073313964530825615,
      "learning_rate": 5.9765625000000004e-05,
      "loss": 0.0295,
      "step": 1080
    },
    {
      "epoch": 1.4192708333333333,
      "grad_norm": 10.135377883911133,
      "learning_rate": 5.8463541666666665e-05,
      "loss": 0.0407,
      "step": 1090
    },
    {
      "epoch": 1.4322916666666667,
      "grad_norm": 0.27722039818763733,
      "learning_rate": 5.716145833333334e-05,
      "loss": 0.0304,
      "step": 1100
    },
    {
      "epoch": 1.4322916666666667,
      "eval_accuracy": 0.9633587786259542,
      "eval_loss": 0.15782681107521057,
      "eval_runtime": 73.1148,
      "eval_samples_per_second": 17.917,
      "eval_steps_per_second": 2.243,
      "step": 1100
    },
    {
      "epoch": 1.4453125,
      "grad_norm": 10.238181114196777,
      "learning_rate": 5.5859375e-05,
      "loss": 0.1596,
      "step": 1110
    },
    {
      "epoch": 1.4583333333333333,
      "grad_norm": 0.05249097943305969,
      "learning_rate": 5.455729166666667e-05,
      "loss": 0.0634,
      "step": 1120
    },
    {
      "epoch": 1.4713541666666667,
      "grad_norm": 8.209336280822754,
      "learning_rate": 5.3255208333333336e-05,
      "loss": 0.1038,
      "step": 1130
    },
    {
      "epoch": 1.484375,
      "grad_norm": 0.7781971096992493,
      "learning_rate": 5.1953125000000004e-05,
      "loss": 0.0557,
      "step": 1140
    },
    {
      "epoch": 1.4973958333333333,
      "grad_norm": 13.152403831481934,
      "learning_rate": 5.0651041666666665e-05,
      "loss": 0.0969,
      "step": 1150
    },
    {
      "epoch": 1.5104166666666665,
      "grad_norm": 1.389357328414917,
      "learning_rate": 4.934895833333333e-05,
      "loss": 0.142,
      "step": 1160
    },
    {
      "epoch": 1.5234375,
      "grad_norm": 0.03525904566049576,
      "learning_rate": 4.8046875e-05,
      "loss": 0.1667,
      "step": 1170
    },
    {
      "epoch": 1.5364583333333335,
      "grad_norm": 0.021179642528295517,
      "learning_rate": 4.674479166666667e-05,
      "loss": 0.0707,
      "step": 1180
    },
    {
      "epoch": 1.5494791666666665,
      "grad_norm": 9.995001792907715,
      "learning_rate": 4.5442708333333336e-05,
      "loss": 0.0614,
      "step": 1190
    },
    {
      "epoch": 1.5625,
      "grad_norm": 0.049822065979242325,
      "learning_rate": 4.4140625000000004e-05,
      "loss": 0.072,
      "step": 1200
    },
    {
      "epoch": 1.5625,
      "eval_accuracy": 0.9679389312977099,
      "eval_loss": 0.14182424545288086,
      "eval_runtime": 73.4207,
      "eval_samples_per_second": 17.842,
      "eval_steps_per_second": 2.234,
      "step": 1200
    },
    {
      "epoch": 1.5755208333333335,
      "grad_norm": 0.026322199031710625,
      "learning_rate": 4.283854166666667e-05,
      "loss": 0.0919,
      "step": 1210
    },
    {
      "epoch": 1.5885416666666665,
      "grad_norm": 0.13556483387947083,
      "learning_rate": 4.153645833333333e-05,
      "loss": 0.1895,
      "step": 1220
    },
    {
      "epoch": 1.6015625,
      "grad_norm": 0.02379715070128441,
      "learning_rate": 4.0234375e-05,
      "loss": 0.0233,
      "step": 1230
    },
    {
      "epoch": 1.6145833333333335,
      "grad_norm": 0.03572675958275795,
      "learning_rate": 3.893229166666667e-05,
      "loss": 0.09,
      "step": 1240
    },
    {
      "epoch": 1.6276041666666665,
      "grad_norm": 0.04055442661046982,
      "learning_rate": 3.7630208333333336e-05,
      "loss": 0.0729,
      "step": 1250
    },
    {
      "epoch": 1.640625,
      "grad_norm": 12.408260345458984,
      "learning_rate": 3.6328125000000004e-05,
      "loss": 0.1543,
      "step": 1260
    },
    {
      "epoch": 1.6536458333333335,
      "grad_norm": 0.01183232106268406,
      "learning_rate": 3.502604166666667e-05,
      "loss": 0.0171,
      "step": 1270
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.030863391235470772,
      "learning_rate": 3.372395833333333e-05,
      "loss": 0.027,
      "step": 1280
    },
    {
      "epoch": 1.6796875,
      "grad_norm": 1.657828688621521,
      "learning_rate": 3.2421875e-05,
      "loss": 0.0056,
      "step": 1290
    },
    {
      "epoch": 1.6927083333333335,
      "grad_norm": 8.683385848999023,
      "learning_rate": 3.111979166666667e-05,
      "loss": 0.2936,
      "step": 1300
    },
    {
      "epoch": 1.6927083333333335,
      "eval_accuracy": 0.9770992366412213,
      "eval_loss": 0.10032270848751068,
      "eval_runtime": 73.5538,
      "eval_samples_per_second": 17.81,
      "eval_steps_per_second": 2.23,
      "step": 1300
    },
    {
      "epoch": 1.7057291666666665,
      "grad_norm": 0.005644885823130608,
      "learning_rate": 2.9817708333333332e-05,
      "loss": 0.1009,
      "step": 1310
    },
    {
      "epoch": 1.71875,
      "grad_norm": 0.03866463154554367,
      "learning_rate": 2.8515625e-05,
      "loss": 0.0822,
      "step": 1320
    },
    {
      "epoch": 1.7317708333333335,
      "grad_norm": 0.013144961558282375,
      "learning_rate": 2.721354166666667e-05,
      "loss": 0.0686,
      "step": 1330
    },
    {
      "epoch": 1.7447916666666665,
      "grad_norm": 0.00972031056880951,
      "learning_rate": 2.5911458333333332e-05,
      "loss": 0.0346,
      "step": 1340
    },
    {
      "epoch": 1.7578125,
      "grad_norm": 0.026575949043035507,
      "learning_rate": 2.4609375e-05,
      "loss": 0.0138,
      "step": 1350
    },
    {
      "epoch": 1.7708333333333335,
      "grad_norm": 0.6429733037948608,
      "learning_rate": 2.3307291666666668e-05,
      "loss": 0.0177,
      "step": 1360
    },
    {
      "epoch": 1.7838541666666665,
      "grad_norm": 0.025338683277368546,
      "learning_rate": 2.2005208333333336e-05,
      "loss": 0.0645,
      "step": 1370
    },
    {
      "epoch": 1.796875,
      "grad_norm": 0.01729397289454937,
      "learning_rate": 2.0703125e-05,
      "loss": 0.0326,
      "step": 1380
    },
    {
      "epoch": 1.8098958333333335,
      "grad_norm": 0.015349478460848331,
      "learning_rate": 1.9401041666666668e-05,
      "loss": 0.0075,
      "step": 1390
    },
    {
      "epoch": 1.8229166666666665,
      "grad_norm": 0.6028020977973938,
      "learning_rate": 1.8098958333333336e-05,
      "loss": 0.0333,
      "step": 1400
    },
    {
      "epoch": 1.8229166666666665,
      "eval_accuracy": 0.9793893129770992,
      "eval_loss": 0.09348531067371368,
      "eval_runtime": 73.1835,
      "eval_samples_per_second": 17.9,
      "eval_steps_per_second": 2.241,
      "step": 1400
    },
    {
      "epoch": 1.8359375,
      "grad_norm": 1.0170259475708008,
      "learning_rate": 1.6796875e-05,
      "loss": 0.0235,
      "step": 1410
    },
    {
      "epoch": 1.8489583333333335,
      "grad_norm": 0.02781638689339161,
      "learning_rate": 1.5494791666666668e-05,
      "loss": 0.0928,
      "step": 1420
    },
    {
      "epoch": 1.8619791666666665,
      "grad_norm": 14.262807846069336,
      "learning_rate": 1.4192708333333336e-05,
      "loss": 0.2109,
      "step": 1430
    },
    {
      "epoch": 1.875,
      "grad_norm": 1.84883451461792,
      "learning_rate": 1.2890625e-05,
      "loss": 0.0357,
      "step": 1440
    },
    {
      "epoch": 1.8880208333333335,
      "grad_norm": 0.28587606549263,
      "learning_rate": 1.1588541666666668e-05,
      "loss": 0.0019,
      "step": 1450
    },
    {
      "epoch": 1.9010416666666665,
      "grad_norm": 0.33084961771965027,
      "learning_rate": 1.0286458333333334e-05,
      "loss": 0.043,
      "step": 1460
    },
    {
      "epoch": 1.9140625,
      "grad_norm": 0.333294153213501,
      "learning_rate": 8.984375e-06,
      "loss": 0.1937,
      "step": 1470
    },
    {
      "epoch": 1.9270833333333335,
      "grad_norm": 0.004296708852052689,
      "learning_rate": 7.682291666666668e-06,
      "loss": 0.0426,
      "step": 1480
    },
    {
      "epoch": 1.9401041666666665,
      "grad_norm": 0.0049277921207249165,
      "learning_rate": 6.380208333333333e-06,
      "loss": 0.003,
      "step": 1490
    },
    {
      "epoch": 1.953125,
      "grad_norm": 0.049785688519477844,
      "learning_rate": 5.078125000000001e-06,
      "loss": 0.0844,
      "step": 1500
    },
    {
      "epoch": 1.953125,
      "eval_accuracy": 0.9793893129770992,
      "eval_loss": 0.08702504634857178,
      "eval_runtime": 72.8723,
      "eval_samples_per_second": 17.977,
      "eval_steps_per_second": 2.251,
      "step": 1500
    },
    {
      "epoch": 1.9661458333333335,
      "grad_norm": 4.749906539916992,
      "learning_rate": 3.7760416666666667e-06,
      "loss": 0.099,
      "step": 1510
    },
    {
      "epoch": 1.9791666666666665,
      "grad_norm": 0.10631278902292252,
      "learning_rate": 2.473958333333333e-06,
      "loss": 0.0012,
      "step": 1520
    },
    {
      "epoch": 1.9921875,
      "grad_norm": 0.01599978655576706,
      "learning_rate": 1.1718750000000001e-06,
      "loss": 0.2036,
      "step": 1530
    },
    {
      "epoch": 2.0,
      "step": 1536,
      "total_flos": 9.520992752534323e+17,
      "train_loss": 0.40541269640622585,
      "train_runtime": 2133.8871,
      "train_samples_per_second": 5.757,
      "train_steps_per_second": 0.72
    }
  ],
  "logging_steps": 10,
  "max_steps": 1536,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.520992752534323e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}