{
  "best_global_step": 9408,
  "best_metric": 0.1410149782896042,
  "best_model_checkpoint": "tmp/out/1536-96-r2_mix_channel_fcmCtx3_fcmLayers3_fcmChMixingTrue_stride24_bs512_lrf_deb3/checkpoint-9408",
  "epoch": 168.0,
  "eval_steps": 500,
  "global_step": 9408,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.376089870929718,
      "learning_rate": 0.00029836401390103334,
      "loss": 0.3643,
      "step": 56
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.25079935789108276,
      "eval_runtime": 12.3705,
      "eval_samples_per_second": 877.898,
      "eval_steps_per_second": 1.778,
      "step": 56
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.25105392932891846,
      "learning_rate": 0.00029836183164580883,
      "loss": 0.3058,
      "step": 112
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.23216894268989563,
      "eval_runtime": 12.2194,
      "eval_samples_per_second": 888.753,
      "eval_steps_per_second": 1.8,
      "step": 112
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.17020165920257568,
      "learning_rate": 0.00029835817704944523,
      "loss": 0.2683,
      "step": 168
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.20991244912147522,
      "eval_runtime": 10.9934,
      "eval_samples_per_second": 987.863,
      "eval_steps_per_second": 2.001,
      "step": 168
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.13130681216716766,
      "learning_rate": 0.00029835305014801184,
      "loss": 0.2395,
      "step": 224
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.19736029207706451,
      "eval_runtime": 11.7226,
      "eval_samples_per_second": 926.414,
      "eval_steps_per_second": 1.877,
      "step": 224
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.12686163187026978,
      "learning_rate": 0.0002983464509921093,
      "loss": 0.2241,
      "step": 280
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.18977424502372742,
      "eval_runtime": 11.8479,
      "eval_samples_per_second": 916.618,
      "eval_steps_per_second": 1.857,
      "step": 280
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.11746390908956528,
      "learning_rate": 0.00029833837964686835,
      "loss": 0.2148,
      "step": 336
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.1851092129945755,
      "eval_runtime": 11.7556,
      "eval_samples_per_second": 923.812,
      "eval_steps_per_second": 1.871,
      "step": 336
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.13627897202968597,
      "learning_rate": 0.0002983288361919503,
      "loss": 0.2078,
      "step": 392
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.18129761517047882,
      "eval_runtime": 11.7487,
      "eval_samples_per_second": 924.357,
      "eval_steps_per_second": 1.873,
      "step": 392
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.1497841328382492,
      "learning_rate": 0.00029831782072154485,
      "loss": 0.2025,
      "step": 448
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.17769944667816162,
      "eval_runtime": 12.1141,
      "eval_samples_per_second": 896.477,
      "eval_steps_per_second": 1.816,
      "step": 448
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.19643521308898926,
      "learning_rate": 0.0002983053333443701,
      "loss": 0.1976,
      "step": 504
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.17583897709846497,
      "eval_runtime": 12.5558,
      "eval_samples_per_second": 864.936,
      "eval_steps_per_second": 1.752,
      "step": 504
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.1033664122223854,
      "learning_rate": 0.0002982913741836719,
      "loss": 0.1936,
      "step": 560
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.1739388257265091,
      "eval_runtime": 12.449,
      "eval_samples_per_second": 872.358,
      "eval_steps_per_second": 1.767,
      "step": 560
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.1361815184354782,
      "learning_rate": 0.00029827594337722164,
      "loss": 0.1902,
      "step": 616
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.17110829055309296,
      "eval_runtime": 12.7701,
      "eval_samples_per_second": 850.423,
      "eval_steps_per_second": 1.723,
      "step": 616
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.12385320663452148,
      "learning_rate": 0.0002982590410773146,
      "loss": 0.1867,
      "step": 672
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.16852673888206482,
      "eval_runtime": 11.8972,
      "eval_samples_per_second": 912.817,
      "eval_steps_per_second": 1.849,
      "step": 672
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.13126742839813232,
      "learning_rate": 0.0002982406674507699,
      "loss": 0.1837,
      "step": 728
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.1675039380788803,
      "eval_runtime": 11.8951,
      "eval_samples_per_second": 912.98,
      "eval_steps_per_second": 1.85,
      "step": 728
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.14581529796123505,
      "learning_rate": 0.00029822082267892794,
      "loss": 0.1818,
      "step": 784
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.16522179543972015,
      "eval_runtime": 12.951,
      "eval_samples_per_second": 838.545,
      "eval_steps_per_second": 1.699,
      "step": 784
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.12710689008235931,
      "learning_rate": 0.0002981995069576483,
      "loss": 0.1787,
      "step": 840
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.1651495099067688,
      "eval_runtime": 12.4369,
      "eval_samples_per_second": 873.211,
      "eval_steps_per_second": 1.769,
      "step": 840
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.1914917379617691,
      "learning_rate": 0.0002981767204973089,
      "loss": 0.177,
      "step": 896
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.1639031320810318,
      "eval_runtime": 12.7112,
      "eval_samples_per_second": 854.365,
      "eval_steps_per_second": 1.731,
      "step": 896
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.15502069890499115,
      "learning_rate": 0.00029815246352280276,
      "loss": 0.1751,
      "step": 952
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.16176268458366394,
      "eval_runtime": 12.1031,
      "eval_samples_per_second": 897.291,
      "eval_steps_per_second": 1.818,
      "step": 952
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.11603855341672897,
      "learning_rate": 0.0002981267362735362,
      "loss": 0.1734,
      "step": 1008
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.1614038050174713,
      "eval_runtime": 11.893,
      "eval_samples_per_second": 913.139,
      "eval_steps_per_second": 1.85,
      "step": 1008
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.11780980974435806,
      "learning_rate": 0.0002980995390034271,
      "loss": 0.172,
      "step": 1064
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.16114258766174316,
      "eval_runtime": 12.6404,
      "eval_samples_per_second": 859.152,
      "eval_steps_per_second": 1.74,
      "step": 1064
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.14823858439922333,
      "learning_rate": 0.00029807087198090116,
      "loss": 0.1702,
      "step": 1120
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.15980996191501617,
      "eval_runtime": 12.5631,
      "eval_samples_per_second": 864.434,
      "eval_steps_per_second": 1.751,
      "step": 1120
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.1246936172246933,
      "learning_rate": 0.0002980407354888907,
      "loss": 0.1688,
      "step": 1176
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.15955598652362823,
      "eval_runtime": 12.315,
      "eval_samples_per_second": 881.853,
      "eval_steps_per_second": 1.786,
      "step": 1176
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.11726798117160797,
      "learning_rate": 0.0002980091298248309,
      "loss": 0.1675,
      "step": 1232
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.15864743292331696,
      "eval_runtime": 12.3526,
      "eval_samples_per_second": 879.166,
      "eval_steps_per_second": 1.781,
      "step": 1232
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.13960805535316467,
      "learning_rate": 0.0002979760553006564,
      "loss": 0.1666,
      "step": 1288
    },
    {
      "epoch": 23.0,
      "eval_loss": 0.15781378746032715,
      "eval_runtime": 12.187,
      "eval_samples_per_second": 891.116,
      "eval_steps_per_second": 1.805,
      "step": 1288
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.11856065690517426,
      "learning_rate": 0.00029794151224279964,
      "loss": 0.1652,
      "step": 1344
    },
    {
      "epoch": 24.0,
      "eval_loss": 0.15776978433132172,
      "eval_runtime": 12.435,
      "eval_samples_per_second": 873.344,
      "eval_steps_per_second": 1.769,
      "step": 1344
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.12466388940811157,
      "learning_rate": 0.00029790550099218654,
      "loss": 0.1643,
      "step": 1400
    },
    {
      "epoch": 25.0,
      "eval_loss": 0.15815725922584534,
      "eval_runtime": 13.1792,
      "eval_samples_per_second": 824.023,
      "eval_steps_per_second": 1.669,
      "step": 1400
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.12369589507579803,
      "learning_rate": 0.0002978680219042336,
      "loss": 0.1633,
      "step": 1456
    },
    {
      "epoch": 26.0,
      "eval_loss": 0.1567024141550064,
      "eval_runtime": 12.484,
      "eval_samples_per_second": 869.916,
      "eval_steps_per_second": 1.762,
      "step": 1456
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.14197547733783722,
      "learning_rate": 0.0002978290753488448,
      "loss": 0.1624,
      "step": 1512
    },
    {
      "epoch": 27.0,
      "eval_loss": 0.15676391124725342,
      "eval_runtime": 12.738,
      "eval_samples_per_second": 852.567,
      "eval_steps_per_second": 1.727,
      "step": 1512
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.13262535631656647,
      "learning_rate": 0.0002977886617104062,
      "loss": 0.1613,
      "step": 1568
    },
    {
      "epoch": 28.0,
      "eval_loss": 0.1567520797252655,
      "eval_runtime": 12.6529,
      "eval_samples_per_second": 858.304,
      "eval_steps_per_second": 1.739,
      "step": 1568
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.15622882544994354,
      "learning_rate": 0.0002977467813877842,
      "loss": 0.1604,
      "step": 1624
    },
    {
      "epoch": 29.0,
      "eval_loss": 0.15647795796394348,
      "eval_runtime": 12.6006,
      "eval_samples_per_second": 861.863,
      "eval_steps_per_second": 1.746,
      "step": 1624
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.15161629021167755,
      "learning_rate": 0.00029770343479432095,
      "loss": 0.1598,
      "step": 1680
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.15717600286006927,
      "eval_runtime": 12.8165,
      "eval_samples_per_second": 847.348,
      "eval_steps_per_second": 1.717,
      "step": 1680
    },
    {
      "epoch": 31.0,
      "grad_norm": 0.12715986371040344,
      "learning_rate": 0.0002976586223578297,
      "loss": 0.1591,
      "step": 1736
    },
    {
      "epoch": 31.0,
      "eval_loss": 0.1557074338197708,
      "eval_runtime": 12.6403,
      "eval_samples_per_second": 859.156,
      "eval_steps_per_second": 1.74,
      "step": 1736
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.1595166027545929,
      "learning_rate": 0.00029761234452059136,
      "loss": 0.1584,
      "step": 1792
    },
    {
      "epoch": 32.0,
      "eval_loss": 0.15540747344493866,
      "eval_runtime": 13.3084,
      "eval_samples_per_second": 816.027,
      "eval_steps_per_second": 1.653,
      "step": 1792
    },
    {
      "epoch": 33.0,
      "grad_norm": 0.16593649983406067,
      "learning_rate": 0.0002975646017393494,
      "loss": 0.1576,
      "step": 1848
    },
    {
      "epoch": 33.0,
      "eval_loss": 0.15468333661556244,
      "eval_runtime": 13.1483,
      "eval_samples_per_second": 825.961,
      "eval_steps_per_second": 1.673,
      "step": 1848
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.14555956423282623,
      "learning_rate": 0.0002975153944853054,
      "loss": 0.1567,
      "step": 1904
    },
    {
      "epoch": 34.0,
      "eval_loss": 0.1553257554769516,
      "eval_runtime": 12.853,
      "eval_samples_per_second": 844.936,
      "eval_steps_per_second": 1.712,
      "step": 1904
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.23194457590579987,
      "learning_rate": 0.00029746472324411547,
      "loss": 0.156,
      "step": 1960
    },
    {
      "epoch": 35.0,
      "eval_loss": 0.1549767106771469,
      "eval_runtime": 11.49,
      "eval_samples_per_second": 945.169,
      "eval_steps_per_second": 1.915,
      "step": 1960
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.17572428286075592,
      "learning_rate": 0.0002974125885158844,
      "loss": 0.1559,
      "step": 2016
    },
    {
      "epoch": 36.0,
      "eval_loss": 0.15631072223186493,
      "eval_runtime": 12.6465,
      "eval_samples_per_second": 858.739,
      "eval_steps_per_second": 1.74,
      "step": 2016
    },
    {
      "epoch": 37.0,
      "grad_norm": 0.1315496563911438,
      "learning_rate": 0.0002973589908151604,
      "loss": 0.1547,
      "step": 2072
    },
    {
      "epoch": 37.0,
      "eval_loss": 0.1540231704711914,
      "eval_runtime": 13.3162,
      "eval_samples_per_second": 815.548,
      "eval_steps_per_second": 1.652,
      "step": 2072
    },
    {
      "epoch": 38.0,
      "grad_norm": 0.17212693393230438,
      "learning_rate": 0.0002973039306709319,
      "loss": 0.1539,
      "step": 2128
    },
    {
      "epoch": 38.0,
      "eval_loss": 0.15414279699325562,
      "eval_runtime": 13.2364,
      "eval_samples_per_second": 820.466,
      "eval_steps_per_second": 1.662,
      "step": 2128
    },
    {
      "epoch": 39.0,
      "grad_norm": 0.12589286267757416,
      "learning_rate": 0.0002972474086266193,
      "loss": 0.1538,
      "step": 2184
    },
    {
      "epoch": 39.0,
      "eval_loss": 0.15399765968322754,
      "eval_runtime": 12.5952,
      "eval_samples_per_second": 862.236,
      "eval_steps_per_second": 1.747,
      "step": 2184
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.1479528248310089,
      "learning_rate": 0.0002971894252400732,
      "loss": 0.1529,
      "step": 2240
    },
    {
      "epoch": 40.0,
      "eval_loss": 0.1546306610107422,
      "eval_runtime": 12.4569,
      "eval_samples_per_second": 871.809,
      "eval_steps_per_second": 1.766,
      "step": 2240
    },
    {
      "epoch": 41.0,
      "grad_norm": 0.140830859541893,
      "learning_rate": 0.00029712998108356566,
      "loss": 0.1521,
      "step": 2296
    },
    {
      "epoch": 41.0,
      "eval_loss": 0.15411749482154846,
      "eval_runtime": 12.8911,
      "eval_samples_per_second": 842.441,
      "eval_steps_per_second": 1.707,
      "step": 2296
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.14429251849651337,
      "learning_rate": 0.0002970690767437871,
      "loss": 0.1521,
      "step": 2352
    },
    {
      "epoch": 42.0,
      "eval_loss": 0.1535186916589737,
      "eval_runtime": 12.7037,
      "eval_samples_per_second": 854.87,
      "eval_steps_per_second": 1.732,
      "step": 2352
    },
    {
      "epoch": 43.0,
      "grad_norm": 0.1678067147731781,
      "learning_rate": 0.00029700671282183844,
      "loss": 0.1516,
      "step": 2408
    },
    {
      "epoch": 43.0,
      "eval_loss": 0.15345174074172974,
      "eval_runtime": 12.8622,
      "eval_samples_per_second": 844.337,
      "eval_steps_per_second": 1.71,
      "step": 2408
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.16715741157531738,
      "learning_rate": 0.00029694288993322636,
      "loss": 0.1506,
      "step": 2464
    },
    {
      "epoch": 44.0,
      "eval_loss": 0.1528453379869461,
      "eval_runtime": 12.394,
      "eval_samples_per_second": 876.23,
      "eval_steps_per_second": 1.775,
      "step": 2464
    },
    {
      "epoch": 45.0,
      "grad_norm": 0.1476888358592987,
      "learning_rate": 0.00029687760870785704,
      "loss": 0.1502,
      "step": 2520
    },
    {
      "epoch": 45.0,
      "eval_loss": 0.15371684730052948,
      "eval_runtime": 12.8504,
      "eval_samples_per_second": 845.113,
      "eval_steps_per_second": 1.712,
      "step": 2520
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.16268473863601685,
      "learning_rate": 0.00029681086979003,
      "loss": 0.1497,
      "step": 2576
    },
    {
      "epoch": 46.0,
      "eval_loss": 0.15216761827468872,
      "eval_runtime": 12.9049,
      "eval_samples_per_second": 841.539,
      "eval_steps_per_second": 1.705,
      "step": 2576
    },
    {
      "epoch": 47.0,
      "grad_norm": 0.17756158113479614,
      "learning_rate": 0.0002967426738384313,
      "loss": 0.1493,
      "step": 2632
    },
    {
      "epoch": 47.0,
      "eval_loss": 0.15324676036834717,
      "eval_runtime": 13.0526,
      "eval_samples_per_second": 832.021,
      "eval_steps_per_second": 1.685,
      "step": 2632
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.13994063436985016,
      "learning_rate": 0.0002966730215261271,
      "loss": 0.1487,
      "step": 2688
    },
    {
      "epoch": 48.0,
      "eval_loss": 0.15221010148525238,
      "eval_runtime": 12.6334,
      "eval_samples_per_second": 859.628,
      "eval_steps_per_second": 1.741,
      "step": 2688
    },
    {
      "epoch": 49.0,
      "grad_norm": 0.18394885957241058,
      "learning_rate": 0.0002966019135405581,
      "loss": 0.1483,
      "step": 2744
    },
    {
      "epoch": 49.0,
      "eval_loss": 0.15254603326320648,
      "eval_runtime": 12.296,
      "eval_samples_per_second": 883.214,
      "eval_steps_per_second": 1.789,
      "step": 2744
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.14756232500076294,
      "learning_rate": 0.000296529350583531,
      "loss": 0.1479,
      "step": 2800
    },
    {
      "epoch": 50.0,
      "eval_loss": 0.15157358348369598,
      "eval_runtime": 12.7067,
      "eval_samples_per_second": 854.666,
      "eval_steps_per_second": 1.731,
      "step": 2800
    },
    {
      "epoch": 51.0,
      "grad_norm": 0.18675681948661804,
      "learning_rate": 0.00029645533337121344,
      "loss": 0.1476,
      "step": 2856
    },
    {
      "epoch": 51.0,
      "eval_loss": 0.15315961837768555,
      "eval_runtime": 12.914,
      "eval_samples_per_second": 840.949,
      "eval_steps_per_second": 1.704,
      "step": 2856
    },
    {
      "epoch": 52.0,
      "grad_norm": 0.21148425340652466,
      "learning_rate": 0.0002963798626341248,
      "loss": 0.1467,
      "step": 2912
    },
    {
      "epoch": 52.0,
      "eval_loss": 0.151397705078125,
      "eval_runtime": 12.6083,
      "eval_samples_per_second": 861.336,
      "eval_steps_per_second": 1.745,
      "step": 2912
    },
    {
      "epoch": 53.0,
      "grad_norm": 0.14957012236118317,
      "learning_rate": 0.00029630293911713125,
      "loss": 0.1463,
      "step": 2968
    },
    {
      "epoch": 53.0,
      "eval_loss": 0.152817040681839,
      "eval_runtime": 12.3988,
      "eval_samples_per_second": 875.89,
      "eval_steps_per_second": 1.774,
      "step": 2968
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.18841682374477386,
      "learning_rate": 0.0002962245635794367,
      "loss": 0.1457,
      "step": 3024
    },
    {
      "epoch": 54.0,
      "eval_loss": 0.1509653627872467,
      "eval_runtime": 12.9201,
      "eval_samples_per_second": 840.553,
      "eval_steps_per_second": 1.703,
      "step": 3024
    },
    {
      "epoch": 55.0,
      "grad_norm": 0.19782641530036926,
      "learning_rate": 0.00029614473679457606,
      "loss": 0.1457,
      "step": 3080
    },
    {
      "epoch": 55.0,
      "eval_loss": 0.15204061567783356,
      "eval_runtime": 13.0172,
      "eval_samples_per_second": 834.282,
      "eval_steps_per_second": 1.69,
      "step": 3080
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.15806534886360168,
      "learning_rate": 0.0002960634595504073,
      "loss": 0.145,
      "step": 3136
    },
    {
      "epoch": 56.0,
      "eval_loss": 0.15144167840480804,
      "eval_runtime": 12.3723,
      "eval_samples_per_second": 877.767,
      "eval_steps_per_second": 1.778,
      "step": 3136
    },
    {
      "epoch": 57.0,
      "grad_norm": 0.1470707207918167,
      "learning_rate": 0.00029598073264910414,
      "loss": 0.1446,
      "step": 3192
    },
    {
      "epoch": 57.0,
      "eval_loss": 0.15259326994419098,
      "eval_runtime": 11.8486,
      "eval_samples_per_second": 916.567,
      "eval_steps_per_second": 1.857,
      "step": 3192
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.12880393862724304,
      "learning_rate": 0.00029589655690714776,
      "loss": 0.1444,
      "step": 3248
    },
    {
      "epoch": 58.0,
      "eval_loss": 0.1521604359149933,
      "eval_runtime": 12.3711,
      "eval_samples_per_second": 877.851,
      "eval_steps_per_second": 1.778,
      "step": 3248
    },
    {
      "epoch": 59.0,
      "grad_norm": 0.20687344670295715,
      "learning_rate": 0.00029581093315531867,
      "loss": 0.1439,
      "step": 3304
    },
    {
      "epoch": 59.0,
      "eval_loss": 0.1506902128458023,
      "eval_runtime": 12.2839,
      "eval_samples_per_second": 884.082,
      "eval_steps_per_second": 1.791,
      "step": 3304
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.31674283742904663,
      "learning_rate": 0.00029572386223868856,
      "loss": 0.1434,
      "step": 3360
    },
    {
      "epoch": 60.0,
      "eval_loss": 0.1497628092765808,
      "eval_runtime": 12.2602,
      "eval_samples_per_second": 885.791,
      "eval_steps_per_second": 1.794,
      "step": 3360
    },
    {
      "epoch": 61.0,
      "grad_norm": 0.1524023711681366,
      "learning_rate": 0.0002956353450166127,
      "loss": 0.1428,
      "step": 3416
    },
    {
      "epoch": 61.0,
      "eval_loss": 0.15104272961616516,
      "eval_runtime": 11.4854,
      "eval_samples_per_second": 945.545,
      "eval_steps_per_second": 1.915,
      "step": 3416
    },
    {
      "epoch": 62.0,
      "grad_norm": 0.1333588808774948,
      "learning_rate": 0.00029554538236271986,
      "loss": 0.1427,
      "step": 3472
    },
    {
      "epoch": 62.0,
      "eval_loss": 0.15125687420368195,
      "eval_runtime": 11.619,
      "eval_samples_per_second": 934.673,
      "eval_steps_per_second": 1.893,
      "step": 3472
    },
    {
      "epoch": 63.0,
      "grad_norm": 0.14987458288669586,
      "learning_rate": 0.0002954539751649054,
      "loss": 0.1427,
      "step": 3528
    },
    {
      "epoch": 63.0,
      "eval_loss": 0.15022161602973938,
      "eval_runtime": 11.7178,
      "eval_samples_per_second": 926.795,
      "eval_steps_per_second": 1.877,
      "step": 3528
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.19036932289600372,
      "learning_rate": 0.00029536112432532164,
      "loss": 0.1418,
      "step": 3584
    },
    {
      "epoch": 64.0,
      "eval_loss": 0.15002530813217163,
      "eval_runtime": 12.0423,
      "eval_samples_per_second": 901.82,
      "eval_steps_per_second": 1.827,
      "step": 3584
    },
    {
      "epoch": 65.0,
      "grad_norm": 0.15858310461044312,
      "learning_rate": 0.00029526683076036824,
      "loss": 0.1416,
      "step": 3640
    },
    {
      "epoch": 65.0,
      "eval_loss": 0.15072880685329437,
      "eval_runtime": 11.4427,
      "eval_samples_per_second": 949.077,
      "eval_steps_per_second": 1.923,
      "step": 3640
    },
    {
      "epoch": 66.0,
      "grad_norm": 0.1411045342683792,
      "learning_rate": 0.0002951710954006851,
      "loss": 0.1415,
      "step": 3696
    },
    {
      "epoch": 66.0,
      "eval_loss": 0.150208979845047,
      "eval_runtime": 11.7843,
      "eval_samples_per_second": 921.567,
      "eval_steps_per_second": 1.867,
      "step": 3696
    },
    {
      "epoch": 67.0,
      "grad_norm": 0.18127693235874176,
      "learning_rate": 0.00029507391919114174,
      "loss": 0.1407,
      "step": 3752
    },
    {
      "epoch": 67.0,
      "eval_loss": 0.15111134946346283,
      "eval_runtime": 11.7998,
      "eval_samples_per_second": 920.352,
      "eval_steps_per_second": 1.864,
      "step": 3752
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.20954985916614532,
      "learning_rate": 0.0002949753030908276,
      "loss": 0.1404,
      "step": 3808
    },
    {
      "epoch": 68.0,
      "eval_loss": 0.15048466622829437,
      "eval_runtime": 11.8536,
      "eval_samples_per_second": 916.178,
      "eval_steps_per_second": 1.856,
      "step": 3808
    },
    {
      "epoch": 69.0,
      "grad_norm": 0.1799214780330658,
      "learning_rate": 0.0002948752480730442,
      "loss": 0.1401,
      "step": 3864
    },
    {
      "epoch": 69.0,
      "eval_loss": 0.14996136724948883,
      "eval_runtime": 11.8425,
      "eval_samples_per_second": 917.04,
      "eval_steps_per_second": 1.858,
      "step": 3864
    },
    {
      "epoch": 70.0,
      "grad_norm": 0.14687888324260712,
      "learning_rate": 0.0002947737551252938,
      "loss": 0.1399,
      "step": 3920
    },
    {
      "epoch": 70.0,
      "eval_loss": 0.1494998186826706,
      "eval_runtime": 11.8446,
      "eval_samples_per_second": 916.877,
      "eval_steps_per_second": 1.857,
      "step": 3920
    },
    {
      "epoch": 71.0,
      "grad_norm": 0.2250983864068985,
      "learning_rate": 0.000294670825249271,
      "loss": 0.1397,
      "step": 3976
    },
    {
      "epoch": 71.0,
      "eval_loss": 0.14974181354045868,
      "eval_runtime": 10.3667,
      "eval_samples_per_second": 1047.585,
      "eval_steps_per_second": 2.122,
      "step": 3976
    },
    {
      "epoch": 72.0,
      "grad_norm": 0.14977572858333588,
      "learning_rate": 0.00029456645946085235,
      "loss": 0.1393,
      "step": 4032
    },
    {
      "epoch": 72.0,
      "eval_loss": 0.1504337042570114,
      "eval_runtime": 11.0031,
      "eval_samples_per_second": 986.994,
      "eval_steps_per_second": 1.999,
      "step": 4032
    },
    {
      "epoch": 73.0,
      "grad_norm": 0.2215435802936554,
      "learning_rate": 0.00029446065879008577,
      "loss": 0.1389,
      "step": 4088
    },
    {
      "epoch": 73.0,
      "eval_loss": 0.14960449934005737,
      "eval_runtime": 10.5211,
      "eval_samples_per_second": 1032.216,
      "eval_steps_per_second": 2.091,
      "step": 4088
    },
    {
      "epoch": 74.0,
      "grad_norm": 0.14885684847831726,
      "learning_rate": 0.00029435342428118117,
      "loss": 0.1384,
      "step": 4144
    },
    {
      "epoch": 74.0,
      "eval_loss": 0.14882370829582214,
      "eval_runtime": 11.6942,
      "eval_samples_per_second": 928.669,
      "eval_steps_per_second": 1.881,
      "step": 4144
    },
    {
      "epoch": 75.0,
      "grad_norm": 0.20596224069595337,
      "learning_rate": 0.0002942447569924998,
      "loss": 0.1384,
      "step": 4200
    },
    {
      "epoch": 75.0,
      "eval_loss": 0.14847591519355774,
      "eval_runtime": 11.911,
      "eval_samples_per_second": 911.765,
      "eval_steps_per_second": 1.847,
      "step": 4200
    },
    {
      "epoch": 76.0,
      "grad_norm": 0.1551866978406906,
      "learning_rate": 0.0002941346579965444,
      "loss": 0.1379,
      "step": 4256
    },
    {
      "epoch": 76.0,
      "eval_loss": 0.1497822105884552,
      "eval_runtime": 11.0615,
      "eval_samples_per_second": 981.782,
      "eval_steps_per_second": 1.989,
      "step": 4256
    },
    {
      "epoch": 77.0,
      "grad_norm": 0.19567330181598663,
      "learning_rate": 0.00029402312837994727,
      "loss": 0.138,
      "step": 4312
    },
    {
      "epoch": 77.0,
      "eval_loss": 0.14890199899673462,
      "eval_runtime": 11.5065,
      "eval_samples_per_second": 943.812,
      "eval_steps_per_second": 1.912,
      "step": 4312
    },
    {
      "epoch": 78.0,
      "grad_norm": 0.1951490044593811,
      "learning_rate": 0.0002939101692434606,
      "loss": 0.1372,
      "step": 4368
    },
    {
      "epoch": 78.0,
      "eval_loss": 0.14929604530334473,
      "eval_runtime": 11.7303,
      "eval_samples_per_second": 925.806,
      "eval_steps_per_second": 1.875,
      "step": 4368
    },
    {
      "epoch": 79.0,
      "grad_norm": 0.15116438269615173,
      "learning_rate": 0.00029379578170194554,
      "loss": 0.1371,
      "step": 4424
    },
    {
      "epoch": 79.0,
      "eval_loss": 0.14909496903419495,
      "eval_runtime": 11.5142,
      "eval_samples_per_second": 943.184,
      "eval_steps_per_second": 1.911,
      "step": 4424
    },
    {
      "epoch": 80.0,
      "grad_norm": 0.24799354374408722,
      "learning_rate": 0.00029367996688436096,
      "loss": 0.1369,
      "step": 4480
    },
    {
      "epoch": 80.0,
      "eval_loss": 0.14952804148197174,
      "eval_runtime": 10.7014,
      "eval_samples_per_second": 1014.824,
      "eval_steps_per_second": 2.056,
      "step": 4480
    },
    {
      "epoch": 81.0,
      "grad_norm": 0.16792896389961243,
      "learning_rate": 0.00029356272593375216,
      "loss": 0.1368,
      "step": 4536
    },
    {
      "epoch": 81.0,
      "eval_loss": 0.1491686999797821,
      "eval_runtime": 11.5601,
      "eval_samples_per_second": 939.442,
      "eval_steps_per_second": 1.903,
      "step": 4536
    },
    {
      "epoch": 82.0,
      "grad_norm": 0.21115855872631073,
      "learning_rate": 0.00029344406000724046,
      "loss": 0.1363,
      "step": 4592
    },
    {
      "epoch": 82.0,
      "eval_loss": 0.14837497472763062,
      "eval_runtime": 11.7754,
      "eval_samples_per_second": 922.263,
      "eval_steps_per_second": 1.868,
      "step": 4592
    },
    {
      "epoch": 83.0,
      "grad_norm": 0.15595555305480957,
      "learning_rate": 0.0002933239702760101,
      "loss": 0.1361,
      "step": 4648
    },
    {
      "epoch": 83.0,
      "eval_loss": 0.14758282899856567,
      "eval_runtime": 11.5424,
      "eval_samples_per_second": 940.879,
      "eval_steps_per_second": 1.906,
      "step": 4648
    },
    {
      "epoch": 84.0,
      "grad_norm": 0.14343903958797455,
      "learning_rate": 0.00029320245792529843,
      "loss": 0.1355,
      "step": 4704
    },
    {
      "epoch": 84.0,
      "eval_loss": 0.1478155553340912,
      "eval_runtime": 11.4968,
      "eval_samples_per_second": 944.61,
      "eval_steps_per_second": 1.914,
      "step": 4704
    },
    {
      "epoch": 85.0,
      "grad_norm": 0.2670864462852478,
      "learning_rate": 0.00029307952415438376,
      "loss": 0.1353,
      "step": 4760
    },
    {
      "epoch": 85.0,
      "eval_loss": 0.14811985194683075,
      "eval_runtime": 11.0295,
      "eval_samples_per_second": 984.636,
      "eval_steps_per_second": 1.995,
      "step": 4760
    },
    {
      "epoch": 86.0,
      "grad_norm": 0.19388346374034882,
      "learning_rate": 0.00029295517017657207,
      "loss": 0.1353,
      "step": 4816
    },
    {
      "epoch": 86.0,
      "eval_loss": 0.14837351441383362,
      "eval_runtime": 11.4695,
      "eval_samples_per_second": 946.859,
      "eval_steps_per_second": 1.918,
      "step": 4816
    },
    {
      "epoch": 87.0,
      "grad_norm": 0.15899422764778137,
      "learning_rate": 0.00029282939721918743,
      "loss": 0.1351,
      "step": 4872
    },
    {
      "epoch": 87.0,
      "eval_loss": 0.14791646599769592,
      "eval_runtime": 11.4789,
      "eval_samples_per_second": 946.087,
      "eval_steps_per_second": 1.917,
      "step": 4872
    },
    {
      "epoch": 88.0,
      "grad_norm": 0.25924888253211975,
      "learning_rate": 0.00029270220652355785,
      "loss": 0.1345,
      "step": 4928
    },
    {
      "epoch": 88.0,
      "eval_loss": 0.1483958214521408,
      "eval_runtime": 11.0986,
      "eval_samples_per_second": 978.501,
      "eval_steps_per_second": 1.982,
      "step": 4928
    },
    {
      "epoch": 89.0,
      "grad_norm": 0.197585791349411,
      "learning_rate": 0.0002925735993450043,
      "loss": 0.1342,
      "step": 4984
    },
    {
      "epoch": 89.0,
      "eval_loss": 0.14841538667678833,
      "eval_runtime": 11.2913,
      "eval_samples_per_second": 961.799,
      "eval_steps_per_second": 1.948,
      "step": 4984
    },
    {
      "epoch": 90.0,
      "grad_norm": 0.18903715908527374,
      "learning_rate": 0.0002924435769528278,
      "loss": 0.1343,
      "step": 5040
    },
    {
      "epoch": 90.0,
      "eval_loss": 0.14745239913463593,
      "eval_runtime": 12.07,
      "eval_samples_per_second": 899.752,
      "eval_steps_per_second": 1.823,
      "step": 5040
    },
    {
      "epoch": 91.0,
      "grad_norm": 0.1610485017299652,
      "learning_rate": 0.00029231214063029666,
      "loss": 0.1336,
      "step": 5096
    },
    {
      "epoch": 91.0,
      "eval_loss": 0.1469384878873825,
      "eval_runtime": 12.1199,
      "eval_samples_per_second": 896.05,
      "eval_steps_per_second": 1.815,
      "step": 5096
    },
    {
      "epoch": 92.0,
      "grad_norm": 0.20112423598766327,
      "learning_rate": 0.00029217929167463404,
      "loss": 0.1337,
      "step": 5152
    },
    {
      "epoch": 92.0,
      "eval_loss": 0.14764182269573212,
      "eval_runtime": 10.2692,
      "eval_samples_per_second": 1057.536,
      "eval_steps_per_second": 2.142,
      "step": 5152
    },
    {
      "epoch": 93.0,
      "grad_norm": 0.28488588333129883,
      "learning_rate": 0.00029204503139700625,
      "loss": 0.1335,
      "step": 5208
    },
    {
      "epoch": 93.0,
      "eval_loss": 0.1479685753583908,
      "eval_runtime": 11.6849,
      "eval_samples_per_second": 929.407,
      "eval_steps_per_second": 1.883,
      "step": 5208
    },
    {
      "epoch": 94.0,
      "grad_norm": 0.2028261125087738,
      "learning_rate": 0.0002919093611225077,
      "loss": 0.1333,
      "step": 5264
    },
    {
      "epoch": 94.0,
      "eval_loss": 0.14725789427757263,
      "eval_runtime": 11.2025,
      "eval_samples_per_second": 969.429,
      "eval_steps_per_second": 1.964,
      "step": 5264
    },
    {
      "epoch": 95.0,
      "grad_norm": 0.20275919139385223,
      "learning_rate": 0.0002917722821901492,
      "loss": 0.1334,
      "step": 5320
    },
    {
      "epoch": 95.0,
      "eval_loss": 0.14767614006996155,
      "eval_runtime": 10.8005,
      "eval_samples_per_second": 1005.513,
      "eval_steps_per_second": 2.037,
      "step": 5320
    },
    {
      "epoch": 96.0,
      "grad_norm": 0.2053348869085312,
      "learning_rate": 0.0002916337959528444,
      "loss": 0.1325,
      "step": 5376
    },
    {
      "epoch": 96.0,
      "eval_loss": 0.14707864820957184,
      "eval_runtime": 11.1238,
      "eval_samples_per_second": 976.287,
      "eval_steps_per_second": 1.978,
      "step": 5376
    },
    {
      "epoch": 97.0,
      "grad_norm": 0.23510950803756714,
      "learning_rate": 0.0002914939037773966,
      "loss": 0.1321,
      "step": 5432
    },
    {
      "epoch": 97.0,
      "eval_loss": 0.1476944088935852,
      "eval_runtime": 10.9362,
      "eval_samples_per_second": 993.028,
      "eval_steps_per_second": 2.012,
      "step": 5432
    },
    {
      "epoch": 98.0,
      "grad_norm": 0.2703108787536621,
      "learning_rate": 0.000291352607044485,
      "loss": 0.1327,
      "step": 5488
    },
    {
      "epoch": 98.0,
      "eval_loss": 0.1466565579175949,
      "eval_runtime": 10.8189,
      "eval_samples_per_second": 1003.802,
      "eval_steps_per_second": 2.033,
      "step": 5488
    },
    {
      "epoch": 99.0,
      "grad_norm": 0.22386641800403595,
      "learning_rate": 0.0002912099071486513,
      "loss": 0.1318,
      "step": 5544
    },
    {
      "epoch": 99.0,
      "eval_loss": 0.1469065397977829,
      "eval_runtime": 10.9677,
      "eval_samples_per_second": 990.181,
      "eval_steps_per_second": 2.006,
      "step": 5544
    },
    {
      "epoch": 100.0,
      "grad_norm": 0.18684013187885284,
      "learning_rate": 0.0002910658054982861,
      "loss": 0.1319,
      "step": 5600
    },
    {
      "epoch": 100.0,
      "eval_loss": 0.1462097316980362,
      "eval_runtime": 11.5801,
      "eval_samples_per_second": 937.82,
      "eval_steps_per_second": 1.9,
      "step": 5600
    },
    {
      "epoch": 101.0,
      "grad_norm": 0.1831580400466919,
      "learning_rate": 0.00029092030351561435,
      "loss": 0.1318,
      "step": 5656
    },
    {
      "epoch": 101.0,
      "eval_loss": 0.1467864215373993,
      "eval_runtime": 11.2551,
      "eval_samples_per_second": 964.899,
      "eval_steps_per_second": 1.955,
      "step": 5656
    },
    {
      "epoch": 102.0,
      "grad_norm": 0.20423631370067596,
      "learning_rate": 0.00029077340263668184,
      "loss": 0.1315,
      "step": 5712
    },
    {
      "epoch": 102.0,
      "eval_loss": 0.1470629870891571,
      "eval_runtime": 10.0185,
      "eval_samples_per_second": 1083.994,
      "eval_steps_per_second": 2.196,
      "step": 5712
    },
    {
      "epoch": 103.0,
      "grad_norm": 0.20669810473918915,
      "learning_rate": 0.0002906251043113414,
      "loss": 0.1312,
      "step": 5768
    },
    {
      "epoch": 103.0,
      "eval_loss": 0.14603030681610107,
      "eval_runtime": 11.5962,
      "eval_samples_per_second": 936.51,
      "eval_steps_per_second": 1.897,
      "step": 5768
    },
    {
      "epoch": 104.0,
      "grad_norm": 0.18566496670246124,
      "learning_rate": 0.0002904754100032369,
      "loss": 0.1308,
      "step": 5824
    },
    {
      "epoch": 104.0,
      "eval_loss": 0.146591916680336,
      "eval_runtime": 11.8139,
      "eval_samples_per_second": 919.255,
      "eval_steps_per_second": 1.862,
      "step": 5824
    },
    {
      "epoch": 105.0,
      "grad_norm": 0.32265496253967285,
      "learning_rate": 0.000290324321189791,
      "loss": 0.1311,
      "step": 5880
    },
    {
      "epoch": 105.0,
      "eval_loss": 0.1458718478679657,
      "eval_runtime": 11.9546,
      "eval_samples_per_second": 908.438,
      "eval_steps_per_second": 1.84,
      "step": 5880
    },
    {
      "epoch": 106.0,
      "grad_norm": 0.17987699806690216,
      "learning_rate": 0.00029017183936218906,
      "loss": 0.1302,
      "step": 5936
    },
    {
      "epoch": 106.0,
      "eval_loss": 0.1459737867116928,
      "eval_runtime": 12.1694,
      "eval_samples_per_second": 892.4,
      "eval_steps_per_second": 1.808,
      "step": 5936
    },
    {
      "epoch": 107.0,
      "grad_norm": 0.18314820528030396,
      "learning_rate": 0.0002900179660253659,
      "loss": 0.1303,
      "step": 5992
    },
    {
      "epoch": 107.0,
      "eval_loss": 0.14506617188453674,
      "eval_runtime": 11.0204,
      "eval_samples_per_second": 985.446,
      "eval_steps_per_second": 1.996,
      "step": 5992
    },
    {
      "epoch": 108.0,
      "grad_norm": 0.1967027485370636,
      "learning_rate": 0.00028986270269798893,
      "loss": 0.13,
      "step": 6048
    },
    {
      "epoch": 108.0,
      "eval_loss": 0.1448826640844345,
      "eval_runtime": 11.2115,
      "eval_samples_per_second": 968.651,
      "eval_steps_per_second": 1.962,
      "step": 6048
    },
    {
      "epoch": 109.0,
      "grad_norm": 0.17848514020442963,
      "learning_rate": 0.00028970605091244395,
      "loss": 0.13,
      "step": 6104
    },
    {
      "epoch": 109.0,
      "eval_loss": 0.14577716588974,
      "eval_runtime": 12.0159,
      "eval_samples_per_second": 903.806,
      "eval_steps_per_second": 1.831,
      "step": 6104
    },
    {
      "epoch": 110.0,
      "grad_norm": 0.1681281179189682,
      "learning_rate": 0.00028954801221482137,
      "loss": 0.13,
      "step": 6160
    },
    {
      "epoch": 110.0,
      "eval_loss": 0.1459922343492508,
      "eval_runtime": 11.657,
      "eval_samples_per_second": 931.628,
      "eval_steps_per_second": 1.887,
      "step": 6160
    },
    {
      "epoch": 111.0,
      "grad_norm": 0.19543369114398956,
      "learning_rate": 0.00028938858816489945,
      "loss": 0.1294,
      "step": 6216
    },
    {
      "epoch": 111.0,
      "eval_loss": 0.14557458460330963,
      "eval_runtime": 11.502,
      "eval_samples_per_second": 944.183,
      "eval_steps_per_second": 1.913,
      "step": 6216
    },
    {
      "epoch": 112.0,
      "grad_norm": 0.19514279067516327,
      "learning_rate": 0.0002892277803361288,
      "loss": 0.1294,
      "step": 6272
    },
    {
      "epoch": 112.0,
      "eval_loss": 0.14542081952095032,
      "eval_runtime": 11.3675,
      "eval_samples_per_second": 955.353,
      "eval_steps_per_second": 1.935,
      "step": 6272
    },
    {
      "epoch": 113.0,
      "grad_norm": 0.19245897233486176,
      "learning_rate": 0.00028906559031561803,
      "loss": 0.1294,
      "step": 6328
    },
    {
      "epoch": 113.0,
      "eval_loss": 0.14575673639774323,
      "eval_runtime": 12.0854,
      "eval_samples_per_second": 898.603,
      "eval_steps_per_second": 1.82,
      "step": 6328
    },
    {
      "epoch": 114.0,
      "grad_norm": 0.2559398412704468,
      "learning_rate": 0.0002889020197041172,
      "loss": 0.129,
      "step": 6384
    },
    {
      "epoch": 114.0,
      "eval_loss": 0.14476452767848969,
      "eval_runtime": 11.4747,
      "eval_samples_per_second": 946.432,
      "eval_steps_per_second": 1.917,
      "step": 6384
    },
    {
      "epoch": 115.0,
      "grad_norm": 0.1581374853849411,
      "learning_rate": 0.0002887370701160019,
      "loss": 0.129,
      "step": 6440
    },
    {
      "epoch": 115.0,
      "eval_loss": 0.14649543166160583,
      "eval_runtime": 11.7792,
      "eval_samples_per_second": 921.961,
      "eval_steps_per_second": 1.868,
      "step": 6440
    },
    {
      "epoch": 116.0,
      "grad_norm": 0.17189738154411316,
      "learning_rate": 0.0002885707431792581,
      "loss": 0.1282,
      "step": 6496
    },
    {
      "epoch": 116.0,
      "eval_loss": 0.14660660922527313,
      "eval_runtime": 11.9186,
      "eval_samples_per_second": 911.183,
      "eval_steps_per_second": 1.846,
      "step": 6496
    },
    {
      "epoch": 117.0,
      "grad_norm": 0.2357121855020523,
      "learning_rate": 0.0002884030405354656,
      "loss": 0.129,
      "step": 6552
    },
    {
      "epoch": 117.0,
      "eval_loss": 0.146439790725708,
      "eval_runtime": 11.5156,
      "eval_samples_per_second": 943.071,
      "eval_steps_per_second": 1.91,
      "step": 6552
    },
    {
      "epoch": 118.0,
      "grad_norm": 0.1968863159418106,
      "learning_rate": 0.00028823396383978163,
      "loss": 0.1279,
      "step": 6608
    },
    {
      "epoch": 118.0,
      "eval_loss": 0.1450948715209961,
      "eval_runtime": 11.6204,
      "eval_samples_per_second": 934.567,
      "eval_steps_per_second": 1.893,
      "step": 6608
    },
    {
      "epoch": 119.0,
      "grad_norm": 0.16850939393043518,
      "learning_rate": 0.0002880635147609254,
      "loss": 0.1279,
      "step": 6664
    },
    {
      "epoch": 119.0,
      "eval_loss": 0.1456771343946457,
      "eval_runtime": 11.4295,
      "eval_samples_per_second": 950.17,
      "eval_steps_per_second": 1.925,
      "step": 6664
    },
    {
      "epoch": 120.0,
      "grad_norm": 0.20816339552402496,
      "learning_rate": 0.0002878916949811601,
      "loss": 0.1277,
      "step": 6720
    },
    {
      "epoch": 120.0,
      "eval_loss": 0.1461264193058014,
      "eval_runtime": 11.9161,
      "eval_samples_per_second": 911.372,
      "eval_steps_per_second": 1.846,
      "step": 6720
    },
    {
      "epoch": 121.0,
      "grad_norm": 0.19195137917995453,
      "learning_rate": 0.0002877185061962775,
      "loss": 0.1279,
      "step": 6776
    },
    {
      "epoch": 121.0,
      "eval_loss": 0.14506319165229797,
      "eval_runtime": 10.7769,
      "eval_samples_per_second": 1007.715,
      "eval_steps_per_second": 2.041,
      "step": 6776
    },
    {
      "epoch": 122.0,
      "grad_norm": 0.1636265516281128,
      "learning_rate": 0.0002875439501155812,
      "loss": 0.1277,
      "step": 6832
    },
    {
      "epoch": 122.0,
      "eval_loss": 0.1454634666442871,
      "eval_runtime": 11.7121,
      "eval_samples_per_second": 927.245,
      "eval_steps_per_second": 1.878,
      "step": 6832
    },
    {
      "epoch": 123.0,
      "grad_norm": 0.17660963535308838,
      "learning_rate": 0.00028736802846186907,
      "loss": 0.1273,
      "step": 6888
    },
    {
      "epoch": 123.0,
      "eval_loss": 0.1449379324913025,
      "eval_runtime": 12.0977,
      "eval_samples_per_second": 897.695,
      "eval_steps_per_second": 1.819,
      "step": 6888
    },
    {
      "epoch": 124.0,
      "grad_norm": 0.20895443856716156,
      "learning_rate": 0.00028719074297141686,
      "loss": 0.127,
      "step": 6944
    },
    {
      "epoch": 124.0,
      "eval_loss": 0.14427852630615234,
      "eval_runtime": 11.8774,
      "eval_samples_per_second": 914.341,
      "eval_steps_per_second": 1.852,
      "step": 6944
    },
    {
      "epoch": 125.0,
      "grad_norm": 0.1895224153995514,
      "learning_rate": 0.0002870120953939609,
      "loss": 0.1269,
      "step": 7000
    },
    {
      "epoch": 125.0,
      "eval_loss": 0.1446518748998642,
      "eval_runtime": 11.7658,
      "eval_samples_per_second": 923.015,
      "eval_steps_per_second": 1.87,
      "step": 7000
    },
    {
      "epoch": 126.0,
      "grad_norm": 0.191587895154953,
      "learning_rate": 0.0002868320874926807,
      "loss": 0.1269,
      "step": 7056
    },
    {
      "epoch": 126.0,
      "eval_loss": 0.14533261954784393,
      "eval_runtime": 11.2533,
      "eval_samples_per_second": 965.053,
      "eval_steps_per_second": 1.955,
      "step": 7056
    },
    {
      "epoch": 127.0,
      "grad_norm": 0.20511987805366516,
      "learning_rate": 0.00028665072104418107,
      "loss": 0.1263,
      "step": 7112
    },
    {
      "epoch": 127.0,
      "eval_loss": 0.1444355994462967,
      "eval_runtime": 11.3297,
      "eval_samples_per_second": 958.545,
      "eval_steps_per_second": 1.942,
      "step": 7112
    },
    {
      "epoch": 128.0,
      "grad_norm": 0.19347704946994781,
      "learning_rate": 0.0002864679978384761,
      "loss": 0.1266,
      "step": 7168
    },
    {
      "epoch": 128.0,
      "eval_loss": 0.14528335630893707,
      "eval_runtime": 11.7467,
      "eval_samples_per_second": 924.517,
      "eval_steps_per_second": 1.873,
      "step": 7168
    },
    {
      "epoch": 129.0,
      "grad_norm": 0.1948786824941635,
      "learning_rate": 0.00028628391967896994,
      "loss": 0.1267,
      "step": 7224
    },
    {
      "epoch": 129.0,
      "eval_loss": 0.1452852487564087,
      "eval_runtime": 10.7249,
      "eval_samples_per_second": 1012.6,
      "eval_steps_per_second": 2.051,
      "step": 7224
    },
    {
      "epoch": 130.0,
      "grad_norm": 0.2143562138080597,
      "learning_rate": 0.00028609848838243983,
      "loss": 0.1263,
      "step": 7280
    },
    {
      "epoch": 130.0,
      "eval_loss": 0.14422422647476196,
      "eval_runtime": 12.1111,
      "eval_samples_per_second": 896.699,
      "eval_steps_per_second": 1.817,
      "step": 7280
    },
    {
      "epoch": 131.0,
      "grad_norm": 0.17198456823825836,
      "learning_rate": 0.0002859117057790177,
      "loss": 0.1258,
      "step": 7336
    },
    {
      "epoch": 131.0,
      "eval_loss": 0.14419187605381012,
      "eval_runtime": 11.2161,
      "eval_samples_per_second": 968.25,
      "eval_steps_per_second": 1.961,
      "step": 7336
    },
    {
      "epoch": 132.0,
      "grad_norm": 0.2027718871831894,
      "learning_rate": 0.0002857235737121728,
      "loss": 0.1257,
      "step": 7392
    },
    {
      "epoch": 132.0,
      "eval_loss": 0.14398382604122162,
      "eval_runtime": 11.7549,
      "eval_samples_per_second": 923.871,
      "eval_steps_per_second": 1.872,
      "step": 7392
    },
    {
      "epoch": 133.0,
      "grad_norm": 0.18598471581935883,
      "learning_rate": 0.00028553409403869214,
      "loss": 0.1256,
      "step": 7448
    },
    {
      "epoch": 133.0,
      "eval_loss": 0.144750714302063,
      "eval_runtime": 10.9992,
      "eval_samples_per_second": 987.344,
      "eval_steps_per_second": 2.0,
      "step": 7448
    },
    {
      "epoch": 134.0,
      "grad_norm": 0.18290792405605316,
      "learning_rate": 0.0002853432686286638,
      "loss": 0.1255,
      "step": 7504
    },
    {
      "epoch": 134.0,
      "eval_loss": 0.14384572207927704,
      "eval_runtime": 11.23,
      "eval_samples_per_second": 967.05,
      "eval_steps_per_second": 1.959,
      "step": 7504
    },
    {
      "epoch": 135.0,
      "grad_norm": 0.22160011529922485,
      "learning_rate": 0.0002851510993654578,
      "loss": 0.1254,
      "step": 7560
    },
    {
      "epoch": 135.0,
      "eval_loss": 0.1437937319278717,
      "eval_runtime": 11.9673,
      "eval_samples_per_second": 907.472,
      "eval_steps_per_second": 1.838,
      "step": 7560
    },
    {
      "epoch": 136.0,
      "grad_norm": 0.18182989954948425,
      "learning_rate": 0.0002849575881457068,
      "loss": 0.1252,
      "step": 7616
    },
    {
      "epoch": 136.0,
      "eval_loss": 0.14378975331783295,
      "eval_runtime": 11.8117,
      "eval_samples_per_second": 919.426,
      "eval_steps_per_second": 1.863,
      "step": 7616
    },
    {
      "epoch": 137.0,
      "grad_norm": 0.16500607132911682,
      "learning_rate": 0.0002847627368792885,
      "loss": 0.125,
      "step": 7672
    },
    {
      "epoch": 137.0,
      "eval_loss": 0.1436585932970047,
      "eval_runtime": 12.4256,
      "eval_samples_per_second": 874.0,
      "eval_steps_per_second": 1.771,
      "step": 7672
    },
    {
      "epoch": 138.0,
      "grad_norm": 0.22664882242679596,
      "learning_rate": 0.0002845665474893062,
      "loss": 0.125,
      "step": 7728
    },
    {
      "epoch": 138.0,
      "eval_loss": 0.14313535392284393,
      "eval_runtime": 12.1895,
      "eval_samples_per_second": 890.932,
      "eval_steps_per_second": 1.805,
      "step": 7728
    },
    {
      "epoch": 139.0,
      "grad_norm": 0.1606769859790802,
      "learning_rate": 0.0002843690219120703,
      "loss": 0.1242,
      "step": 7784
    },
    {
      "epoch": 139.0,
      "eval_loss": 0.14361213147640228,
      "eval_runtime": 12.1036,
      "eval_samples_per_second": 897.251,
      "eval_steps_per_second": 1.818,
      "step": 7784
    },
    {
      "epoch": 140.0,
      "grad_norm": 0.20197436213493347,
      "learning_rate": 0.0002841701620970783,
      "loss": 0.1244,
      "step": 7840
    },
    {
      "epoch": 140.0,
      "eval_loss": 0.142960324883461,
      "eval_runtime": 11.6316,
      "eval_samples_per_second": 933.665,
      "eval_steps_per_second": 1.891,
      "step": 7840
    },
    {
      "epoch": 141.0,
      "grad_norm": 0.18616272509098053,
      "learning_rate": 0.000283969970006996,
      "loss": 0.1243,
      "step": 7896
    },
    {
      "epoch": 141.0,
      "eval_loss": 0.1441134661436081,
      "eval_runtime": 11.589,
      "eval_samples_per_second": 937.094,
      "eval_steps_per_second": 1.898,
      "step": 7896
    },
    {
      "epoch": 142.0,
      "grad_norm": 0.20340923964977264,
      "learning_rate": 0.0002837684476176391,
      "loss": 0.1239,
      "step": 7952
    },
    {
      "epoch": 142.0,
      "eval_loss": 0.1434699296951294,
      "eval_runtime": 12.3235,
      "eval_samples_per_second": 881.241,
      "eval_steps_per_second": 1.785,
      "step": 7952
    },
    {
      "epoch": 143.0,
      "grad_norm": 0.18145394325256348,
      "learning_rate": 0.0002835655969179518,
      "loss": 0.1241,
      "step": 8008
    },
    {
      "epoch": 143.0,
      "eval_loss": 0.14338643848896027,
      "eval_runtime": 12.3449,
      "eval_samples_per_second": 879.717,
      "eval_steps_per_second": 1.782,
      "step": 8008
    },
    {
      "epoch": 144.0,
      "grad_norm": 0.1755165159702301,
      "learning_rate": 0.0002833614199099885,
      "loss": 0.1241,
      "step": 8064
    },
    {
      "epoch": 144.0,
      "eval_loss": 0.14308682084083557,
      "eval_runtime": 12.0765,
      "eval_samples_per_second": 899.268,
      "eval_steps_per_second": 1.822,
      "step": 8064
    },
    {
      "epoch": 145.0,
      "grad_norm": 0.18520286679267883,
      "learning_rate": 0.00028315591860889397,
      "loss": 0.1238,
      "step": 8120
    },
    {
      "epoch": 145.0,
      "eval_loss": 0.14301612973213196,
      "eval_runtime": 11.4026,
      "eval_samples_per_second": 952.414,
      "eval_steps_per_second": 1.929,
      "step": 8120
    },
    {
      "epoch": 146.0,
      "grad_norm": 0.2836858630180359,
      "learning_rate": 0.0002829490950428833,
      "loss": 0.1237,
      "step": 8176
    },
    {
      "epoch": 146.0,
      "eval_loss": 0.1432274430990219,
      "eval_runtime": 10.5295,
      "eval_samples_per_second": 1031.389,
      "eval_steps_per_second": 2.089,
      "step": 8176
    },
    {
      "epoch": 147.0,
      "grad_norm": 0.18382933735847473,
      "learning_rate": 0.0002827409512532215,
      "loss": 0.1233,
      "step": 8232
    },
    {
      "epoch": 147.0,
      "eval_loss": 0.14315703511238098,
      "eval_runtime": 11.7841,
      "eval_samples_per_second": 921.584,
      "eval_steps_per_second": 1.867,
      "step": 8232
    },
    {
      "epoch": 148.0,
      "grad_norm": 0.16152502596378326,
      "learning_rate": 0.00028253148929420393,
      "loss": 0.1236,
      "step": 8288
    },
    {
      "epoch": 148.0,
      "eval_loss": 0.14190851151943207,
      "eval_runtime": 12.2311,
      "eval_samples_per_second": 887.903,
      "eval_steps_per_second": 1.799,
      "step": 8288
    },
    {
      "epoch": 149.0,
      "grad_norm": 0.23382407426834106,
      "learning_rate": 0.0002823207112331354,
      "loss": 0.1232,
      "step": 8344
    },
    {
      "epoch": 149.0,
      "eval_loss": 0.14270788431167603,
      "eval_runtime": 12.109,
      "eval_samples_per_second": 896.855,
      "eval_steps_per_second": 1.817,
      "step": 8344
    },
    {
      "epoch": 150.0,
      "grad_norm": 0.1615588366985321,
      "learning_rate": 0.00028210861915030973,
      "loss": 0.1232,
      "step": 8400
    },
    {
      "epoch": 150.0,
      "eval_loss": 0.14285807311534882,
      "eval_runtime": 12.5884,
      "eval_samples_per_second": 862.702,
      "eval_steps_per_second": 1.748,
      "step": 8400
    },
    {
      "epoch": 151.0,
      "grad_norm": 0.2795417308807373,
      "learning_rate": 0.0002818952151389907,
      "loss": 0.1227,
      "step": 8456
    },
    {
      "epoch": 151.0,
      "eval_loss": 0.14255040884017944,
      "eval_runtime": 12.5025,
      "eval_samples_per_second": 868.624,
      "eval_steps_per_second": 1.76,
      "step": 8456
    },
    {
      "epoch": 152.0,
      "grad_norm": 0.2292180061340332,
      "learning_rate": 0.00028168050130538953,
      "loss": 0.1231,
      "step": 8512
    },
    {
      "epoch": 152.0,
      "eval_loss": 0.14337477087974548,
      "eval_runtime": 12.1529,
      "eval_samples_per_second": 893.611,
      "eval_steps_per_second": 1.81,
      "step": 8512
    },
    {
      "epoch": 153.0,
      "grad_norm": 0.17736776173114777,
      "learning_rate": 0.00028146447976864553,
      "loss": 0.1224,
      "step": 8568
    },
    {
      "epoch": 153.0,
      "eval_loss": 0.14352336525917053,
      "eval_runtime": 12.3539,
      "eval_samples_per_second": 879.073,
      "eval_steps_per_second": 1.781,
      "step": 8568
    },
    {
      "epoch": 154.0,
      "grad_norm": 0.36273321509361267,
      "learning_rate": 0.0002812471526608039,
      "loss": 0.1227,
      "step": 8624
    },
    {
      "epoch": 154.0,
      "eval_loss": 0.142772376537323,
      "eval_runtime": 12.0892,
      "eval_samples_per_second": 898.323,
      "eval_steps_per_second": 1.82,
      "step": 8624
    },
    {
      "epoch": 155.0,
      "grad_norm": 0.19883078336715698,
      "learning_rate": 0.00028102852212679526,
      "loss": 0.1228,
      "step": 8680
    },
    {
      "epoch": 155.0,
      "eval_loss": 0.14210332930088043,
      "eval_runtime": 12.2389,
      "eval_samples_per_second": 887.336,
      "eval_steps_per_second": 1.798,
      "step": 8680
    },
    {
      "epoch": 156.0,
      "grad_norm": 0.2114337682723999,
      "learning_rate": 0.00028080859032441463,
      "loss": 0.1223,
      "step": 8736
    },
    {
      "epoch": 156.0,
      "eval_loss": 0.14258325099945068,
      "eval_runtime": 12.5038,
      "eval_samples_per_second": 868.534,
      "eval_steps_per_second": 1.759,
      "step": 8736
    },
    {
      "epoch": 157.0,
      "grad_norm": 0.193147674202919,
      "learning_rate": 0.0002805873594243001,
      "loss": 0.1223,
      "step": 8792
    },
    {
      "epoch": 157.0,
      "eval_loss": 0.1423390656709671,
      "eval_runtime": 11.2533,
      "eval_samples_per_second": 965.047,
      "eval_steps_per_second": 1.955,
      "step": 8792
    },
    {
      "epoch": 158.0,
      "grad_norm": 0.15751470625400543,
      "learning_rate": 0.0002803648316099116,
      "loss": 0.1222,
      "step": 8848
    },
    {
      "epoch": 158.0,
      "eval_loss": 0.1417943835258484,
      "eval_runtime": 11.5797,
      "eval_samples_per_second": 937.847,
      "eval_steps_per_second": 1.9,
      "step": 8848
    },
    {
      "epoch": 159.0,
      "grad_norm": 0.27395108342170715,
      "learning_rate": 0.00028014100907750874,
      "loss": 0.1219,
      "step": 8904
    },
    {
      "epoch": 159.0,
      "eval_loss": 0.14257293939590454,
      "eval_runtime": 12.328,
      "eval_samples_per_second": 880.923,
      "eval_steps_per_second": 1.785,
      "step": 8904
    },
    {
      "epoch": 160.0,
      "grad_norm": 0.22418324649333954,
      "learning_rate": 0.0002799158940361295,
      "loss": 0.1217,
      "step": 8960
    },
    {
      "epoch": 160.0,
      "eval_loss": 0.1431107521057129,
      "eval_runtime": 12.2423,
      "eval_samples_per_second": 887.09,
      "eval_steps_per_second": 1.797,
      "step": 8960
    },
    {
      "epoch": 161.0,
      "grad_norm": 0.2003849744796753,
      "learning_rate": 0.0002796894887075685,
      "loss": 0.1218,
      "step": 9016
    },
    {
      "epoch": 161.0,
      "eval_loss": 0.14198802411556244,
      "eval_runtime": 11.4923,
      "eval_samples_per_second": 944.981,
      "eval_steps_per_second": 1.914,
      "step": 9016
    },
    {
      "epoch": 162.0,
      "grad_norm": 0.21222490072250366,
      "learning_rate": 0.00027946179532635447,
      "loss": 0.1215,
      "step": 9072
    },
    {
      "epoch": 162.0,
      "eval_loss": 0.14226287603378296,
      "eval_runtime": 12.6489,
      "eval_samples_per_second": 858.572,
      "eval_steps_per_second": 1.739,
      "step": 9072
    },
    {
      "epoch": 163.0,
      "grad_norm": 0.3284847140312195,
      "learning_rate": 0.0002792328161397301,
      "loss": 0.1214,
      "step": 9128
    },
    {
      "epoch": 163.0,
      "eval_loss": 0.14255832135677338,
      "eval_runtime": 11.8749,
      "eval_samples_per_second": 914.536,
      "eval_steps_per_second": 1.853,
      "step": 9128
    },
    {
      "epoch": 164.0,
      "grad_norm": 0.17873606085777283,
      "learning_rate": 0.0002790025534076267,
      "loss": 0.1209,
      "step": 9184
    },
    {
      "epoch": 164.0,
      "eval_loss": 0.14214134216308594,
      "eval_runtime": 11.7349,
      "eval_samples_per_second": 925.446,
      "eval_steps_per_second": 1.875,
      "step": 9184
    },
    {
      "epoch": 165.0,
      "grad_norm": 0.29637348651885986,
      "learning_rate": 0.00027877100940264476,
      "loss": 0.1214,
      "step": 9240
    },
    {
      "epoch": 165.0,
      "eval_loss": 0.14148862659931183,
      "eval_runtime": 11.2369,
      "eval_samples_per_second": 966.457,
      "eval_steps_per_second": 1.958,
      "step": 9240
    },
    {
      "epoch": 166.0,
      "grad_norm": 0.19445298612117767,
      "learning_rate": 0.0002785381864100304,
      "loss": 0.1211,
      "step": 9296
    },
    {
      "epoch": 166.0,
      "eval_loss": 0.14366163313388824,
      "eval_runtime": 11.7897,
      "eval_samples_per_second": 921.146,
      "eval_steps_per_second": 1.866,
      "step": 9296
    },
    {
      "epoch": 167.0,
      "grad_norm": 0.2037288248538971,
      "learning_rate": 0.0002783040867276523,
      "loss": 0.1209,
      "step": 9352
    },
    {
      "epoch": 167.0,
      "eval_loss": 0.14206562936306,
      "eval_runtime": 11.4292,
      "eval_samples_per_second": 950.199,
      "eval_steps_per_second": 1.925,
      "step": 9352
    },
    {
      "epoch": 168.0,
      "grad_norm": 0.21530179679393768,
      "learning_rate": 0.0002780687126659796,
      "loss": 0.1208,
      "step": 9408
    },
    {
      "epoch": 168.0,
      "eval_loss": 0.1410149782896042,
      "eval_runtime": 11.7288,
      "eval_samples_per_second": 925.923,
      "eval_steps_per_second": 1.876,
      "step": 9408
    }
  ],
  "logging_steps": 500,
  "max_steps": 56000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1000,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 10,
        "early_stopping_threshold": 1e-05
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1001513367240704e+18,
  "train_batch_size": 512,
  "trial_name": null,
  "trial_params": null
}