{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.7979688066739209,
  "eval_steps": 500,
  "global_step": 2200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003627130939426913,
      "grad_norm": 0.64821457862854,
      "learning_rate": 0.0,
      "loss": 0.4482,
      "step": 1
    },
    {
      "epoch": 0.0007254261878853826,
      "grad_norm": 0.6469861268997192,
      "learning_rate": 2e-05,
      "loss": 0.4874,
      "step": 2
    },
    {
      "epoch": 0.001088139281828074,
      "grad_norm": 0.45289790630340576,
      "learning_rate": 4e-05,
      "loss": 0.4732,
      "step": 3
    },
    {
      "epoch": 0.0014508523757707653,
      "grad_norm": 0.38072678446769714,
      "learning_rate": 6e-05,
      "loss": 0.4503,
      "step": 4
    },
    {
      "epoch": 0.0018135654697134566,
      "grad_norm": 0.4032226800918579,
      "learning_rate": 8e-05,
      "loss": 0.4312,
      "step": 5
    },
    {
      "epoch": 0.002176278563656148,
      "grad_norm": 0.3684772551059723,
      "learning_rate": 0.0001,
      "loss": 0.4055,
      "step": 6
    },
    {
      "epoch": 0.0025389916575988395,
      "grad_norm": 0.3409311771392822,
      "learning_rate": 0.00012,
      "loss": 0.4201,
      "step": 7
    },
    {
      "epoch": 0.0029017047515415306,
      "grad_norm": 0.3772580921649933,
      "learning_rate": 0.00014,
      "loss": 0.4086,
      "step": 8
    },
    {
      "epoch": 0.003264417845484222,
      "grad_norm": 0.30869755148887634,
      "learning_rate": 0.00016,
      "loss": 0.3954,
      "step": 9
    },
    {
      "epoch": 0.003627130939426913,
      "grad_norm": 0.23723824322223663,
      "learning_rate": 0.00018,
      "loss": 0.3992,
      "step": 10
    },
    {
      "epoch": 0.003989844033369605,
      "grad_norm": 0.18091322481632233,
      "learning_rate": 0.0002,
      "loss": 0.368,
      "step": 11
    },
    {
      "epoch": 0.004352557127312296,
      "grad_norm": 0.20436523854732513,
      "learning_rate": 0.00019999993460381957,
      "loss": 0.3711,
      "step": 12
    },
    {
      "epoch": 0.004715270221254987,
      "grad_norm": 0.19207683205604553,
      "learning_rate": 0.00019999973841536373,
      "loss": 0.3788,
      "step": 13
    },
    {
      "epoch": 0.005077983315197679,
      "grad_norm": 0.1436341255903244,
      "learning_rate": 0.00019999941143488914,
      "loss": 0.3936,
      "step": 14
    },
    {
      "epoch": 0.00544069640914037,
      "grad_norm": 0.13892005383968353,
      "learning_rate": 0.0001999989536628234,
      "loss": 0.4062,
      "step": 15
    },
    {
      "epoch": 0.005803409503083061,
      "grad_norm": 0.12910069525241852,
      "learning_rate": 0.00019999836509976534,
      "loss": 0.3863,
      "step": 16
    },
    {
      "epoch": 0.006166122597025753,
      "grad_norm": 0.10763731598854065,
      "learning_rate": 0.00019999764574648465,
      "loss": 0.3757,
      "step": 17
    },
    {
      "epoch": 0.006528835690968444,
      "grad_norm": 0.1078948974609375,
      "learning_rate": 0.00019999679560392226,
      "loss": 0.3342,
      "step": 18
    },
    {
      "epoch": 0.006891548784911135,
      "grad_norm": 0.10403122007846832,
      "learning_rate": 0.00019999581467319006,
      "loss": 0.3371,
      "step": 19
    },
    {
      "epoch": 0.007254261878853826,
      "grad_norm": 0.09776491671800613,
      "learning_rate": 0.00019999470295557105,
      "loss": 0.3263,
      "step": 20
    },
    {
      "epoch": 0.007616974972796518,
      "grad_norm": 0.10792049765586853,
      "learning_rate": 0.00019999346045251925,
      "loss": 0.3447,
      "step": 21
    },
    {
      "epoch": 0.00797968806673921,
      "grad_norm": 0.1174544170498848,
      "learning_rate": 0.00019999208716565977,
      "loss": 0.336,
      "step": 22
    },
    {
      "epoch": 0.008342401160681901,
      "grad_norm": 0.09458769857883453,
      "learning_rate": 0.0001999905830967888,
      "loss": 0.3262,
      "step": 23
    },
    {
      "epoch": 0.008705114254624592,
      "grad_norm": 0.09644383937120438,
      "learning_rate": 0.0001999889482478735,
      "loss": 0.3361,
      "step": 24
    },
    {
      "epoch": 0.009067827348567283,
      "grad_norm": 0.09843447804450989,
      "learning_rate": 0.0001999871826210521,
      "loss": 0.3485,
      "step": 25
    },
    {
      "epoch": 0.009430540442509974,
      "grad_norm": 0.10075519979000092,
      "learning_rate": 0.00019998528621863396,
      "loss": 0.3461,
      "step": 26
    },
    {
      "epoch": 0.009793253536452665,
      "grad_norm": 0.09084542095661163,
      "learning_rate": 0.00019998325904309946,
      "loss": 0.3267,
      "step": 27
    },
    {
      "epoch": 0.010155966630395358,
      "grad_norm": 0.10560671985149384,
      "learning_rate": 0.00019998110109709988,
      "loss": 0.3532,
      "step": 28
    },
    {
      "epoch": 0.01051867972433805,
      "grad_norm": 0.08736245334148407,
      "learning_rate": 0.00019997881238345775,
      "loss": 0.37,
      "step": 29
    },
    {
      "epoch": 0.01088139281828074,
      "grad_norm": 0.103543221950531,
      "learning_rate": 0.0001999763929051665,
      "loss": 0.3093,
      "step": 30
    },
    {
      "epoch": 0.011244105912223431,
      "grad_norm": 0.09106361120939255,
      "learning_rate": 0.0001999738426653906,
      "loss": 0.3231,
      "step": 31
    },
    {
      "epoch": 0.011606819006166122,
      "grad_norm": 0.09385113418102264,
      "learning_rate": 0.00019997116166746562,
      "loss": 0.3162,
      "step": 32
    },
    {
      "epoch": 0.011969532100108813,
      "grad_norm": 0.10086266696453094,
      "learning_rate": 0.00019996834991489805,
      "loss": 0.3105,
      "step": 33
    },
    {
      "epoch": 0.012332245194051506,
      "grad_norm": 0.08959592878818512,
      "learning_rate": 0.00019996540741136544,
      "loss": 0.3241,
      "step": 34
    },
    {
      "epoch": 0.012694958287994197,
      "grad_norm": 0.10446605086326599,
      "learning_rate": 0.00019996233416071644,
      "loss": 0.338,
      "step": 35
    },
    {
      "epoch": 0.013057671381936888,
      "grad_norm": 0.08997010439634323,
      "learning_rate": 0.00019995913016697053,
      "loss": 0.3089,
      "step": 36
    },
    {
      "epoch": 0.01342038447587958,
      "grad_norm": 0.09340513497591019,
      "learning_rate": 0.00019995579543431835,
      "loss": 0.3167,
      "step": 37
    },
    {
      "epoch": 0.01378309756982227,
      "grad_norm": 0.0928172841668129,
      "learning_rate": 0.00019995232996712146,
      "loss": 0.3236,
      "step": 38
    },
    {
      "epoch": 0.014145810663764961,
      "grad_norm": 0.10568640381097794,
      "learning_rate": 0.0001999487337699124,
      "loss": 0.3213,
      "step": 39
    },
    {
      "epoch": 0.014508523757707652,
      "grad_norm": 0.09213658422231674,
      "learning_rate": 0.0001999450068473948,
      "loss": 0.3308,
      "step": 40
    },
    {
      "epoch": 0.014871236851650345,
      "grad_norm": 0.09331916272640228,
      "learning_rate": 0.0001999411492044431,
      "loss": 0.3265,
      "step": 41
    },
    {
      "epoch": 0.015233949945593036,
      "grad_norm": 0.0938337966799736,
      "learning_rate": 0.00019993716084610284,
      "loss": 0.3084,
      "step": 42
    },
    {
      "epoch": 0.015596663039535727,
      "grad_norm": 0.1006985679268837,
      "learning_rate": 0.00019993304177759046,
      "loss": 0.3932,
      "step": 43
    },
    {
      "epoch": 0.01595937613347842,
      "grad_norm": 0.09978915005922318,
      "learning_rate": 0.00019992879200429346,
      "loss": 0.3147,
      "step": 44
    },
    {
      "epoch": 0.01632208922742111,
      "grad_norm": 0.095309779047966,
      "learning_rate": 0.00019992441153177015,
      "loss": 0.3271,
      "step": 45
    },
    {
      "epoch": 0.016684802321363802,
      "grad_norm": 0.09498284012079239,
      "learning_rate": 0.00019991990036574987,
      "loss": 0.3138,
      "step": 46
    },
    {
      "epoch": 0.017047515415306493,
      "grad_norm": 0.09961807727813721,
      "learning_rate": 0.0001999152585121329,
      "loss": 0.3447,
      "step": 47
    },
    {
      "epoch": 0.017410228509249184,
      "grad_norm": 0.11686038225889206,
      "learning_rate": 0.0001999104859769904,
      "loss": 0.3059,
      "step": 48
    },
    {
      "epoch": 0.017772941603191875,
      "grad_norm": 0.09790387004613876,
      "learning_rate": 0.0001999055827665645,
      "loss": 0.3241,
      "step": 49
    },
    {
      "epoch": 0.018135654697134566,
      "grad_norm": 0.0987682044506073,
      "learning_rate": 0.00019990054888726824,
      "loss": 0.3159,
      "step": 50
    },
    {
      "epoch": 0.018498367791077257,
      "grad_norm": 0.09558644145727158,
      "learning_rate": 0.0001998953843456855,
      "loss": 0.3528,
      "step": 51
    },
    {
      "epoch": 0.01886108088501995,
      "grad_norm": 0.1173083484172821,
      "learning_rate": 0.00019989008914857116,
      "loss": 0.3138,
      "step": 52
    },
    {
      "epoch": 0.01922379397896264,
      "grad_norm": 0.09404181689023972,
      "learning_rate": 0.0001998846633028509,
      "loss": 0.3262,
      "step": 53
    },
    {
      "epoch": 0.01958650707290533,
      "grad_norm": 0.09235358238220215,
      "learning_rate": 0.00019987910681562132,
      "loss": 0.3271,
      "step": 54
    },
    {
      "epoch": 0.01994922016684802,
      "grad_norm": 0.10229232162237167,
      "learning_rate": 0.0001998734196941499,
      "loss": 0.3098,
      "step": 55
    },
    {
      "epoch": 0.020311933260790716,
      "grad_norm": 0.08622050285339355,
      "learning_rate": 0.0001998676019458749,
      "loss": 0.2878,
      "step": 56
    },
    {
      "epoch": 0.020674646354733407,
      "grad_norm": 0.10718828439712524,
      "learning_rate": 0.00019986165357840558,
      "loss": 0.319,
      "step": 57
    },
    {
      "epoch": 0.0210373594486761,
      "grad_norm": 0.09529942274093628,
      "learning_rate": 0.00019985557459952188,
      "loss": 0.2974,
      "step": 58
    },
    {
      "epoch": 0.02140007254261879,
      "grad_norm": 0.09532184153795242,
      "learning_rate": 0.00019984936501717468,
      "loss": 0.3016,
      "step": 59
    },
    {
      "epoch": 0.02176278563656148,
      "grad_norm": 0.098875492811203,
      "learning_rate": 0.00019984302483948562,
      "loss": 0.3006,
      "step": 60
    },
    {
      "epoch": 0.02212549873050417,
      "grad_norm": 0.1071372851729393,
      "learning_rate": 0.00019983655407474719,
      "loss": 0.2796,
      "step": 61
    },
    {
      "epoch": 0.022488211824446862,
      "grad_norm": 0.11236250400543213,
      "learning_rate": 0.0001998299527314226,
      "loss": 0.3067,
      "step": 62
    },
    {
      "epoch": 0.022850924918389554,
      "grad_norm": 0.10537782311439514,
      "learning_rate": 0.00019982322081814596,
      "loss": 0.3415,
      "step": 63
    },
    {
      "epoch": 0.023213638012332245,
      "grad_norm": 0.09595459699630737,
      "learning_rate": 0.00019981635834372209,
      "loss": 0.3076,
      "step": 64
    },
    {
      "epoch": 0.023576351106274936,
      "grad_norm": 0.09259078651666641,
      "learning_rate": 0.00019980936531712652,
      "loss": 0.2913,
      "step": 65
    },
    {
      "epoch": 0.023939064200217627,
      "grad_norm": 0.20734301209449768,
      "learning_rate": 0.00019980224174750568,
      "loss": 0.3102,
      "step": 66
    },
    {
      "epoch": 0.024301777294160318,
      "grad_norm": 0.10769975185394287,
      "learning_rate": 0.0001997949876441766,
      "loss": 0.3336,
      "step": 67
    },
    {
      "epoch": 0.024664490388103012,
      "grad_norm": 0.1010124459862709,
      "learning_rate": 0.00019978760301662715,
      "loss": 0.3305,
      "step": 68
    },
    {
      "epoch": 0.025027203482045703,
      "grad_norm": 0.09571480005979538,
      "learning_rate": 0.0001997800878745158,
      "loss": 0.3181,
      "step": 69
    },
    {
      "epoch": 0.025389916575988394,
      "grad_norm": 0.10125493258237839,
      "learning_rate": 0.00019977244222767182,
      "loss": 0.2873,
      "step": 70
    },
    {
      "epoch": 0.025752629669931085,
      "grad_norm": 0.11057893931865692,
      "learning_rate": 0.0001997646660860951,
      "loss": 0.3125,
      "step": 71
    },
    {
      "epoch": 0.026115342763873776,
      "grad_norm": 0.1009269654750824,
      "learning_rate": 0.00019975675945995626,
      "loss": 0.3038,
      "step": 72
    },
    {
      "epoch": 0.026478055857816468,
      "grad_norm": 0.09274876117706299,
      "learning_rate": 0.00019974872235959654,
      "loss": 0.292,
      "step": 73
    },
    {
      "epoch": 0.02684076895175916,
      "grad_norm": 0.09206151217222214,
      "learning_rate": 0.00019974055479552791,
      "loss": 0.3064,
      "step": 74
    },
    {
      "epoch": 0.02720348204570185,
      "grad_norm": 0.09455125778913498,
      "learning_rate": 0.00019973225677843284,
      "loss": 0.3031,
      "step": 75
    },
    {
      "epoch": 0.02756619513964454,
      "grad_norm": 0.10313421487808228,
      "learning_rate": 0.00019972382831916457,
      "loss": 0.2975,
      "step": 76
    },
    {
      "epoch": 0.02792890823358723,
      "grad_norm": 0.08839363604784012,
      "learning_rate": 0.00019971526942874686,
      "loss": 0.2926,
      "step": 77
    },
    {
      "epoch": 0.028291621327529923,
      "grad_norm": 0.0924365371465683,
      "learning_rate": 0.00019970658011837404,
      "loss": 0.3071,
      "step": 78
    },
    {
      "epoch": 0.028654334421472614,
      "grad_norm": 0.09888923168182373,
      "learning_rate": 0.00019969776039941114,
      "loss": 0.3004,
      "step": 79
    },
    {
      "epoch": 0.029017047515415305,
      "grad_norm": 0.09569084644317627,
      "learning_rate": 0.00019968881028339363,
      "loss": 0.2923,
      "step": 80
    },
    {
      "epoch": 0.029379760609358,
      "grad_norm": 0.11503931879997253,
      "learning_rate": 0.0001996797297820276,
      "loss": 0.3117,
      "step": 81
    },
    {
      "epoch": 0.02974247370330069,
      "grad_norm": 0.09839354455471039,
      "learning_rate": 0.00019967051890718964,
      "loss": 0.2802,
      "step": 82
    },
    {
      "epoch": 0.03010518679724338,
      "grad_norm": 0.09043775498867035,
      "learning_rate": 0.00019966117767092686,
      "loss": 0.2877,
      "step": 83
    },
    {
      "epoch": 0.030467899891186073,
      "grad_norm": 0.09896934777498245,
      "learning_rate": 0.00019965170608545688,
      "loss": 0.3094,
      "step": 84
    },
    {
      "epoch": 0.030830612985128764,
      "grad_norm": 0.09892911463975906,
      "learning_rate": 0.00019964210416316787,
      "loss": 0.302,
      "step": 85
    },
    {
      "epoch": 0.031193326079071455,
      "grad_norm": 0.0898653194308281,
      "learning_rate": 0.00019963237191661834,
      "loss": 0.2982,
      "step": 86
    },
    {
      "epoch": 0.031556039173014146,
      "grad_norm": 0.10663247853517532,
      "learning_rate": 0.00019962250935853736,
      "loss": 0.2943,
      "step": 87
    },
    {
      "epoch": 0.03191875226695684,
      "grad_norm": 0.09792915731668472,
      "learning_rate": 0.0001996125165018244,
      "loss": 0.2826,
      "step": 88
    },
    {
      "epoch": 0.03228146536089953,
      "grad_norm": 0.09535045176744461,
      "learning_rate": 0.00019960239335954936,
      "loss": 0.3026,
      "step": 89
    },
    {
      "epoch": 0.03264417845484222,
      "grad_norm": 0.08838774263858795,
      "learning_rate": 0.0001995921399449525,
      "loss": 0.277,
      "step": 90
    },
    {
      "epoch": 0.03300689154878491,
      "grad_norm": 0.09616609662771225,
      "learning_rate": 0.00019958175627144453,
      "loss": 0.3015,
      "step": 91
    },
    {
      "epoch": 0.033369604642727604,
      "grad_norm": 0.0945005938410759,
      "learning_rate": 0.00019957124235260652,
      "loss": 0.288,
      "step": 92
    },
    {
      "epoch": 0.03373231773667029,
      "grad_norm": 0.10378480702638626,
      "learning_rate": 0.00019956059820218982,
      "loss": 0.3361,
      "step": 93
    },
    {
      "epoch": 0.034095030830612987,
      "grad_norm": 0.09242385625839233,
      "learning_rate": 0.0001995498238341162,
      "loss": 0.2903,
      "step": 94
    },
    {
      "epoch": 0.034457743924555674,
      "grad_norm": 0.0919501855969429,
      "learning_rate": 0.00019953891926247774,
      "loss": 0.3025,
      "step": 95
    },
    {
      "epoch": 0.03482045701849837,
      "grad_norm": 0.09978862851858139,
      "learning_rate": 0.00019952788450153675,
      "loss": 0.3335,
      "step": 96
    },
    {
      "epoch": 0.035183170112441056,
      "grad_norm": 0.10097439587116241,
      "learning_rate": 0.00019951671956572583,
      "loss": 0.3137,
      "step": 97
    },
    {
      "epoch": 0.03554588320638375,
      "grad_norm": 0.1043080985546112,
      "learning_rate": 0.00019950542446964793,
      "loss": 0.2896,
      "step": 98
    },
    {
      "epoch": 0.035908596300326445,
      "grad_norm": 0.09220679104328156,
      "learning_rate": 0.00019949399922807612,
      "loss": 0.3031,
      "step": 99
    },
    {
      "epoch": 0.03627130939426913,
      "grad_norm": 0.10692602396011353,
      "learning_rate": 0.00019948244385595374,
      "loss": 0.3057,
      "step": 100
    },
    {
      "epoch": 0.03663402248821183,
      "grad_norm": 0.10609027743339539,
      "learning_rate": 0.00019947075836839438,
      "loss": 0.3082,
      "step": 101
    },
    {
      "epoch": 0.036996735582154515,
      "grad_norm": 0.16867391765117645,
      "learning_rate": 0.00019945894278068172,
      "loss": 0.302,
      "step": 102
    },
    {
      "epoch": 0.03735944867609721,
      "grad_norm": 0.09805990755558014,
      "learning_rate": 0.00019944699710826966,
      "loss": 0.3218,
      "step": 103
    },
    {
      "epoch": 0.0377221617700399,
      "grad_norm": 0.09552697837352753,
      "learning_rate": 0.00019943492136678223,
      "loss": 0.2576,
      "step": 104
    },
    {
      "epoch": 0.03808487486398259,
      "grad_norm": 0.09718494862318039,
      "learning_rate": 0.0001994227155720136,
      "loss": 0.2882,
      "step": 105
    },
    {
      "epoch": 0.03844758795792528,
      "grad_norm": 0.0933772400021553,
      "learning_rate": 0.000199410379739928,
      "loss": 0.3069,
      "step": 106
    },
    {
      "epoch": 0.038810301051867974,
      "grad_norm": 0.09682098776102066,
      "learning_rate": 0.00019939791388665974,
      "loss": 0.3013,
      "step": 107
    },
    {
      "epoch": 0.03917301414581066,
      "grad_norm": 0.1064608246088028,
      "learning_rate": 0.0001993853180285132,
      "loss": 0.3307,
      "step": 108
    },
    {
      "epoch": 0.039535727239753356,
      "grad_norm": 0.09508496522903442,
      "learning_rate": 0.00019937259218196282,
      "loss": 0.2968,
      "step": 109
    },
    {
      "epoch": 0.03989844033369604,
      "grad_norm": 0.10839469730854034,
      "learning_rate": 0.00019935973636365305,
      "loss": 0.3017,
      "step": 110
    },
    {
      "epoch": 0.04026115342763874,
      "grad_norm": 0.10720638930797577,
      "learning_rate": 0.00019934675059039828,
      "loss": 0.2817,
      "step": 111
    },
    {
      "epoch": 0.04062386652158143,
      "grad_norm": 0.10672647505998611,
      "learning_rate": 0.00019933363487918294,
      "loss": 0.2876,
      "step": 112
    },
    {
      "epoch": 0.04098657961552412,
      "grad_norm": 0.10290908813476562,
      "learning_rate": 0.00019932038924716134,
      "loss": 0.2906,
      "step": 113
    },
    {
      "epoch": 0.041349292709466814,
      "grad_norm": 0.11226241290569305,
      "learning_rate": 0.0001993070137116578,
      "loss": 0.2816,
      "step": 114
    },
    {
      "epoch": 0.0417120058034095,
      "grad_norm": 0.09558378159999847,
      "learning_rate": 0.00019929350829016648,
      "loss": 0.3115,
      "step": 115
    },
    {
      "epoch": 0.0420747188973522,
      "grad_norm": 0.10267224162817001,
      "learning_rate": 0.00019927987300035147,
      "loss": 0.3035,
      "step": 116
    },
    {
      "epoch": 0.042437431991294884,
      "grad_norm": 0.09401127696037292,
      "learning_rate": 0.00019926610786004663,
      "loss": 0.2995,
      "step": 117
    },
    {
      "epoch": 0.04280014508523758,
      "grad_norm": 0.10615453869104385,
      "learning_rate": 0.00019925221288725573,
      "loss": 0.3062,
      "step": 118
    },
    {
      "epoch": 0.043162858179180266,
      "grad_norm": 0.11928743124008179,
      "learning_rate": 0.00019923818810015236,
      "loss": 0.317,
      "step": 119
    },
    {
      "epoch": 0.04352557127312296,
      "grad_norm": 0.10731657594442368,
      "learning_rate": 0.00019922403351707983,
      "loss": 0.3261,
      "step": 120
    },
    {
      "epoch": 0.04388828436706565,
      "grad_norm": 0.10545065253973007,
      "learning_rate": 0.0001992097491565513,
      "loss": 0.3125,
      "step": 121
    },
    {
      "epoch": 0.04425099746100834,
      "grad_norm": 0.1098426803946495,
      "learning_rate": 0.0001991953350372496,
      "loss": 0.2928,
      "step": 122
    },
    {
      "epoch": 0.04461371055495103,
      "grad_norm": 0.09736689925193787,
      "learning_rate": 0.00019918079117802725,
      "loss": 0.2736,
      "step": 123
    },
    {
      "epoch": 0.044976423648893725,
      "grad_norm": 0.11810169368982315,
      "learning_rate": 0.0001991661175979066,
      "loss": 0.2806,
      "step": 124
    },
    {
      "epoch": 0.04533913674283642,
      "grad_norm": 0.11560354381799698,
      "learning_rate": 0.00019915131431607952,
      "loss": 0.317,
      "step": 125
    },
    {
      "epoch": 0.04570184983677911,
      "grad_norm": 0.11197232455015182,
      "learning_rate": 0.00019913638135190756,
      "loss": 0.3382,
      "step": 126
    },
    {
      "epoch": 0.0460645629307218,
      "grad_norm": 0.1027117446064949,
      "learning_rate": 0.0001991213187249219,
      "loss": 0.2684,
      "step": 127
    },
    {
      "epoch": 0.04642727602466449,
      "grad_norm": 0.10549558699131012,
      "learning_rate": 0.00019910612645482334,
      "loss": 0.2939,
      "step": 128
    },
    {
      "epoch": 0.046789989118607184,
      "grad_norm": 0.09976191818714142,
      "learning_rate": 0.00019909080456148218,
      "loss": 0.2878,
      "step": 129
    },
    {
      "epoch": 0.04715270221254987,
      "grad_norm": 0.10141481459140778,
      "learning_rate": 0.0001990753530649383,
      "loss": 0.2959,
      "step": 130
    },
    {
      "epoch": 0.047515415306492566,
      "grad_norm": 0.10536810010671616,
      "learning_rate": 0.00019905977198540105,
      "loss": 0.283,
      "step": 131
    },
    {
      "epoch": 0.04787812840043525,
      "grad_norm": 0.1081426814198494,
      "learning_rate": 0.00019904406134324933,
      "loss": 0.2982,
      "step": 132
    },
    {
      "epoch": 0.04824084149437795,
      "grad_norm": 0.10106177628040314,
      "learning_rate": 0.00019902822115903143,
      "loss": 0.3301,
      "step": 133
    },
    {
      "epoch": 0.048603554588320635,
      "grad_norm": 0.09809243679046631,
      "learning_rate": 0.0001990122514534651,
      "loss": 0.2868,
      "step": 134
    },
    {
      "epoch": 0.04896626768226333,
      "grad_norm": 0.10104624181985855,
      "learning_rate": 0.00019899615224743753,
      "loss": 0.3035,
      "step": 135
    },
    {
      "epoch": 0.049328980776206025,
      "grad_norm": 0.09421058744192123,
      "learning_rate": 0.0001989799235620052,
      "loss": 0.2982,
      "step": 136
    },
    {
      "epoch": 0.04969169387014871,
      "grad_norm": 0.09937946498394012,
      "learning_rate": 0.00019896356541839404,
      "loss": 0.2988,
      "step": 137
    },
    {
      "epoch": 0.05005440696409141,
      "grad_norm": 0.10086655616760254,
      "learning_rate": 0.00019894707783799925,
      "loss": 0.2849,
      "step": 138
    },
    {
      "epoch": 0.050417120058034094,
      "grad_norm": 0.09309150278568268,
      "learning_rate": 0.0001989304608423853,
      "loss": 0.2792,
      "step": 139
    },
    {
      "epoch": 0.05077983315197679,
      "grad_norm": 0.15080593526363373,
      "learning_rate": 0.00019891371445328592,
      "loss": 0.2993,
      "step": 140
    },
    {
      "epoch": 0.051142546245919476,
      "grad_norm": 0.09852839261293411,
      "learning_rate": 0.0001988968386926042,
      "loss": 0.2887,
      "step": 141
    },
    {
      "epoch": 0.05150525933986217,
      "grad_norm": 0.13169077038764954,
      "learning_rate": 0.00019887983358241225,
      "loss": 0.2889,
      "step": 142
    },
    {
      "epoch": 0.05186797243380486,
      "grad_norm": 0.203284353017807,
      "learning_rate": 0.0001988626991449515,
      "loss": 0.2762,
      "step": 143
    },
    {
      "epoch": 0.05223068552774755,
      "grad_norm": 0.09370779246091843,
      "learning_rate": 0.00019884543540263247,
      "loss": 0.2717,
      "step": 144
    },
    {
      "epoch": 0.05259339862169024,
      "grad_norm": 0.10462846606969833,
      "learning_rate": 0.00019882804237803488,
      "loss": 0.2923,
      "step": 145
    },
    {
      "epoch": 0.052956111715632935,
      "grad_norm": 0.11297117918729782,
      "learning_rate": 0.00019881052009390737,
      "loss": 0.3037,
      "step": 146
    },
    {
      "epoch": 0.05331882480957562,
      "grad_norm": 0.11037133634090424,
      "learning_rate": 0.00019879286857316783,
      "loss": 0.2883,
      "step": 147
    },
    {
      "epoch": 0.05368153790351832,
      "grad_norm": 0.10279864072799683,
      "learning_rate": 0.00019877508783890306,
      "loss": 0.2847,
      "step": 148
    },
    {
      "epoch": 0.05404425099746101,
      "grad_norm": 0.09439583867788315,
      "learning_rate": 0.00019875717791436896,
      "loss": 0.2779,
      "step": 149
    },
    {
      "epoch": 0.0544069640914037,
      "grad_norm": 0.10622645914554596,
      "learning_rate": 0.00019873913882299026,
      "loss": 0.3099,
      "step": 150
    },
    {
      "epoch": 0.054769677185346394,
      "grad_norm": 0.10882750153541565,
      "learning_rate": 0.00019872097058836076,
      "loss": 0.2659,
      "step": 151
    },
    {
      "epoch": 0.05513239027928908,
      "grad_norm": 0.09320899844169617,
      "learning_rate": 0.00019870267323424313,
      "loss": 0.268,
      "step": 152
    },
    {
      "epoch": 0.055495103373231776,
      "grad_norm": 0.09685231000185013,
      "learning_rate": 0.00019868424678456888,
      "loss": 0.2745,
      "step": 153
    },
    {
      "epoch": 0.05585781646717446,
      "grad_norm": 0.10234569013118744,
      "learning_rate": 0.00019866569126343844,
      "loss": 0.2948,
      "step": 154
    },
    {
      "epoch": 0.05622052956111716,
      "grad_norm": 0.09876774251461029,
      "learning_rate": 0.00019864700669512098,
      "loss": 0.2808,
      "step": 155
    },
    {
      "epoch": 0.056583242655059846,
      "grad_norm": 0.10879123955965042,
      "learning_rate": 0.00019862819310405449,
      "loss": 0.2745,
      "step": 156
    },
    {
      "epoch": 0.05694595574900254,
      "grad_norm": 0.10035258531570435,
      "learning_rate": 0.00019860925051484572,
      "loss": 0.3027,
      "step": 157
    },
    {
      "epoch": 0.05730866884294523,
      "grad_norm": 0.098017618060112,
      "learning_rate": 0.00019859017895227014,
      "loss": 0.2844,
      "step": 158
    },
    {
      "epoch": 0.05767138193688792,
      "grad_norm": 0.09496638178825378,
      "learning_rate": 0.00019857097844127187,
      "loss": 0.2852,
      "step": 159
    },
    {
      "epoch": 0.05803409503083061,
      "grad_norm": 0.10773288458585739,
      "learning_rate": 0.00019855164900696375,
      "loss": 0.3112,
      "step": 160
    },
    {
      "epoch": 0.058396808124773304,
      "grad_norm": 0.09997101873159409,
      "learning_rate": 0.00019853219067462717,
      "loss": 0.2913,
      "step": 161
    },
    {
      "epoch": 0.058759521218716,
      "grad_norm": 0.09856441617012024,
      "learning_rate": 0.00019851260346971214,
      "loss": 0.2753,
      "step": 162
    },
    {
      "epoch": 0.059122234312658686,
      "grad_norm": 0.10671742260456085,
      "learning_rate": 0.00019849288741783728,
      "loss": 0.2958,
      "step": 163
    },
    {
      "epoch": 0.05948494740660138,
      "grad_norm": 0.10415424406528473,
      "learning_rate": 0.0001984730425447896,
      "loss": 0.284,
      "step": 164
    },
    {
      "epoch": 0.05984766050054407,
      "grad_norm": 0.10045934468507767,
      "learning_rate": 0.00019845306887652476,
      "loss": 0.281,
      "step": 165
    },
    {
      "epoch": 0.06021037359448676,
      "grad_norm": 0.10365572571754456,
      "learning_rate": 0.0001984329664391667,
      "loss": 0.3186,
      "step": 166
    },
    {
      "epoch": 0.06057308668842945,
      "grad_norm": 0.10675114393234253,
      "learning_rate": 0.00019841273525900794,
      "loss": 0.2774,
      "step": 167
    },
    {
      "epoch": 0.060935799782372145,
      "grad_norm": 0.100840725004673,
      "learning_rate": 0.0001983923753625093,
      "loss": 0.2723,
      "step": 168
    },
    {
      "epoch": 0.06129851287631483,
      "grad_norm": 0.09524688124656677,
      "learning_rate": 0.0001983718867763,
      "loss": 0.2679,
      "step": 169
    },
    {
      "epoch": 0.06166122597025753,
      "grad_norm": 0.10454592853784561,
      "learning_rate": 0.0001983512695271775,
      "loss": 0.2779,
      "step": 170
    },
    {
      "epoch": 0.062023939064200215,
      "grad_norm": 0.11385498940944672,
      "learning_rate": 0.00019833052364210757,
      "loss": 0.2892,
      "step": 171
    },
    {
      "epoch": 0.06238665215814291,
      "grad_norm": 0.10297231376171112,
      "learning_rate": 0.00019830964914822433,
      "loss": 0.2885,
      "step": 172
    },
    {
      "epoch": 0.0627493652520856,
      "grad_norm": 0.10694777965545654,
      "learning_rate": 0.00019828864607282994,
      "loss": 0.2951,
      "step": 173
    },
    {
      "epoch": 0.06311207834602829,
      "grad_norm": 0.10187729448080063,
      "learning_rate": 0.00019826751444339483,
      "loss": 0.267,
      "step": 174
    },
    {
      "epoch": 0.06347479143997098,
      "grad_norm": 0.10256768018007278,
      "learning_rate": 0.0001982462542875576,
      "loss": 0.2812,
      "step": 175
    },
    {
      "epoch": 0.06383750453391368,
      "grad_norm": 0.106157086789608,
      "learning_rate": 0.0001982248656331249,
      "loss": 0.2617,
      "step": 176
    },
    {
      "epoch": 0.06420021762785637,
      "grad_norm": 0.10591990500688553,
      "learning_rate": 0.00019820334850807143,
      "loss": 0.2792,
      "step": 177
    },
    {
      "epoch": 0.06456293072179906,
      "grad_norm": 0.10539959371089935,
      "learning_rate": 0.00019818170294053994,
      "loss": 0.2817,
      "step": 178
    },
    {
      "epoch": 0.06492564381574174,
      "grad_norm": 0.10033068805932999,
      "learning_rate": 0.00019815992895884122,
      "loss": 0.2917,
      "step": 179
    },
    {
      "epoch": 0.06528835690968444,
      "grad_norm": 0.11100872606039047,
      "learning_rate": 0.00019813802659145394,
      "loss": 0.276,
      "step": 180
    },
    {
      "epoch": 0.06565107000362713,
      "grad_norm": 0.10445630550384521,
      "learning_rate": 0.0001981159958670247,
      "loss": 0.3308,
      "step": 181
    },
    {
      "epoch": 0.06601378309756982,
      "grad_norm": 0.09888961911201477,
      "learning_rate": 0.00019809383681436809,
      "loss": 0.2651,
      "step": 182
    },
    {
      "epoch": 0.06637649619151251,
      "grad_norm": 0.10630346089601517,
      "learning_rate": 0.00019807154946246635,
      "loss": 0.2674,
      "step": 183
    },
    {
      "epoch": 0.06673920928545521,
      "grad_norm": 0.09556199610233307,
      "learning_rate": 0.00019804913384046974,
      "loss": 0.2988,
      "step": 184
    },
    {
      "epoch": 0.0671019223793979,
      "grad_norm": 0.10325701534748077,
      "learning_rate": 0.0001980265899776961,
      "loss": 0.2821,
      "step": 185
    },
    {
      "epoch": 0.06746463547334058,
      "grad_norm": 0.09466871619224548,
      "learning_rate": 0.00019800391790363112,
      "loss": 0.2632,
      "step": 186
    },
    {
      "epoch": 0.06782734856728329,
      "grad_norm": 0.09646070003509521,
      "learning_rate": 0.00019798111764792814,
      "loss": 0.2888,
      "step": 187
    },
    {
      "epoch": 0.06819006166122597,
      "grad_norm": 0.09636171907186508,
      "learning_rate": 0.00019795818924040815,
      "loss": 0.2766,
      "step": 188
    },
    {
      "epoch": 0.06855277475516866,
      "grad_norm": 0.10880020260810852,
      "learning_rate": 0.00019793513271105975,
      "loss": 0.3053,
      "step": 189
    },
    {
      "epoch": 0.06891548784911135,
      "grad_norm": 0.11933793127536774,
      "learning_rate": 0.0001979119480900391,
      "loss": 0.2903,
      "step": 190
    },
    {
      "epoch": 0.06927820094305405,
      "grad_norm": 0.1342136114835739,
      "learning_rate": 0.00019788863540766996,
      "loss": 0.2912,
      "step": 191
    },
    {
      "epoch": 0.06964091403699674,
      "grad_norm": 0.1037123054265976,
      "learning_rate": 0.0001978651946944435,
      "loss": 0.3044,
      "step": 192
    },
    {
      "epoch": 0.07000362713093942,
      "grad_norm": 0.11920095235109329,
      "learning_rate": 0.00019784162598101838,
      "loss": 0.2859,
      "step": 193
    },
    {
      "epoch": 0.07036634022488211,
      "grad_norm": 0.11973892152309418,
      "learning_rate": 0.00019781792929822068,
      "loss": 0.2959,
      "step": 194
    },
    {
      "epoch": 0.07072905331882481,
      "grad_norm": 0.11078456044197083,
      "learning_rate": 0.00019779410467704389,
      "loss": 0.2769,
      "step": 195
    },
    {
      "epoch": 0.0710917664127675,
      "grad_norm": 0.11091899126768112,
      "learning_rate": 0.00019777015214864877,
      "loss": 0.2832,
      "step": 196
    },
    {
      "epoch": 0.07145447950671019,
      "grad_norm": 0.09678234905004501,
      "learning_rate": 0.00019774607174436338,
      "loss": 0.2455,
      "step": 197
    },
    {
      "epoch": 0.07181719260065289,
      "grad_norm": 0.11300257593393326,
      "learning_rate": 0.00019772186349568304,
      "loss": 0.3242,
      "step": 198
    },
    {
      "epoch": 0.07217990569459558,
      "grad_norm": 0.1536862999200821,
      "learning_rate": 0.00019769752743427032,
      "loss": 0.2901,
      "step": 199
    },
    {
      "epoch": 0.07254261878853827,
      "grad_norm": 0.10081265866756439,
      "learning_rate": 0.00019767306359195493,
      "loss": 0.3059,
      "step": 200
    },
    {
      "epoch": 0.07290533188248095,
      "grad_norm": 0.10079798847436905,
      "learning_rate": 0.0001976484720007337,
      "loss": 0.2871,
      "step": 201
    },
    {
      "epoch": 0.07326804497642365,
      "grad_norm": 0.09981225430965424,
      "learning_rate": 0.00019762375269277054,
      "loss": 0.2713,
      "step": 202
    },
    {
      "epoch": 0.07363075807036634,
      "grad_norm": 0.10104259103536606,
      "learning_rate": 0.00019759890570039644,
      "loss": 0.3178,
      "step": 203
    },
    {
      "epoch": 0.07399347116430903,
      "grad_norm": 0.10694817453622818,
      "learning_rate": 0.00019757393105610934,
      "loss": 0.2725,
      "step": 204
    },
    {
      "epoch": 0.07435618425825172,
      "grad_norm": 0.10432042181491852,
      "learning_rate": 0.0001975488287925742,
      "loss": 0.2798,
      "step": 205
    },
    {
      "epoch": 0.07471889735219442,
      "grad_norm": 0.11903175711631775,
      "learning_rate": 0.00019752359894262283,
      "loss": 0.3138,
      "step": 206
    },
    {
      "epoch": 0.0750816104461371,
      "grad_norm": 0.10495443642139435,
      "learning_rate": 0.00019749824153925396,
      "loss": 0.2764,
      "step": 207
    },
    {
      "epoch": 0.0754443235400798,
      "grad_norm": 0.10551683604717255,
      "learning_rate": 0.00019747275661563312,
      "loss": 0.2884,
      "step": 208
    },
    {
      "epoch": 0.07580703663402248,
      "grad_norm": 0.12931138277053833,
      "learning_rate": 0.00019744714420509273,
      "loss": 0.2843,
      "step": 209
    },
    {
      "epoch": 0.07616974972796518,
      "grad_norm": 0.10500820726156235,
      "learning_rate": 0.0001974214043411317,
      "loss": 0.298,
      "step": 210
    },
    {
      "epoch": 0.07653246282190787,
      "grad_norm": 0.10469575226306915,
      "learning_rate": 0.000197395537057416,
      "loss": 0.2775,
      "step": 211
    },
    {
      "epoch": 0.07689517591585056,
      "grad_norm": 0.11616349220275879,
      "learning_rate": 0.00019736954238777792,
      "loss": 0.2868,
      "step": 212
    },
    {
      "epoch": 0.07725788900979326,
      "grad_norm": 0.10852184146642685,
      "learning_rate": 0.00019734342036621652,
      "loss": 0.2634,
      "step": 213
    },
    {
      "epoch": 0.07762060210373595,
      "grad_norm": 0.11353151500225067,
      "learning_rate": 0.00019731717102689747,
      "loss": 0.2988,
      "step": 214
    },
    {
      "epoch": 0.07798331519767863,
      "grad_norm": 0.10728183388710022,
      "learning_rate": 0.00019729079440415287,
      "loss": 0.273,
      "step": 215
    },
    {
      "epoch": 0.07834602829162132,
      "grad_norm": 0.11151303350925446,
      "learning_rate": 0.0001972642905324813,
      "loss": 0.282,
      "step": 216
    },
    {
      "epoch": 0.07870874138556402,
      "grad_norm": 0.1237482950091362,
      "learning_rate": 0.00019723765944654783,
      "loss": 0.2744,
      "step": 217
    },
    {
      "epoch": 0.07907145447950671,
      "grad_norm": 0.10815929621458054,
      "learning_rate": 0.0001972109011811839,
      "loss": 0.2893,
      "step": 218
    },
    {
      "epoch": 0.0794341675734494,
      "grad_norm": 0.1144891083240509,
      "learning_rate": 0.00019718401577138725,
      "loss": 0.3018,
      "step": 219
    },
    {
      "epoch": 0.07979688066739209,
      "grad_norm": 0.1146797463297844,
      "learning_rate": 0.00019715700325232194,
      "loss": 0.2759,
      "step": 220
    },
    {
      "epoch": 0.08015959376133479,
      "grad_norm": 0.1100744977593422,
      "learning_rate": 0.00019712986365931826,
      "loss": 0.2824,
      "step": 221
    },
    {
      "epoch": 0.08052230685527748,
      "grad_norm": 0.12042435258626938,
      "learning_rate": 0.0001971025970278728,
      "loss": 0.2683,
      "step": 222
    },
    {
      "epoch": 0.08088501994922016,
      "grad_norm": 0.11394108831882477,
      "learning_rate": 0.00019707520339364818,
      "loss": 0.312,
      "step": 223
    },
    {
      "epoch": 0.08124773304316286,
      "grad_norm": 0.10353437066078186,
      "learning_rate": 0.00019704768279247317,
      "loss": 0.2673,
      "step": 224
    },
    {
      "epoch": 0.08161044613710555,
      "grad_norm": 0.0966782197356224,
      "learning_rate": 0.00019702003526034264,
      "loss": 0.2995,
      "step": 225
    },
    {
      "epoch": 0.08197315923104824,
      "grad_norm": 0.11248703300952911,
      "learning_rate": 0.00019699226083341742,
      "loss": 0.2588,
      "step": 226
    },
    {
      "epoch": 0.08233587232499093,
      "grad_norm": 0.10794703662395477,
      "learning_rate": 0.00019696435954802438,
      "loss": 0.2594,
      "step": 227
    },
    {
      "epoch": 0.08269858541893363,
      "grad_norm": 0.1097991019487381,
      "learning_rate": 0.0001969363314406562,
      "loss": 0.2691,
      "step": 228
    },
    {
      "epoch": 0.08306129851287632,
      "grad_norm": 0.10738769918680191,
      "learning_rate": 0.00019690817654797161,
      "loss": 0.2811,
      "step": 229
    },
    {
      "epoch": 0.083424011606819,
      "grad_norm": 0.10677637159824371,
      "learning_rate": 0.00019687989490679503,
      "loss": 0.2864,
      "step": 230
    },
    {
      "epoch": 0.08378672470076169,
      "grad_norm": 0.11440913379192352,
      "learning_rate": 0.00019685148655411658,
      "loss": 0.2961,
      "step": 231
    },
    {
      "epoch": 0.0841494377947044,
      "grad_norm": 0.10899066925048828,
      "learning_rate": 0.00019682295152709234,
      "loss": 0.2852,
      "step": 232
    },
    {
      "epoch": 0.08451215088864708,
      "grad_norm": 0.10460548102855682,
      "learning_rate": 0.00019679428986304386,
      "loss": 0.2954,
      "step": 233
    },
    {
      "epoch": 0.08487486398258977,
      "grad_norm": 0.12301474809646606,
      "learning_rate": 0.00019676550159945845,
      "loss": 0.263,
      "step": 234
    },
    {
      "epoch": 0.08523757707653247,
      "grad_norm": 0.11282453685998917,
      "learning_rate": 0.000196736586773989,
      "loss": 0.3135,
      "step": 235
    },
    {
      "epoch": 0.08560029017047516,
      "grad_norm": 0.11679442226886749,
      "learning_rate": 0.0001967075454244538,
      "loss": 0.287,
      "step": 236
    },
    {
      "epoch": 0.08596300326441784,
      "grad_norm": 0.11096673458814621,
      "learning_rate": 0.0001966783775888368,
      "loss": 0.295,
      "step": 237
    },
    {
      "epoch": 0.08632571635836053,
      "grad_norm": 0.1101219430565834,
      "learning_rate": 0.00019664908330528725,
      "loss": 0.2694,
      "step": 238
    },
    {
      "epoch": 0.08668842945230323,
      "grad_norm": 0.10985169559717178,
      "learning_rate": 0.00019661966261211983,
      "loss": 0.2734,
      "step": 239
    },
    {
      "epoch": 0.08705114254624592,
      "grad_norm": 0.11106691509485245,
      "learning_rate": 0.0001965901155478146,
      "loss": 0.2781,
      "step": 240
    },
    {
      "epoch": 0.08741385564018861,
      "grad_norm": 0.1100887879729271,
      "learning_rate": 0.00019656044215101684,
      "loss": 0.3105,
      "step": 241
    },
    {
      "epoch": 0.0877765687341313,
      "grad_norm": 0.11487387865781784,
      "learning_rate": 0.00019653064246053707,
      "loss": 0.2824,
      "step": 242
    },
    {
      "epoch": 0.088139281828074,
      "grad_norm": 0.10977080464363098,
      "learning_rate": 0.00019650071651535104,
      "loss": 0.3309,
      "step": 243
    },
    {
      "epoch": 0.08850199492201669,
      "grad_norm": 0.11280547827482224,
      "learning_rate": 0.0001964706643545996,
      "loss": 0.2698,
      "step": 244
    },
    {
      "epoch": 0.08886470801595937,
      "grad_norm": 0.10025591403245926,
      "learning_rate": 0.00019644048601758865,
      "loss": 0.2623,
      "step": 245
    },
    {
      "epoch": 0.08922742110990206,
      "grad_norm": 0.10023844242095947,
      "learning_rate": 0.0001964101815437892,
      "loss": 0.2711,
      "step": 246
    },
    {
      "epoch": 0.08959013420384476,
      "grad_norm": 0.1235634833574295,
      "learning_rate": 0.0001963797509728371,
      "loss": 0.2884,
      "step": 247
    },
    {
      "epoch": 0.08995284729778745,
      "grad_norm": 0.10354435443878174,
      "learning_rate": 0.0001963491943445333,
      "loss": 0.2601,
      "step": 248
    },
    {
      "epoch": 0.09031556039173014,
      "grad_norm": 0.10399331152439117,
      "learning_rate": 0.00019631851169884352,
      "loss": 0.2817,
      "step": 249
    },
    {
      "epoch": 0.09067827348567284,
      "grad_norm": 0.11649379879236221,
      "learning_rate": 0.00019628770307589827,
      "loss": 0.3344,
      "step": 250
    },
    {
      "epoch": 0.09104098657961553,
      "grad_norm": 0.1313096284866333,
      "learning_rate": 0.00019625676851599288,
      "loss": 0.326,
      "step": 251
    },
    {
      "epoch": 0.09140369967355821,
      "grad_norm": 0.11555227637290955,
      "learning_rate": 0.00019622570805958746,
      "loss": 0.2687,
      "step": 252
    },
    {
      "epoch": 0.0917664127675009,
      "grad_norm": 0.1436738669872284,
      "learning_rate": 0.00019619452174730667,
      "loss": 0.2748,
      "step": 253
    },
    {
      "epoch": 0.0921291258614436,
      "grad_norm": 0.11013220995664597,
      "learning_rate": 0.0001961632096199398,
      "loss": 0.2556,
      "step": 254
    },
    {
      "epoch": 0.09249183895538629,
      "grad_norm": 0.11054322123527527,
      "learning_rate": 0.00019613177171844075,
      "loss": 0.2813,
      "step": 255
    },
    {
      "epoch": 0.09285455204932898,
      "grad_norm": 0.10872920602560043,
      "learning_rate": 0.00019610020808392788,
      "loss": 0.3022,
      "step": 256
    },
    {
      "epoch": 0.09321726514327167,
      "grad_norm": 0.12032327055931091,
      "learning_rate": 0.000196068518757684,
      "loss": 0.2836,
      "step": 257
    },
    {
      "epoch": 0.09357997823721437,
      "grad_norm": 0.10551446676254272,
      "learning_rate": 0.0001960367037811564,
      "loss": 0.281,
      "step": 258
    },
    {
      "epoch": 0.09394269133115705,
      "grad_norm": 0.11461377888917923,
      "learning_rate": 0.00019600476319595658,
      "loss": 0.2841,
      "step": 259
    },
    {
      "epoch": 0.09430540442509974,
      "grad_norm": 0.11937367916107178,
      "learning_rate": 0.00019597269704386036,
      "loss": 0.2695,
      "step": 260
    },
    {
      "epoch": 0.09466811751904244,
      "grad_norm": 0.109502412378788,
      "learning_rate": 0.0001959405053668079,
      "loss": 0.2796,
      "step": 261
    },
    {
      "epoch": 0.09503083061298513,
      "grad_norm": 0.12356701493263245,
      "learning_rate": 0.00019590818820690336,
      "loss": 0.2963,
      "step": 262
    },
    {
      "epoch": 0.09539354370692782,
      "grad_norm": 0.1127593144774437,
      "learning_rate": 0.00019587574560641518,
      "loss": 0.2646,
      "step": 263
    },
    {
      "epoch": 0.0957562568008705,
      "grad_norm": 0.13234767317771912,
      "learning_rate": 0.00019584317760777578,
      "loss": 0.2816,
      "step": 264
    },
    {
      "epoch": 0.09611896989481321,
      "grad_norm": 0.10984192788600922,
      "learning_rate": 0.00019581048425358158,
      "loss": 0.3069,
      "step": 265
    },
    {
      "epoch": 0.0964816829887559,
      "grad_norm": 0.1149398684501648,
      "learning_rate": 0.00019577766558659306,
      "loss": 0.2574,
      "step": 266
    },
    {
      "epoch": 0.09684439608269858,
      "grad_norm": 0.10994721949100494,
      "learning_rate": 0.00019574472164973452,
      "loss": 0.2705,
      "step": 267
    },
    {
      "epoch": 0.09720710917664127,
      "grad_norm": 0.10396052896976471,
      "learning_rate": 0.00019571165248609407,
      "loss": 0.2343,
      "step": 268
    },
    {
      "epoch": 0.09756982227058397,
      "grad_norm": 0.1382754147052765,
      "learning_rate": 0.00019567845813892368,
      "loss": 0.2586,
      "step": 269
    },
    {
      "epoch": 0.09793253536452666,
      "grad_norm": 0.10811847448348999,
      "learning_rate": 0.000195645138651639,
      "loss": 0.2599,
      "step": 270
    },
    {
      "epoch": 0.09829524845846935,
      "grad_norm": 0.12254346907138824,
      "learning_rate": 0.00019561169406781938,
      "loss": 0.2543,
      "step": 271
    },
    {
      "epoch": 0.09865796155241205,
      "grad_norm": 0.10719288885593414,
      "learning_rate": 0.00019557812443120779,
      "loss": 0.2788,
      "step": 272
    },
    {
      "epoch": 0.09902067464635474,
      "grad_norm": 0.11490897834300995,
      "learning_rate": 0.00019554442978571076,
      "loss": 0.3076,
      "step": 273
    },
    {
      "epoch": 0.09938338774029742,
      "grad_norm": 0.11272160708904266,
      "learning_rate": 0.00019551061017539828,
      "loss": 0.2719,
      "step": 274
    },
    {
      "epoch": 0.09974610083424011,
      "grad_norm": 0.11950589716434479,
      "learning_rate": 0.00019547666564450383,
      "loss": 0.2424,
      "step": 275
    },
    {
      "epoch": 0.10010881392818281,
      "grad_norm": 0.10737808048725128,
      "learning_rate": 0.00019544259623742428,
      "loss": 0.2628,
      "step": 276
    },
    {
      "epoch": 0.1004715270221255,
      "grad_norm": 0.10422177612781525,
      "learning_rate": 0.00019540840199871982,
      "loss": 0.2515,
      "step": 277
    },
    {
      "epoch": 0.10083424011606819,
      "grad_norm": 0.12654827535152435,
      "learning_rate": 0.00019537408297311384,
      "loss": 0.3258,
      "step": 278
    },
    {
      "epoch": 0.10119695321001088,
      "grad_norm": 0.10753121972084045,
      "learning_rate": 0.00019533963920549306,
      "loss": 0.2633,
      "step": 279
    },
    {
      "epoch": 0.10155966630395358,
      "grad_norm": 0.1134246215224266,
      "learning_rate": 0.0001953050707409073,
      "loss": 0.2777,
      "step": 280
    },
    {
      "epoch": 0.10192237939789626,
      "grad_norm": 0.11118260025978088,
      "learning_rate": 0.00019527037762456944,
      "loss": 0.2684,
      "step": 281
    },
    {
      "epoch": 0.10228509249183895,
      "grad_norm": 0.12425535172224045,
      "learning_rate": 0.0001952355599018554,
      "loss": 0.28,
      "step": 282
    },
    {
      "epoch": 0.10264780558578164,
      "grad_norm": 0.12097672373056412,
      "learning_rate": 0.00019520061761830424,
      "loss": 0.2589,
      "step": 283
    },
    {
      "epoch": 0.10301051867972434,
      "grad_norm": 0.11388805508613586,
      "learning_rate": 0.00019516555081961764,
      "loss": 0.2864,
      "step": 284
    },
    {
      "epoch": 0.10337323177366703,
      "grad_norm": 0.10794699192047119,
      "learning_rate": 0.00019513035955166035,
      "loss": 0.2754,
      "step": 285
    },
    {
      "epoch": 0.10373594486760972,
      "grad_norm": 0.10783129185438156,
      "learning_rate": 0.00019509504386045986,
      "loss": 0.252,
      "step": 286
    },
    {
      "epoch": 0.10409865796155242,
      "grad_norm": 0.12570741772651672,
      "learning_rate": 0.0001950596037922064,
      "loss": 0.2563,
      "step": 287
    },
    {
      "epoch": 0.1044613710554951,
      "grad_norm": 0.12100599706172943,
      "learning_rate": 0.0001950240393932529,
      "loss": 0.2811,
      "step": 288
    },
    {
      "epoch": 0.1048240841494378,
      "grad_norm": 0.09901045262813568,
      "learning_rate": 0.0001949883507101148,
      "loss": 0.2724,
      "step": 289
    },
    {
      "epoch": 0.10518679724338048,
      "grad_norm": 0.10405360162258148,
      "learning_rate": 0.00019495253778947026,
      "loss": 0.274,
      "step": 290
    },
    {
      "epoch": 0.10554951033732318,
      "grad_norm": 0.11303572356700897,
      "learning_rate": 0.0001949166006781598,
      "loss": 0.2669,
      "step": 291
    },
    {
      "epoch": 0.10591222343126587,
      "grad_norm": 0.1083337813615799,
      "learning_rate": 0.0001948805394231864,
      "loss": 0.2865,
      "step": 292
    },
    {
      "epoch": 0.10627493652520856,
      "grad_norm": 0.10910173505544662,
      "learning_rate": 0.00019484435407171545,
      "loss": 0.2651,
      "step": 293
    },
    {
      "epoch": 0.10663764961915125,
      "grad_norm": 0.10337372124195099,
      "learning_rate": 0.00019480804467107463,
      "loss": 0.2509,
      "step": 294
    },
    {
      "epoch": 0.10700036271309395,
      "grad_norm": 0.1112721636891365,
      "learning_rate": 0.00019477161126875387,
      "loss": 0.2666,
      "step": 295
    },
    {
      "epoch": 0.10736307580703663,
      "grad_norm": 0.11390243470668793,
      "learning_rate": 0.00019473505391240522,
      "loss": 0.278,
      "step": 296
    },
    {
      "epoch": 0.10772578890097932,
      "grad_norm": 0.11081282794475555,
      "learning_rate": 0.000194698372649843,
      "loss": 0.2725,
      "step": 297
    },
    {
      "epoch": 0.10808850199492202,
      "grad_norm": 0.12400209158658981,
      "learning_rate": 0.00019466156752904343,
      "loss": 0.2812,
      "step": 298
    },
    {
      "epoch": 0.10845121508886471,
      "grad_norm": 0.11567061394453049,
      "learning_rate": 0.0001946246385981448,
      "loss": 0.2907,
      "step": 299
    },
    {
      "epoch": 0.1088139281828074,
      "grad_norm": 0.11256127059459686,
      "learning_rate": 0.0001945875859054474,
      "loss": 0.2537,
      "step": 300
    },
    {
      "epoch": 0.10917664127675009,
      "grad_norm": 0.12261880189180374,
      "learning_rate": 0.0001945504094994132,
      "loss": 0.2726,
      "step": 301
    },
    {
      "epoch": 0.10953935437069279,
      "grad_norm": 0.10978831350803375,
      "learning_rate": 0.00019451310942866621,
      "loss": 0.2578,
      "step": 302
    },
    {
      "epoch": 0.10990206746463548,
      "grad_norm": 0.12203028053045273,
      "learning_rate": 0.00019447568574199202,
      "loss": 0.2685,
      "step": 303
    },
    {
      "epoch": 0.11026478055857816,
      "grad_norm": 0.11995328217744827,
      "learning_rate": 0.000194438138488338,
      "loss": 0.2914,
      "step": 304
    },
    {
      "epoch": 0.11062749365252085,
      "grad_norm": 0.1177087351679802,
      "learning_rate": 0.000194400467716813,
      "loss": 0.2576,
      "step": 305
    },
    {
      "epoch": 0.11099020674646355,
      "grad_norm": 0.11549436300992966,
      "learning_rate": 0.00019436267347668757,
      "loss": 0.2789,
      "step": 306
    },
    {
      "epoch": 0.11135291984040624,
      "grad_norm": 0.12319694459438324,
      "learning_rate": 0.0001943247558173937,
      "loss": 0.2676,
      "step": 307
    },
    {
      "epoch": 0.11171563293434893,
      "grad_norm": 0.13126415014266968,
      "learning_rate": 0.00019428671478852479,
      "loss": 0.2612,
      "step": 308
    },
    {
      "epoch": 0.11207834602829161,
      "grad_norm": 0.11185677349567413,
      "learning_rate": 0.00019424855043983556,
      "loss": 0.2607,
      "step": 309
    },
    {
      "epoch": 0.11244105912223432,
      "grad_norm": 0.1092672273516655,
      "learning_rate": 0.00019421026282124212,
      "loss": 0.2521,
      "step": 310
    },
    {
      "epoch": 0.112803772216177,
      "grad_norm": 0.12753579020500183,
      "learning_rate": 0.00019417185198282168,
      "loss": 0.2876,
      "step": 311
    },
    {
      "epoch": 0.11316648531011969,
      "grad_norm": 0.11622543632984161,
      "learning_rate": 0.00019413331797481277,
      "loss": 0.2656,
      "step": 312
    },
    {
      "epoch": 0.11352919840406239,
      "grad_norm": 0.11567405611276627,
      "learning_rate": 0.00019409466084761485,
      "loss": 0.2836,
      "step": 313
    },
    {
      "epoch": 0.11389191149800508,
      "grad_norm": 0.11441784352064133,
      "learning_rate": 0.00019405588065178852,
      "loss": 0.2523,
      "step": 314
    },
    {
      "epoch": 0.11425462459194777,
      "grad_norm": 0.11300231516361237,
      "learning_rate": 0.0001940169774380553,
      "loss": 0.2804,
      "step": 315
    },
    {
      "epoch": 0.11461733768589046,
      "grad_norm": 0.12194045633077621,
      "learning_rate": 0.00019397795125729767,
      "loss": 0.2867,
      "step": 316
    },
    {
      "epoch": 0.11498005077983316,
      "grad_norm": 0.12124588340520859,
      "learning_rate": 0.00019393880216055887,
      "loss": 0.2859,
      "step": 317
    },
    {
      "epoch": 0.11534276387377584,
      "grad_norm": 0.11623072624206543,
      "learning_rate": 0.00019389953019904285,
      "loss": 0.288,
      "step": 318
    },
    {
      "epoch": 0.11570547696771853,
      "grad_norm": 0.11297620832920074,
      "learning_rate": 0.00019386013542411449,
      "loss": 0.2896,
      "step": 319
    },
    {
      "epoch": 0.11606819006166122,
      "grad_norm": 0.11987963318824768,
      "learning_rate": 0.00019382061788729898,
      "loss": 0.3479,
      "step": 320
    },
    {
      "epoch": 0.11643090315560392,
      "grad_norm": 0.14857983589172363,
      "learning_rate": 0.00019378097764028235,
      "loss": 0.2519,
      "step": 321
    },
    {
      "epoch": 0.11679361624954661,
      "grad_norm": 0.10684715956449509,
      "learning_rate": 0.00019374121473491096,
      "loss": 0.3014,
      "step": 322
    },
    {
      "epoch": 0.1171563293434893,
      "grad_norm": 0.11060940474271774,
      "learning_rate": 0.0001937013292231917,
      "loss": 0.2522,
      "step": 323
    },
    {
      "epoch": 0.117519042437432,
      "grad_norm": 0.10806398838758469,
      "learning_rate": 0.00019366132115729173,
      "loss": 0.2695,
      "step": 324
    },
    {
      "epoch": 0.11788175553137469,
      "grad_norm": 0.11272536218166351,
      "learning_rate": 0.0001936211905895386,
      "loss": 0.2666,
      "step": 325
    },
    {
      "epoch": 0.11824446862531737,
      "grad_norm": 0.11766637116670609,
      "learning_rate": 0.00019358093757241996,
      "loss": 0.3007,
      "step": 326
    },
    {
      "epoch": 0.11860718171926006,
      "grad_norm": 0.1170196607708931,
      "learning_rate": 0.0001935405621585837,
      "loss": 0.2678,
      "step": 327
    },
    {
      "epoch": 0.11896989481320276,
      "grad_norm": 0.12220901250839233,
      "learning_rate": 0.0001935000644008378,
      "loss": 0.2519,
      "step": 328
    },
    {
      "epoch": 0.11933260790714545,
      "grad_norm": 0.1201847493648529,
      "learning_rate": 0.00019345944435215023,
      "loss": 0.267,
      "step": 329
    },
    {
      "epoch": 0.11969532100108814,
      "grad_norm": 0.11570829898118973,
      "learning_rate": 0.00019341870206564886,
      "loss": 0.2515,
      "step": 330
    },
    {
      "epoch": 0.12005803409503082,
      "grad_norm": 0.12002036720514297,
      "learning_rate": 0.0001933778375946216,
      "loss": 0.2767,
      "step": 331
    },
    {
      "epoch": 0.12042074718897353,
      "grad_norm": 0.12402871996164322,
      "learning_rate": 0.00019333685099251594,
      "loss": 0.2508,
      "step": 332
    },
    {
      "epoch": 0.12078346028291621,
      "grad_norm": 0.11982254683971405,
      "learning_rate": 0.00019329574231293926,
      "loss": 0.2802,
      "step": 333
    },
    {
      "epoch": 0.1211461733768589,
      "grad_norm": 0.11482241749763489,
      "learning_rate": 0.0001932545116096586,
      "loss": 0.2774,
      "step": 334
    },
    {
      "epoch": 0.1215088864708016,
      "grad_norm": 0.1279384046792984,
      "learning_rate": 0.00019321315893660056,
      "loss": 0.2718,
      "step": 335
    },
    {
      "epoch": 0.12187159956474429,
      "grad_norm": 0.11594551056623459,
      "learning_rate": 0.00019317168434785127,
      "loss": 0.2771,
      "step": 336
    },
    {
      "epoch": 0.12223431265868698,
      "grad_norm": 0.1129961609840393,
      "learning_rate": 0.0001931300878976563,
      "loss": 0.2602,
      "step": 337
    },
    {
      "epoch": 0.12259702575262967,
      "grad_norm": 0.11392521858215332,
      "learning_rate": 0.0001930883696404207,
      "loss": 0.2595,
      "step": 338
    },
    {
      "epoch": 0.12295973884657237,
      "grad_norm": 0.10742796212434769,
      "learning_rate": 0.0001930465296307087,
      "loss": 0.2473,
      "step": 339
    },
    {
      "epoch": 0.12332245194051505,
      "grad_norm": 0.11807534843683243,
      "learning_rate": 0.00019300456792324382,
      "loss": 0.2374,
      "step": 340
    },
    {
      "epoch": 0.12368516503445774,
      "grad_norm": 0.13207505643367767,
      "learning_rate": 0.00019296248457290882,
      "loss": 0.2732,
      "step": 341
    },
    {
      "epoch": 0.12404787812840043,
      "grad_norm": 0.13366468250751495,
      "learning_rate": 0.00019292027963474547,
      "loss": 0.2702,
      "step": 342
    },
    {
      "epoch": 0.12441059122234313,
      "grad_norm": 0.1288871318101883,
      "learning_rate": 0.00019287795316395468,
      "loss": 0.2667,
      "step": 343
    },
    {
      "epoch": 0.12477330431628582,
      "grad_norm": 0.11883368343114853,
      "learning_rate": 0.00019283550521589614,
      "loss": 0.2666,
      "step": 344
    },
    {
      "epoch": 0.1251360174102285,
      "grad_norm": 0.1264144480228424,
      "learning_rate": 0.00019279293584608856,
      "loss": 0.2795,
      "step": 345
    },
    {
      "epoch": 0.1254987305041712,
      "grad_norm": 0.12721741199493408,
      "learning_rate": 0.0001927502451102095,
      "loss": 0.2516,
      "step": 346
    },
    {
      "epoch": 0.12586144359811388,
      "grad_norm": 0.1189354807138443,
      "learning_rate": 0.00019270743306409505,
      "loss": 0.2489,
      "step": 347
    },
    {
      "epoch": 0.12622415669205658,
      "grad_norm": 0.12466361373662949,
      "learning_rate": 0.00019266449976374018,
      "loss": 0.2856,
      "step": 348
    },
    {
      "epoch": 0.12658686978599928,
      "grad_norm": 0.13144852221012115,
      "learning_rate": 0.00019262144526529832,
      "loss": 0.2612,
      "step": 349
    },
    {
      "epoch": 0.12694958287994196,
      "grad_norm": 0.10754833370447159,
      "learning_rate": 0.0001925782696250815,
      "loss": 0.2523,
      "step": 350
    },
    {
      "epoch": 0.12731229597388466,
      "grad_norm": 0.1237715408205986,
      "learning_rate": 0.0001925349728995602,
      "loss": 0.2526,
      "step": 351
    },
    {
      "epoch": 0.12767500906782736,
      "grad_norm": 0.1193939596414566,
      "learning_rate": 0.00019249155514536312,
      "loss": 0.2819,
      "step": 352
    },
    {
      "epoch": 0.12803772216177003,
      "grad_norm": 0.12648704648017883,
      "learning_rate": 0.00019244801641927746,
      "loss": 0.2709,
      "step": 353
    },
    {
      "epoch": 0.12840043525571274,
      "grad_norm": 0.11707579344511032,
      "learning_rate": 0.0001924043567782485,
      "loss": 0.2853,
      "step": 354
    },
    {
      "epoch": 0.1287631483496554,
      "grad_norm": 0.12175849080085754,
      "learning_rate": 0.00019236057627937975,
      "loss": 0.2702,
      "step": 355
    },
    {
      "epoch": 0.1291258614435981,
      "grad_norm": 0.1120310127735138,
      "learning_rate": 0.0001923166749799327,
      "loss": 0.2596,
      "step": 356
    },
    {
      "epoch": 0.1294885745375408,
      "grad_norm": 0.12282121926546097,
      "learning_rate": 0.00019227265293732693,
      "loss": 0.2581,
      "step": 357
    },
    {
      "epoch": 0.1298512876314835,
      "grad_norm": 0.13752269744873047,
      "learning_rate": 0.00019222851020913995,
      "loss": 0.2641,
      "step": 358
    },
    {
      "epoch": 0.1302140007254262,
      "grad_norm": 0.11744178086519241,
      "learning_rate": 0.00019218424685310702,
      "loss": 0.2462,
      "step": 359
    },
    {
      "epoch": 0.1305767138193689,
      "grad_norm": 0.11440069228410721,
      "learning_rate": 0.00019213986292712125,
      "loss": 0.2495,
      "step": 360
    },
    {
      "epoch": 0.13093942691331156,
      "grad_norm": 0.11646847426891327,
      "learning_rate": 0.00019209535848923343,
      "loss": 0.3054,
      "step": 361
    },
    {
      "epoch": 0.13130214000725426,
      "grad_norm": 0.11386696994304657,
      "learning_rate": 0.00019205073359765192,
      "loss": 0.2503,
      "step": 362
    },
    {
      "epoch": 0.13166485310119697,
      "grad_norm": 0.12510043382644653,
      "learning_rate": 0.00019200598831074274,
      "loss": 0.275,
      "step": 363
    },
    {
      "epoch": 0.13202756619513964,
      "grad_norm": 0.12363200634717941,
      "learning_rate": 0.00019196112268702925,
      "loss": 0.2746,
      "step": 364
    },
    {
      "epoch": 0.13239027928908234,
      "grad_norm": 0.11029732972383499,
      "learning_rate": 0.0001919161367851923,
      "loss": 0.3095,
      "step": 365
    },
    {
      "epoch": 0.13275299238302501,
      "grad_norm": 0.12199590355157852,
      "learning_rate": 0.00019187103066406998,
      "loss": 0.2641,
      "step": 366
    },
    {
      "epoch": 0.13311570547696772,
      "grad_norm": 0.11692757904529572,
      "learning_rate": 0.00019182580438265764,
      "loss": 0.2646,
      "step": 367
    },
    {
      "epoch": 0.13347841857091042,
      "grad_norm": 0.11142277717590332,
      "learning_rate": 0.00019178045800010787,
      "loss": 0.2495,
      "step": 368
    },
    {
      "epoch": 0.1338411316648531,
      "grad_norm": 0.11492447555065155,
      "learning_rate": 0.00019173499157573023,
      "loss": 0.2647,
      "step": 369
    },
    {
      "epoch": 0.1342038447587958,
      "grad_norm": 0.114183709025383,
      "learning_rate": 0.0001916894051689913,
      "loss": 0.2499,
      "step": 370
    },
    {
      "epoch": 0.1345665578527385,
      "grad_norm": 0.11262322962284088,
      "learning_rate": 0.00019164369883951468,
      "loss": 0.2749,
      "step": 371
    },
    {
      "epoch": 0.13492927094668117,
      "grad_norm": 0.11667259782552719,
      "learning_rate": 0.0001915978726470807,
      "loss": 0.269,
      "step": 372
    },
    {
      "epoch": 0.13529198404062387,
      "grad_norm": 0.1220724880695343,
      "learning_rate": 0.00019155192665162656,
      "loss": 0.2652,
      "step": 373
    },
    {
      "epoch": 0.13565469713456657,
      "grad_norm": 0.12185841798782349,
      "learning_rate": 0.0001915058609132461,
      "loss": 0.2754,
      "step": 374
    },
    {
      "epoch": 0.13601741022850924,
      "grad_norm": 0.11733336001634598,
      "learning_rate": 0.00019145967549218974,
      "loss": 0.2685,
      "step": 375
    },
    {
      "epoch": 0.13638012332245195,
      "grad_norm": 0.12325771152973175,
      "learning_rate": 0.00019141337044886457,
      "loss": 0.2548,
      "step": 376
    },
    {
      "epoch": 0.13674283641639462,
      "grad_norm": 0.11737928539514542,
      "learning_rate": 0.000191366945843834,
      "loss": 0.2875,
      "step": 377
    },
    {
      "epoch": 0.13710554951033732,
      "grad_norm": 0.11719442158937454,
      "learning_rate": 0.00019132040173781788,
      "loss": 0.244,
      "step": 378
    },
    {
      "epoch": 0.13746826260428002,
      "grad_norm": 0.1146400049328804,
      "learning_rate": 0.0001912737381916923,
      "loss": 0.2595,
      "step": 379
    },
    {
      "epoch": 0.1378309756982227,
      "grad_norm": 0.11577652394771576,
      "learning_rate": 0.00019122695526648968,
      "loss": 0.276,
      "step": 380
    },
    {
      "epoch": 0.1381936887921654,
      "grad_norm": 0.10648276656866074,
      "learning_rate": 0.00019118005302339847,
      "loss": 0.2444,
      "step": 381
    },
    {
      "epoch": 0.1385564018861081,
      "grad_norm": 0.10874751210212708,
      "learning_rate": 0.00019113303152376324,
      "loss": 0.2502,
      "step": 382
    },
    {
      "epoch": 0.13891911498005077,
      "grad_norm": 0.1190841868519783,
      "learning_rate": 0.00019108589082908453,
      "loss": 0.2477,
      "step": 383
    },
    {
      "epoch": 0.13928182807399347,
      "grad_norm": 0.11433839052915573,
      "learning_rate": 0.00019103863100101873,
      "loss": 0.2651,
      "step": 384
    },
    {
      "epoch": 0.13964454116793618,
      "grad_norm": 0.1088482066988945,
      "learning_rate": 0.00019099125210137813,
      "loss": 0.2452,
      "step": 385
    },
    {
      "epoch": 0.14000725426187885,
      "grad_norm": 0.115386962890625,
      "learning_rate": 0.00019094375419213065,
      "loss": 0.2579,
      "step": 386
    },
    {
      "epoch": 0.14036996735582155,
      "grad_norm": 0.1259610801935196,
      "learning_rate": 0.0001908961373354,
      "loss": 0.2712,
      "step": 387
    },
    {
      "epoch": 0.14073268044976422,
      "grad_norm": 4882568.5,
      "learning_rate": 0.00019084840159346532,
      "loss": 0.2385,
      "step": 388
    },
    {
      "epoch": 0.14109539354370693,
      "grad_norm": 0.12656670808792114,
      "learning_rate": 0.0001908005470287614,
      "loss": 0.2406,
      "step": 389
    },
    {
      "epoch": 0.14145810663764963,
      "grad_norm": 0.13908933103084564,
      "learning_rate": 0.00019075257370387827,
      "loss": 0.2433,
      "step": 390
    },
    {
      "epoch": 0.1418208197315923,
      "grad_norm": 0.14672155678272247,
      "learning_rate": 0.0001907044816815614,
      "loss": 0.2544,
      "step": 391
    },
    {
      "epoch": 0.142183532825535,
      "grad_norm": 0.15031826496124268,
      "learning_rate": 0.0001906562710247115,
      "loss": 0.2652,
      "step": 392
    },
    {
      "epoch": 0.1425462459194777,
      "grad_norm": 0.13194704055786133,
      "learning_rate": 0.00019060794179638445,
      "loss": 0.2603,
      "step": 393
    },
    {
      "epoch": 0.14290895901342038,
      "grad_norm": 0.13189998269081116,
      "learning_rate": 0.0001905594940597911,
      "loss": 0.2419,
      "step": 394
    },
    {
      "epoch": 0.14327167210736308,
      "grad_norm": 0.1245296448469162,
      "learning_rate": 0.00019051092787829746,
      "loss": 0.2816,
      "step": 395
    },
    {
      "epoch": 0.14363438520130578,
      "grad_norm": 0.14372986555099487,
      "learning_rate": 0.0001904622433154244,
      "loss": 0.261,
      "step": 396
    },
    {
      "epoch": 0.14399709829524845,
      "grad_norm": 0.13385535776615143,
      "learning_rate": 0.00019041344043484754,
      "loss": 0.2702,
      "step": 397
    },
    {
      "epoch": 0.14435981138919116,
      "grad_norm": 0.13935022056102753,
      "learning_rate": 0.00019036451930039738,
      "loss": 0.2907,
      "step": 398
    },
    {
      "epoch": 0.14472252448313383,
      "grad_norm": 0.11567000299692154,
      "learning_rate": 0.00019031547997605902,
      "loss": 0.2618,
      "step": 399
    },
    {
      "epoch": 0.14508523757707653,
      "grad_norm": 0.1412486582994461,
      "learning_rate": 0.0001902663225259721,
      "loss": 0.3055,
      "step": 400
    },
    {
      "epoch": 0.14544795067101923,
      "grad_norm": 0.13404829800128937,
      "learning_rate": 0.00019021704701443083,
      "loss": 0.2565,
      "step": 401
    },
    {
      "epoch": 0.1458106637649619,
      "grad_norm": 0.15074236690998077,
      "learning_rate": 0.00019016765350588389,
      "loss": 0.2737,
      "step": 402
    },
    {
      "epoch": 0.1461733768589046,
      "grad_norm": 0.11905822902917862,
      "learning_rate": 0.00019011814206493411,
      "loss": 0.2462,
      "step": 403
    },
    {
      "epoch": 0.1465360899528473,
      "grad_norm": 0.13609488308429718,
      "learning_rate": 0.00019006851275633871,
      "loss": 0.3008,
      "step": 404
    },
    {
      "epoch": 0.14689880304678998,
      "grad_norm": 0.13262596726417542,
      "learning_rate": 0.00019001876564500909,
      "loss": 0.2682,
      "step": 405
    },
    {
      "epoch": 0.14726151614073268,
      "grad_norm": 0.12421231716871262,
      "learning_rate": 0.00018996890079601059,
      "loss": 0.2553,
      "step": 406
    },
    {
      "epoch": 0.14762422923467536,
      "grad_norm": 0.14463739097118378,
      "learning_rate": 0.00018991891827456266,
      "loss": 0.2483,
      "step": 407
    },
    {
      "epoch": 0.14798694232861806,
      "grad_norm": 0.12037564069032669,
      "learning_rate": 0.00018986881814603862,
      "loss": 0.2807,
      "step": 408
    },
    {
      "epoch": 0.14834965542256076,
      "grad_norm": 0.1340160369873047,
      "learning_rate": 0.0001898186004759656,
      "loss": 0.248,
      "step": 409
    },
    {
      "epoch": 0.14871236851650343,
      "grad_norm": 0.13164542615413666,
      "learning_rate": 0.0001897682653300245,
      "loss": 0.2617,
      "step": 410
    },
    {
      "epoch": 0.14907508161044614,
      "grad_norm": 0.12125716358423233,
      "learning_rate": 0.0001897178127740498,
      "loss": 0.249,
      "step": 411
    },
    {
      "epoch": 0.14943779470438884,
      "grad_norm": 0.13088323175907135,
      "learning_rate": 0.00018966724287402964,
      "loss": 0.2855,
      "step": 412
    },
    {
      "epoch": 0.1498005077983315,
      "grad_norm": 0.13843600451946259,
      "learning_rate": 0.00018961655569610557,
      "loss": 0.2613,
      "step": 413
    },
    {
      "epoch": 0.1501632208922742,
      "grad_norm": 0.12319327145814896,
      "learning_rate": 0.00018956575130657256,
      "loss": 0.2675,
      "step": 414
    },
    {
      "epoch": 0.15052593398621691,
      "grad_norm": 0.12738944590091705,
      "learning_rate": 0.0001895148297718788,
      "loss": 0.2492,
      "step": 415
    },
    {
      "epoch": 0.1508886470801596,
      "grad_norm": 0.1370190680027008,
      "learning_rate": 0.00018946379115862585,
      "loss": 0.2565,
      "step": 416
    },
    {
      "epoch": 0.1512513601741023,
      "grad_norm": 0.12752386927604675,
      "learning_rate": 0.00018941263553356829,
      "loss": 0.2752,
      "step": 417
    },
    {
      "epoch": 0.15161407326804496,
      "grad_norm": 0.12467992305755615,
      "learning_rate": 0.00018936136296361373,
      "loss": 0.261,
      "step": 418
    },
    {
      "epoch": 0.15197678636198766,
      "grad_norm": 0.12830005586147308,
      "learning_rate": 0.00018930997351582286,
      "loss": 0.2579,
      "step": 419
    },
    {
      "epoch": 0.15233949945593037,
      "grad_norm": 0.1329096108675003,
      "learning_rate": 0.00018925846725740907,
      "loss": 0.2736,
      "step": 420
    },
    {
      "epoch": 0.15270221254987304,
      "grad_norm": 0.12870270013809204,
      "learning_rate": 0.00018920684425573865,
      "loss": 0.2519,
      "step": 421
    },
    {
      "epoch": 0.15306492564381574,
      "grad_norm": 0.1223597452044487,
      "learning_rate": 0.00018915510457833055,
      "loss": 0.2462,
      "step": 422
    },
    {
      "epoch": 0.15342763873775844,
      "grad_norm": 0.13859276473522186,
      "learning_rate": 0.0001891032482928563,
      "loss": 0.2546,
      "step": 423
    },
    {
      "epoch": 0.15379035183170112,
      "grad_norm": 0.12266798317432404,
      "learning_rate": 0.00018905127546713996,
      "loss": 0.2426,
      "step": 424
    },
    {
      "epoch": 0.15415306492564382,
      "grad_norm": 0.1270112842321396,
      "learning_rate": 0.00018899918616915802,
      "loss": 0.2719,
      "step": 425
    },
    {
      "epoch": 0.15451577801958652,
      "grad_norm": 0.12060489505529404,
      "learning_rate": 0.0001889469804670393,
      "loss": 0.2617,
      "step": 426
    },
    {
      "epoch": 0.1548784911135292,
      "grad_norm": 0.1132146492600441,
      "learning_rate": 0.00018889465842906488,
      "loss": 0.2464,
      "step": 427
    },
    {
      "epoch": 0.1552412042074719,
      "grad_norm": 0.12224707752466202,
      "learning_rate": 0.00018884222012366796,
      "loss": 0.2963,
      "step": 428
    },
    {
      "epoch": 0.15560391730141457,
      "grad_norm": 0.11490823328495026,
      "learning_rate": 0.00018878966561943386,
      "loss": 0.2686,
      "step": 429
    },
    {
      "epoch": 0.15596663039535727,
      "grad_norm": 0.16463352739810944,
      "learning_rate": 0.00018873699498509988,
      "loss": 0.2986,
      "step": 430
    },
    {
      "epoch": 0.15632934348929997,
      "grad_norm": 0.12075062096118927,
      "learning_rate": 0.00018868420828955514,
      "loss": 0.2968,
      "step": 431
    },
    {
      "epoch": 0.15669205658324264,
      "grad_norm": 0.1205056831240654,
      "learning_rate": 0.00018863130560184063,
      "loss": 0.2565,
      "step": 432
    },
    {
      "epoch": 0.15705476967718535,
      "grad_norm": 0.1396438032388687,
      "learning_rate": 0.00018857828699114904,
      "loss": 0.2686,
      "step": 433
    },
    {
      "epoch": 0.15741748277112805,
      "grad_norm": 0.11857564747333527,
      "learning_rate": 0.0001885251525268246,
      "loss": 0.2453,
      "step": 434
    },
    {
      "epoch": 0.15778019586507072,
      "grad_norm": 0.12120261788368225,
      "learning_rate": 0.0001884719022783632,
      "loss": 0.2363,
      "step": 435
    },
    {
      "epoch": 0.15814290895901342,
      "grad_norm": 0.1222701370716095,
      "learning_rate": 0.00018841853631541207,
      "loss": 0.2641,
      "step": 436
    },
    {
      "epoch": 0.15850562205295612,
      "grad_norm": 0.12121476233005524,
      "learning_rate": 0.00018836505470776983,
      "loss": 0.2542,
      "step": 437
    },
    {
      "epoch": 0.1588683351468988,
      "grad_norm": 0.12737686932086945,
      "learning_rate": 0.0001883114575253863,
      "loss": 0.2502,
      "step": 438
    },
    {
      "epoch": 0.1592310482408415,
      "grad_norm": 0.12551474571228027,
      "learning_rate": 0.00018825774483836248,
      "loss": 0.2676,
      "step": 439
    },
    {
      "epoch": 0.15959376133478417,
      "grad_norm": 0.12225164473056793,
      "learning_rate": 0.00018820391671695057,
      "loss": 0.2695,
      "step": 440
    },
    {
      "epoch": 0.15995647442872687,
      "grad_norm": 0.12774313986301422,
      "learning_rate": 0.00018814997323155357,
      "loss": 0.2454,
      "step": 441
    },
    {
      "epoch": 0.16031918752266958,
      "grad_norm": 0.12761445343494415,
      "learning_rate": 0.0001880959144527254,
      "loss": 0.2539,
      "step": 442
    },
    {
      "epoch": 0.16068190061661225,
      "grad_norm": 0.11978595703840256,
      "learning_rate": 0.00018804174045117087,
      "loss": 0.2301,
      "step": 443
    },
    {
      "epoch": 0.16104461371055495,
      "grad_norm": 0.12763962149620056,
      "learning_rate": 0.00018798745129774543,
      "loss": 0.2376,
      "step": 444
    },
    {
      "epoch": 0.16140732680449765,
      "grad_norm": 0.13063186407089233,
      "learning_rate": 0.00018793304706345515,
      "loss": 0.2768,
      "step": 445
    },
    {
      "epoch": 0.16177003989844033,
      "grad_norm": 0.11672946810722351,
      "learning_rate": 0.00018787852781945656,
      "loss": 0.246,
      "step": 446
    },
    {
      "epoch": 0.16213275299238303,
      "grad_norm": 0.12725545465946198,
      "learning_rate": 0.00018782389363705674,
      "loss": 0.262,
      "step": 447
    },
    {
      "epoch": 0.16249546608632573,
      "grad_norm": 0.1206207126379013,
      "learning_rate": 0.00018776914458771296,
      "loss": 0.2385,
      "step": 448
    },
    {
      "epoch": 0.1628581791802684,
      "grad_norm": 0.11878547072410583,
      "learning_rate": 0.00018771428074303286,
      "loss": 0.2666,
      "step": 449
    },
    {
      "epoch": 0.1632208922742111,
      "grad_norm": 0.12689107656478882,
      "learning_rate": 0.0001876593021747741,
      "loss": 0.2828,
      "step": 450
    },
    {
      "epoch": 0.16358360536815378,
      "grad_norm": 0.11968659609556198,
      "learning_rate": 0.00018760420895484446,
      "loss": 0.2428,
      "step": 451
    },
    {
      "epoch": 0.16394631846209648,
      "grad_norm": 0.13296844065189362,
      "learning_rate": 0.0001875490011553017,
      "loss": 0.2689,
      "step": 452
    },
    {
      "epoch": 0.16430903155603918,
      "grad_norm": 0.13149085640907288,
      "learning_rate": 0.00018749367884835337,
      "loss": 0.259,
      "step": 453
    },
    {
      "epoch": 0.16467174464998185,
      "grad_norm": 0.13679270446300507,
      "learning_rate": 0.00018743824210635683,
      "loss": 0.2604,
      "step": 454
    },
    {
      "epoch": 0.16503445774392456,
      "grad_norm": 0.12205653637647629,
      "learning_rate": 0.0001873826910018191,
      "loss": 0.2557,
      "step": 455
    },
    {
      "epoch": 0.16539717083786726,
      "grad_norm": 0.11403360217809677,
      "learning_rate": 0.00018732702560739678,
      "loss": 0.2596,
      "step": 456
    },
    {
      "epoch": 0.16575988393180993,
      "grad_norm": 0.15047647058963776,
      "learning_rate": 0.000187271245995896,
      "loss": 0.2571,
      "step": 457
    },
    {
      "epoch": 0.16612259702575263,
      "grad_norm": 0.12830372154712677,
      "learning_rate": 0.00018721535224027212,
      "loss": 0.256,
      "step": 458
    },
    {
      "epoch": 0.16648531011969533,
      "grad_norm": 0.12144992500543594,
      "learning_rate": 0.00018715934441363002,
      "loss": 0.2488,
      "step": 459
    },
    {
      "epoch": 0.166848023213638,
      "grad_norm": 0.128736212849617,
      "learning_rate": 0.00018710322258922357,
      "loss": 0.2541,
      "step": 460
    },
    {
      "epoch": 0.1672107363075807,
      "grad_norm": 0.1277531534433365,
      "learning_rate": 0.0001870469868404559,
      "loss": 0.2609,
      "step": 461
    },
    {
      "epoch": 0.16757344940152338,
      "grad_norm": 0.12313154339790344,
      "learning_rate": 0.00018699063724087904,
      "loss": 0.2547,
      "step": 462
    },
    {
      "epoch": 0.16793616249546608,
      "grad_norm": 0.12278270721435547,
      "learning_rate": 0.00018693417386419397,
      "loss": 0.2509,
      "step": 463
    },
    {
      "epoch": 0.1682988755894088,
      "grad_norm": 0.12022969871759415,
      "learning_rate": 0.00018687759678425044,
      "loss": 0.2384,
      "step": 464
    },
    {
      "epoch": 0.16866158868335146,
      "grad_norm": 0.12230958789587021,
      "learning_rate": 0.000186820906075047,
      "loss": 0.2535,
      "step": 465
    },
    {
      "epoch": 0.16902430177729416,
      "grad_norm": 0.13055519759655,
      "learning_rate": 0.00018676410181073073,
      "loss": 0.244,
      "step": 466
    },
    {
      "epoch": 0.16938701487123686,
      "grad_norm": 0.12790988385677338,
      "learning_rate": 0.0001867071840655973,
      "loss": 0.2479,
      "step": 467
    },
    {
      "epoch": 0.16974972796517954,
      "grad_norm": 0.13046807050704956,
      "learning_rate": 0.00018665015291409077,
      "loss": 0.2493,
      "step": 468
    },
    {
      "epoch": 0.17011244105912224,
      "grad_norm": 0.1160719096660614,
      "learning_rate": 0.00018659300843080348,
      "loss": 0.2274,
      "step": 469
    },
    {
      "epoch": 0.17047515415306494,
      "grad_norm": 0.1292848438024521,
      "learning_rate": 0.00018653575069047608,
      "loss": 0.258,
      "step": 470
    },
    {
      "epoch": 0.1708378672470076,
      "grad_norm": 0.1197739690542221,
      "learning_rate": 0.00018647837976799734,
      "loss": 0.2276,
      "step": 471
    },
    {
      "epoch": 0.17120058034095031,
      "grad_norm": 0.11929846554994583,
      "learning_rate": 0.00018642089573840402,
      "loss": 0.2617,
      "step": 472
    },
    {
      "epoch": 0.171563293434893,
      "grad_norm": 0.12611514329910278,
      "learning_rate": 0.00018636329867688085,
      "loss": 0.2525,
      "step": 473
    },
    {
      "epoch": 0.1719260065288357,
      "grad_norm": 0.1322082132101059,
      "learning_rate": 0.0001863055886587604,
      "loss": 0.2564,
      "step": 474
    },
    {
      "epoch": 0.1722887196227784,
      "grad_norm": 0.1298658400774002,
      "learning_rate": 0.0001862477657595229,
      "loss": 0.2451,
      "step": 475
    },
    {
      "epoch": 0.17265143271672106,
      "grad_norm": 0.1305808424949646,
      "learning_rate": 0.00018618983005479637,
      "loss": 0.2546,
      "step": 476
    },
    {
      "epoch": 0.17301414581066377,
      "grad_norm": 0.1403343826532364,
      "learning_rate": 0.00018613178162035624,
      "loss": 0.2566,
      "step": 477
    },
    {
      "epoch": 0.17337685890460647,
      "grad_norm": 0.12340683490037918,
      "learning_rate": 0.00018607362053212545,
      "loss": 0.2402,
      "step": 478
    },
    {
      "epoch": 0.17373957199854914,
      "grad_norm": 0.12032376229763031,
      "learning_rate": 0.00018601534686617423,
      "loss": 0.2524,
      "step": 479
    },
    {
      "epoch": 0.17410228509249184,
      "grad_norm": 0.14251156151294708,
      "learning_rate": 0.00018595696069872013,
      "loss": 0.2386,
      "step": 480
    },
    {
      "epoch": 0.17446499818643452,
      "grad_norm": 0.12001265585422516,
      "learning_rate": 0.00018589846210612776,
      "loss": 0.2311,
      "step": 481
    },
    {
      "epoch": 0.17482771128037722,
      "grad_norm": 0.127760112285614,
      "learning_rate": 0.00018583985116490877,
      "loss": 0.2528,
      "step": 482
    },
    {
      "epoch": 0.17519042437431992,
      "grad_norm": 0.1348508894443512,
      "learning_rate": 0.0001857811279517219,
      "loss": 0.2861,
      "step": 483
    },
    {
      "epoch": 0.1755531374682626,
      "grad_norm": 0.1362610161304474,
      "learning_rate": 0.00018572229254337254,
      "loss": 0.2606,
      "step": 484
    },
    {
      "epoch": 0.1759158505622053,
      "grad_norm": 0.12335646897554398,
      "learning_rate": 0.00018566334501681294,
      "loss": 0.2735,
      "step": 485
    },
    {
      "epoch": 0.176278563656148,
      "grad_norm": 0.2398405522108078,
      "learning_rate": 0.000185604285449142,
      "loss": 0.2686,
      "step": 486
    },
    {
      "epoch": 0.17664127675009067,
      "grad_norm": 0.12291895598173141,
      "learning_rate": 0.00018554511391760502,
      "loss": 0.251,
      "step": 487
    },
    {
      "epoch": 0.17700398984403337,
      "grad_norm": 0.1420765072107315,
      "learning_rate": 0.00018548583049959394,
      "loss": 0.3053,
      "step": 488
    },
    {
      "epoch": 0.17736670293797607,
      "grad_norm": 0.13731782138347626,
      "learning_rate": 0.0001854264352726469,
      "loss": 0.2508,
      "step": 489
    },
    {
      "epoch": 0.17772941603191875,
      "grad_norm": 0.12329670786857605,
      "learning_rate": 0.00018536692831444836,
      "loss": 0.2544,
      "step": 490
    },
    {
      "epoch": 0.17809212912586145,
      "grad_norm": 0.13219058513641357,
      "learning_rate": 0.0001853073097028288,
      "loss": 0.2933,
      "step": 491
    },
    {
      "epoch": 0.17845484221980412,
      "grad_norm": 0.13322101533412933,
      "learning_rate": 0.00018524757951576487,
      "loss": 0.2546,
      "step": 492
    },
    {
      "epoch": 0.17881755531374682,
      "grad_norm": 0.13400037586688995,
      "learning_rate": 0.00018518773783137907,
      "loss": 0.2538,
      "step": 493
    },
    {
      "epoch": 0.17918026840768952,
      "grad_norm": 0.1361285001039505,
      "learning_rate": 0.0001851277847279398,
      "loss": 0.2522,
      "step": 494
    },
    {
      "epoch": 0.1795429815016322,
      "grad_norm": 0.1310225874185562,
      "learning_rate": 0.00018506772028386106,
      "loss": 0.2667,
      "step": 495
    },
    {
      "epoch": 0.1799056945955749,
      "grad_norm": 0.12234266102313995,
      "learning_rate": 0.00018500754457770257,
      "loss": 0.2392,
      "step": 496
    },
    {
      "epoch": 0.1802684076895176,
      "grad_norm": 0.1298176795244217,
      "learning_rate": 0.00018494725768816958,
      "loss": 0.2573,
      "step": 497
    },
    {
      "epoch": 0.18063112078346028,
      "grad_norm": 0.1306108981370926,
      "learning_rate": 0.00018488685969411276,
      "loss": 0.2524,
      "step": 498
    },
    {
      "epoch": 0.18099383387740298,
      "grad_norm": 0.13212443888187408,
      "learning_rate": 0.00018482635067452804,
      "loss": 0.2577,
      "step": 499
    },
    {
      "epoch": 0.18135654697134568,
      "grad_norm": 0.12641021609306335,
      "learning_rate": 0.0001847657307085566,
      "loss": 0.2585,
      "step": 500
    },
    {
      "epoch": 0.18171926006528835,
      "grad_norm": 0.13970649242401123,
      "learning_rate": 0.00018470499987548473,
      "loss": 0.2652,
      "step": 501
    },
    {
      "epoch": 0.18208197315923105,
      "grad_norm": 0.12708009779453278,
      "learning_rate": 0.0001846441582547437,
      "loss": 0.2675,
      "step": 502
    },
    {
      "epoch": 0.18244468625317373,
      "grad_norm": 0.1252969652414322,
      "learning_rate": 0.00018458320592590975,
      "loss": 0.2622,
      "step": 503
    },
    {
      "epoch": 0.18280739934711643,
      "grad_norm": 0.13454315066337585,
      "learning_rate": 0.0001845221429687038,
      "loss": 0.2848,
      "step": 504
    },
    {
      "epoch": 0.18317011244105913,
      "grad_norm": 0.11531683802604675,
      "learning_rate": 0.0001844609694629916,
      "loss": 0.2335,
      "step": 505
    },
    {
      "epoch": 0.1835328255350018,
      "grad_norm": 0.12405534833669662,
      "learning_rate": 0.00018439968548878338,
      "loss": 0.2494,
      "step": 506
    },
    {
      "epoch": 0.1838955386289445,
      "grad_norm": 0.12868863344192505,
      "learning_rate": 0.00018433829112623394,
      "loss": 0.2551,
      "step": 507
    },
    {
      "epoch": 0.1842582517228872,
      "grad_norm": 0.12778586149215698,
      "learning_rate": 0.00018427678645564235,
      "loss": 0.2519,
      "step": 508
    },
    {
      "epoch": 0.18462096481682988,
      "grad_norm": 0.12378937751054764,
      "learning_rate": 0.00018421517155745208,
      "loss": 0.2463,
      "step": 509
    },
    {
      "epoch": 0.18498367791077258,
      "grad_norm": 0.12006038427352905,
      "learning_rate": 0.00018415344651225067,
      "loss": 0.2434,
      "step": 510
    },
    {
      "epoch": 0.18534639100471528,
      "grad_norm": 0.12323882430791855,
      "learning_rate": 0.0001840916114007698,
      "loss": 0.2495,
      "step": 511
    },
    {
      "epoch": 0.18570910409865796,
      "grad_norm": 0.12510351836681366,
      "learning_rate": 0.00018402966630388505,
      "loss": 0.2421,
      "step": 512
    },
    {
      "epoch": 0.18607181719260066,
      "grad_norm": 0.16430193185806274,
      "learning_rate": 0.00018396761130261586,
      "loss": 0.261,
      "step": 513
    },
    {
      "epoch": 0.18643453028654333,
      "grad_norm": 0.13129295408725739,
      "learning_rate": 0.0001839054464781255,
      "loss": 0.2552,
      "step": 514
    },
    {
      "epoch": 0.18679724338048603,
      "grad_norm": 0.12675730884075165,
      "learning_rate": 0.00018384317191172072,
      "loss": 0.2443,
      "step": 515
    },
    {
      "epoch": 0.18715995647442873,
      "grad_norm": 0.1283879280090332,
      "learning_rate": 0.00018378078768485192,
      "loss": 0.2453,
      "step": 516
    },
    {
      "epoch": 0.1875226695683714,
      "grad_norm": 0.12647312879562378,
      "learning_rate": 0.00018371829387911292,
      "loss": 0.2434,
      "step": 517
    },
    {
      "epoch": 0.1878853826623141,
      "grad_norm": 0.12233056873083115,
      "learning_rate": 0.0001836556905762409,
      "loss": 0.283,
      "step": 518
    },
    {
      "epoch": 0.1882480957562568,
      "grad_norm": 0.13304516673088074,
      "learning_rate": 0.00018359297785811612,
      "loss": 0.2545,
      "step": 519
    },
    {
      "epoch": 0.18861080885019949,
      "grad_norm": 0.13864544034004211,
      "learning_rate": 0.000183530155806762,
      "loss": 0.2571,
      "step": 520
    },
    {
      "epoch": 0.1889735219441422,
      "grad_norm": 0.1448136270046234,
      "learning_rate": 0.00018346722450434508,
      "loss": 0.2576,
      "step": 521
    },
    {
      "epoch": 0.1893362350380849,
      "grad_norm": 0.14094996452331543,
      "learning_rate": 0.00018340418403317463,
      "loss": 0.2568,
      "step": 522
    },
    {
      "epoch": 0.18969894813202756,
      "grad_norm": 0.13471728563308716,
      "learning_rate": 0.00018334103447570282,
      "loss": 0.2271,
      "step": 523
    },
    {
      "epoch": 0.19006166122597026,
      "grad_norm": 0.12976421415805817,
      "learning_rate": 0.00018327777591452436,
      "loss": 0.2386,
      "step": 524
    },
    {
      "epoch": 0.19042437431991294,
      "grad_norm": 0.15379559993743896,
      "learning_rate": 0.00018321440843237672,
      "loss": 0.2681,
      "step": 525
    },
    {
      "epoch": 0.19078708741385564,
      "grad_norm": 0.16950151324272156,
      "learning_rate": 0.00018315093211213962,
      "loss": 0.2526,
      "step": 526
    },
    {
      "epoch": 0.19114980050779834,
      "grad_norm": 0.13350321352481842,
      "learning_rate": 0.00018308734703683535,
      "loss": 0.2495,
      "step": 527
    },
    {
      "epoch": 0.191512513601741,
      "grad_norm": 0.14698749780654907,
      "learning_rate": 0.00018302365328962824,
      "loss": 0.2381,
      "step": 528
    },
    {
      "epoch": 0.19187522669568371,
      "grad_norm": 0.12897023558616638,
      "learning_rate": 0.0001829598509538249,
      "loss": 0.256,
      "step": 529
    },
    {
      "epoch": 0.19223793978962642,
      "grad_norm": 0.14562232792377472,
      "learning_rate": 0.0001828959401128739,
      "loss": 0.2607,
      "step": 530
    },
    {
      "epoch": 0.1926006528835691,
      "grad_norm": 0.13689380884170532,
      "learning_rate": 0.0001828319208503657,
      "loss": 0.2451,
      "step": 531
    },
    {
      "epoch": 0.1929633659775118,
      "grad_norm": 0.130660280585289,
      "learning_rate": 0.00018276779325003268,
      "loss": 0.2554,
      "step": 532
    },
    {
      "epoch": 0.1933260790714545,
      "grad_norm": 0.12638305127620697,
      "learning_rate": 0.00018270355739574877,
      "loss": 0.2496,
      "step": 533
    },
    {
      "epoch": 0.19368879216539717,
      "grad_norm": 0.14226087927818298,
      "learning_rate": 0.00018263921337152955,
      "loss": 0.2423,
      "step": 534
    },
    {
      "epoch": 0.19405150525933987,
      "grad_norm": 0.1410246342420578,
      "learning_rate": 0.00018257476126153218,
      "loss": 0.2721,
      "step": 535
    },
    {
      "epoch": 0.19441421835328254,
      "grad_norm": 0.1288328468799591,
      "learning_rate": 0.00018251020115005504,
      "loss": 0.2321,
      "step": 536
    },
    {
      "epoch": 0.19477693144722524,
      "grad_norm": 0.14098510146141052,
      "learning_rate": 0.0001824455331215378,
      "loss": 0.2467,
      "step": 537
    },
    {
      "epoch": 0.19513964454116794,
      "grad_norm": 0.13489827513694763,
      "learning_rate": 0.00018238075726056136,
      "loss": 0.2491,
      "step": 538
    },
    {
      "epoch": 0.19550235763511062,
      "grad_norm": 0.13195975124835968,
      "learning_rate": 0.00018231587365184754,
      "loss": 0.2443,
      "step": 539
    },
    {
      "epoch": 0.19586507072905332,
      "grad_norm": 0.1283298283815384,
      "learning_rate": 0.00018225088238025915,
      "loss": 0.2465,
      "step": 540
    },
    {
      "epoch": 0.19622778382299602,
      "grad_norm": 0.11871767789125443,
      "learning_rate": 0.00018218578353079988,
      "loss": 0.227,
      "step": 541
    },
    {
      "epoch": 0.1965904969169387,
      "grad_norm": 0.14271649718284607,
      "learning_rate": 0.00018212057718861396,
      "loss": 0.2734,
      "step": 542
    },
    {
      "epoch": 0.1969532100108814,
      "grad_norm": 0.14445483684539795,
      "learning_rate": 0.00018205526343898637,
      "loss": 0.2417,
      "step": 543
    },
    {
      "epoch": 0.1973159231048241,
      "grad_norm": 0.13704335689544678,
      "learning_rate": 0.00018198984236734246,
      "loss": 0.287,
      "step": 544
    },
    {
      "epoch": 0.19767863619876677,
      "grad_norm": 0.12846963107585907,
      "learning_rate": 0.00018192431405924804,
      "loss": 0.2448,
      "step": 545
    },
    {
      "epoch": 0.19804134929270947,
      "grad_norm": 0.14025187492370605,
      "learning_rate": 0.00018185867860040907,
      "loss": 0.2277,
      "step": 546
    },
    {
      "epoch": 0.19840406238665215,
      "grad_norm": 0.12117055058479309,
      "learning_rate": 0.00018179293607667178,
      "loss": 0.2434,
      "step": 547
    },
    {
      "epoch": 0.19876677548059485,
      "grad_norm": 0.1310604214668274,
      "learning_rate": 0.00018172708657402233,
      "loss": 0.2414,
      "step": 548
    },
    {
      "epoch": 0.19912948857453755,
      "grad_norm": 0.15536460280418396,
      "learning_rate": 0.00018166113017858683,
      "loss": 0.2608,
      "step": 549
    },
    {
      "epoch": 0.19949220166848022,
      "grad_norm": 0.1420615315437317,
      "learning_rate": 0.00018159506697663127,
      "loss": 0.269,
      "step": 550
    },
    {
      "epoch": 0.19985491476242292,
      "grad_norm": 0.13386112451553345,
      "learning_rate": 0.00018152889705456117,
      "loss": 0.2728,
      "step": 551
    },
    {
      "epoch": 0.20021762785636563,
      "grad_norm": 0.12435004115104675,
      "learning_rate": 0.00018146262049892185,
      "loss": 0.251,
      "step": 552
    },
    {
      "epoch": 0.2005803409503083,
      "grad_norm": 0.13267625868320465,
      "learning_rate": 0.00018139623739639788,
      "loss": 0.2844,
      "step": 553
    },
    {
      "epoch": 0.200943054044251,
      "grad_norm": 0.13061115145683289,
      "learning_rate": 0.00018132974783381336,
      "loss": 0.2287,
      "step": 554
    },
    {
      "epoch": 0.20130576713819368,
      "grad_norm": 0.13054601848125458,
      "learning_rate": 0.0001812631518981315,
      "loss": 0.237,
      "step": 555
    },
    {
      "epoch": 0.20166848023213638,
      "grad_norm": 0.1794627159833908,
      "learning_rate": 0.00018119644967645474,
      "loss": 0.2752,
      "step": 556
    },
    {
      "epoch": 0.20203119332607908,
      "grad_norm": 0.13099108636379242,
      "learning_rate": 0.00018112964125602447,
      "loss": 0.2514,
      "step": 557
    },
    {
      "epoch": 0.20239390642002175,
      "grad_norm": 0.13102415204048157,
      "learning_rate": 0.000181062726724221,
      "loss": 0.2428,
      "step": 558
    },
    {
      "epoch": 0.20275661951396445,
      "grad_norm": 0.13251091539859772,
      "learning_rate": 0.00018099570616856344,
      "loss": 0.2452,
      "step": 559
    },
    {
      "epoch": 0.20311933260790715,
      "grad_norm": 0.12863093614578247,
      "learning_rate": 0.00018092857967670956,
      "loss": 0.256,
      "step": 560
    },
    {
      "epoch": 0.20348204570184983,
      "grad_norm": 0.13334688544273376,
      "learning_rate": 0.00018086134733645565,
      "loss": 0.2608,
      "step": 561
    },
    {
      "epoch": 0.20384475879579253,
      "grad_norm": 0.15378229320049286,
      "learning_rate": 0.00018079400923573652,
      "loss": 0.2416,
      "step": 562
    },
    {
      "epoch": 0.20420747188973523,
      "grad_norm": 0.1594190150499344,
      "learning_rate": 0.00018072656546262524,
      "loss": 0.2526,
      "step": 563
    },
    {
      "epoch": 0.2045701849836779,
      "grad_norm": 0.13872471451759338,
      "learning_rate": 0.00018065901610533306,
      "loss": 0.2379,
      "step": 564
    },
    {
      "epoch": 0.2049328980776206,
      "grad_norm": 0.1253708302974701,
      "learning_rate": 0.0001805913612522095,
      "loss": 0.2352,
      "step": 565
    },
    {
      "epoch": 0.20529561117156328,
      "grad_norm": 0.13366468250751495,
      "learning_rate": 0.00018052360099174184,
      "loss": 0.2448,
      "step": 566
    },
    {
      "epoch": 0.20565832426550598,
      "grad_norm": 605528.9375,
      "learning_rate": 0.00018045573541255534,
      "loss": 0.2251,
      "step": 567
    },
    {
      "epoch": 0.20602103735944868,
      "grad_norm": 0.18479633331298828,
      "learning_rate": 0.00018038776460341303,
      "loss": 0.254,
      "step": 568
    },
    {
      "epoch": 0.20638375045339136,
      "grad_norm": 0.20463520288467407,
      "learning_rate": 0.0001803196886532155,
      "loss": 0.2328,
      "step": 569
    },
    {
      "epoch": 0.20674646354733406,
      "grad_norm": 0.1946071833372116,
      "learning_rate": 0.00018025150765100094,
      "loss": 0.2622,
      "step": 570
    },
    {
      "epoch": 0.20710917664127676,
      "grad_norm": 0.16838648915290833,
      "learning_rate": 0.00018018322168594485,
      "loss": 0.2712,
      "step": 571
    },
    {
      "epoch": 0.20747188973521943,
      "grad_norm": 0.20080481469631195,
      "learning_rate": 0.00018011483084736006,
      "loss": 0.2465,
      "step": 572
    },
    {
      "epoch": 0.20783460282916214,
      "grad_norm": 0.19547294080257416,
      "learning_rate": 0.00018004633522469656,
      "loss": 0.2829,
      "step": 573
    },
    {
      "epoch": 0.20819731592310484,
      "grad_norm": 0.14593558013439178,
      "learning_rate": 0.00017997773490754137,
      "loss": 0.2532,
      "step": 574
    },
    {
      "epoch": 0.2085600290170475,
      "grad_norm": 0.1449822634458542,
      "learning_rate": 0.00017990902998561855,
      "loss": 0.2528,
      "step": 575
    },
    {
      "epoch": 0.2089227421109902,
      "grad_norm": 0.14969614148139954,
      "learning_rate": 0.0001798402205487888,
      "loss": 0.2389,
      "step": 576
    },
    {
      "epoch": 0.20928545520493289,
      "grad_norm": 0.14283829927444458,
      "learning_rate": 0.00017977130668704965,
      "loss": 0.2337,
      "step": 577
    },
    {
      "epoch": 0.2096481682988756,
      "grad_norm": 0.1496269404888153,
      "learning_rate": 0.00017970228849053515,
      "loss": 0.259,
      "step": 578
    },
    {
      "epoch": 0.2100108813928183,
      "grad_norm": 0.13835981488227844,
      "learning_rate": 0.00017963316604951586,
      "loss": 0.2628,
      "step": 579
    },
    {
      "epoch": 0.21037359448676096,
      "grad_norm": 0.14784668385982513,
      "learning_rate": 0.0001795639394543986,
      "loss": 0.2488,
      "step": 580
    },
    {
      "epoch": 0.21073630758070366,
      "grad_norm": 0.13575692474842072,
      "learning_rate": 0.00017949460879572652,
      "loss": 0.2403,
      "step": 581
    },
    {
      "epoch": 0.21109902067464636,
      "grad_norm": 0.14234420657157898,
      "learning_rate": 0.00017942517416417878,
      "loss": 0.2649,
      "step": 582
    },
    {
      "epoch": 0.21146173376858904,
      "grad_norm": 0.13922925293445587,
      "learning_rate": 0.0001793556356505706,
      "loss": 0.2466,
      "step": 583
    },
    {
      "epoch": 0.21182444686253174,
      "grad_norm": 0.1288311779499054,
      "learning_rate": 0.00017928599334585306,
      "loss": 0.2314,
      "step": 584
    },
    {
      "epoch": 0.21218715995647444,
      "grad_norm": 0.12375061213970184,
      "learning_rate": 0.00017921624734111292,
      "loss": 0.2401,
      "step": 585
    },
    {
      "epoch": 0.21254987305041712,
      "grad_norm": 0.12890039384365082,
      "learning_rate": 0.0001791463977275727,
      "loss": 0.2416,
      "step": 586
    },
    {
      "epoch": 0.21291258614435982,
      "grad_norm": 0.13691289722919464,
      "learning_rate": 0.00017907644459659033,
      "loss": 0.2473,
      "step": 587
    },
    {
      "epoch": 0.2132752992383025,
      "grad_norm": 0.3051564693450928,
      "learning_rate": 0.0001790063880396591,
      "loss": 0.2464,
      "step": 588
    },
    {
      "epoch": 0.2136380123322452,
      "grad_norm": 0.13991987705230713,
      "learning_rate": 0.00017893622814840773,
      "loss": 0.2526,
      "step": 589
    },
    {
      "epoch": 0.2140007254261879,
      "grad_norm": 0.12774237990379333,
      "learning_rate": 0.00017886596501459992,
      "loss": 0.2375,
      "step": 590
    },
    {
      "epoch": 0.21436343852013057,
      "grad_norm": 0.13759708404541016,
      "learning_rate": 0.00017879559873013452,
      "loss": 0.2248,
      "step": 591
    },
    {
      "epoch": 0.21472615161407327,
      "grad_norm": 0.13571417331695557,
      "learning_rate": 0.00017872512938704523,
      "loss": 0.2612,
      "step": 592
    },
    {
      "epoch": 0.21508886470801597,
      "grad_norm": 0.1446496546268463,
      "learning_rate": 0.00017865455707750063,
      "loss": 0.2466,
      "step": 593
    },
    {
      "epoch": 0.21545157780195864,
      "grad_norm": 0.12743471562862396,
      "learning_rate": 0.00017858388189380387,
      "loss": 0.2681,
      "step": 594
    },
    {
      "epoch": 0.21581429089590135,
      "grad_norm": 0.1251528263092041,
      "learning_rate": 0.00017851310392839266,
      "loss": 0.246,
      "step": 595
    },
    {
      "epoch": 0.21617700398984405,
      "grad_norm": 0.12966857850551605,
      "learning_rate": 0.0001784422232738392,
      "loss": 0.2293,
      "step": 596
    },
    {
      "epoch": 0.21653971708378672,
      "grad_norm": 0.14909860491752625,
      "learning_rate": 0.00017837124002285,
      "loss": 0.2577,
      "step": 597
    },
    {
      "epoch": 0.21690243017772942,
      "grad_norm": 0.136635884642601,
      "learning_rate": 0.00017830015426826567,
      "loss": 0.262,
      "step": 598
    },
    {
      "epoch": 0.2172651432716721,
      "grad_norm": 0.13285911083221436,
      "learning_rate": 0.000178228966103061,
      "loss": 0.2598,
      "step": 599
    },
    {
      "epoch": 0.2176278563656148,
      "grad_norm": 0.13522981107234955,
      "learning_rate": 0.00017815767562034463,
      "loss": 0.2469,
      "step": 600
    },
    {
      "epoch": 0.2179905694595575,
      "grad_norm": 0.13613048195838928,
      "learning_rate": 0.00017808628291335912,
      "loss": 0.2519,
      "step": 601
    },
    {
      "epoch": 0.21835328255350017,
      "grad_norm": 0.14597558975219727,
      "learning_rate": 0.00017801478807548063,
      "loss": 0.2651,
      "step": 602
    },
    {
      "epoch": 0.21871599564744287,
      "grad_norm": 0.13757093250751495,
      "learning_rate": 0.00017794319120021895,
      "loss": 0.2593,
      "step": 603
    },
    {
      "epoch": 0.21907870874138557,
      "grad_norm": 0.13094554841518402,
      "learning_rate": 0.00017787149238121733,
      "loss": 0.2546,
      "step": 604
    },
    {
      "epoch": 0.21944142183532825,
      "grad_norm": 125.78084564208984,
      "learning_rate": 0.00017779969171225236,
      "loss": 0.2456,
      "step": 605
    },
    {
      "epoch": 0.21980413492927095,
      "grad_norm": 0.15768976509571075,
      "learning_rate": 0.00017772778928723383,
      "loss": 0.2412,
      "step": 606
    },
    {
      "epoch": 0.22016684802321365,
      "grad_norm": 0.19074760377407074,
      "learning_rate": 0.00017765578520020459,
      "loss": 0.2699,
      "step": 607
    },
    {
      "epoch": 0.22052956111715633,
      "grad_norm": 0.1577846109867096,
      "learning_rate": 0.0001775836795453405,
      "loss": 0.2737,
      "step": 608
    },
    {
      "epoch": 0.22089227421109903,
      "grad_norm": 0.153973788022995,
      "learning_rate": 0.00017751147241695025,
      "loss": 0.2336,
      "step": 609
    },
    {
      "epoch": 0.2212549873050417,
      "grad_norm": 0.16625823080539703,
      "learning_rate": 0.0001774391639094753,
      "loss": 0.248,
      "step": 610
    },
    {
      "epoch": 0.2216177003989844,
      "grad_norm": 0.17917267978191376,
      "learning_rate": 0.00017736675411748955,
      "loss": 0.2559,
      "step": 611
    },
    {
      "epoch": 0.2219804134929271,
      "grad_norm": 0.15878534317016602,
      "learning_rate": 0.00017729424313569955,
      "loss": 0.249,
      "step": 612
    },
    {
      "epoch": 0.22234312658686978,
      "grad_norm": 0.1509985774755478,
      "learning_rate": 0.00017722163105894412,
      "loss": 0.2607,
      "step": 613
    },
    {
      "epoch": 0.22270583968081248,
      "grad_norm": 0.13934160768985748,
      "learning_rate": 0.0001771489179821943,
      "loss": 0.2377,
      "step": 614
    },
    {
      "epoch": 0.22306855277475518,
      "grad_norm": 0.1717095524072647,
      "learning_rate": 0.00017707610400055323,
      "loss": 0.2554,
      "step": 615
    },
    {
      "epoch": 0.22343126586869785,
      "grad_norm": 0.13818614184856415,
      "learning_rate": 0.00017700318920925605,
      "loss": 0.2748,
      "step": 616
    },
    {
      "epoch": 0.22379397896264056,
      "grad_norm": 0.12828463315963745,
      "learning_rate": 0.00017693017370366972,
      "loss": 0.2398,
      "step": 617
    },
    {
      "epoch": 0.22415669205658323,
      "grad_norm": 0.13687558472156525,
      "learning_rate": 0.00017685705757929294,
      "loss": 0.2735,
      "step": 618
    },
    {
      "epoch": 0.22451940515052593,
      "grad_norm": 0.1353394091129303,
      "learning_rate": 0.00017678384093175605,
      "loss": 0.2428,
      "step": 619
    },
    {
      "epoch": 0.22488211824446863,
      "grad_norm": 0.1443159580230713,
      "learning_rate": 0.00017671052385682078,
      "loss": 0.2566,
      "step": 620
    },
    {
      "epoch": 0.2252448313384113,
      "grad_norm": 0.14144475758075714,
      "learning_rate": 0.00017663710645038035,
      "loss": 0.2482,
      "step": 621
    },
    {
      "epoch": 0.225607544432354,
      "grad_norm": 0.14739158749580383,
      "learning_rate": 0.000176563588808459,
      "loss": 0.253,
      "step": 622
    },
    {
      "epoch": 0.2259702575262967,
      "grad_norm": 0.14374294877052307,
      "learning_rate": 0.0001764899710272123,
      "loss": 0.2394,
      "step": 623
    },
    {
      "epoch": 0.22633297062023938,
      "grad_norm": 0.14988651871681213,
      "learning_rate": 0.00017641625320292663,
      "loss": 0.2953,
      "step": 624
    },
    {
      "epoch": 0.22669568371418208,
      "grad_norm": 0.1295817494392395,
      "learning_rate": 0.00017634243543201926,
      "loss": 0.2177,
      "step": 625
    },
    {
      "epoch": 0.22705839680812478,
      "grad_norm": 0.13908831775188446,
      "learning_rate": 0.0001762685178110382,
      "loss": 0.2348,
      "step": 626
    },
    {
      "epoch": 0.22742110990206746,
      "grad_norm": 0.12676572799682617,
      "learning_rate": 0.0001761945004366621,
      "loss": 0.2347,
      "step": 627
    },
    {
      "epoch": 0.22778382299601016,
      "grad_norm": 0.12473898380994797,
      "learning_rate": 0.00017612038340569997,
      "loss": 0.2161,
      "step": 628
    },
    {
      "epoch": 0.22814653608995283,
      "grad_norm": 0.12910184264183044,
      "learning_rate": 0.00017604616681509127,
      "loss": 0.2476,
      "step": 629
    },
    {
      "epoch": 0.22850924918389554,
      "grad_norm": 0.1438639611005783,
      "learning_rate": 0.0001759718507619056,
      "loss": 0.2464,
      "step": 630
    },
    {
      "epoch": 0.22887196227783824,
      "grad_norm": 0.1412367820739746,
      "learning_rate": 0.00017589743534334273,
      "loss": 0.2475,
      "step": 631
    },
    {
      "epoch": 0.2292346753717809,
      "grad_norm": 0.13323849439620972,
      "learning_rate": 0.00017582292065673226,
      "loss": 0.2352,
      "step": 632
    },
    {
      "epoch": 0.2295973884657236,
      "grad_norm": 0.13439258933067322,
      "learning_rate": 0.0001757483067995338,
      "loss": 0.3278,
      "step": 633
    },
    {
      "epoch": 0.2299601015596663,
      "grad_norm": 0.1343153417110443,
      "learning_rate": 0.0001756735938693365,
      "loss": 0.2419,
      "step": 634
    },
    {
      "epoch": 0.230322814653609,
      "grad_norm": 0.12620678544044495,
      "learning_rate": 0.0001755987819638592,
      "loss": 0.2428,
      "step": 635
    },
    {
      "epoch": 0.2306855277475517,
      "grad_norm": 0.1367313414812088,
      "learning_rate": 0.00017552387118095015,
      "loss": 0.2501,
      "step": 636
    },
    {
      "epoch": 0.2310482408414944,
      "grad_norm": 0.14542607963085175,
      "learning_rate": 0.00017544886161858695,
      "loss": 0.2838,
      "step": 637
    },
    {
      "epoch": 0.23141095393543706,
      "grad_norm": 0.13652457296848297,
      "learning_rate": 0.0001753737533748763,
      "loss": 0.2328,
      "step": 638
    },
    {
      "epoch": 0.23177366702937977,
      "grad_norm": 0.13839620351791382,
      "learning_rate": 0.00017529854654805416,
      "loss": 0.2479,
      "step": 639
    },
    {
      "epoch": 0.23213638012332244,
      "grad_norm": 0.1453743427991867,
      "learning_rate": 0.00017522324123648525,
      "loss": 0.2267,
      "step": 640
    },
    {
      "epoch": 0.23249909321726514,
      "grad_norm": 0.1310967206954956,
      "learning_rate": 0.0001751478375386632,
      "loss": 0.2194,
      "step": 641
    },
    {
      "epoch": 0.23286180631120784,
      "grad_norm": 0.13854770362377167,
      "learning_rate": 0.00017507233555321024,
      "loss": 0.2447,
      "step": 642
    },
    {
      "epoch": 0.23322451940515052,
      "grad_norm": 0.12980610132217407,
      "learning_rate": 0.00017499673537887722,
      "loss": 0.2391,
      "step": 643
    },
    {
      "epoch": 0.23358723249909322,
      "grad_norm": 0.12693443894386292,
      "learning_rate": 0.0001749210371145434,
      "loss": 0.2267,
      "step": 644
    },
    {
      "epoch": 0.23394994559303592,
      "grad_norm": 0.13409999012947083,
      "learning_rate": 0.00017484524085921633,
      "loss": 0.2464,
      "step": 645
    },
    {
      "epoch": 0.2343126586869786,
      "grad_norm": 0.1421654224395752,
      "learning_rate": 0.0001747693467120317,
      "loss": 0.2544,
      "step": 646
    },
    {
      "epoch": 0.2346753717809213,
      "grad_norm": 0.13795344531536102,
      "learning_rate": 0.00017469335477225326,
      "loss": 0.2368,
      "step": 647
    },
    {
      "epoch": 0.235038084874864,
      "grad_norm": 0.14090494811534882,
      "learning_rate": 0.0001746172651392727,
      "loss": 0.2414,
      "step": 648
    },
    {
      "epoch": 0.23540079796880667,
      "grad_norm": 0.13511234521865845,
      "learning_rate": 0.0001745410779126094,
      "loss": 0.2548,
      "step": 649
    },
    {
      "epoch": 0.23576351106274937,
      "grad_norm": 0.12285248935222626,
      "learning_rate": 0.00017446479319191047,
      "loss": 0.2211,
      "step": 650
    },
    {
      "epoch": 0.23612622415669204,
      "grad_norm": 0.13343022763729095,
      "learning_rate": 0.00017438841107695046,
      "loss": 0.2848,
      "step": 651
    },
    {
      "epoch": 0.23648893725063475,
      "grad_norm": 0.1315213143825531,
      "learning_rate": 0.00017431193166763138,
      "loss": 0.2493,
      "step": 652
    },
    {
      "epoch": 0.23685165034457745,
      "grad_norm": 0.13958190381526947,
      "learning_rate": 0.0001742353550639824,
      "loss": 0.3001,
      "step": 653
    },
    {
      "epoch": 0.23721436343852012,
      "grad_norm": 0.13711069524288177,
      "learning_rate": 0.00017415868136615994,
      "loss": 0.249,
      "step": 654
    },
    {
      "epoch": 0.23757707653246282,
      "grad_norm": 0.13686099648475647,
      "learning_rate": 0.0001740819106744473,
      "loss": 0.2493,
      "step": 655
    },
    {
      "epoch": 0.23793978962640552,
      "grad_norm": 0.14648962020874023,
      "learning_rate": 0.00017400504308925468,
      "loss": 0.2368,
      "step": 656
    },
    {
      "epoch": 0.2383025027203482,
      "grad_norm": 0.13652493059635162,
      "learning_rate": 0.000173928078711119,
      "loss": 0.2198,
      "step": 657
    },
    {
      "epoch": 0.2386652158142909,
      "grad_norm": 0.13376450538635254,
      "learning_rate": 0.00017385101764070383,
      "loss": 0.2388,
      "step": 658
    },
    {
      "epoch": 0.2390279289082336,
      "grad_norm": 0.13941293954849243,
      "learning_rate": 0.00017377385997879911,
      "loss": 0.2465,
      "step": 659
    },
    {
      "epoch": 0.23939064200217627,
      "grad_norm": 0.13455533981323242,
      "learning_rate": 0.0001736966058263212,
      "loss": 0.2366,
      "step": 660
    },
    {
      "epoch": 0.23975335509611898,
      "grad_norm": 0.1292707622051239,
      "learning_rate": 0.00017361925528431262,
      "loss": 0.2234,
      "step": 661
    },
    {
      "epoch": 0.24011606819006165,
      "grad_norm": 0.14742062985897064,
      "learning_rate": 0.00017354180845394196,
      "loss": 0.2498,
      "step": 662
    },
    {
      "epoch": 0.24047878128400435,
      "grad_norm": 0.14243729412555695,
      "learning_rate": 0.00017346426543650377,
      "loss": 0.249,
      "step": 663
    },
    {
      "epoch": 0.24084149437794705,
      "grad_norm": 0.12824714183807373,
      "learning_rate": 0.00017338662633341844,
      "loss": 0.2407,
      "step": 664
    },
    {
      "epoch": 0.24120420747188973,
      "grad_norm": 0.13394343852996826,
      "learning_rate": 0.00017330889124623187,
      "loss": 0.2375,
      "step": 665
    },
    {
      "epoch": 0.24156692056583243,
      "grad_norm": 0.13167209923267365,
      "learning_rate": 0.0001732310602766157,
      "loss": 0.2201,
      "step": 666
    },
    {
      "epoch": 0.24192963365977513,
      "grad_norm": 0.14167827367782593,
      "learning_rate": 0.0001731531335263669,
      "loss": 0.2351,
      "step": 667
    },
    {
      "epoch": 0.2422923467537178,
      "grad_norm": 0.13489162921905518,
      "learning_rate": 0.0001730751110974077,
      "loss": 0.2298,
      "step": 668
    },
    {
      "epoch": 0.2426550598476605,
      "grad_norm": 0.1397753804922104,
      "learning_rate": 0.0001729969930917854,
      "loss": 0.2408,
      "step": 669
    },
    {
      "epoch": 0.2430177729416032,
      "grad_norm": 0.1405513882637024,
      "learning_rate": 0.00017291877961167251,
      "loss": 0.2098,
      "step": 670
    },
    {
      "epoch": 0.24338048603554588,
      "grad_norm": 0.17330865561962128,
      "learning_rate": 0.00017284047075936617,
      "loss": 0.2655,
      "step": 671
    },
    {
      "epoch": 0.24374319912948858,
      "grad_norm": 0.1363557130098343,
      "learning_rate": 0.00017276206663728846,
      "loss": 0.2611,
      "step": 672
    },
    {
      "epoch": 0.24410591222343125,
      "grad_norm": 0.1307671070098877,
      "learning_rate": 0.00017268356734798595,
      "loss": 0.2198,
      "step": 673
    },
    {
      "epoch": 0.24446862531737396,
      "grad_norm": 0.1409989595413208,
      "learning_rate": 0.0001726049729941297,
      "loss": 0.2404,
      "step": 674
    },
    {
      "epoch": 0.24483133841131666,
      "grad_norm": 0.136042058467865,
      "learning_rate": 0.00017252628367851513,
      "loss": 0.2537,
      "step": 675
    },
    {
      "epoch": 0.24519405150525933,
      "grad_norm": 0.1308341771364212,
      "learning_rate": 0.00017244749950406186,
      "loss": 0.2296,
      "step": 676
    },
    {
      "epoch": 0.24555676459920203,
      "grad_norm": 0.14312215149402618,
      "learning_rate": 0.00017236862057381358,
      "loss": 0.2414,
      "step": 677
    },
    {
      "epoch": 0.24591947769314473,
      "grad_norm": 0.14419759809970856,
      "learning_rate": 0.0001722896469909379,
      "loss": 0.2353,
      "step": 678
    },
    {
      "epoch": 0.2462821907870874,
      "grad_norm": 0.13765071332454681,
      "learning_rate": 0.0001722105788587262,
      "loss": 0.2317,
      "step": 679
    },
    {
      "epoch": 0.2466449038810301,
      "grad_norm": 0.1362527757883072,
      "learning_rate": 0.0001721314162805936,
      "loss": 0.2201,
      "step": 680
    },
    {
      "epoch": 0.2470076169749728,
      "grad_norm": 0.13269595801830292,
      "learning_rate": 0.0001720521593600787,
      "loss": 0.2625,
      "step": 681
    },
    {
      "epoch": 0.24737033006891548,
      "grad_norm": 0.12634457647800446,
      "learning_rate": 0.0001719728082008435,
      "loss": 0.223,
      "step": 682
    },
    {
      "epoch": 0.24773304316285819,
      "grad_norm": 0.1394185721874237,
      "learning_rate": 0.00017189336290667325,
      "loss": 0.2418,
      "step": 683
    },
    {
      "epoch": 0.24809575625680086,
      "grad_norm": 0.14138251543045044,
      "learning_rate": 0.00017181382358147625,
      "loss": 0.2377,
      "step": 684
    },
    {
      "epoch": 0.24845846935074356,
      "grad_norm": 0.14079631865024567,
      "learning_rate": 0.00017173419032928398,
      "loss": 0.2207,
      "step": 685
    },
    {
      "epoch": 0.24882118244468626,
      "grad_norm": 0.1409912407398224,
      "learning_rate": 0.00017165446325425064,
      "loss": 0.2234,
      "step": 686
    },
    {
      "epoch": 0.24918389553862894,
      "grad_norm": 0.16069121658802032,
      "learning_rate": 0.00017157464246065306,
      "loss": 0.2661,
      "step": 687
    },
    {
      "epoch": 0.24954660863257164,
      "grad_norm": 0.14292632043361664,
      "learning_rate": 0.0001714947280528908,
      "loss": 0.2316,
      "step": 688
    },
    {
      "epoch": 0.24990932172651434,
      "grad_norm": 0.13920721411705017,
      "learning_rate": 0.0001714147201354858,
      "loss": 0.2432,
      "step": 689
    },
    {
      "epoch": 0.250272034820457,
      "grad_norm": 0.13971884548664093,
      "learning_rate": 0.0001713346188130823,
      "loss": 0.2281,
      "step": 690
    },
    {
      "epoch": 0.2506347479143997,
      "grad_norm": 0.15373115241527557,
      "learning_rate": 0.0001712544241904467,
      "loss": 0.2264,
      "step": 691
    },
    {
      "epoch": 0.2509974610083424,
      "grad_norm": 0.13534583151340485,
      "learning_rate": 0.00017117413637246748,
      "loss": 0.2263,
      "step": 692
    },
    {
      "epoch": 0.2513601741022851,
      "grad_norm": 0.14140291512012482,
      "learning_rate": 0.00017109375546415495,
      "loss": 0.24,
      "step": 693
    },
    {
      "epoch": 0.25172288719622776,
      "grad_norm": 0.1363680064678192,
      "learning_rate": 0.00017101328157064115,
      "loss": 0.2212,
      "step": 694
    },
    {
      "epoch": 0.25208560029017046,
      "grad_norm": 0.13761445879936218,
      "learning_rate": 0.00017093271479717986,
      "loss": 0.2368,
      "step": 695
    },
    {
      "epoch": 0.25244831338411317,
      "grad_norm": 0.13729073107242584,
      "learning_rate": 0.0001708520552491462,
      "loss": 0.2403,
      "step": 696
    },
    {
      "epoch": 0.25281102647805587,
      "grad_norm": 0.13290317356586456,
      "learning_rate": 0.00017077130303203673,
      "loss": 0.2234,
      "step": 697
    },
    {
      "epoch": 0.25317373957199857,
      "grad_norm": 0.14121422171592712,
      "learning_rate": 0.0001706904582514692,
      "loss": 0.2289,
      "step": 698
    },
    {
      "epoch": 0.2535364526659412,
      "grad_norm": 0.1334342509508133,
      "learning_rate": 0.0001706095210131824,
      "loss": 0.2333,
      "step": 699
    },
    {
      "epoch": 0.2538991657598839,
      "grad_norm": 0.13697004318237305,
      "learning_rate": 0.00017052849142303603,
      "loss": 0.2244,
      "step": 700
    },
    {
      "epoch": 0.2542618788538266,
      "grad_norm": 0.14427930116653442,
      "learning_rate": 0.00017044736958701058,
      "loss": 0.2731,
      "step": 701
    },
    {
      "epoch": 0.2546245919477693,
      "grad_norm": 0.14478136599063873,
      "learning_rate": 0.00017036615561120727,
      "loss": 0.2432,
      "step": 702
    },
    {
      "epoch": 0.254987305041712,
      "grad_norm": 0.1374034285545349,
      "learning_rate": 0.0001702848496018478,
      "loss": 0.217,
      "step": 703
    },
    {
      "epoch": 0.2553500181356547,
      "grad_norm": 0.14599081873893738,
      "learning_rate": 0.00017020345166527412,
      "loss": 0.241,
      "step": 704
    },
    {
      "epoch": 0.25571273122959737,
      "grad_norm": 0.13574494421482086,
      "learning_rate": 0.00017012196190794858,
      "loss": 0.2329,
      "step": 705
    },
    {
      "epoch": 0.25607544432354007,
      "grad_norm": 0.1376832127571106,
      "learning_rate": 0.00017004038043645357,
      "loss": 0.252,
      "step": 706
    },
    {
      "epoch": 0.25643815741748277,
      "grad_norm": 0.13819095492362976,
      "learning_rate": 0.00016995870735749138,
      "loss": 0.2547,
      "step": 707
    },
    {
      "epoch": 0.25680087051142547,
      "grad_norm": 0.12175976485013962,
      "learning_rate": 0.00016987694277788417,
      "loss": 0.2058,
      "step": 708
    },
    {
      "epoch": 0.2571635836053682,
      "grad_norm": 0.13914383947849274,
      "learning_rate": 0.0001697950868045738,
      "loss": 0.2311,
      "step": 709
    },
    {
      "epoch": 0.2575262966993108,
      "grad_norm": 0.1349351704120636,
      "learning_rate": 0.00016971313954462156,
      "loss": 0.2203,
      "step": 710
    },
    {
      "epoch": 0.2578890097932535,
      "grad_norm": 0.1311430037021637,
      "learning_rate": 0.00016963110110520827,
      "loss": 0.242,
      "step": 711
    },
    {
      "epoch": 0.2582517228871962,
      "grad_norm": 0.13092203438282013,
      "learning_rate": 0.0001695489715936339,
      "loss": 0.25,
      "step": 712
    },
    {
      "epoch": 0.2586144359811389,
      "grad_norm": 0.13544927537441254,
      "learning_rate": 0.00016946675111731766,
      "loss": 0.2263,
      "step": 713
    },
    {
      "epoch": 0.2589771490750816,
      "grad_norm": 0.13862383365631104,
      "learning_rate": 0.00016938443978379753,
      "loss": 0.2404,
      "step": 714
    },
    {
      "epoch": 0.2593398621690243,
      "grad_norm": 0.14725641906261444,
      "learning_rate": 0.00016930203770073053,
      "loss": 0.2482,
      "step": 715
    },
    {
      "epoch": 0.259702575262967,
      "grad_norm": 0.13641703128814697,
      "learning_rate": 0.00016921954497589226,
      "loss": 0.2431,
      "step": 716
    },
    {
      "epoch": 0.2600652883569097,
      "grad_norm": 0.1381891518831253,
      "learning_rate": 0.00016913696171717688,
      "loss": 0.2321,
      "step": 717
    },
    {
      "epoch": 0.2604280014508524,
      "grad_norm": 0.14194577932357788,
      "learning_rate": 0.000169054288032597,
      "loss": 0.2907,
      "step": 718
    },
    {
      "epoch": 0.2607907145447951,
      "grad_norm": 0.14137552678585052,
      "learning_rate": 0.00016897152403028357,
      "loss": 0.2205,
      "step": 719
    },
    {
      "epoch": 0.2611534276387378,
      "grad_norm": 0.12619373202323914,
      "learning_rate": 0.00016888866981848544,
      "loss": 0.2097,
      "step": 720
    },
    {
      "epoch": 0.2615161407326804,
      "grad_norm": 0.15918751060962677,
      "learning_rate": 0.0001688057255055697,
      "loss": 0.2578,
      "step": 721
    },
    {
      "epoch": 0.2618788538266231,
      "grad_norm": 0.13455507159233093,
      "learning_rate": 0.00016872269120002108,
      "loss": 0.2676,
      "step": 722
    },
    {
      "epoch": 0.2622415669205658,
      "grad_norm": 0.14259149134159088,
      "learning_rate": 0.0001686395670104422,
      "loss": 0.2176,
      "step": 723
    },
    {
      "epoch": 0.26260428001450853,
      "grad_norm": 0.13362933695316315,
      "learning_rate": 0.0001685563530455531,
      "loss": 0.2167,
      "step": 724
    },
    {
      "epoch": 0.26296699310845123,
      "grad_norm": 0.13542160391807556,
      "learning_rate": 0.00016847304941419128,
      "loss": 0.2288,
      "step": 725
    },
    {
      "epoch": 0.26332970620239393,
      "grad_norm": 0.15378214418888092,
      "learning_rate": 0.00016838965622531157,
      "loss": 0.287,
      "step": 726
    },
    {
      "epoch": 0.2636924192963366,
      "grad_norm": 0.1565556526184082,
      "learning_rate": 0.00016830617358798587,
      "loss": 0.2692,
      "step": 727
    },
    {
      "epoch": 0.2640551323902793,
      "grad_norm": 0.14884917438030243,
      "learning_rate": 0.0001682226016114031,
      "loss": 0.2368,
      "step": 728
    },
    {
      "epoch": 0.264417845484222,
      "grad_norm": 0.13870306313037872,
      "learning_rate": 0.000168138940404869,
      "loss": 0.2356,
      "step": 729
    },
    {
      "epoch": 0.2647805585781647,
      "grad_norm": 0.15050628781318665,
      "learning_rate": 0.00016805519007780602,
      "loss": 0.2524,
      "step": 730
    },
    {
      "epoch": 0.2651432716721074,
      "grad_norm": 0.1477731466293335,
      "learning_rate": 0.00016797135073975326,
      "loss": 0.2184,
      "step": 731
    },
    {
      "epoch": 0.26550598476605003,
      "grad_norm": 0.1533484160900116,
      "learning_rate": 0.0001678874225003661,
      "loss": 0.2301,
      "step": 732
    },
    {
      "epoch": 0.26586869785999273,
      "grad_norm": 0.14348532259464264,
      "learning_rate": 0.0001678034054694163,
      "loss": 0.2397,
      "step": 733
    },
    {
      "epoch": 0.26623141095393543,
      "grad_norm": 0.14960677921772003,
      "learning_rate": 0.0001677192997567917,
      "loss": 0.2244,
      "step": 734
    },
    {
      "epoch": 0.26659412404787813,
      "grad_norm": 0.15019361674785614,
      "learning_rate": 0.00016763510547249615,
      "loss": 0.2466,
      "step": 735
    },
    {
      "epoch": 0.26695683714182084,
      "grad_norm": 0.14875197410583496,
      "learning_rate": 0.00016755082272664937,
      "loss": 0.2106,
      "step": 736
    },
    {
      "epoch": 0.26731955023576354,
      "grad_norm": 0.14142164587974548,
      "learning_rate": 0.00016746645162948672,
      "loss": 0.2387,
      "step": 737
    },
    {
      "epoch": 0.2676822633297062,
      "grad_norm": 0.16096633672714233,
      "learning_rate": 0.0001673819922913592,
      "loss": 0.2346,
      "step": 738
    },
    {
      "epoch": 0.2680449764236489,
      "grad_norm": 0.15639543533325195,
      "learning_rate": 0.0001672974448227331,
      "loss": 0.2839,
      "step": 739
    },
    {
      "epoch": 0.2684076895175916,
      "grad_norm": 0.1443796008825302,
      "learning_rate": 0.0001672128093341901,
      "loss": 0.2314,
      "step": 740
    },
    {
      "epoch": 0.2687704026115343,
      "grad_norm": 0.15442712604999542,
      "learning_rate": 0.00016712808593642695,
      "loss": 0.2299,
      "step": 741
    },
    {
      "epoch": 0.269133115705477,
      "grad_norm": 0.14457674324512482,
      "learning_rate": 0.00016704327474025533,
      "loss": 0.2526,
      "step": 742
    },
    {
      "epoch": 0.26949582879941963,
      "grad_norm": 0.14981432259082794,
      "learning_rate": 0.00016695837585660187,
      "loss": 0.2288,
      "step": 743
    },
    {
      "epoch": 0.26985854189336234,
      "grad_norm": 0.1518179178237915,
      "learning_rate": 0.00016687338939650782,
      "loss": 0.2264,
      "step": 744
    },
    {
      "epoch": 0.27022125498730504,
      "grad_norm": 0.16115126013755798,
      "learning_rate": 0.00016678831547112895,
      "loss": 0.2533,
      "step": 745
    },
    {
      "epoch": 0.27058396808124774,
      "grad_norm": 0.1538068801164627,
      "learning_rate": 0.00016670315419173548,
      "loss": 0.2429,
      "step": 746
    },
    {
      "epoch": 0.27094668117519044,
      "grad_norm": 0.1365380436182022,
      "learning_rate": 0.00016661790566971181,
      "loss": 0.2222,
      "step": 747
    },
    {
      "epoch": 0.27130939426913314,
      "grad_norm": 0.14484576880931854,
      "learning_rate": 0.00016653257001655652,
      "loss": 0.2197,
      "step": 748
    },
    {
      "epoch": 0.2716721073630758,
      "grad_norm": 0.16303595900535583,
      "learning_rate": 0.00016644714734388217,
      "loss": 0.253,
      "step": 749
    },
    {
      "epoch": 0.2720348204570185,
      "grad_norm": 0.14876610040664673,
      "learning_rate": 0.00016636163776341504,
      "loss": 0.2205,
      "step": 750
    },
    {
      "epoch": 0.2723975335509612,
      "grad_norm": 0.13568569719791412,
      "learning_rate": 0.00016627604138699515,
      "loss": 0.2251,
      "step": 751
    },
    {
      "epoch": 0.2727602466449039,
      "grad_norm": 0.14528821408748627,
      "learning_rate": 0.00016619035832657602,
      "loss": 0.2346,
      "step": 752
    },
    {
      "epoch": 0.2731229597388466,
      "grad_norm": 0.13951005041599274,
      "learning_rate": 0.0001661045886942245,
      "loss": 0.2311,
      "step": 753
    },
    {
      "epoch": 0.27348567283278924,
      "grad_norm": 0.1355544924736023,
      "learning_rate": 0.0001660187326021208,
      "loss": 0.2235,
      "step": 754
    },
    {
      "epoch": 0.27384838592673194,
      "grad_norm": 0.14282123744487762,
      "learning_rate": 0.00016593279016255806,
      "loss": 0.211,
      "step": 755
    },
    {
      "epoch": 0.27421109902067464,
      "grad_norm": 0.1680796593427658,
      "learning_rate": 0.0001658467614879425,
      "loss": 0.2518,
      "step": 756
    },
    {
      "epoch": 0.27457381211461734,
      "grad_norm": 0.15991435945034027,
      "learning_rate": 0.00016576064669079297,
      "loss": 0.2419,
      "step": 757
    },
    {
      "epoch": 0.27493652520856005,
      "grad_norm": 0.1730770766735077,
      "learning_rate": 0.0001656744458837411,
      "loss": 0.257,
      "step": 758
    },
    {
      "epoch": 0.27529923830250275,
      "grad_norm": 0.1453644037246704,
      "learning_rate": 0.00016558815917953095,
      "loss": 0.2532,
      "step": 759
    },
    {
      "epoch": 0.2756619513964454,
      "grad_norm": 0.1334659457206726,
      "learning_rate": 0.00016550178669101891,
      "loss": 0.2098,
      "step": 760
    },
    {
      "epoch": 0.2760246644903881,
      "grad_norm": 0.13118910789489746,
      "learning_rate": 0.00016541532853117365,
      "loss": 0.214,
      "step": 761
    },
    {
      "epoch": 0.2763873775843308,
      "grad_norm": 0.14156754314899445,
      "learning_rate": 0.0001653287848130758,
      "loss": 0.2434,
      "step": 762
    },
    {
      "epoch": 0.2767500906782735,
      "grad_norm": 0.16743269562721252,
      "learning_rate": 0.0001652421556499179,
      "loss": 0.2692,
      "step": 763
    },
    {
      "epoch": 0.2771128037722162,
      "grad_norm": 0.16182062029838562,
      "learning_rate": 0.0001651554411550044,
      "loss": 0.2194,
      "step": 764
    },
    {
      "epoch": 0.27747551686615884,
      "grad_norm": 0.14829173684120178,
      "learning_rate": 0.0001650686414417511,
      "loss": 0.2444,
      "step": 765
    },
    {
      "epoch": 0.27783822996010155,
      "grad_norm": 0.14184747636318207,
      "learning_rate": 0.00016498175662368544,
      "loss": 0.2275,
      "step": 766
    },
    {
      "epoch": 0.27820094305404425,
      "grad_norm": 0.14175622165203094,
      "learning_rate": 0.00016489478681444615,
      "loss": 0.2368,
      "step": 767
    },
    {
      "epoch": 0.27856365614798695,
      "grad_norm": 0.14495515823364258,
      "learning_rate": 0.0001648077321277831,
      "loss": 0.2087,
      "step": 768
    },
    {
      "epoch": 0.27892636924192965,
      "grad_norm": 0.14581428468227386,
      "learning_rate": 0.0001647205926775571,
      "loss": 0.2339,
      "step": 769
    },
    {
      "epoch": 0.27928908233587235,
      "grad_norm": 0.16971313953399658,
      "learning_rate": 0.00016463336857773996,
      "loss": 0.2564,
      "step": 770
    },
    {
      "epoch": 0.279651795429815,
      "grad_norm": 0.16059347987174988,
      "learning_rate": 0.00016454605994241413,
      "loss": 0.2495,
      "step": 771
    },
    {
      "epoch": 0.2800145085237577,
      "grad_norm": 0.13135506212711334,
      "learning_rate": 0.00016445866688577268,
      "loss": 0.221,
      "step": 772
    },
    {
      "epoch": 0.2803772216177004,
      "grad_norm": 0.14712165296077728,
      "learning_rate": 0.00016437118952211893,
      "loss": 0.232,
      "step": 773
    },
    {
      "epoch": 0.2807399347116431,
      "grad_norm": 0.1340080052614212,
      "learning_rate": 0.00016428362796586668,
      "loss": 0.2134,
      "step": 774
    },
    {
      "epoch": 0.2811026478055858,
      "grad_norm": 0.1442837119102478,
      "learning_rate": 0.00016419598233153977,
      "loss": 0.2507,
      "step": 775
    },
    {
      "epoch": 0.28146536089952845,
      "grad_norm": 0.1472170352935791,
      "learning_rate": 0.00016410825273377192,
      "loss": 0.2053,
      "step": 776
    },
    {
      "epoch": 0.28182807399347115,
      "grad_norm": 0.16951750218868256,
      "learning_rate": 0.0001640204392873068,
      "loss": 0.2226,
      "step": 777
    },
    {
      "epoch": 0.28219078708741385,
      "grad_norm": 0.1475476771593094,
      "learning_rate": 0.00016393254210699765,
      "loss": 0.2255,
      "step": 778
    },
    {
      "epoch": 0.28255350018135655,
      "grad_norm": 0.1399717628955841,
      "learning_rate": 0.00016384456130780732,
      "loss": 0.2296,
      "step": 779
    },
    {
      "epoch": 0.28291621327529926,
      "grad_norm": 0.15422862768173218,
      "learning_rate": 0.00016375649700480792,
      "loss": 0.2549,
      "step": 780
    },
    {
      "epoch": 0.28327892636924196,
      "grad_norm": 0.14808495342731476,
      "learning_rate": 0.0001636683493131809,
      "loss": 0.2125,
      "step": 781
    },
    {
      "epoch": 0.2836416394631846,
      "grad_norm": 0.13389019668102264,
      "learning_rate": 0.00016358011834821662,
      "loss": 0.2216,
      "step": 782
    },
    {
      "epoch": 0.2840043525571273,
      "grad_norm": 0.14201773703098297,
      "learning_rate": 0.0001634918042253145,
      "loss": 0.2257,
      "step": 783
    },
    {
      "epoch": 0.28436706565107,
      "grad_norm": 0.16533806920051575,
      "learning_rate": 0.00016340340705998265,
      "loss": 0.2245,
      "step": 784
    },
    {
      "epoch": 0.2847297787450127,
      "grad_norm": 0.15893639624118805,
      "learning_rate": 0.0001633149269678378,
      "loss": 0.2175,
      "step": 785
    },
    {
      "epoch": 0.2850924918389554,
      "grad_norm": 0.1425047069787979,
      "learning_rate": 0.0001632263640646052,
      "loss": 0.252,
      "step": 786
    },
    {
      "epoch": 0.28545520493289805,
      "grad_norm": 0.15391702950000763,
      "learning_rate": 0.00016313771846611827,
      "loss": 0.2222,
      "step": 787
    },
    {
      "epoch": 0.28581791802684076,
      "grad_norm": 132164.875,
      "learning_rate": 0.00016304899028831874,
      "loss": 0.2179,
      "step": 788
    },
    {
      "epoch": 0.28618063112078346,
      "grad_norm": 0.1637081801891327,
      "learning_rate": 0.00016296017964725632,
      "loss": 0.2205,
      "step": 789
    },
    {
      "epoch": 0.28654334421472616,
      "grad_norm": 0.20489241182804108,
      "learning_rate": 0.0001628712866590885,
      "loss": 0.2479,
      "step": 790
    },
    {
      "epoch": 0.28690605730866886,
      "grad_norm": 0.17106997966766357,
      "learning_rate": 0.00016278231144008053,
      "loss": 0.227,
      "step": 791
    },
    {
      "epoch": 0.28726877040261156,
      "grad_norm": 0.16591399908065796,
      "learning_rate": 0.00016269325410660517,
      "loss": 0.2001,
      "step": 792
    },
    {
      "epoch": 0.2876314834965542,
      "grad_norm": 0.17908765375614166,
      "learning_rate": 0.00016260411477514265,
      "loss": 0.2311,
      "step": 793
    },
    {
      "epoch": 0.2879941965904969,
      "grad_norm": 0.2103756070137024,
      "learning_rate": 0.00016251489356228037,
      "loss": 0.251,
      "step": 794
    },
    {
      "epoch": 0.2883569096844396,
      "grad_norm": 0.1727806031703949,
      "learning_rate": 0.00016242559058471292,
      "loss": 0.2193,
      "step": 795
    },
    {
      "epoch": 0.2887196227783823,
      "grad_norm": 0.15671540796756744,
      "learning_rate": 0.0001623362059592417,
      "loss": 0.2462,
      "step": 796
    },
    {
      "epoch": 0.289082335872325,
      "grad_norm": 0.14824596047401428,
      "learning_rate": 0.00016224673980277503,
      "loss": 0.2235,
      "step": 797
    },
    {
      "epoch": 0.28944504896626766,
      "grad_norm": 0.15403501689434052,
      "learning_rate": 0.00016215719223232778,
      "loss": 0.2644,
      "step": 798
    },
    {
      "epoch": 0.28980776206021036,
      "grad_norm": 0.15009653568267822,
      "learning_rate": 0.0001620675633650213,
      "loss": 0.243,
      "step": 799
    },
    {
      "epoch": 0.29017047515415306,
      "grad_norm": 0.16066166758537292,
      "learning_rate": 0.0001619778533180834,
      "loss": 0.2171,
      "step": 800
    },
    {
      "epoch": 0.29053318824809576,
      "grad_norm": 0.15927597880363464,
      "learning_rate": 0.00016188806220884786,
      "loss": 0.217,
      "step": 801
    },
    {
      "epoch": 0.29089590134203847,
      "grad_norm": 0.14611735939979553,
      "learning_rate": 0.00016179819015475465,
      "loss": 0.2204,
      "step": 802
    },
    {
      "epoch": 0.2912586144359811,
      "grad_norm": 0.14521051943302155,
      "learning_rate": 0.00016170823727334956,
      "loss": 0.1962,
      "step": 803
    },
    {
      "epoch": 0.2916213275299238,
      "grad_norm": 0.1608162224292755,
      "learning_rate": 0.00016161820368228402,
      "loss": 0.2263,
      "step": 804
    },
    {
      "epoch": 0.2919840406238665,
      "grad_norm": 0.1577100157737732,
      "learning_rate": 0.00016152808949931516,
      "loss": 0.2208,
      "step": 805
    },
    {
      "epoch": 0.2923467537178092,
      "grad_norm": 0.15033476054668427,
      "learning_rate": 0.00016143789484230543,
      "loss": 0.215,
      "step": 806
    },
    {
      "epoch": 0.2927094668117519,
      "grad_norm": 0.14740067720413208,
      "learning_rate": 0.00016134761982922253,
      "loss": 0.2042,
      "step": 807
    },
    {
      "epoch": 0.2930721799056946,
      "grad_norm": 0.15068073570728302,
      "learning_rate": 0.0001612572645781393,
      "loss": 0.2221,
      "step": 808
    },
    {
      "epoch": 0.29343489299963726,
      "grad_norm": 0.17142775654792786,
      "learning_rate": 0.00016116682920723352,
      "loss": 0.2142,
      "step": 809
    },
    {
      "epoch": 0.29379760609357997,
      "grad_norm": 0.15067829191684723,
      "learning_rate": 0.0001610763138347877,
      "loss": 0.2225,
      "step": 810
    },
    {
      "epoch": 0.29416031918752267,
      "grad_norm": 0.1574852466583252,
      "learning_rate": 0.0001609857185791891,
      "loss": 0.2106,
      "step": 811
    },
    {
      "epoch": 0.29452303228146537,
      "grad_norm": 0.17060889303684235,
      "learning_rate": 0.00016089504355892931,
      "loss": 0.233,
      "step": 812
    },
    {
      "epoch": 0.29488574537540807,
      "grad_norm": 0.14020898938179016,
      "learning_rate": 0.0001608042888926044,
      "loss": 0.2162,
      "step": 813
    },
    {
      "epoch": 0.2952484584693507,
      "grad_norm": 0.1367609053850174,
      "learning_rate": 0.0001607134546989145,
      "loss": 0.2224,
      "step": 814
    },
    {
      "epoch": 0.2956111715632934,
      "grad_norm": 0.14028465747833252,
      "learning_rate": 0.0001606225410966638,
      "loss": 0.2237,
      "step": 815
    },
    {
      "epoch": 0.2959738846572361,
      "grad_norm": 0.13773570954799652,
      "learning_rate": 0.00016053154820476037,
      "loss": 0.224,
      "step": 816
    },
    {
      "epoch": 0.2963365977511788,
      "grad_norm": 0.14603252708911896,
      "learning_rate": 0.000160440476142216,
      "loss": 0.217,
      "step": 817
    },
    {
      "epoch": 0.2966993108451215,
      "grad_norm": 0.15531830489635468,
      "learning_rate": 0.00016034932502814587,
      "loss": 0.2137,
      "step": 818
    },
    {
      "epoch": 0.2970620239390642,
      "grad_norm": 0.15454085171222687,
      "learning_rate": 0.00016025809498176874,
      "loss": 0.2244,
      "step": 819
    },
    {
      "epoch": 0.29742473703300687,
      "grad_norm": 0.1548180729150772,
      "learning_rate": 0.0001601667861224066,
      "loss": 0.2517,
      "step": 820
    },
    {
      "epoch": 0.29778745012694957,
      "grad_norm": 0.1498357206583023,
      "learning_rate": 0.00016007539856948436,
      "loss": 0.2512,
      "step": 821
    },
    {
      "epoch": 0.2981501632208923,
      "grad_norm": 0.1419772207736969,
      "learning_rate": 0.00015998393244253002,
      "loss": 0.2067,
      "step": 822
    },
    {
      "epoch": 0.298512876314835,
      "grad_norm": 0.14814653992652893,
      "learning_rate": 0.0001598923878611743,
      "loss": 0.2293,
      "step": 823
    },
    {
      "epoch": 0.2988755894087777,
      "grad_norm": 0.15222403407096863,
      "learning_rate": 0.00015980076494515047,
      "loss": 0.2247,
      "step": 824
    },
    {
      "epoch": 0.2992383025027203,
      "grad_norm": 0.1679450124502182,
      "learning_rate": 0.0001597090638142943,
      "loss": 0.2631,
      "step": 825
    },
    {
      "epoch": 0.299601015596663,
      "grad_norm": 0.14880560338497162,
      "learning_rate": 0.00015961728458854397,
      "loss": 0.2069,
      "step": 826
    },
    {
      "epoch": 0.2999637286906057,
      "grad_norm": 0.14599819481372833,
      "learning_rate": 0.00015952542738793956,
      "loss": 0.226,
      "step": 827
    },
    {
      "epoch": 0.3003264417845484,
      "grad_norm": 0.14673501253128052,
      "learning_rate": 0.00015943349233262332,
      "loss": 0.2131,
      "step": 828
    },
    {
      "epoch": 0.3006891548784911,
      "grad_norm": 0.1625213623046875,
      "learning_rate": 0.00015934147954283932,
      "loss": 0.2289,
      "step": 829
    },
    {
      "epoch": 0.30105186797243383,
      "grad_norm": 0.15041042864322662,
      "learning_rate": 0.00015924938913893324,
      "loss": 0.2217,
      "step": 830
    },
    {
      "epoch": 0.3014145810663765,
      "grad_norm": 0.14617730677127838,
      "learning_rate": 0.00015915722124135227,
      "loss": 0.2396,
      "step": 831
    },
    {
      "epoch": 0.3017772941603192,
      "grad_norm": 0.15437570214271545,
      "learning_rate": 0.00015906497597064495,
      "loss": 0.2434,
      "step": 832
    },
    {
      "epoch": 0.3021400072542619,
      "grad_norm": 0.146324023604393,
      "learning_rate": 0.00015897265344746113,
      "loss": 0.2621,
      "step": 833
    },
    {
      "epoch": 0.3025027203482046,
      "grad_norm": 0.15348979830741882,
      "learning_rate": 0.00015888025379255156,
      "loss": 0.2198,
      "step": 834
    },
    {
      "epoch": 0.3028654334421473,
      "grad_norm": 0.14553911983966827,
      "learning_rate": 0.00015878777712676796,
      "loss": 0.2168,
      "step": 835
    },
    {
      "epoch": 0.3032281465360899,
      "grad_norm": 0.15064238011837006,
      "learning_rate": 0.00015869522357106272,
      "loss": 0.2381,
      "step": 836
    },
    {
      "epoch": 0.30359085963003263,
      "grad_norm": 0.1429353505373001,
      "learning_rate": 0.00015860259324648886,
      "loss": 0.2444,
      "step": 837
    },
    {
      "epoch": 0.30395357272397533,
      "grad_norm": 0.14742977917194366,
      "learning_rate": 0.00015850988627419968,
      "loss": 0.2112,
      "step": 838
    },
    {
      "epoch": 0.30431628581791803,
      "grad_norm": 0.14249765872955322,
      "learning_rate": 0.00015841710277544896,
      "loss": 0.2287,
      "step": 839
    },
    {
      "epoch": 0.30467899891186073,
      "grad_norm": 0.14514710009098053,
      "learning_rate": 0.00015832424287159027,
      "loss": 0.2229,
      "step": 840
    },
    {
      "epoch": 0.30504171200580343,
      "grad_norm": 0.15762075781822205,
      "learning_rate": 0.00015823130668407738,
      "loss": 0.212,
      "step": 841
    },
    {
      "epoch": 0.3054044250997461,
      "grad_norm": 0.16756275296211243,
      "learning_rate": 0.00015813829433446367,
      "loss": 0.2431,
      "step": 842
    },
    {
      "epoch": 0.3057671381936888,
      "grad_norm": 0.2156544029712677,
      "learning_rate": 0.00015804520594440223,
      "loss": 0.2045,
      "step": 843
    },
    {
      "epoch": 0.3061298512876315,
      "grad_norm": 0.18604739010334015,
      "learning_rate": 0.00015795204163564556,
      "loss": 0.2644,
      "step": 844
    },
    {
      "epoch": 0.3064925643815742,
      "grad_norm": 0.14301113784313202,
      "learning_rate": 0.0001578588015300454,
      "loss": 0.2114,
      "step": 845
    },
    {
      "epoch": 0.3068552774755169,
      "grad_norm": 0.14301526546478271,
      "learning_rate": 0.00015776548574955275,
      "loss": 0.2127,
      "step": 846
    },
    {
      "epoch": 0.30721799056945953,
      "grad_norm": 0.15024398267269135,
      "learning_rate": 0.0001576720944162175,
      "loss": 0.207,
      "step": 847
    },
    {
      "epoch": 0.30758070366340223,
      "grad_norm": 0.14672665297985077,
      "learning_rate": 0.00015757862765218838,
      "loss": 0.2112,
      "step": 848
    },
    {
      "epoch": 0.30794341675734493,
      "grad_norm": 0.177405446767807,
      "learning_rate": 0.00015748508557971276,
      "loss": 0.2248,
      "step": 849
    },
    {
      "epoch": 0.30830612985128764,
      "grad_norm": 0.16310465335845947,
      "learning_rate": 0.00015739146832113656,
      "loss": 0.2389,
      "step": 850
    },
    {
      "epoch": 0.30866884294523034,
      "grad_norm": 0.14648981392383575,
      "learning_rate": 0.00015729777599890395,
      "loss": 0.2159,
      "step": 851
    },
    {
      "epoch": 0.30903155603917304,
      "grad_norm": 0.1470453441143036,
      "learning_rate": 0.0001572040087355574,
      "loss": 0.2216,
      "step": 852
    },
    {
      "epoch": 0.3093942691331157,
      "grad_norm": 0.15409401059150696,
      "learning_rate": 0.00015711016665373727,
      "loss": 0.2497,
      "step": 853
    },
    {
      "epoch": 0.3097569822270584,
      "grad_norm": 0.16030748188495636,
      "learning_rate": 0.0001570162498761819,
      "loss": 0.2108,
      "step": 854
    },
    {
      "epoch": 0.3101196953210011,
      "grad_norm": 0.16415894031524658,
      "learning_rate": 0.00015692225852572715,
      "loss": 0.2297,
      "step": 855
    },
    {
      "epoch": 0.3104824084149438,
      "grad_norm": 0.1503467857837677,
      "learning_rate": 0.00015682819272530663,
      "loss": 0.1972,
      "step": 856
    },
    {
      "epoch": 0.3108451215088865,
      "grad_norm": 0.15261000394821167,
      "learning_rate": 0.00015673405259795118,
      "loss": 0.2296,
      "step": 857
    },
    {
      "epoch": 0.31120783460282914,
      "grad_norm": 0.15605837106704712,
      "learning_rate": 0.00015663983826678888,
      "loss": 0.2135,
      "step": 858
    },
    {
      "epoch": 0.31157054769677184,
      "grad_norm": 0.13954474031925201,
      "learning_rate": 0.0001565455498550449,
      "loss": 0.2064,
      "step": 859
    },
    {
      "epoch": 0.31193326079071454,
      "grad_norm": 0.14538753032684326,
      "learning_rate": 0.0001564511874860413,
      "loss": 0.2279,
      "step": 860
    },
    {
      "epoch": 0.31229597388465724,
      "grad_norm": 0.1461893618106842,
      "learning_rate": 0.00015635675128319683,
      "loss": 0.2203,
      "step": 861
    },
    {
      "epoch": 0.31265868697859994,
      "grad_norm": 0.14321376383304596,
      "learning_rate": 0.0001562622413700268,
      "loss": 0.2112,
      "step": 862
    },
    {
      "epoch": 0.31302140007254264,
      "grad_norm": 0.14480461180210114,
      "learning_rate": 0.00015616765787014302,
      "loss": 0.2182,
      "step": 863
    },
    {
      "epoch": 0.3133841131664853,
      "grad_norm": 0.16734722256660461,
      "learning_rate": 0.00015607300090725342,
      "loss": 0.2222,
      "step": 864
    },
    {
      "epoch": 0.313746826260428,
      "grad_norm": 0.14616838097572327,
      "learning_rate": 0.00015597827060516211,
      "loss": 0.2075,
      "step": 865
    },
    {
      "epoch": 0.3141095393543707,
      "grad_norm": 0.16457431018352509,
      "learning_rate": 0.00015588346708776904,
      "loss": 0.2271,
      "step": 866
    },
    {
      "epoch": 0.3144722524483134,
      "grad_norm": 0.16780099272727966,
      "learning_rate": 0.00015578859047907004,
      "loss": 0.2196,
      "step": 867
    },
    {
      "epoch": 0.3148349655422561,
      "grad_norm": 0.14990176260471344,
      "learning_rate": 0.00015569364090315646,
      "loss": 0.2162,
      "step": 868
    },
    {
      "epoch": 0.31519767863619874,
      "grad_norm": 0.1400328129529953,
      "learning_rate": 0.00015559861848421505,
      "loss": 0.2114,
      "step": 869
    },
    {
      "epoch": 0.31556039173014144,
      "grad_norm": 0.15837667882442474,
      "learning_rate": 0.00015550352334652788,
      "loss": 0.2755,
      "step": 870
    },
    {
      "epoch": 0.31592310482408414,
      "grad_norm": 0.14617806673049927,
      "learning_rate": 0.00015540835561447214,
      "loss": 0.2029,
      "step": 871
    },
    {
      "epoch": 0.31628581791802685,
      "grad_norm": 0.1634027361869812,
      "learning_rate": 0.00015531311541251995,
      "loss": 0.2451,
      "step": 872
    },
    {
      "epoch": 0.31664853101196955,
      "grad_norm": 0.17340759932994843,
      "learning_rate": 0.00015521780286523824,
      "loss": 0.2267,
      "step": 873
    },
    {
      "epoch": 0.31701124410591225,
      "grad_norm": 0.15501338243484497,
      "learning_rate": 0.0001551224180972885,
      "loss": 0.1988,
      "step": 874
    },
    {
      "epoch": 0.3173739571998549,
      "grad_norm": 0.15017758309841156,
      "learning_rate": 0.00015502696123342676,
      "loss": 0.211,
      "step": 875
    },
    {
      "epoch": 0.3177366702937976,
      "grad_norm": 0.15657378733158112,
      "learning_rate": 0.00015493143239850329,
      "loss": 0.2092,
      "step": 876
    },
    {
      "epoch": 0.3180993833877403,
      "grad_norm": 0.15220540761947632,
      "learning_rate": 0.00015483583171746248,
      "loss": 0.2413,
      "step": 877
    },
    {
      "epoch": 0.318462096481683,
      "grad_norm": 0.15332242846488953,
      "learning_rate": 0.00015474015931534276,
      "loss": 0.2333,
      "step": 878
    },
    {
      "epoch": 0.3188248095756257,
      "grad_norm": 0.14318165183067322,
      "learning_rate": 0.00015464441531727632,
      "loss": 0.2282,
      "step": 879
    },
    {
      "epoch": 0.31918752266956835,
      "grad_norm": 0.15234385430812836,
      "learning_rate": 0.00015454859984848895,
      "loss": 0.2092,
      "step": 880
    },
    {
      "epoch": 0.31955023576351105,
      "grad_norm": 0.15263251960277557,
      "learning_rate": 0.0001544527130343,
      "loss": 0.2142,
      "step": 881
    },
    {
      "epoch": 0.31991294885745375,
      "grad_norm": 0.1610080748796463,
      "learning_rate": 0.00015435675500012212,
      "loss": 0.2305,
      "step": 882
    },
    {
      "epoch": 0.32027566195139645,
      "grad_norm": 0.15507538616657257,
      "learning_rate": 0.00015426072587146106,
      "loss": 0.2316,
      "step": 883
    },
    {
      "epoch": 0.32063837504533915,
      "grad_norm": 0.16231822967529297,
      "learning_rate": 0.00015416462577391558,
      "loss": 0.2953,
      "step": 884
    },
    {
      "epoch": 0.32100108813928185,
      "grad_norm": 0.14619815349578857,
      "learning_rate": 0.00015406845483317727,
      "loss": 0.2335,
      "step": 885
    },
    {
      "epoch": 0.3213638012332245,
      "grad_norm": 0.15803977847099304,
      "learning_rate": 0.00015397221317503039,
      "loss": 0.212,
      "step": 886
    },
    {
      "epoch": 0.3217265143271672,
      "grad_norm": 0.148417666554451,
      "learning_rate": 0.00015387590092535164,
      "loss": 0.2063,
      "step": 887
    },
    {
      "epoch": 0.3220892274211099,
      "grad_norm": 0.1504986435174942,
      "learning_rate": 0.00015377951821011015,
      "loss": 0.2156,
      "step": 888
    },
    {
      "epoch": 0.3224519405150526,
      "grad_norm": 0.1552225649356842,
      "learning_rate": 0.00015368306515536708,
      "loss": 0.209,
      "step": 889
    },
    {
      "epoch": 0.3228146536089953,
      "grad_norm": 0.1671207845211029,
      "learning_rate": 0.00015358654188727568,
      "loss": 0.218,
      "step": 890
    },
    {
      "epoch": 0.32317736670293795,
      "grad_norm": 0.15497446060180664,
      "learning_rate": 0.00015348994853208104,
      "loss": 0.2239,
      "step": 891
    },
    {
      "epoch": 0.32354007979688065,
      "grad_norm": 0.16032548248767853,
      "learning_rate": 0.00015339328521611983,
      "loss": 0.2069,
      "step": 892
    },
    {
      "epoch": 0.32390279289082335,
      "grad_norm": 0.15629202127456665,
      "learning_rate": 0.00015329655206582036,
      "loss": 0.2262,
      "step": 893
    },
    {
      "epoch": 0.32426550598476606,
      "grad_norm": 0.15609470009803772,
      "learning_rate": 0.00015319974920770214,
      "loss": 0.2444,
      "step": 894
    },
    {
      "epoch": 0.32462821907870876,
      "grad_norm": 0.16244526207447052,
      "learning_rate": 0.00015310287676837593,
      "loss": 0.211,
      "step": 895
    },
    {
      "epoch": 0.32499093217265146,
      "grad_norm": 0.1519642472267151,
      "learning_rate": 0.00015300593487454348,
      "loss": 0.2091,
      "step": 896
    },
    {
      "epoch": 0.3253536452665941,
      "grad_norm": 0.1546807587146759,
      "learning_rate": 0.0001529089236529974,
      "loss": 0.2226,
      "step": 897
    },
    {
      "epoch": 0.3257163583605368,
      "grad_norm": 0.14414747059345245,
      "learning_rate": 0.00015281184323062097,
      "loss": 0.2259,
      "step": 898
    },
    {
      "epoch": 0.3260790714544795,
      "grad_norm": 0.1484064757823944,
      "learning_rate": 0.00015271469373438792,
      "loss": 0.2353,
      "step": 899
    },
    {
      "epoch": 0.3264417845484222,
      "grad_norm": 0.15261922776699066,
      "learning_rate": 0.00015261747529136236,
      "loss": 0.2094,
      "step": 900
    },
    {
      "epoch": 0.3268044976423649,
      "grad_norm": 0.16096492111682892,
      "learning_rate": 0.00015252018802869866,
      "loss": 0.2102,
      "step": 901
    },
    {
      "epoch": 0.32716721073630756,
      "grad_norm": 0.14988648891448975,
      "learning_rate": 0.00015242283207364107,
      "loss": 0.1933,
      "step": 902
    },
    {
      "epoch": 0.32752992383025026,
      "grad_norm": 0.16668923199176788,
      "learning_rate": 0.00015232540755352373,
      "loss": 0.2132,
      "step": 903
    },
    {
      "epoch": 0.32789263692419296,
      "grad_norm": 0.1562613993883133,
      "learning_rate": 0.00015222791459577051,
      "loss": 0.2174,
      "step": 904
    },
    {
      "epoch": 0.32825535001813566,
      "grad_norm": 0.15152856707572937,
      "learning_rate": 0.00015213035332789477,
      "loss": 0.2223,
      "step": 905
    },
    {
      "epoch": 0.32861806311207836,
      "grad_norm": 0.15007184445858002,
      "learning_rate": 0.00015203272387749915,
      "loss": 0.2184,
      "step": 906
    },
    {
      "epoch": 0.32898077620602106,
      "grad_norm": 0.1500440090894699,
      "learning_rate": 0.0001519350263722755,
      "loss": 0.2493,
      "step": 907
    },
    {
      "epoch": 0.3293434892999637,
      "grad_norm": 0.15756063163280487,
      "learning_rate": 0.00015183726094000476,
      "loss": 0.2112,
      "step": 908
    },
    {
      "epoch": 0.3297062023939064,
      "grad_norm": 0.15649868547916412,
      "learning_rate": 0.00015173942770855655,
      "loss": 0.2105,
      "step": 909
    },
    {
      "epoch": 0.3300689154878491,
      "grad_norm": 0.17396046221256256,
      "learning_rate": 0.00015164152680588938,
      "loss": 0.2092,
      "step": 910
    },
    {
      "epoch": 0.3304316285817918,
      "grad_norm": 0.15336064994335175,
      "learning_rate": 0.00015154355836005006,
      "loss": 0.2168,
      "step": 911
    },
    {
      "epoch": 0.3307943416757345,
      "grad_norm": 0.1463136523962021,
      "learning_rate": 0.00015144552249917386,
      "loss": 0.2175,
      "step": 912
    },
    {
      "epoch": 0.33115705476967716,
      "grad_norm": 0.14064238965511322,
      "learning_rate": 0.0001513474193514842,
      "loss": 0.2342,
      "step": 913
    },
    {
      "epoch": 0.33151976786361986,
      "grad_norm": 0.15353120863437653,
      "learning_rate": 0.00015124924904529253,
      "loss": 0.2269,
      "step": 914
    },
    {
      "epoch": 0.33188248095756256,
      "grad_norm": 0.1634497493505478,
      "learning_rate": 0.00015115101170899806,
      "loss": 0.2303,
      "step": 915
    },
    {
      "epoch": 0.33224519405150527,
      "grad_norm": 0.15802593529224396,
      "learning_rate": 0.00015105270747108778,
      "loss": 0.2181,
      "step": 916
    },
    {
      "epoch": 0.33260790714544797,
      "grad_norm": 0.16792048513889313,
      "learning_rate": 0.00015095433646013606,
      "loss": 0.2042,
      "step": 917
    },
    {
      "epoch": 0.33297062023939067,
      "grad_norm": 0.14907622337341309,
      "learning_rate": 0.0001508558988048047,
      "loss": 0.198,
      "step": 918
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.15107260644435883,
      "learning_rate": 0.00015075739463384267,
      "loss": 0.2103,
      "step": 919
    },
    {
      "epoch": 0.333696046427276,
      "grad_norm": 0.16222083568572998,
      "learning_rate": 0.00015065882407608582,
      "loss": 0.2267,
      "step": 920
    },
    {
      "epoch": 0.3340587595212187,
      "grad_norm": 0.14550422132015228,
      "learning_rate": 0.00015056018726045697,
      "loss": 0.2197,
      "step": 921
    },
    {
      "epoch": 0.3344214726151614,
      "grad_norm": 0.14713485538959503,
      "learning_rate": 0.00015046148431596554,
      "loss": 0.2261,
      "step": 922
    },
    {
      "epoch": 0.3347841857091041,
      "grad_norm": 0.15137678384780884,
      "learning_rate": 0.0001503627153717074,
      "loss": 0.2196,
      "step": 923
    },
    {
      "epoch": 0.33514689880304677,
      "grad_norm": 0.15455511212348938,
      "learning_rate": 0.00015026388055686485,
      "loss": 0.2111,
      "step": 924
    },
    {
      "epoch": 0.33550961189698947,
      "grad_norm": 0.15710324048995972,
      "learning_rate": 0.00015016498000070618,
      "loss": 0.2138,
      "step": 925
    },
    {
      "epoch": 0.33587232499093217,
      "grad_norm": 0.19984076917171478,
      "learning_rate": 0.00015006601383258584,
      "loss": 0.2264,
      "step": 926
    },
    {
      "epoch": 0.33623503808487487,
      "grad_norm": 0.15135234594345093,
      "learning_rate": 0.000149966982181944,
      "loss": 0.2121,
      "step": 927
    },
    {
      "epoch": 0.3365977511788176,
      "grad_norm": 0.14553037285804749,
      "learning_rate": 0.0001498678851783065,
      "loss": 0.2095,
      "step": 928
    },
    {
      "epoch": 0.3369604642727603,
      "grad_norm": 0.1508447229862213,
      "learning_rate": 0.00014976872295128463,
      "loss": 0.2377,
      "step": 929
    },
    {
      "epoch": 0.3373231773667029,
      "grad_norm": 0.15726783871650696,
      "learning_rate": 0.000149669495630575,
      "loss": 0.2453,
      "step": 930
    },
    {
      "epoch": 0.3376858904606456,
      "grad_norm": 0.1487269550561905,
      "learning_rate": 0.0001495702033459594,
      "loss": 0.1958,
      "step": 931
    },
    {
      "epoch": 0.3380486035545883,
      "grad_norm": 0.1618356555700302,
      "learning_rate": 0.00014947084622730453,
      "loss": 0.2061,
      "step": 932
    },
    {
      "epoch": 0.338411316648531,
      "grad_norm": 0.178387850522995,
      "learning_rate": 0.00014937142440456195,
      "loss": 0.2358,
      "step": 933
    },
    {
      "epoch": 0.3387740297424737,
      "grad_norm": 0.15690761804580688,
      "learning_rate": 0.00014927193800776776,
      "loss": 0.2077,
      "step": 934
    },
    {
      "epoch": 0.33913674283641637,
      "grad_norm": 0.15255998075008392,
      "learning_rate": 0.00014917238716704258,
      "loss": 0.214,
      "step": 935
    },
    {
      "epoch": 0.3394994559303591,
      "grad_norm": 0.15309607982635498,
      "learning_rate": 0.00014907277201259132,
      "loss": 0.2326,
      "step": 936
    },
    {
      "epoch": 0.3398621690243018,
      "grad_norm": 0.15764005482196808,
      "learning_rate": 0.00014897309267470295,
      "loss": 0.2096,
      "step": 937
    },
    {
      "epoch": 0.3402248821182445,
      "grad_norm": 0.15512487292289734,
      "learning_rate": 0.0001488733492837505,
      "loss": 0.2322,
      "step": 938
    },
    {
      "epoch": 0.3405875952121872,
      "grad_norm": 0.17276284098625183,
      "learning_rate": 0.00014877354197019064,
      "loss": 0.2217,
      "step": 939
    },
    {
      "epoch": 0.3409503083061299,
      "grad_norm": 0.16367502510547638,
      "learning_rate": 0.00014867367086456373,
      "loss": 0.2187,
      "step": 940
    },
    {
      "epoch": 0.3413130214000725,
      "grad_norm": 0.1784859150648117,
      "learning_rate": 0.0001485737360974936,
      "loss": 0.2339,
      "step": 941
    },
    {
      "epoch": 0.3416757344940152,
      "grad_norm": 0.15108786523342133,
      "learning_rate": 0.00014847373779968724,
      "loss": 0.207,
      "step": 942
    },
    {
      "epoch": 0.34203844758795793,
      "grad_norm": 0.15686751902103424,
      "learning_rate": 0.00014837367610193476,
      "loss": 0.2155,
      "step": 943
    },
    {
      "epoch": 0.34240116068190063,
      "grad_norm": 0.17520059645175934,
      "learning_rate": 0.00014827355113510927,
      "loss": 0.2185,
      "step": 944
    },
    {
      "epoch": 0.34276387377584333,
      "grad_norm": 0.14490067958831787,
      "learning_rate": 0.0001481733630301666,
      "loss": 0.2049,
      "step": 945
    },
    {
      "epoch": 0.343126586869786,
      "grad_norm": 0.15382413566112518,
      "learning_rate": 0.000148073111918145,
      "loss": 0.2061,
      "step": 946
    },
    {
      "epoch": 0.3434892999637287,
      "grad_norm": 0.15271534025669098,
      "learning_rate": 0.0001479727979301654,
      "loss": 0.2208,
      "step": 947
    },
    {
      "epoch": 0.3438520130576714,
      "grad_norm": 0.1692724972963333,
      "learning_rate": 0.0001478724211974308,
      "loss": 0.24,
      "step": 948
    },
    {
      "epoch": 0.3442147261516141,
      "grad_norm": 0.18430864810943604,
      "learning_rate": 0.0001477719818512263,
      "loss": 0.2347,
      "step": 949
    },
    {
      "epoch": 0.3445774392455568,
      "grad_norm": 0.16035676002502441,
      "learning_rate": 0.00014767148002291886,
      "loss": 0.229,
      "step": 950
    },
    {
      "epoch": 0.34494015233949943,
      "grad_norm": 0.14710398018360138,
      "learning_rate": 0.00014757091584395726,
      "loss": 0.2184,
      "step": 951
    },
    {
      "epoch": 0.34530286543344213,
      "grad_norm": 0.1524522453546524,
      "learning_rate": 0.00014747028944587167,
      "loss": 0.2067,
      "step": 952
    },
    {
      "epoch": 0.34566557852738483,
      "grad_norm": 0.1544627547264099,
      "learning_rate": 0.00014736960096027385,
      "loss": 0.1903,
      "step": 953
    },
    {
      "epoch": 0.34602829162132753,
      "grad_norm": 0.15999731421470642,
      "learning_rate": 0.00014726885051885653,
      "loss": 0.1956,
      "step": 954
    },
    {
      "epoch": 0.34639100471527023,
      "grad_norm": 0.16488391160964966,
      "learning_rate": 0.00014716803825339368,
      "loss": 0.227,
      "step": 955
    },
    {
      "epoch": 0.34675371780921294,
      "grad_norm": 0.1626642644405365,
      "learning_rate": 0.00014706716429573996,
      "loss": 0.2302,
      "step": 956
    },
    {
      "epoch": 0.3471164309031556,
      "grad_norm": 0.1589454710483551,
      "learning_rate": 0.00014696622877783088,
      "loss": 0.1998,
      "step": 957
    },
    {
      "epoch": 0.3474791439970983,
      "grad_norm": 0.17863640189170837,
      "learning_rate": 0.00014686523183168236,
      "loss": 0.2244,
      "step": 958
    },
    {
      "epoch": 0.347841857091041,
      "grad_norm": 0.15809310972690582,
      "learning_rate": 0.00014676417358939063,
      "loss": 0.2156,
      "step": 959
    },
    {
      "epoch": 0.3482045701849837,
      "grad_norm": 0.14684627950191498,
      "learning_rate": 0.00014666305418313224,
      "loss": 0.2037,
      "step": 960
    },
    {
      "epoch": 0.3485672832789264,
      "grad_norm": 0.14479795098304749,
      "learning_rate": 0.00014656187374516365,
      "loss": 0.1991,
      "step": 961
    },
    {
      "epoch": 0.34892999637286903,
      "grad_norm": 0.17033007740974426,
      "learning_rate": 0.00014646063240782105,
      "loss": 0.1991,
      "step": 962
    },
    {
      "epoch": 0.34929270946681173,
      "grad_norm": 0.1695454865694046,
      "learning_rate": 0.00014635933030352044,
      "loss": 0.2039,
      "step": 963
    },
    {
      "epoch": 0.34965542256075444,
      "grad_norm": 0.16838496923446655,
      "learning_rate": 0.00014625796756475724,
      "loss": 0.2111,
      "step": 964
    },
    {
      "epoch": 0.35001813565469714,
      "grad_norm": 0.16217052936553955,
      "learning_rate": 0.00014615654432410612,
      "loss": 0.2091,
      "step": 965
    },
    {
      "epoch": 0.35038084874863984,
      "grad_norm": 0.15333756804466248,
      "learning_rate": 0.00014605506071422103,
      "loss": 0.2225,
      "step": 966
    },
    {
      "epoch": 0.35074356184258254,
      "grad_norm": 0.15081751346588135,
      "learning_rate": 0.00014595351686783465,
      "loss": 0.2138,
      "step": 967
    },
    {
      "epoch": 0.3511062749365252,
      "grad_norm": 0.16661369800567627,
      "learning_rate": 0.00014585191291775868,
      "loss": 0.211,
      "step": 968
    },
    {
      "epoch": 0.3514689880304679,
      "grad_norm": 0.15592342615127563,
      "learning_rate": 0.00014575024899688324,
      "loss": 0.2069,
      "step": 969
    },
    {
      "epoch": 0.3518317011244106,
      "grad_norm": 0.15869508683681488,
      "learning_rate": 0.00014564852523817705,
      "loss": 0.1961,
      "step": 970
    },
    {
      "epoch": 0.3521944142183533,
      "grad_norm": 0.18337900936603546,
      "learning_rate": 0.00014554674177468695,
      "loss": 0.2039,
      "step": 971
    },
    {
      "epoch": 0.352557127312296,
      "grad_norm": 0.20202304422855377,
      "learning_rate": 0.00014544489873953803,
      "loss": 0.2344,
      "step": 972
    },
    {
      "epoch": 0.35291984040623864,
      "grad_norm": 0.1616135686635971,
      "learning_rate": 0.0001453429962659331,
      "loss": 0.2117,
      "step": 973
    },
    {
      "epoch": 0.35328255350018134,
      "grad_norm": 0.15346059203147888,
      "learning_rate": 0.00014524103448715283,
      "loss": 0.2235,
      "step": 974
    },
    {
      "epoch": 0.35364526659412404,
      "grad_norm": 0.148000568151474,
      "learning_rate": 0.00014513901353655547,
      "loss": 0.1944,
      "step": 975
    },
    {
      "epoch": 0.35400797968806674,
      "grad_norm": 0.15789712965488434,
      "learning_rate": 0.00014503693354757667,
      "loss": 0.2139,
      "step": 976
    },
    {
      "epoch": 0.35437069278200944,
      "grad_norm": 0.16983194649219513,
      "learning_rate": 0.00014493479465372912,
      "loss": 0.2122,
      "step": 977
    },
    {
      "epoch": 0.35473340587595215,
      "grad_norm": 0.19161252677440643,
      "learning_rate": 0.0001448325969886028,
      "loss": 0.2799,
      "step": 978
    },
    {
      "epoch": 0.3550961189698948,
      "grad_norm": 0.16653449833393097,
      "learning_rate": 0.00014473034068586445,
      "loss": 0.2166,
      "step": 979
    },
    {
      "epoch": 0.3554588320638375,
      "grad_norm": 0.1566229611635208,
      "learning_rate": 0.00014462802587925742,
      "loss": 0.2104,
      "step": 980
    },
    {
      "epoch": 0.3558215451577802,
      "grad_norm": 0.15640553832054138,
      "learning_rate": 0.00014452565270260177,
      "loss": 0.1979,
      "step": 981
    },
    {
      "epoch": 0.3561842582517229,
      "grad_norm": 0.15835930407047272,
      "learning_rate": 0.00014442322128979372,
      "loss": 0.2412,
      "step": 982
    },
    {
      "epoch": 0.3565469713456656,
      "grad_norm": 0.172097310423851,
      "learning_rate": 0.00014432073177480576,
      "loss": 0.2146,
      "step": 983
    },
    {
      "epoch": 0.35690968443960824,
      "grad_norm": 0.1693415641784668,
      "learning_rate": 0.00014421818429168634,
      "loss": 0.2408,
      "step": 984
    },
    {
      "epoch": 0.35727239753355094,
      "grad_norm": 0.15985938906669617,
      "learning_rate": 0.00014411557897455973,
      "loss": 0.2167,
      "step": 985
    },
    {
      "epoch": 0.35763511062749365,
      "grad_norm": 0.16702041029930115,
      "learning_rate": 0.00014401291595762586,
      "loss": 0.2062,
      "step": 986
    },
    {
      "epoch": 0.35799782372143635,
      "grad_norm": 0.16588671505451202,
      "learning_rate": 0.00014391019537516006,
      "loss": 0.2023,
      "step": 987
    },
    {
      "epoch": 0.35836053681537905,
      "grad_norm": 0.15971873700618744,
      "learning_rate": 0.0001438074173615131,
      "loss": 0.2162,
      "step": 988
    },
    {
      "epoch": 0.35872324990932175,
      "grad_norm": 0.1973976194858551,
      "learning_rate": 0.0001437045820511107,
      "loss": 0.2135,
      "step": 989
    },
    {
      "epoch": 0.3590859630032644,
      "grad_norm": 0.1852118968963623,
      "learning_rate": 0.00014360168957845362,
      "loss": 0.2161,
      "step": 990
    },
    {
      "epoch": 0.3594486760972071,
      "grad_norm": 0.15597601234912872,
      "learning_rate": 0.00014349874007811735,
      "loss": 0.2053,
      "step": 991
    },
    {
      "epoch": 0.3598113891911498,
      "grad_norm": 0.16251103579998016,
      "learning_rate": 0.00014339573368475197,
      "loss": 0.2122,
      "step": 992
    },
    {
      "epoch": 0.3601741022850925,
      "grad_norm": 0.1582382768392563,
      "learning_rate": 0.00014329267053308194,
      "loss": 0.2175,
      "step": 993
    },
    {
      "epoch": 0.3605368153790352,
      "grad_norm": 0.15138986706733704,
      "learning_rate": 0.00014318955075790605,
      "loss": 0.201,
      "step": 994
    },
    {
      "epoch": 0.36089952847297785,
      "grad_norm": 0.16074247658252716,
      "learning_rate": 0.00014308637449409706,
      "loss": 0.2281,
      "step": 995
    },
    {
      "epoch": 0.36126224156692055,
      "grad_norm": 0.153158500790596,
      "learning_rate": 0.00014298314187660162,
      "loss": 0.1925,
      "step": 996
    },
    {
      "epoch": 0.36162495466086325,
      "grad_norm": 0.17264969646930695,
      "learning_rate": 0.00014287985304044015,
      "loss": 0.2069,
      "step": 997
    },
    {
      "epoch": 0.36198766775480595,
      "grad_norm": 0.18429549038410187,
      "learning_rate": 0.0001427765081207065,
      "loss": 0.2185,
      "step": 998
    },
    {
      "epoch": 0.36235038084874865,
      "grad_norm": 0.1758868545293808,
      "learning_rate": 0.000142673107252568,
      "loss": 0.2432,
      "step": 999
    },
    {
      "epoch": 0.36271309394269136,
      "grad_norm": 0.15705294907093048,
      "learning_rate": 0.00014256965057126504,
      "loss": 0.1986,
      "step": 1000
    },
    {
      "epoch": 0.363075807036634,
      "grad_norm": 0.1507769376039505,
      "learning_rate": 0.00014246613821211108,
      "loss": 0.1876,
      "step": 1001
    },
    {
      "epoch": 0.3634385201305767,
      "grad_norm": 0.17133677005767822,
      "learning_rate": 0.00014236257031049232,
      "loss": 0.209,
      "step": 1002
    },
    {
      "epoch": 0.3638012332245194,
      "grad_norm": 0.15936224162578583,
      "learning_rate": 0.00014225894700186774,
      "loss": 0.1974,
      "step": 1003
    },
    {
      "epoch": 0.3641639463184621,
      "grad_norm": 0.19848595559597015,
      "learning_rate": 0.00014215526842176868,
      "loss": 0.2218,
      "step": 1004
    },
    {
      "epoch": 0.3645266594124048,
      "grad_norm": 0.17126554250717163,
      "learning_rate": 0.00014205153470579882,
      "loss": 0.2229,
      "step": 1005
    },
    {
      "epoch": 0.36488937250634745,
      "grad_norm": 0.15903635323047638,
      "learning_rate": 0.0001419477459896339,
      "loss": 0.2127,
      "step": 1006
    },
    {
      "epoch": 0.36525208560029016,
      "grad_norm": 0.16994720697402954,
      "learning_rate": 0.00014184390240902167,
      "loss": 0.2289,
      "step": 1007
    },
    {
      "epoch": 0.36561479869423286,
      "grad_norm": 0.17226669192314148,
      "learning_rate": 0.00014174000409978156,
      "loss": 0.2147,
      "step": 1008
    },
    {
      "epoch": 0.36597751178817556,
      "grad_norm": 0.1492406278848648,
      "learning_rate": 0.00014163605119780467,
      "loss": 0.2087,
      "step": 1009
    },
    {
      "epoch": 0.36634022488211826,
      "grad_norm": 0.16116073727607727,
      "learning_rate": 0.00014153204383905344,
      "loss": 0.2176,
      "step": 1010
    },
    {
      "epoch": 0.36670293797606096,
      "grad_norm": 0.16366463899612427,
      "learning_rate": 0.00014142798215956148,
      "loss": 0.1925,
      "step": 1011
    },
    {
      "epoch": 0.3670656510700036,
      "grad_norm": 0.15476755797863007,
      "learning_rate": 0.00014132386629543364,
      "loss": 0.1994,
      "step": 1012
    },
    {
      "epoch": 0.3674283641639463,
      "grad_norm": 0.16290143132209778,
      "learning_rate": 0.00014121969638284542,
      "loss": 0.2131,
      "step": 1013
    },
    {
      "epoch": 0.367791077257889,
      "grad_norm": 0.15869063138961792,
      "learning_rate": 0.00014111547255804316,
      "loss": 0.1889,
      "step": 1014
    },
    {
      "epoch": 0.3681537903518317,
      "grad_norm": 0.1735077053308487,
      "learning_rate": 0.00014101119495734364,
      "loss": 0.2261,
      "step": 1015
    },
    {
      "epoch": 0.3685165034457744,
      "grad_norm": 0.16333554685115814,
      "learning_rate": 0.00014090686371713402,
      "loss": 0.2247,
      "step": 1016
    },
    {
      "epoch": 0.36887921653971706,
      "grad_norm": 0.18004798889160156,
      "learning_rate": 0.00014080247897387156,
      "loss": 0.2334,
      "step": 1017
    },
    {
      "epoch": 0.36924192963365976,
      "grad_norm": 0.16508519649505615,
      "learning_rate": 0.0001406980408640835,
      "loss": 0.1995,
      "step": 1018
    },
    {
      "epoch": 0.36960464272760246,
      "grad_norm": 0.1622190773487091,
      "learning_rate": 0.00014059354952436698,
      "loss": 0.2003,
      "step": 1019
    },
    {
      "epoch": 0.36996735582154516,
      "grad_norm": 0.16706664860248566,
      "learning_rate": 0.00014048900509138867,
      "loss": 0.219,
      "step": 1020
    },
    {
      "epoch": 0.37033006891548786,
      "grad_norm": 0.1640990823507309,
      "learning_rate": 0.00014038440770188467,
      "loss": 0.2018,
      "step": 1021
    },
    {
      "epoch": 0.37069278200943057,
      "grad_norm": 0.17155148088932037,
      "learning_rate": 0.0001402797574926604,
      "loss": 0.2234,
      "step": 1022
    },
    {
      "epoch": 0.3710554951033732,
      "grad_norm": 0.1780928671360016,
      "learning_rate": 0.00014017505460059036,
      "loss": 0.2346,
      "step": 1023
    },
    {
      "epoch": 0.3714182081973159,
      "grad_norm": 0.1557503193616867,
      "learning_rate": 0.0001400702991626179,
      "loss": 0.1969,
      "step": 1024
    },
    {
      "epoch": 0.3717809212912586,
      "grad_norm": 0.14212948083877563,
      "learning_rate": 0.00013996549131575515,
      "loss": 0.1883,
      "step": 1025
    },
    {
      "epoch": 0.3721436343852013,
      "grad_norm": 0.16952791810035706,
      "learning_rate": 0.00013986063119708275,
      "loss": 0.2157,
      "step": 1026
    },
    {
      "epoch": 0.372506347479144,
      "grad_norm": 0.16988742351531982,
      "learning_rate": 0.00013975571894374973,
      "loss": 0.2103,
      "step": 1027
    },
    {
      "epoch": 0.37286906057308666,
      "grad_norm": 0.16801071166992188,
      "learning_rate": 0.00013965075469297332,
      "loss": 0.2094,
      "step": 1028
    },
    {
      "epoch": 0.37323177366702937,
      "grad_norm": 0.19034814834594727,
      "learning_rate": 0.00013954573858203874,
      "loss": 0.2444,
      "step": 1029
    },
    {
      "epoch": 0.37359448676097207,
      "grad_norm": 0.15771815180778503,
      "learning_rate": 0.000139440670748299,
      "loss": 0.1987,
      "step": 1030
    },
    {
      "epoch": 0.37395719985491477,
      "grad_norm": 0.1528027504682541,
      "learning_rate": 0.00013933555132917487,
      "loss": 0.2138,
      "step": 1031
    },
    {
      "epoch": 0.37431991294885747,
      "grad_norm": 0.16030389070510864,
      "learning_rate": 0.00013923038046215446,
      "loss": 0.2057,
      "step": 1032
    },
    {
      "epoch": 0.37468262604280017,
      "grad_norm": 0.1645725667476654,
      "learning_rate": 0.0001391251582847932,
      "loss": 0.1957,
      "step": 1033
    },
    {
      "epoch": 0.3750453391367428,
      "grad_norm": 0.17184780538082123,
      "learning_rate": 0.0001390198849347138,
      "loss": 0.2244,
      "step": 1034
    },
    {
      "epoch": 0.3754080522306855,
      "grad_norm": 0.16507604718208313,
      "learning_rate": 0.00013891456054960564,
      "loss": 0.2126,
      "step": 1035
    },
    {
      "epoch": 0.3757707653246282,
      "grad_norm": 0.15355214476585388,
      "learning_rate": 0.00013880918526722497,
      "loss": 0.1853,
      "step": 1036
    },
    {
      "epoch": 0.3761334784185709,
      "grad_norm": 0.1596059501171112,
      "learning_rate": 0.00013870375922539466,
      "loss": 0.229,
      "step": 1037
    },
    {
      "epoch": 0.3764961915125136,
      "grad_norm": 0.16307580471038818,
      "learning_rate": 0.00013859828256200394,
      "loss": 0.2149,
      "step": 1038
    },
    {
      "epoch": 0.37685890460645627,
      "grad_norm": 0.15789788961410522,
      "learning_rate": 0.00013849275541500812,
      "loss": 0.2351,
      "step": 1039
    },
    {
      "epoch": 0.37722161770039897,
      "grad_norm": 0.1589316725730896,
      "learning_rate": 0.00013838717792242876,
      "loss": 0.2164,
      "step": 1040
    },
    {
      "epoch": 0.37758433079434167,
      "grad_norm": 0.15134315192699432,
      "learning_rate": 0.00013828155022235308,
      "loss": 0.1925,
      "step": 1041
    },
    {
      "epoch": 0.3779470438882844,
      "grad_norm": 0.14640171825885773,
      "learning_rate": 0.00013817587245293407,
      "loss": 0.2138,
      "step": 1042
    },
    {
      "epoch": 0.3783097569822271,
      "grad_norm": 0.1695149838924408,
      "learning_rate": 0.0001380701447523902,
      "loss": 0.2139,
      "step": 1043
    },
    {
      "epoch": 0.3786724700761698,
      "grad_norm": 0.1683790236711502,
      "learning_rate": 0.0001379643672590052,
      "loss": 0.1954,
      "step": 1044
    },
    {
      "epoch": 0.3790351831701124,
      "grad_norm": 0.17694401741027832,
      "learning_rate": 0.00013785854011112798,
      "loss": 0.2022,
      "step": 1045
    },
    {
      "epoch": 0.3793978962640551,
      "grad_norm": 0.17428404092788696,
      "learning_rate": 0.00013775266344717233,
      "loss": 0.1832,
      "step": 1046
    },
    {
      "epoch": 0.3797606093579978,
      "grad_norm": 0.1612454652786255,
      "learning_rate": 0.00013764673740561685,
      "loss": 0.1917,
      "step": 1047
    },
    {
      "epoch": 0.3801233224519405,
      "grad_norm": 0.16686902940273285,
      "learning_rate": 0.0001375407621250047,
      "loss": 0.1989,
      "step": 1048
    },
    {
      "epoch": 0.3804860355458832,
      "grad_norm": 0.14911605417728424,
      "learning_rate": 0.00013743473774394346,
      "loss": 0.2004,
      "step": 1049
    },
    {
      "epoch": 0.3808487486398259,
      "grad_norm": 0.15896974503993988,
      "learning_rate": 0.00013732866440110497,
      "loss": 0.2466,
      "step": 1050
    },
    {
      "epoch": 0.3812114617337686,
      "grad_norm": 0.16059251129627228,
      "learning_rate": 0.000137222542235225,
      "loss": 0.2042,
      "step": 1051
    },
    {
      "epoch": 0.3815741748277113,
      "grad_norm": 0.16174575686454773,
      "learning_rate": 0.0001371163713851032,
      "loss": 0.1979,
      "step": 1052
    },
    {
      "epoch": 0.381936887921654,
      "grad_norm": 0.1577538102865219,
      "learning_rate": 0.00013701015198960302,
      "loss": 0.213,
      "step": 1053
    },
    {
      "epoch": 0.3822996010155967,
      "grad_norm": 0.1710449755191803,
      "learning_rate": 0.0001369038841876513,
      "loss": 0.223,
      "step": 1054
    },
    {
      "epoch": 0.3826623141095394,
      "grad_norm": 0.17627973854541779,
      "learning_rate": 0.00013679756811823813,
      "loss": 0.2397,
      "step": 1055
    },
    {
      "epoch": 0.383025027203482,
      "grad_norm": 0.15820728242397308,
      "learning_rate": 0.0001366912039204169,
      "loss": 0.1959,
      "step": 1056
    },
    {
      "epoch": 0.38338774029742473,
      "grad_norm": 0.15889425575733185,
      "learning_rate": 0.00013658479173330384,
      "loss": 0.1805,
      "step": 1057
    },
    {
      "epoch": 0.38375045339136743,
      "grad_norm": 0.18348795175552368,
      "learning_rate": 0.00013647833169607788,
      "loss": 0.2061,
      "step": 1058
    },
    {
      "epoch": 0.38411316648531013,
      "grad_norm": 0.16327665746212006,
      "learning_rate": 0.0001363718239479807,
      "loss": 0.1899,
      "step": 1059
    },
    {
      "epoch": 0.38447587957925283,
      "grad_norm": 0.15636590123176575,
      "learning_rate": 0.00013626526862831628,
      "loss": 0.2161,
      "step": 1060
    },
    {
      "epoch": 0.3848385926731955,
      "grad_norm": 0.158644899725914,
      "learning_rate": 0.00013615866587645084,
      "loss": 0.1991,
      "step": 1061
    },
    {
      "epoch": 0.3852013057671382,
      "grad_norm": 0.16064795851707458,
      "learning_rate": 0.0001360520158318126,
      "loss": 0.2009,
      "step": 1062
    },
    {
      "epoch": 0.3855640188610809,
      "grad_norm": 0.18209217488765717,
      "learning_rate": 0.00013594531863389173,
      "loss": 0.2538,
      "step": 1063
    },
    {
      "epoch": 0.3859267319550236,
      "grad_norm": 0.16186301410198212,
      "learning_rate": 0.00013583857442223994,
      "loss": 0.2249,
      "step": 1064
    },
    {
      "epoch": 0.3862894450489663,
      "grad_norm": 0.16660407185554504,
      "learning_rate": 0.00013573178333647058,
      "loss": 0.2116,
      "step": 1065
    },
    {
      "epoch": 0.386652158142909,
      "grad_norm": 0.16199025511741638,
      "learning_rate": 0.0001356249455162582,
      "loss": 0.2156,
      "step": 1066
    },
    {
      "epoch": 0.38701487123685163,
      "grad_norm": 0.1578529328107834,
      "learning_rate": 0.0001355180611013385,
      "loss": 0.2066,
      "step": 1067
    },
    {
      "epoch": 0.38737758433079433,
      "grad_norm": 0.17841364443302155,
      "learning_rate": 0.00013541113023150816,
      "loss": 0.205,
      "step": 1068
    },
    {
      "epoch": 0.38774029742473703,
      "grad_norm": 0.1555965095758438,
      "learning_rate": 0.00013530415304662457,
      "loss": 0.2027,
      "step": 1069
    },
    {
      "epoch": 0.38810301051867974,
      "grad_norm": 0.15105211734771729,
      "learning_rate": 0.00013519712968660568,
      "loss": 0.1963,
      "step": 1070
    },
    {
      "epoch": 0.38846572361262244,
      "grad_norm": 0.16452065110206604,
      "learning_rate": 0.0001350900602914299,
      "loss": 0.2129,
      "step": 1071
    },
    {
      "epoch": 0.3888284367065651,
      "grad_norm": 0.16760526597499847,
      "learning_rate": 0.00013498294500113585,
      "loss": 0.2418,
      "step": 1072
    },
    {
      "epoch": 0.3891911498005078,
      "grad_norm": 0.16931942105293274,
      "learning_rate": 0.00013487578395582206,
      "loss": 0.1914,
      "step": 1073
    },
    {
      "epoch": 0.3895538628944505,
      "grad_norm": 0.1739332228899002,
      "learning_rate": 0.0001347685772956471,
      "loss": 0.2107,
      "step": 1074
    },
    {
      "epoch": 0.3899165759883932,
      "grad_norm": 0.1568581908941269,
      "learning_rate": 0.00013466132516082907,
      "loss": 0.1835,
      "step": 1075
    },
    {
      "epoch": 0.3902792890823359,
      "grad_norm": 0.16916148364543915,
      "learning_rate": 0.0001345540276916455,
      "loss": 0.2041,
      "step": 1076
    },
    {
      "epoch": 0.3906420021762786,
      "grad_norm": 0.16345995664596558,
      "learning_rate": 0.0001344466850284333,
      "loss": 0.1789,
      "step": 1077
    },
    {
      "epoch": 0.39100471527022124,
      "grad_norm": 0.16848930716514587,
      "learning_rate": 0.00013433929731158852,
      "loss": 0.1961,
      "step": 1078
    },
    {
      "epoch": 0.39136742836416394,
      "grad_norm": 0.1991538405418396,
      "learning_rate": 0.00013423186468156608,
      "loss": 0.2544,
      "step": 1079
    },
    {
      "epoch": 0.39173014145810664,
      "grad_norm": 0.17732208967208862,
      "learning_rate": 0.0001341243872788796,
      "loss": 0.258,
      "step": 1080
    },
    {
      "epoch": 0.39209285455204934,
      "grad_norm": 0.16117359697818756,
      "learning_rate": 0.0001340168652441014,
      "loss": 0.2389,
      "step": 1081
    },
    {
      "epoch": 0.39245556764599204,
      "grad_norm": 0.1693982034921646,
      "learning_rate": 0.00013390929871786203,
      "loss": 0.2022,
      "step": 1082
    },
    {
      "epoch": 0.3928182807399347,
      "grad_norm": 0.1722104698419571,
      "learning_rate": 0.00013380168784085027,
      "loss": 0.1977,
      "step": 1083
    },
    {
      "epoch": 0.3931809938338774,
      "grad_norm": 0.1871337741613388,
      "learning_rate": 0.000133694032753813,
      "loss": 0.2249,
      "step": 1084
    },
    {
      "epoch": 0.3935437069278201,
      "grad_norm": 0.17777620255947113,
      "learning_rate": 0.0001335863335975548,
      "loss": 0.1949,
      "step": 1085
    },
    {
      "epoch": 0.3939064200217628,
      "grad_norm": 0.18331852555274963,
      "learning_rate": 0.00013347859051293792,
      "loss": 0.1969,
      "step": 1086
    },
    {
      "epoch": 0.3942691331157055,
      "grad_norm": 0.158721461892128,
      "learning_rate": 0.0001333708036408821,
      "loss": 0.1919,
      "step": 1087
    },
    {
      "epoch": 0.3946318462096482,
      "grad_norm": 0.16589364409446716,
      "learning_rate": 0.00013326297312236439,
      "loss": 0.2044,
      "step": 1088
    },
    {
      "epoch": 0.39499455930359084,
      "grad_norm": 0.15952499210834503,
      "learning_rate": 0.0001331550990984188,
      "loss": 0.2005,
      "step": 1089
    },
    {
      "epoch": 0.39535727239753354,
      "grad_norm": 0.15588688850402832,
      "learning_rate": 0.00013304718171013632,
      "loss": 0.2234,
      "step": 1090
    },
    {
      "epoch": 0.39571998549147624,
      "grad_norm": 0.17283542454242706,
      "learning_rate": 0.0001329392210986647,
      "loss": 0.2001,
      "step": 1091
    },
    {
      "epoch": 0.39608269858541895,
      "grad_norm": 0.15617555379867554,
      "learning_rate": 0.00013283121740520812,
      "loss": 0.1982,
      "step": 1092
    },
    {
      "epoch": 0.39644541167936165,
      "grad_norm": 0.18503715097904205,
      "learning_rate": 0.0001327231707710272,
      "loss": 0.2315,
      "step": 1093
    },
    {
      "epoch": 0.3968081247733043,
      "grad_norm": 0.16704030334949493,
      "learning_rate": 0.00013261508133743865,
      "loss": 0.2,
      "step": 1094
    },
    {
      "epoch": 0.397170837867247,
      "grad_norm": 0.17188745737075806,
      "learning_rate": 0.0001325069492458152,
      "loss": 0.258,
      "step": 1095
    },
    {
      "epoch": 0.3975335509611897,
      "grad_norm": 0.1544748693704605,
      "learning_rate": 0.00013239877463758537,
      "loss": 0.19,
      "step": 1096
    },
    {
      "epoch": 0.3978962640551324,
      "grad_norm": 0.1821664571762085,
      "learning_rate": 0.0001322905576542333,
      "loss": 0.2071,
      "step": 1097
    },
    {
      "epoch": 0.3982589771490751,
      "grad_norm": 0.15686167776584625,
      "learning_rate": 0.00013218229843729856,
      "loss": 0.1807,
      "step": 1098
    },
    {
      "epoch": 0.39862169024301775,
      "grad_norm": 0.1645747721195221,
      "learning_rate": 0.00013207399712837582,
      "loss": 0.1941,
      "step": 1099
    },
    {
      "epoch": 0.39898440333696045,
      "grad_norm": 0.15510335564613342,
      "learning_rate": 0.00013196565386911505,
      "loss": 0.1982,
      "step": 1100
    },
    {
      "epoch": 0.39934711643090315,
      "grad_norm": 0.17434607446193695,
      "learning_rate": 0.0001318572688012209,
      "loss": 0.2012,
      "step": 1101
    },
    {
      "epoch": 0.39970982952484585,
      "grad_norm": 0.1454346626996994,
      "learning_rate": 0.00013174884206645278,
      "loss": 0.1887,
      "step": 1102
    },
    {
      "epoch": 0.40007254261878855,
      "grad_norm": 0.16709522902965546,
      "learning_rate": 0.00013164037380662452,
      "loss": 0.1914,
      "step": 1103
    },
    {
      "epoch": 0.40043525571273125,
      "grad_norm": 0.17922160029411316,
      "learning_rate": 0.0001315318641636044,
      "loss": 0.2002,
      "step": 1104
    },
    {
      "epoch": 0.4007979688066739,
      "grad_norm": 0.1769881397485733,
      "learning_rate": 0.00013142331327931469,
      "loss": 0.1993,
      "step": 1105
    },
    {
      "epoch": 0.4011606819006166,
      "grad_norm": 0.1627112329006195,
      "learning_rate": 0.00013131472129573166,
      "loss": 0.2096,
      "step": 1106
    },
    {
      "epoch": 0.4015233949945593,
      "grad_norm": 0.1649940013885498,
      "learning_rate": 0.00013120608835488532,
      "loss": 0.2032,
      "step": 1107
    },
    {
      "epoch": 0.401886108088502,
      "grad_norm": 0.18944235146045685,
      "learning_rate": 0.00013109741459885928,
      "loss": 0.2163,
      "step": 1108
    },
    {
      "epoch": 0.4022488211824447,
      "grad_norm": 0.16329450905323029,
      "learning_rate": 0.00013098870016979051,
      "loss": 0.1833,
      "step": 1109
    },
    {
      "epoch": 0.40261153427638735,
      "grad_norm": 0.20053814351558685,
      "learning_rate": 0.00013087994520986923,
      "loss": 0.2166,
      "step": 1110
    },
    {
      "epoch": 0.40297424737033005,
      "grad_norm": 0.19225598871707916,
      "learning_rate": 0.00013077114986133847,
      "loss": 0.2544,
      "step": 1111
    },
    {
      "epoch": 0.40333696046427275,
      "grad_norm": 0.17340917885303497,
      "learning_rate": 0.00013066231426649437,
      "loss": 0.2005,
      "step": 1112
    },
    {
      "epoch": 0.40369967355821545,
      "grad_norm": 0.1653253436088562,
      "learning_rate": 0.00013055343856768555,
      "loss": 0.2119,
      "step": 1113
    },
    {
      "epoch": 0.40406238665215816,
      "grad_norm": 0.16865472495555878,
      "learning_rate": 0.00013044452290731306,
      "loss": 0.1748,
      "step": 1114
    },
    {
      "epoch": 0.40442509974610086,
      "grad_norm": 0.17820391058921814,
      "learning_rate": 0.0001303355674278303,
      "loss": 0.2094,
      "step": 1115
    },
    {
      "epoch": 0.4047878128400435,
      "grad_norm": 0.17825227975845337,
      "learning_rate": 0.0001302265722717427,
      "loss": 0.2174,
      "step": 1116
    },
    {
      "epoch": 0.4051505259339862,
      "grad_norm": 0.6229606866836548,
      "learning_rate": 0.0001301175375816076,
      "loss": 0.2072,
      "step": 1117
    },
    {
      "epoch": 0.4055132390279289,
      "grad_norm": 0.21105241775512695,
      "learning_rate": 0.0001300084635000341,
      "loss": 0.2041,
      "step": 1118
    },
    {
      "epoch": 0.4058759521218716,
      "grad_norm": 0.20768609642982483,
      "learning_rate": 0.00012989935016968266,
      "loss": 0.2091,
      "step": 1119
    },
    {
      "epoch": 0.4062386652158143,
      "grad_norm": 0.1655317097902298,
      "learning_rate": 0.00012979019773326524,
      "loss": 0.2095,
      "step": 1120
    },
    {
      "epoch": 0.40660137830975696,
      "grad_norm": 0.1594689041376114,
      "learning_rate": 0.00012968100633354492,
      "loss": 0.1922,
      "step": 1121
    },
    {
      "epoch": 0.40696409140369966,
      "grad_norm": 0.1779058277606964,
      "learning_rate": 0.00012957177611333566,
      "loss": 0.1948,
      "step": 1122
    },
    {
      "epoch": 0.40732680449764236,
      "grad_norm": 0.18424735963344574,
      "learning_rate": 0.00012946250721550224,
      "loss": 0.2174,
      "step": 1123
    },
    {
      "epoch": 0.40768951759158506,
      "grad_norm": 0.19321289658546448,
      "learning_rate": 0.00012935319978296008,
      "loss": 0.2032,
      "step": 1124
    },
    {
      "epoch": 0.40805223068552776,
      "grad_norm": 0.1741238832473755,
      "learning_rate": 0.00012924385395867493,
      "loss": 0.1928,
      "step": 1125
    },
    {
      "epoch": 0.40841494377947046,
      "grad_norm": 0.16779236495494843,
      "learning_rate": 0.00012913446988566273,
      "loss": 0.2021,
      "step": 1126
    },
    {
      "epoch": 0.4087776568734131,
      "grad_norm": 0.16747735440731049,
      "learning_rate": 0.00012902504770698954,
      "loss": 0.1993,
      "step": 1127
    },
    {
      "epoch": 0.4091403699673558,
      "grad_norm": 0.18401382863521576,
      "learning_rate": 0.00012891558756577122,
      "loss": 0.2151,
      "step": 1128
    },
    {
      "epoch": 0.4095030830612985,
      "grad_norm": 0.15898433327674866,
      "learning_rate": 0.00012880608960517322,
      "loss": 0.187,
      "step": 1129
    },
    {
      "epoch": 0.4098657961552412,
      "grad_norm": 0.1666088104248047,
      "learning_rate": 0.0001286965539684106,
      "loss": 0.1849,
      "step": 1130
    },
    {
      "epoch": 0.4102285092491839,
      "grad_norm": 0.17613482475280762,
      "learning_rate": 0.00012858698079874748,
      "loss": 0.1993,
      "step": 1131
    },
    {
      "epoch": 0.41059122234312656,
      "grad_norm": 0.17263801395893097,
      "learning_rate": 0.0001284773702394973,
      "loss": 0.1947,
      "step": 1132
    },
    {
      "epoch": 0.41095393543706926,
      "grad_norm": 0.1618073433637619,
      "learning_rate": 0.00012836772243402224,
      "loss": 0.1869,
      "step": 1133
    },
    {
      "epoch": 0.41131664853101196,
      "grad_norm": 0.1828174889087677,
      "learning_rate": 0.00012825803752573327,
      "loss": 0.2207,
      "step": 1134
    },
    {
      "epoch": 0.41167936162495467,
      "grad_norm": 0.17469796538352966,
      "learning_rate": 0.00012814831565808986,
      "loss": 0.2008,
      "step": 1135
    },
    {
      "epoch": 0.41204207471889737,
      "grad_norm": 0.17154814302921295,
      "learning_rate": 0.00012803855697459987,
      "loss": 0.2098,
      "step": 1136
    },
    {
      "epoch": 0.41240478781284007,
      "grad_norm": 0.1646650731563568,
      "learning_rate": 0.00012792876161881925,
      "loss": 0.2103,
      "step": 1137
    },
    {
      "epoch": 0.4127675009067827,
      "grad_norm": 0.17539532482624054,
      "learning_rate": 0.00012781892973435195,
      "loss": 0.1966,
      "step": 1138
    },
    {
      "epoch": 0.4131302140007254,
      "grad_norm": 0.17781807482242584,
      "learning_rate": 0.00012770906146484964,
      "loss": 0.206,
      "step": 1139
    },
    {
      "epoch": 0.4134929270946681,
      "grad_norm": 0.1847347617149353,
      "learning_rate": 0.0001275991569540117,
      "loss": 0.2026,
      "step": 1140
    },
    {
      "epoch": 0.4138556401886108,
      "grad_norm": 0.17020414769649506,
      "learning_rate": 0.00012748921634558473,
      "loss": 0.1958,
      "step": 1141
    },
    {
      "epoch": 0.4142183532825535,
      "grad_norm": 0.18093371391296387,
      "learning_rate": 0.00012737923978336274,
      "loss": 0.2062,
      "step": 1142
    },
    {
      "epoch": 0.41458106637649617,
      "grad_norm": 0.1588636189699173,
      "learning_rate": 0.00012726922741118662,
      "loss": 0.1892,
      "step": 1143
    },
    {
      "epoch": 0.41494377947043887,
      "grad_norm": 0.19953924417495728,
      "learning_rate": 0.00012715917937294418,
      "loss": 0.2188,
      "step": 1144
    },
    {
      "epoch": 0.41530649256438157,
      "grad_norm": 0.16585423052310944,
      "learning_rate": 0.00012704909581256986,
      "loss": 0.2231,
      "step": 1145
    },
    {
      "epoch": 0.41566920565832427,
      "grad_norm": 0.17226840555667877,
      "learning_rate": 0.0001269389768740445,
      "loss": 0.1895,
      "step": 1146
    },
    {
      "epoch": 0.41603191875226697,
      "grad_norm": 0.2125304490327835,
      "learning_rate": 0.00012682882270139526,
      "loss": 0.2122,
      "step": 1147
    },
    {
      "epoch": 0.4163946318462097,
      "grad_norm": 0.19522660970687866,
      "learning_rate": 0.00012671863343869543,
      "loss": 0.2055,
      "step": 1148
    },
    {
      "epoch": 0.4167573449401523,
      "grad_norm": 0.19831117987632751,
      "learning_rate": 0.00012660840923006412,
      "loss": 0.189,
      "step": 1149
    },
    {
      "epoch": 0.417120058034095,
      "grad_norm": 0.16252368688583374,
      "learning_rate": 0.0001264981502196662,
      "loss": 0.2051,
      "step": 1150
    },
    {
      "epoch": 0.4174827711280377,
      "grad_norm": 0.17360906302928925,
      "learning_rate": 0.00012638785655171196,
      "loss": 0.1957,
      "step": 1151
    },
    {
      "epoch": 0.4178454842219804,
      "grad_norm": 0.1837020069360733,
      "learning_rate": 0.0001262775283704572,
      "loss": 0.2131,
      "step": 1152
    },
    {
      "epoch": 0.4182081973159231,
      "grad_norm": 0.1726016104221344,
      "learning_rate": 0.00012616716582020265,
      "loss": 0.1897,
      "step": 1153
    },
    {
      "epoch": 0.41857091040986577,
      "grad_norm": 0.16881223022937775,
      "learning_rate": 0.00012605676904529415,
      "loss": 0.1905,
      "step": 1154
    },
    {
      "epoch": 0.41893362350380847,
      "grad_norm": 0.2182941734790802,
      "learning_rate": 0.00012594633819012225,
      "loss": 0.2176,
      "step": 1155
    },
    {
      "epoch": 0.4192963365977512,
      "grad_norm": 0.1766914576292038,
      "learning_rate": 0.00012583587339912207,
      "loss": 0.2067,
      "step": 1156
    },
    {
      "epoch": 0.4196590496916939,
      "grad_norm": 0.16632500290870667,
      "learning_rate": 0.00012572537481677308,
      "loss": 0.1902,
      "step": 1157
    },
    {
      "epoch": 0.4200217627856366,
      "grad_norm": 0.16559042036533356,
      "learning_rate": 0.00012561484258759905,
      "loss": 0.1848,
      "step": 1158
    },
    {
      "epoch": 0.4203844758795793,
      "grad_norm": 0.16212663054466248,
      "learning_rate": 0.00012550427685616765,
      "loss": 0.2009,
      "step": 1159
    },
    {
      "epoch": 0.4207471889735219,
      "grad_norm": 0.16951881349086761,
      "learning_rate": 0.0001253936777670904,
      "loss": 0.1896,
      "step": 1160
    },
    {
      "epoch": 0.4211099020674646,
      "grad_norm": 0.19102217257022858,
      "learning_rate": 0.0001252830454650225,
      "loss": 0.2012,
      "step": 1161
    },
    {
      "epoch": 0.4214726151614073,
      "grad_norm": 0.1638030707836151,
      "learning_rate": 0.00012517238009466253,
      "loss": 0.1731,
      "step": 1162
    },
    {
      "epoch": 0.42183532825535003,
      "grad_norm": 0.1885092556476593,
      "learning_rate": 0.00012506168180075232,
      "loss": 0.212,
      "step": 1163
    },
    {
      "epoch": 0.42219804134929273,
      "grad_norm": 0.19661776721477509,
      "learning_rate": 0.00012495095072807678,
      "loss": 0.1969,
      "step": 1164
    },
    {
      "epoch": 0.4225607544432354,
      "grad_norm": 0.1665484458208084,
      "learning_rate": 0.00012484018702146375,
      "loss": 0.1886,
      "step": 1165
    },
    {
      "epoch": 0.4229234675371781,
      "grad_norm": 0.16225306689739227,
      "learning_rate": 0.00012472939082578365,
      "loss": 0.1869,
      "step": 1166
    },
    {
      "epoch": 0.4232861806311208,
      "grad_norm": 0.16616645455360413,
      "learning_rate": 0.00012461856228594947,
      "loss": 0.1778,
      "step": 1167
    },
    {
      "epoch": 0.4236488937250635,
      "grad_norm": 0.15914376080036163,
      "learning_rate": 0.00012450770154691642,
      "loss": 0.1809,
      "step": 1168
    },
    {
      "epoch": 0.4240116068190062,
      "grad_norm": 0.18165045976638794,
      "learning_rate": 0.00012439680875368192,
      "loss": 0.1981,
      "step": 1169
    },
    {
      "epoch": 0.4243743199129489,
      "grad_norm": 0.17815563082695007,
      "learning_rate": 0.00012428588405128527,
      "loss": 0.2462,
      "step": 1170
    },
    {
      "epoch": 0.42473703300689153,
      "grad_norm": 0.1577123999595642,
      "learning_rate": 0.0001241749275848075,
      "loss": 0.1848,
      "step": 1171
    },
    {
      "epoch": 0.42509974610083423,
      "grad_norm": 0.16714733839035034,
      "learning_rate": 0.0001240639394993712,
      "loss": 0.1878,
      "step": 1172
    },
    {
      "epoch": 0.42546245919477693,
      "grad_norm": 0.18040674924850464,
      "learning_rate": 0.0001239529199401403,
      "loss": 0.2087,
      "step": 1173
    },
    {
      "epoch": 0.42582517228871963,
      "grad_norm": 0.17369875311851501,
      "learning_rate": 0.0001238418690523199,
      "loss": 0.2198,
      "step": 1174
    },
    {
      "epoch": 0.42618788538266233,
      "grad_norm": 0.17522990703582764,
      "learning_rate": 0.0001237307869811561,
      "loss": 0.1898,
      "step": 1175
    },
    {
      "epoch": 0.426550598476605,
      "grad_norm": 0.1890110820531845,
      "learning_rate": 0.0001236196738719357,
      "loss": 0.1946,
      "step": 1176
    },
    {
      "epoch": 0.4269133115705477,
      "grad_norm": 0.19072000682353973,
      "learning_rate": 0.00012350852986998628,
      "loss": 0.1782,
      "step": 1177
    },
    {
      "epoch": 0.4272760246644904,
      "grad_norm": 0.16412675380706787,
      "learning_rate": 0.00012339735512067557,
      "loss": 0.1957,
      "step": 1178
    },
    {
      "epoch": 0.4276387377584331,
      "grad_norm": 0.16497628390789032,
      "learning_rate": 0.0001232861497694117,
      "loss": 0.1914,
      "step": 1179
    },
    {
      "epoch": 0.4280014508523758,
      "grad_norm": 0.1696443408727646,
      "learning_rate": 0.00012317491396164281,
      "loss": 0.2205,
      "step": 1180
    },
    {
      "epoch": 0.4283641639463185,
      "grad_norm": 0.1990218162536621,
      "learning_rate": 0.00012306364784285683,
      "loss": 0.221,
      "step": 1181
    },
    {
      "epoch": 0.42872687704026113,
      "grad_norm": 0.15306927263736725,
      "learning_rate": 0.00012295235155858128,
      "loss": 0.1894,
      "step": 1182
    },
    {
      "epoch": 0.42908959013420384,
      "grad_norm": 0.16716569662094116,
      "learning_rate": 0.00012284102525438327,
      "loss": 0.2124,
      "step": 1183
    },
    {
      "epoch": 0.42945230322814654,
      "grad_norm": 0.16371683776378632,
      "learning_rate": 0.00012272966907586906,
      "loss": 0.1952,
      "step": 1184
    },
    {
      "epoch": 0.42981501632208924,
      "grad_norm": 0.19524066150188446,
      "learning_rate": 0.00012261828316868404,
      "loss": 0.1967,
      "step": 1185
    },
    {
      "epoch": 0.43017772941603194,
      "grad_norm": 0.1753699630498886,
      "learning_rate": 0.0001225068676785125,
      "loss": 0.2057,
      "step": 1186
    },
    {
      "epoch": 0.4305404425099746,
      "grad_norm": 0.15853376686573029,
      "learning_rate": 0.00012239542275107733,
      "loss": 0.1852,
      "step": 1187
    },
    {
      "epoch": 0.4309031556039173,
      "grad_norm": 0.1545594483613968,
      "learning_rate": 0.00012228394853214,
      "loss": 0.1827,
      "step": 1188
    },
    {
      "epoch": 0.43126586869786,
      "grad_norm": 0.1596081703901291,
      "learning_rate": 0.0001221724451675003,
      "loss": 0.2032,
      "step": 1189
    },
    {
      "epoch": 0.4316285817918027,
      "grad_norm": 0.17133690416812897,
      "learning_rate": 0.00012206091280299608,
      "loss": 0.201,
      "step": 1190
    },
    {
      "epoch": 0.4319912948857454,
      "grad_norm": 0.18594324588775635,
      "learning_rate": 0.00012194935158450318,
      "loss": 0.1999,
      "step": 1191
    },
    {
      "epoch": 0.4323540079796881,
      "grad_norm": 0.1757342368364334,
      "learning_rate": 0.0001218377616579351,
      "loss": 0.2048,
      "step": 1192
    },
    {
      "epoch": 0.43271672107363074,
      "grad_norm": 0.15969473123550415,
      "learning_rate": 0.00012172614316924303,
      "loss": 0.1896,
      "step": 1193
    },
    {
      "epoch": 0.43307943416757344,
      "grad_norm": 0.1708168387413025,
      "learning_rate": 0.00012161449626441535,
      "loss": 0.1871,
      "step": 1194
    },
    {
      "epoch": 0.43344214726151614,
      "grad_norm": 0.16224978864192963,
      "learning_rate": 0.0001215028210894777,
      "loss": 0.1995,
      "step": 1195
    },
    {
      "epoch": 0.43380486035545884,
      "grad_norm": 0.17344152927398682,
      "learning_rate": 0.00012139111779049272,
      "loss": 0.2102,
      "step": 1196
    },
    {
      "epoch": 0.43416757344940154,
      "grad_norm": 0.1607237160205841,
      "learning_rate": 0.00012127938651355973,
      "loss": 0.198,
      "step": 1197
    },
    {
      "epoch": 0.4345302865433442,
      "grad_norm": 0.19598302245140076,
      "learning_rate": 0.00012116762740481473,
      "loss": 0.2048,
      "step": 1198
    },
    {
      "epoch": 0.4348929996372869,
      "grad_norm": 0.17380495369434357,
      "learning_rate": 0.00012105584061043011,
      "loss": 0.1998,
      "step": 1199
    },
    {
      "epoch": 0.4352557127312296,
      "grad_norm": 0.16845153272151947,
      "learning_rate": 0.00012094402627661447,
      "loss": 0.1944,
      "step": 1200
    },
    {
      "epoch": 0.4356184258251723,
      "grad_norm": 0.17525669932365417,
      "learning_rate": 0.00012083218454961237,
      "loss": 0.2262,
      "step": 1201
    },
    {
      "epoch": 0.435981138919115,
      "grad_norm": 0.182146355509758,
      "learning_rate": 0.00012072031557570425,
      "loss": 0.1899,
      "step": 1202
    },
    {
      "epoch": 0.4363438520130577,
      "grad_norm": 0.1767880618572235,
      "learning_rate": 0.00012060841950120623,
      "loss": 0.1853,
      "step": 1203
    },
    {
      "epoch": 0.43670656510700034,
      "grad_norm": 0.1868688315153122,
      "learning_rate": 0.00012049649647246976,
      "loss": 0.1884,
      "step": 1204
    },
    {
      "epoch": 0.43706927820094305,
      "grad_norm": 0.16299636662006378,
      "learning_rate": 0.0001203845466358817,
      "loss": 0.1903,
      "step": 1205
    },
    {
      "epoch": 0.43743199129488575,
      "grad_norm": 0.1743989884853363,
      "learning_rate": 0.00012027257013786382,
      "loss": 0.1741,
      "step": 1206
    },
    {
      "epoch": 0.43779470438882845,
      "grad_norm": 0.16983556747436523,
      "learning_rate": 0.00012016056712487281,
      "loss": 0.1756,
      "step": 1207
    },
    {
      "epoch": 0.43815741748277115,
      "grad_norm": 0.16869889199733734,
      "learning_rate": 0.0001200485377434001,
      "loss": 0.2091,
      "step": 1208
    },
    {
      "epoch": 0.4385201305767138,
      "grad_norm": 0.18009315431118011,
      "learning_rate": 0.00011993648213997155,
      "loss": 0.1876,
      "step": 1209
    },
    {
      "epoch": 0.4388828436706565,
      "grad_norm": 0.17261937260627747,
      "learning_rate": 0.00011982440046114734,
      "loss": 0.1888,
      "step": 1210
    },
    {
      "epoch": 0.4392455567645992,
      "grad_norm": 0.1700652837753296,
      "learning_rate": 0.00011971229285352173,
      "loss": 0.1929,
      "step": 1211
    },
    {
      "epoch": 0.4396082698585419,
      "grad_norm": 0.1701359897851944,
      "learning_rate": 0.0001196001594637229,
      "loss": 0.196,
      "step": 1212
    },
    {
      "epoch": 0.4399709829524846,
      "grad_norm": 0.17813630402088165,
      "learning_rate": 0.00011948800043841275,
      "loss": 0.2116,
      "step": 1213
    },
    {
      "epoch": 0.4403336960464273,
      "grad_norm": 0.1756308227777481,
      "learning_rate": 0.00011937581592428677,
      "loss": 0.2036,
      "step": 1214
    },
    {
      "epoch": 0.44069640914036995,
      "grad_norm": 0.17653414607048035,
      "learning_rate": 0.00011926360606807367,
      "loss": 0.186,
      "step": 1215
    },
    {
      "epoch": 0.44105912223431265,
      "grad_norm": 0.16713349521160126,
      "learning_rate": 0.00011915137101653539,
      "loss": 0.2161,
      "step": 1216
    },
    {
      "epoch": 0.44142183532825535,
      "grad_norm": 0.17466074228286743,
      "learning_rate": 0.00011903911091646684,
      "loss": 0.2025,
      "step": 1217
    },
    {
      "epoch": 0.44178454842219805,
      "grad_norm": 0.17018508911132812,
      "learning_rate": 0.00011892682591469562,
      "loss": 0.1901,
      "step": 1218
    },
    {
      "epoch": 0.44214726151614075,
      "grad_norm": 0.18613681197166443,
      "learning_rate": 0.00011881451615808192,
      "loss": 0.1994,
      "step": 1219
    },
    {
      "epoch": 0.4425099746100834,
      "grad_norm": 0.17624922096729279,
      "learning_rate": 0.00011870218179351838,
      "loss": 0.1909,
      "step": 1220
    },
    {
      "epoch": 0.4428726877040261,
      "grad_norm": 0.16530555486679077,
      "learning_rate": 0.00011858982296792971,
      "loss": 0.1925,
      "step": 1221
    },
    {
      "epoch": 0.4432354007979688,
      "grad_norm": 0.17213410139083862,
      "learning_rate": 0.00011847743982827269,
      "loss": 0.188,
      "step": 1222
    },
    {
      "epoch": 0.4435981138919115,
      "grad_norm": 0.17941850423812866,
      "learning_rate": 0.00011836503252153588,
      "loss": 0.1836,
      "step": 1223
    },
    {
      "epoch": 0.4439608269858542,
      "grad_norm": 0.211356058716774,
      "learning_rate": 0.00011825260119473946,
      "loss": 0.1958,
      "step": 1224
    },
    {
      "epoch": 0.4443235400797969,
      "grad_norm": 0.1753711849451065,
      "learning_rate": 0.00011814014599493502,
      "loss": 0.1784,
      "step": 1225
    },
    {
      "epoch": 0.44468625317373955,
      "grad_norm": 0.17775994539260864,
      "learning_rate": 0.00011802766706920533,
      "loss": 0.1984,
      "step": 1226
    },
    {
      "epoch": 0.44504896626768226,
      "grad_norm": 0.15988726913928986,
      "learning_rate": 0.00011791516456466429,
      "loss": 0.196,
      "step": 1227
    },
    {
      "epoch": 0.44541167936162496,
      "grad_norm": 0.17853982746601105,
      "learning_rate": 0.00011780263862845655,
      "loss": 0.193,
      "step": 1228
    },
    {
      "epoch": 0.44577439245556766,
      "grad_norm": 0.1804809272289276,
      "learning_rate": 0.00011769008940775744,
      "loss": 0.1995,
      "step": 1229
    },
    {
      "epoch": 0.44613710554951036,
      "grad_norm": 0.18296337127685547,
      "learning_rate": 0.00011757751704977275,
      "loss": 0.1907,
      "step": 1230
    },
    {
      "epoch": 0.446499818643453,
      "grad_norm": 0.15713930130004883,
      "learning_rate": 0.00011746492170173853,
      "loss": 0.1945,
      "step": 1231
    },
    {
      "epoch": 0.4468625317373957,
      "grad_norm": 0.18204668164253235,
      "learning_rate": 0.00011735230351092087,
      "loss": 0.2187,
      "step": 1232
    },
    {
      "epoch": 0.4472252448313384,
      "grad_norm": 0.16009126603603363,
      "learning_rate": 0.00011723966262461579,
      "loss": 0.1786,
      "step": 1233
    },
    {
      "epoch": 0.4475879579252811,
      "grad_norm": 0.20128843188285828,
      "learning_rate": 0.00011712699919014896,
      "loss": 0.1941,
      "step": 1234
    },
    {
      "epoch": 0.4479506710192238,
      "grad_norm": 0.17296966910362244,
      "learning_rate": 0.0001170143133548755,
      "loss": 0.1843,
      "step": 1235
    },
    {
      "epoch": 0.44831338411316646,
      "grad_norm": 0.18363478779792786,
      "learning_rate": 0.00011690160526617995,
      "loss": 0.197,
      "step": 1236
    },
    {
      "epoch": 0.44867609720710916,
      "grad_norm": 0.17751774191856384,
      "learning_rate": 0.00011678887507147582,
      "loss": 0.1756,
      "step": 1237
    },
    {
      "epoch": 0.44903881030105186,
      "grad_norm": 0.1821131557226181,
      "learning_rate": 0.00011667612291820562,
      "loss": 0.1911,
      "step": 1238
    },
    {
      "epoch": 0.44940152339499456,
      "grad_norm": 0.16961705684661865,
      "learning_rate": 0.00011656334895384053,
      "loss": 0.1782,
      "step": 1239
    },
    {
      "epoch": 0.44976423648893726,
      "grad_norm": 0.1650359183549881,
      "learning_rate": 0.00011645055332588032,
      "loss": 0.1849,
      "step": 1240
    },
    {
      "epoch": 0.45012694958287996,
      "grad_norm": 0.1794784963130951,
      "learning_rate": 0.00011633773618185302,
      "loss": 0.2059,
      "step": 1241
    },
    {
      "epoch": 0.4504896626768226,
      "grad_norm": 0.17137840390205383,
      "learning_rate": 0.00011622489766931488,
      "loss": 0.206,
      "step": 1242
    },
    {
      "epoch": 0.4508523757707653,
      "grad_norm": 0.1728799045085907,
      "learning_rate": 0.00011611203793584999,
      "loss": 0.1812,
      "step": 1243
    },
    {
      "epoch": 0.451215088864708,
      "grad_norm": 0.17596741020679474,
      "learning_rate": 0.0001159991571290703,
      "loss": 0.1935,
      "step": 1244
    },
    {
      "epoch": 0.4515778019586507,
      "grad_norm": 0.18633347749710083,
      "learning_rate": 0.00011588625539661528,
      "loss": 0.1908,
      "step": 1245
    },
    {
      "epoch": 0.4519405150525934,
      "grad_norm": 0.15337157249450684,
      "learning_rate": 0.00011577333288615175,
      "loss": 0.1779,
      "step": 1246
    },
    {
      "epoch": 0.45230322814653606,
      "grad_norm": 0.18902058899402618,
      "learning_rate": 0.00011566038974537374,
      "loss": 0.2063,
      "step": 1247
    },
    {
      "epoch": 0.45266594124047876,
      "grad_norm": 0.17245811223983765,
      "learning_rate": 0.00011554742612200229,
      "loss": 0.1827,
      "step": 1248
    },
    {
      "epoch": 0.45302865433442147,
      "grad_norm": 0.17236045002937317,
      "learning_rate": 0.00011543444216378517,
      "loss": 0.1944,
      "step": 1249
    },
    {
      "epoch": 0.45339136742836417,
      "grad_norm": 0.1754477322101593,
      "learning_rate": 0.00011532143801849668,
      "loss": 0.1933,
      "step": 1250
    },
    {
      "epoch": 0.45375408052230687,
      "grad_norm": 0.16361160576343536,
      "learning_rate": 0.00011520841383393774,
      "loss": 0.193,
      "step": 1251
    },
    {
      "epoch": 0.45411679361624957,
      "grad_norm": 0.17561082541942596,
      "learning_rate": 0.00011509536975793527,
      "loss": 0.2062,
      "step": 1252
    },
    {
      "epoch": 0.4544795067101922,
      "grad_norm": 0.1636163592338562,
      "learning_rate": 0.00011498230593834229,
      "loss": 0.1839,
      "step": 1253
    },
    {
      "epoch": 0.4548422198041349,
      "grad_norm": 0.16940078139305115,
      "learning_rate": 0.00011486922252303769,
      "loss": 0.18,
      "step": 1254
    },
    {
      "epoch": 0.4552049328980776,
      "grad_norm": 0.1866592913866043,
      "learning_rate": 0.0001147561196599259,
      "loss": 0.1789,
      "step": 1255
    },
    {
      "epoch": 0.4555676459920203,
      "grad_norm": 0.1689455509185791,
      "learning_rate": 0.00011464299749693679,
      "loss": 0.1775,
      "step": 1256
    },
    {
      "epoch": 0.455930359085963,
      "grad_norm": 0.17223703861236572,
      "learning_rate": 0.00011452985618202559,
      "loss": 0.1813,
      "step": 1257
    },
    {
      "epoch": 0.45629307217990567,
      "grad_norm": 0.16031506657600403,
      "learning_rate": 0.00011441669586317243,
      "loss": 0.1867,
      "step": 1258
    },
    {
      "epoch": 0.45665578527384837,
      "grad_norm": 0.17869757115840912,
      "learning_rate": 0.00011430351668838237,
      "loss": 0.1678,
      "step": 1259
    },
    {
      "epoch": 0.45701849836779107,
      "grad_norm": 0.18296487629413605,
      "learning_rate": 0.00011419031880568518,
      "loss": 0.1848,
      "step": 1260
    },
    {
      "epoch": 0.45738121146173377,
      "grad_norm": 0.19954228401184082,
      "learning_rate": 0.00011407710236313498,
      "loss": 0.1961,
      "step": 1261
    },
    {
      "epoch": 0.4577439245556765,
      "grad_norm": 0.16006030142307281,
      "learning_rate": 0.00011396386750881025,
      "loss": 0.1738,
      "step": 1262
    },
    {
      "epoch": 0.4581066376496192,
      "grad_norm": 0.17467838525772095,
      "learning_rate": 0.00011385061439081355,
      "loss": 0.2,
      "step": 1263
    },
    {
      "epoch": 0.4584693507435618,
      "grad_norm": 0.1634225696325302,
      "learning_rate": 0.00011373734315727125,
      "loss": 0.1593,
      "step": 1264
    },
    {
      "epoch": 0.4588320638375045,
      "grad_norm": 0.1675540953874588,
      "learning_rate": 0.00011362405395633355,
      "loss": 0.1761,
      "step": 1265
    },
    {
      "epoch": 0.4591947769314472,
      "grad_norm": 0.2374797910451889,
      "learning_rate": 0.00011351074693617398,
      "loss": 0.2401,
      "step": 1266
    },
    {
      "epoch": 0.4595574900253899,
      "grad_norm": 0.16424275934696198,
      "learning_rate": 0.00011339742224498957,
      "loss": 0.1822,
      "step": 1267
    },
    {
      "epoch": 0.4599202031193326,
      "grad_norm": 0.1777309626340866,
      "learning_rate": 0.00011328408003100031,
      "loss": 0.199,
      "step": 1268
    },
    {
      "epoch": 0.4602829162132753,
      "grad_norm": 0.17055995762348175,
      "learning_rate": 0.0001131707204424491,
      "loss": 0.1743,
      "step": 1269
    },
    {
      "epoch": 0.460645629307218,
      "grad_norm": 0.17005477845668793,
      "learning_rate": 0.0001130573436276017,
      "loss": 0.1767,
      "step": 1270
    },
    {
      "epoch": 0.4610083424011607,
      "grad_norm": 0.18844565749168396,
      "learning_rate": 0.00011294394973474631,
      "loss": 0.1836,
      "step": 1271
    },
    {
      "epoch": 0.4613710554951034,
      "grad_norm": 0.17676351964473724,
      "learning_rate": 0.00011283053891219344,
      "loss": 0.1806,
      "step": 1272
    },
    {
      "epoch": 0.4617337685890461,
      "grad_norm": 0.1949535459280014,
      "learning_rate": 0.00011271711130827584,
      "loss": 0.2162,
      "step": 1273
    },
    {
      "epoch": 0.4620964816829888,
      "grad_norm": 0.16555753350257874,
      "learning_rate": 0.0001126036670713481,
      "loss": 0.2051,
      "step": 1274
    },
    {
      "epoch": 0.4624591947769314,
      "grad_norm": 0.16618479788303375,
      "learning_rate": 0.00011249020634978664,
      "loss": 0.1686,
      "step": 1275
    },
    {
      "epoch": 0.4628219078708741,
      "grad_norm": 0.16579975187778473,
      "learning_rate": 0.00011237672929198944,
      "loss": 0.1887,
      "step": 1276
    },
    {
      "epoch": 0.46318462096481683,
      "grad_norm": 0.1672372817993164,
      "learning_rate": 0.00011226323604637577,
      "loss": 0.1801,
      "step": 1277
    },
    {
      "epoch": 0.46354733405875953,
      "grad_norm": 0.18061618506908417,
      "learning_rate": 0.00011214972676138612,
      "loss": 0.2006,
      "step": 1278
    },
    {
      "epoch": 0.46391004715270223,
      "grad_norm": 0.19238020479679108,
      "learning_rate": 0.00011203620158548205,
      "loss": 0.1693,
      "step": 1279
    },
    {
      "epoch": 0.4642727602466449,
      "grad_norm": 0.18483294546604156,
      "learning_rate": 0.00011192266066714576,
      "loss": 0.181,
      "step": 1280
    },
    {
      "epoch": 0.4646354733405876,
      "grad_norm": 0.1617163121700287,
      "learning_rate": 0.00011180910415488006,
      "loss": 0.1812,
      "step": 1281
    },
    {
      "epoch": 0.4649981864345303,
      "grad_norm": 0.18640659749507904,
      "learning_rate": 0.00011169553219720828,
      "loss": 0.1877,
      "step": 1282
    },
    {
      "epoch": 0.465360899528473,
      "grad_norm": 0.1695108264684677,
      "learning_rate": 0.00011158194494267375,
      "loss": 0.1848,
      "step": 1283
    },
    {
      "epoch": 0.4657236126224157,
      "grad_norm": 0.1813160479068756,
      "learning_rate": 0.00011146834253984006,
      "loss": 0.1897,
      "step": 1284
    },
    {
      "epoch": 0.4660863257163584,
      "grad_norm": 0.19932959973812103,
      "learning_rate": 0.00011135472513729037,
      "loss": 0.1924,
      "step": 1285
    },
    {
      "epoch": 0.46644903881030103,
      "grad_norm": 0.18082661926746368,
      "learning_rate": 0.0001112410928836276,
      "loss": 0.1856,
      "step": 1286
    },
    {
      "epoch": 0.46681175190424373,
      "grad_norm": 0.18553735315799713,
      "learning_rate": 0.00011112744592747406,
      "loss": 0.215,
      "step": 1287
    },
    {
      "epoch": 0.46717446499818643,
      "grad_norm": 0.1664389669895172,
      "learning_rate": 0.0001110137844174713,
      "loss": 0.181,
      "step": 1288
    },
    {
      "epoch": 0.46753717809212914,
      "grad_norm": 0.16226251423358917,
      "learning_rate": 0.00011090010850227987,
      "loss": 0.1818,
      "step": 1289
    },
    {
      "epoch": 0.46789989118607184,
      "grad_norm": 0.17768961191177368,
      "learning_rate": 0.00011078641833057917,
      "loss": 0.2087,
      "step": 1290
    },
    {
      "epoch": 0.4682626042800145,
      "grad_norm": 0.16539828479290009,
      "learning_rate": 0.0001106727140510673,
      "loss": 0.1882,
      "step": 1291
    },
    {
      "epoch": 0.4686253173739572,
      "grad_norm": 0.17121171951293945,
      "learning_rate": 0.00011055899581246074,
      "loss": 0.1664,
      "step": 1292
    },
    {
      "epoch": 0.4689880304678999,
      "grad_norm": 0.19726701080799103,
      "learning_rate": 0.00011044526376349427,
      "loss": 0.1924,
      "step": 1293
    },
    {
      "epoch": 0.4693507435618426,
      "grad_norm": 0.16600336134433746,
      "learning_rate": 0.0001103315180529207,
      "loss": 0.1775,
      "step": 1294
    },
    {
      "epoch": 0.4697134566557853,
      "grad_norm": 0.1898517608642578,
      "learning_rate": 0.00011021775882951078,
      "loss": 0.248,
      "step": 1295
    },
    {
      "epoch": 0.470076169749728,
      "grad_norm": 0.16445770859718323,
      "learning_rate": 0.00011010398624205285,
      "loss": 0.1828,
      "step": 1296
    },
    {
      "epoch": 0.47043888284367064,
      "grad_norm": 0.17627963423728943,
      "learning_rate": 0.00010999020043935275,
      "loss": 0.1736,
      "step": 1297
    },
    {
      "epoch": 0.47080159593761334,
      "grad_norm": 0.19058868288993835,
      "learning_rate": 0.00010987640157023367,
      "loss": 0.2618,
      "step": 1298
    },
    {
      "epoch": 0.47116430903155604,
      "grad_norm": 0.1651872992515564,
      "learning_rate": 0.00010976258978353577,
      "loss": 0.1975,
      "step": 1299
    },
    {
      "epoch": 0.47152702212549874,
      "grad_norm": 0.20072801411151886,
      "learning_rate": 0.00010964876522811623,
      "loss": 0.1723,
      "step": 1300
    },
    {
      "epoch": 0.47188973521944144,
      "grad_norm": 0.19362793862819672,
      "learning_rate": 0.00010953492805284882,
      "loss": 0.1682,
      "step": 1301
    },
    {
      "epoch": 0.4722524483133841,
      "grad_norm": 0.16751596331596375,
      "learning_rate": 0.0001094210784066239,
      "loss": 0.1792,
      "step": 1302
    },
    {
      "epoch": 0.4726151614073268,
      "grad_norm": 0.16240975260734558,
      "learning_rate": 0.00010930721643834811,
      "loss": 0.1805,
      "step": 1303
    },
    {
      "epoch": 0.4729778745012695,
      "grad_norm": 0.1741744726896286,
      "learning_rate": 0.00010919334229694424,
      "loss": 0.1823,
      "step": 1304
    },
    {
      "epoch": 0.4733405875952122,
      "grad_norm": 0.17905928194522858,
      "learning_rate": 0.00010907945613135093,
      "loss": 0.1873,
      "step": 1305
    },
    {
      "epoch": 0.4737033006891549,
      "grad_norm": 0.16759923100471497,
      "learning_rate": 0.00010896555809052255,
      "loss": 0.1805,
      "step": 1306
    },
    {
      "epoch": 0.4740660137830976,
      "grad_norm": 0.1604134738445282,
      "learning_rate": 0.00010885164832342911,
      "loss": 0.1817,
      "step": 1307
    },
    {
      "epoch": 0.47442872687704024,
      "grad_norm": 0.22676977515220642,
      "learning_rate": 0.00010873772697905584,
      "loss": 0.1901,
      "step": 1308
    },
    {
      "epoch": 0.47479143997098294,
      "grad_norm": 0.21346516907215118,
      "learning_rate": 0.00010862379420640316,
      "loss": 0.2146,
      "step": 1309
    },
    {
      "epoch": 0.47515415306492564,
      "grad_norm": 0.18681135773658752,
      "learning_rate": 0.00010850985015448644,
      "loss": 0.1992,
      "step": 1310
    },
    {
      "epoch": 0.47551686615886835,
      "grad_norm": 0.18223214149475098,
      "learning_rate": 0.00010839589497233579,
      "loss": 0.1937,
      "step": 1311
    },
    {
      "epoch": 0.47587957925281105,
      "grad_norm": 0.16445523500442505,
      "learning_rate": 0.00010828192880899588,
      "loss": 0.201,
      "step": 1312
    },
    {
      "epoch": 0.4762422923467537,
      "grad_norm": 0.20072023570537567,
      "learning_rate": 0.00010816795181352576,
      "loss": 0.221,
      "step": 1313
    },
    {
      "epoch": 0.4766050054406964,
      "grad_norm": 0.1709073781967163,
      "learning_rate": 0.00010805396413499865,
      "loss": 0.1726,
      "step": 1314
    },
    {
      "epoch": 0.4769677185346391,
      "grad_norm": 0.20039378106594086,
      "learning_rate": 0.00010793996592250166,
      "loss": 0.2096,
      "step": 1315
    },
    {
      "epoch": 0.4773304316285818,
      "grad_norm": 0.17664781212806702,
      "learning_rate": 0.00010782595732513581,
      "loss": 0.1763,
      "step": 1316
    },
    {
      "epoch": 0.4776931447225245,
      "grad_norm": 0.19013923406600952,
      "learning_rate": 0.00010771193849201561,
      "loss": 0.1977,
      "step": 1317
    },
    {
      "epoch": 0.4780558578164672,
      "grad_norm": 0.18075336515903473,
      "learning_rate": 0.00010759790957226896,
      "loss": 0.2101,
      "step": 1318
    },
    {
      "epoch": 0.47841857091040985,
      "grad_norm": 0.16578859090805054,
      "learning_rate": 0.00010748387071503703,
      "loss": 0.1724,
      "step": 1319
    },
    {
      "epoch": 0.47878128400435255,
      "grad_norm": 0.1706560105085373,
      "learning_rate": 0.00010736982206947388,
      "loss": 0.1826,
      "step": 1320
    },
    {
      "epoch": 0.47914399709829525,
      "grad_norm": 0.1749362051486969,
      "learning_rate": 0.00010725576378474647,
      "loss": 0.1957,
      "step": 1321
    },
    {
      "epoch": 0.47950671019223795,
      "grad_norm": 0.16315925121307373,
      "learning_rate": 0.0001071416960100343,
      "loss": 0.1675,
      "step": 1322
    },
    {
      "epoch": 0.47986942328618065,
      "grad_norm": 0.18400579690933228,
      "learning_rate": 0.0001070276188945293,
      "loss": 0.1896,
      "step": 1323
    },
    {
      "epoch": 0.4802321363801233,
      "grad_norm": 0.15948963165283203,
      "learning_rate": 0.00010691353258743566,
      "loss": 0.1816,
      "step": 1324
    },
    {
      "epoch": 0.480594849474066,
      "grad_norm": 0.17198865115642548,
      "learning_rate": 0.00010679943723796948,
      "loss": 0.176,
      "step": 1325
    },
    {
      "epoch": 0.4809575625680087,
      "grad_norm": 0.15731912851333618,
      "learning_rate": 0.00010668533299535885,
      "loss": 0.1717,
      "step": 1326
    },
    {
      "epoch": 0.4813202756619514,
      "grad_norm": 0.19525468349456787,
      "learning_rate": 0.00010657122000884334,
      "loss": 0.2036,
      "step": 1327
    },
    {
      "epoch": 0.4816829887558941,
      "grad_norm": 0.18892909586429596,
      "learning_rate": 0.00010645709842767404,
      "loss": 0.1886,
      "step": 1328
    },
    {
      "epoch": 0.4820457018498368,
      "grad_norm": 0.1732751876115799,
      "learning_rate": 0.00010634296840111328,
      "loss": 0.1654,
      "step": 1329
    },
    {
      "epoch": 0.48240841494377945,
      "grad_norm": 0.17465728521347046,
      "learning_rate": 0.00010622883007843439,
      "loss": 0.2119,
      "step": 1330
    },
    {
      "epoch": 0.48277112803772215,
      "grad_norm": 0.17398551106452942,
      "learning_rate": 0.00010611468360892157,
      "loss": 0.1833,
      "step": 1331
    },
    {
      "epoch": 0.48313384113166485,
      "grad_norm": 0.16920240223407745,
      "learning_rate": 0.00010600052914186971,
      "loss": 0.182,
      "step": 1332
    },
    {
      "epoch": 0.48349655422560756,
      "grad_norm": 0.1846507489681244,
      "learning_rate": 0.0001058863668265841,
      "loss": 0.2106,
      "step": 1333
    },
    {
      "epoch": 0.48385926731955026,
      "grad_norm": 0.2055717557668686,
      "learning_rate": 0.00010577219681238035,
      "loss": 0.1992,
      "step": 1334
    },
    {
      "epoch": 0.4842219804134929,
      "grad_norm": 0.18416710197925568,
      "learning_rate": 0.00010565801924858411,
      "loss": 0.1997,
      "step": 1335
    },
    {
      "epoch": 0.4845846935074356,
      "grad_norm": 0.1609608680009842,
      "learning_rate": 0.00010554383428453093,
      "loss": 0.2147,
      "step": 1336
    },
    {
      "epoch": 0.4849474066013783,
      "grad_norm": 0.1770334094762802,
      "learning_rate": 0.00010542964206956601,
      "loss": 0.1796,
      "step": 1337
    },
    {
      "epoch": 0.485310119695321,
      "grad_norm": 0.24041593074798584,
      "learning_rate": 0.00010531544275304403,
      "loss": 0.1828,
      "step": 1338
    },
    {
      "epoch": 0.4856728327892637,
      "grad_norm": 0.18589763343334198,
      "learning_rate": 0.00010520123648432896,
      "loss": 0.1894,
      "step": 1339
    },
    {
      "epoch": 0.4860355458832064,
      "grad_norm": 0.19816087186336517,
      "learning_rate": 0.00010508702341279391,
      "loss": 0.1849,
      "step": 1340
    },
    {
      "epoch": 0.48639825897714906,
      "grad_norm": 0.20071928203105927,
      "learning_rate": 0.00010497280368782083,
      "loss": 0.1871,
      "step": 1341
    },
    {
      "epoch": 0.48676097207109176,
      "grad_norm": 0.19222816824913025,
      "learning_rate": 0.00010485857745880043,
      "loss": 0.2114,
      "step": 1342
    },
    {
      "epoch": 0.48712368516503446,
      "grad_norm": 0.17220762372016907,
      "learning_rate": 0.00010474434487513183,
      "loss": 0.186,
      "step": 1343
    },
    {
      "epoch": 0.48748639825897716,
      "grad_norm": 0.1726873815059662,
      "learning_rate": 0.00010463010608622259,
      "loss": 0.1945,
      "step": 1344
    },
    {
      "epoch": 0.48784911135291986,
      "grad_norm": 0.1876380741596222,
      "learning_rate": 0.0001045158612414883,
      "loss": 0.214,
      "step": 1345
    },
    {
      "epoch": 0.4882118244468625,
      "grad_norm": 0.16988040506839752,
      "learning_rate": 0.00010440161049035242,
      "loss": 0.1901,
      "step": 1346
    },
    {
      "epoch": 0.4885745375408052,
      "grad_norm": 0.15666206181049347,
      "learning_rate": 0.00010428735398224629,
      "loss": 0.1788,
      "step": 1347
    },
    {
      "epoch": 0.4889372506347479,
      "grad_norm": 0.16927142441272736,
      "learning_rate": 0.00010417309186660869,
      "loss": 0.1847,
      "step": 1348
    },
    {
      "epoch": 0.4892999637286906,
      "grad_norm": 0.17525021731853485,
      "learning_rate": 0.00010405882429288567,
      "loss": 0.1826,
      "step": 1349
    },
    {
      "epoch": 0.4896626768226333,
      "grad_norm": 0.19699347019195557,
      "learning_rate": 0.00010394455141053056,
      "loss": 0.2124,
      "step": 1350
    },
    {
      "epoch": 0.490025389916576,
      "grad_norm": 0.17007745802402496,
      "learning_rate": 0.00010383027336900355,
      "loss": 0.1936,
      "step": 1351
    },
    {
      "epoch": 0.49038810301051866,
      "grad_norm": 0.19556905329227448,
      "learning_rate": 0.00010371599031777155,
      "loss": 0.197,
      "step": 1352
    },
    {
      "epoch": 0.49075081610446136,
      "grad_norm": 0.16477836668491364,
      "learning_rate": 0.00010360170240630808,
      "loss": 0.1625,
      "step": 1353
    },
    {
      "epoch": 0.49111352919840406,
      "grad_norm": 0.1732366383075714,
      "learning_rate": 0.00010348740978409302,
      "loss": 0.1971,
      "step": 1354
    },
    {
      "epoch": 0.49147624229234677,
      "grad_norm": 0.16834014654159546,
      "learning_rate": 0.00010337311260061233,
      "loss": 0.1766,
      "step": 1355
    },
    {
      "epoch": 0.49183895538628947,
      "grad_norm": 0.16868503391742706,
      "learning_rate": 0.00010325881100535806,
      "loss": 0.1708,
      "step": 1356
    },
    {
      "epoch": 0.4922016684802321,
      "grad_norm": 0.1709543913602829,
      "learning_rate": 0.00010314450514782792,
      "loss": 0.1639,
      "step": 1357
    },
    {
      "epoch": 0.4925643815741748,
      "grad_norm": 0.19506582617759705,
      "learning_rate": 0.0001030301951775253,
      "loss": 0.2164,
      "step": 1358
    },
    {
      "epoch": 0.4929270946681175,
      "grad_norm": 0.1822308748960495,
      "learning_rate": 0.00010291588124395881,
      "loss": 0.1743,
      "step": 1359
    },
    {
      "epoch": 0.4932898077620602,
      "grad_norm": 0.16552822291851044,
      "learning_rate": 0.00010280156349664245,
      "loss": 0.1826,
      "step": 1360
    },
    {
      "epoch": 0.4936525208560029,
      "grad_norm": 0.1888803243637085,
      "learning_rate": 0.00010268724208509504,
      "loss": 0.2016,
      "step": 1361
    },
    {
      "epoch": 0.4940152339499456,
      "grad_norm": 0.15892508625984192,
      "learning_rate": 0.00010257291715884023,
      "loss": 0.1666,
      "step": 1362
    },
    {
      "epoch": 0.49437794704388827,
      "grad_norm": 0.18861308693885803,
      "learning_rate": 0.00010245858886740636,
      "loss": 0.1969,
      "step": 1363
    },
    {
      "epoch": 0.49474066013783097,
      "grad_norm": 0.1808152198791504,
      "learning_rate": 0.00010234425736032607,
      "loss": 0.181,
      "step": 1364
    },
    {
      "epoch": 0.49510337323177367,
      "grad_norm": 0.18545283377170563,
      "learning_rate": 0.00010222992278713619,
      "loss": 0.1757,
      "step": 1365
    },
    {
      "epoch": 0.49546608632571637,
      "grad_norm": 0.16214706003665924,
      "learning_rate": 0.00010211558529737768,
      "loss": 0.1809,
      "step": 1366
    },
    {
      "epoch": 0.49582879941965907,
      "grad_norm": 0.16413475573062897,
      "learning_rate": 0.00010200124504059522,
      "loss": 0.1765,
      "step": 1367
    },
    {
      "epoch": 0.4961915125136017,
      "grad_norm": 0.17465685307979584,
      "learning_rate": 0.0001018869021663371,
      "loss": 0.1786,
      "step": 1368
    },
    {
      "epoch": 0.4965542256075444,
      "grad_norm": 0.16205236315727234,
      "learning_rate": 0.00010177255682415512,
      "loss": 0.1778,
      "step": 1369
    },
    {
      "epoch": 0.4969169387014871,
      "grad_norm": 0.17154665291309357,
      "learning_rate": 0.0001016582091636042,
      "loss": 0.1848,
      "step": 1370
    },
    {
      "epoch": 0.4972796517954298,
      "grad_norm": 0.19808538258075714,
      "learning_rate": 0.00010154385933424236,
      "loss": 0.1872,
      "step": 1371
    },
    {
      "epoch": 0.4976423648893725,
      "grad_norm": 0.17381629347801208,
      "learning_rate": 0.00010142950748563047,
      "loss": 0.1706,
      "step": 1372
    },
    {
      "epoch": 0.4980050779833152,
      "grad_norm": 0.18413105607032776,
      "learning_rate": 0.00010131515376733199,
      "loss": 0.2041,
      "step": 1373
    },
    {
      "epoch": 0.49836779107725787,
      "grad_norm": 0.16707438230514526,
      "learning_rate": 0.0001012007983289128,
      "loss": 0.1824,
      "step": 1374
    },
    {
      "epoch": 0.4987305041712006,
      "grad_norm": 0.18369126319885254,
      "learning_rate": 0.00010108644131994118,
      "loss": 0.1838,
      "step": 1375
    },
    {
      "epoch": 0.4990932172651433,
      "grad_norm": 0.17866884171962738,
      "learning_rate": 0.00010097208288998727,
      "loss": 0.18,
      "step": 1376
    },
    {
      "epoch": 0.499455930359086,
      "grad_norm": 0.17458714544773102,
      "learning_rate": 0.0001008577231886232,
      "loss": 0.1863,
      "step": 1377
    },
    {
      "epoch": 0.4998186434530287,
      "grad_norm": 0.16435278952121735,
      "learning_rate": 0.00010074336236542275,
      "loss": 0.1691,
      "step": 1378
    },
    {
      "epoch": 0.5001813565469714,
      "grad_norm": 0.18374355137348175,
      "learning_rate": 0.00010062900056996111,
      "loss": 0.2016,
      "step": 1379
    },
    {
      "epoch": 0.500544069640914,
      "grad_norm": 0.1715199500322342,
      "learning_rate": 0.00010051463795181475,
      "loss": 0.1775,
      "step": 1380
    },
    {
      "epoch": 0.5009067827348568,
      "grad_norm": 0.17471933364868164,
      "learning_rate": 0.00010040027466056128,
      "loss": 0.1784,
      "step": 1381
    },
    {
      "epoch": 0.5012694958287994,
      "grad_norm": 0.182729572057724,
      "learning_rate": 0.00010028591084577914,
      "loss": 0.1848,
      "step": 1382
    },
    {
      "epoch": 0.5016322089227421,
      "grad_norm": 0.1831514835357666,
      "learning_rate": 0.00010017154665704742,
      "loss": 0.1782,
      "step": 1383
    },
    {
      "epoch": 0.5019949220166848,
      "grad_norm": 0.18920493125915527,
      "learning_rate": 0.00010005718224394583,
      "loss": 0.1983,
      "step": 1384
    },
    {
      "epoch": 0.5023576351106275,
      "grad_norm": 0.18116223812103271,
      "learning_rate": 9.994281775605417e-05,
      "loss": 0.1703,
      "step": 1385
    },
    {
      "epoch": 0.5027203482045702,
      "grad_norm": 0.16635280847549438,
      "learning_rate": 9.982845334295257e-05,
      "loss": 0.1826,
      "step": 1386
    },
    {
      "epoch": 0.5030830612985129,
      "grad_norm": 0.1902262419462204,
      "learning_rate": 9.971408915422089e-05,
      "loss": 0.1821,
      "step": 1387
    },
    {
      "epoch": 0.5034457743924555,
      "grad_norm": 0.1716509759426117,
      "learning_rate": 9.959972533943873e-05,
      "loss": 0.1774,
      "step": 1388
    },
    {
      "epoch": 0.5038084874863983,
      "grad_norm": 0.1831229031085968,
      "learning_rate": 9.948536204818527e-05,
      "loss": 0.1859,
      "step": 1389
    },
    {
      "epoch": 0.5041712005803409,
      "grad_norm": 0.17858019471168518,
      "learning_rate": 9.937099943003894e-05,
      "loss": 0.1763,
      "step": 1390
    },
    {
      "epoch": 0.5045339136742837,
      "grad_norm": 0.20118439197540283,
      "learning_rate": 9.925663763457726e-05,
      "loss": 0.2055,
      "step": 1391
    },
    {
      "epoch": 0.5048966267682263,
      "grad_norm": 0.1790417581796646,
      "learning_rate": 9.91422768113768e-05,
      "loss": 0.1886,
      "step": 1392
    },
    {
      "epoch": 0.505259339862169,
      "grad_norm": 0.18328474462032318,
      "learning_rate": 9.902791711001274e-05,
      "loss": 0.2024,
      "step": 1393
    },
    {
      "epoch": 0.5056220529561117,
      "grad_norm": 0.17188413441181183,
      "learning_rate": 9.891355868005885e-05,
      "loss": 0.1822,
      "step": 1394
    },
    {
      "epoch": 0.5059847660500544,
      "grad_norm": 0.20239926874637604,
      "learning_rate": 9.879920167108722e-05,
      "loss": 0.1811,
      "step": 1395
    },
    {
      "epoch": 0.5063474791439971,
      "grad_norm": 0.1758367419242859,
      "learning_rate": 9.868484623266807e-05,
      "loss": 0.2074,
      "step": 1396
    },
    {
      "epoch": 0.5067101922379398,
      "grad_norm": 0.16482442617416382,
      "learning_rate": 9.857049251436957e-05,
      "loss": 0.1748,
      "step": 1397
    },
    {
      "epoch": 0.5070729053318824,
      "grad_norm": 0.19277919828891754,
      "learning_rate": 9.845614066575764e-05,
      "loss": 0.2831,
      "step": 1398
    },
    {
      "epoch": 0.5074356184258252,
      "grad_norm": 0.19243241846561432,
      "learning_rate": 9.834179083639581e-05,
      "loss": 0.1817,
      "step": 1399
    },
    {
      "epoch": 0.5077983315197678,
      "grad_norm": 0.19496306777000427,
      "learning_rate": 9.822744317584492e-05,
      "loss": 0.1614,
      "step": 1400
    },
    {
      "epoch": 0.5081610446137106,
      "grad_norm": 0.1891697645187378,
      "learning_rate": 9.811309783366291e-05,
      "loss": 0.1952,
      "step": 1401
    },
    {
      "epoch": 0.5085237577076532,
      "grad_norm": 0.19444064795970917,
      "learning_rate": 9.799875495940481e-05,
      "loss": 0.1942,
      "step": 1402
    },
    {
      "epoch": 0.508886470801596,
      "grad_norm": 0.18112586438655853,
      "learning_rate": 9.788441470262235e-05,
      "loss": 0.1963,
      "step": 1403
    },
    {
      "epoch": 0.5092491838955386,
      "grad_norm": 0.17287184298038483,
      "learning_rate": 9.777007721286381e-05,
      "loss": 0.1733,
      "step": 1404
    },
    {
      "epoch": 0.5096118969894813,
      "grad_norm": 0.18775591254234314,
      "learning_rate": 9.765574263967396e-05,
      "loss": 0.1965,
      "step": 1405
    },
    {
      "epoch": 0.509974610083424,
      "grad_norm": 0.17914709448814392,
      "learning_rate": 9.754141113259366e-05,
      "loss": 0.1748,
      "step": 1406
    },
    {
      "epoch": 0.5103373231773667,
      "grad_norm": 0.19423453509807587,
      "learning_rate": 9.74270828411598e-05,
      "loss": 0.1833,
      "step": 1407
    },
    {
      "epoch": 0.5107000362713094,
      "grad_norm": 0.18104608356952667,
      "learning_rate": 9.731275791490501e-05,
      "loss": 0.177,
      "step": 1408
    },
    {
      "epoch": 0.5110627493652521,
      "grad_norm": 0.17595738172531128,
      "learning_rate": 9.719843650335758e-05,
      "loss": 0.1839,
      "step": 1409
    },
    {
      "epoch": 0.5114254624591947,
      "grad_norm": 0.18560685217380524,
      "learning_rate": 9.708411875604118e-05,
      "loss": 0.1995,
      "step": 1410
    },
    {
      "epoch": 0.5117881755531375,
      "grad_norm": 0.18210434913635254,
      "learning_rate": 9.696980482247474e-05,
      "loss": 0.1963,
      "step": 1411
    },
    {
      "epoch": 0.5121508886470801,
      "grad_norm": 0.16906267404556274,
      "learning_rate": 9.685549485217209e-05,
      "loss": 0.1636,
      "step": 1412
    },
    {
      "epoch": 0.5125136017410229,
      "grad_norm": 0.19701135158538818,
      "learning_rate": 9.674118899464195e-05,
      "loss": 0.2184,
      "step": 1413
    },
    {
      "epoch": 0.5128763148349655,
      "grad_norm": 0.18875081837177277,
      "learning_rate": 9.662688739938769e-05,
      "loss": 0.2142,
      "step": 1414
    },
    {
      "epoch": 0.5132390279289082,
      "grad_norm": 0.20290465652942657,
      "learning_rate": 9.651259021590703e-05,
      "loss": 0.2041,
      "step": 1415
    },
    {
      "epoch": 0.5136017410228509,
      "grad_norm": 0.1915699690580368,
      "learning_rate": 9.639829759369191e-05,
      "loss": 0.1741,
      "step": 1416
    },
    {
      "epoch": 0.5139644541167936,
      "grad_norm": 0.1645934134721756,
      "learning_rate": 9.628400968222846e-05,
      "loss": 0.179,
      "step": 1417
    },
    {
      "epoch": 0.5143271672107363,
      "grad_norm": 0.18472225964069366,
      "learning_rate": 9.616972663099647e-05,
      "loss": 0.1876,
      "step": 1418
    },
    {
      "epoch": 0.514689880304679,
      "grad_norm": 0.17435920238494873,
      "learning_rate": 9.605544858946945e-05,
      "loss": 0.175,
      "step": 1419
    },
    {
      "epoch": 0.5150525933986216,
      "grad_norm": 0.1865229606628418,
      "learning_rate": 9.594117570711434e-05,
      "loss": 0.2141,
      "step": 1420
    },
    {
      "epoch": 0.5154153064925644,
      "grad_norm": 0.18339309096336365,
      "learning_rate": 9.582690813339136e-05,
      "loss": 0.1794,
      "step": 1421
    },
    {
      "epoch": 0.515778019586507,
      "grad_norm": 0.1994606852531433,
      "learning_rate": 9.571264601775369e-05,
      "loss": 0.1835,
      "step": 1422
    },
    {
      "epoch": 0.5161407326804498,
      "grad_norm": 0.16973696649074554,
      "learning_rate": 9.559838950964757e-05,
      "loss": 0.1587,
      "step": 1423
    },
    {
      "epoch": 0.5165034457743924,
      "grad_norm": 0.17294169962406158,
      "learning_rate": 9.548413875851174e-05,
      "loss": 0.1748,
      "step": 1424
    },
    {
      "epoch": 0.5168661588683352,
      "grad_norm": 0.19328264892101288,
      "learning_rate": 9.536989391377743e-05,
      "loss": 0.2012,
      "step": 1425
    },
    {
      "epoch": 0.5172288719622778,
      "grad_norm": 0.18262383341789246,
      "learning_rate": 9.52556551248682e-05,
      "loss": 0.1806,
      "step": 1426
    },
    {
      "epoch": 0.5175915850562205,
      "grad_norm": 0.16941824555397034,
      "learning_rate": 9.514142254119962e-05,
      "loss": 0.1739,
      "step": 1427
    },
    {
      "epoch": 0.5179542981501633,
      "grad_norm": 0.1808822602033615,
      "learning_rate": 9.502719631217917e-05,
      "loss": 0.1685,
      "step": 1428
    },
    {
      "epoch": 0.5183170112441059,
      "grad_norm": 0.213886559009552,
      "learning_rate": 9.49129765872061e-05,
      "loss": 0.1851,
      "step": 1429
    },
    {
      "epoch": 0.5186797243380487,
      "grad_norm": 0.1952863335609436,
      "learning_rate": 9.479876351567107e-05,
      "loss": 0.1691,
      "step": 1430
    },
    {
      "epoch": 0.5190424374319913,
      "grad_norm": 0.1745711863040924,
      "learning_rate": 9.4684557246956e-05,
      "loss": 0.1883,
      "step": 1431
    },
    {
      "epoch": 0.519405150525934,
      "grad_norm": 0.19590620696544647,
      "learning_rate": 9.457035793043401e-05,
      "loss": 0.1822,
      "step": 1432
    },
    {
      "epoch": 0.5197678636198767,
      "grad_norm": 0.17998209595680237,
      "learning_rate": 9.445616571546909e-05,
      "loss": 0.172,
      "step": 1433
    },
    {
      "epoch": 0.5201305767138193,
      "grad_norm": 0.1765129566192627,
      "learning_rate": 9.434198075141591e-05,
      "loss": 0.1748,
      "step": 1434
    },
    {
      "epoch": 0.5204932898077621,
      "grad_norm": 0.19922930002212524,
      "learning_rate": 9.422780318761965e-05,
      "loss": 0.1941,
      "step": 1435
    },
    {
      "epoch": 0.5208560029017048,
      "grad_norm": 0.1994534283876419,
      "learning_rate": 9.411363317341592e-05,
      "loss": 0.1838,
      "step": 1436
    },
    {
      "epoch": 0.5212187159956474,
      "grad_norm": 0.19850608706474304,
      "learning_rate": 9.399947085813032e-05,
      "loss": 0.1768,
      "step": 1437
    },
    {
      "epoch": 0.5215814290895902,
      "grad_norm": 0.16051959991455078,
      "learning_rate": 9.388531639107846e-05,
      "loss": 0.1781,
      "step": 1438
    },
    {
      "epoch": 0.5219441421835328,
      "grad_norm": 0.18641552329063416,
      "learning_rate": 9.377116992156566e-05,
      "loss": 0.1884,
      "step": 1439
    },
    {
      "epoch": 0.5223068552774756,
      "grad_norm": 0.16958610713481903,
      "learning_rate": 9.365703159888677e-05,
      "loss": 0.1768,
      "step": 1440
    },
    {
      "epoch": 0.5226695683714182,
      "grad_norm": 0.16557306051254272,
      "learning_rate": 9.354290157232596e-05,
      "loss": 0.1648,
      "step": 1441
    },
    {
      "epoch": 0.5230322814653608,
      "grad_norm": 0.18799157440662384,
      "learning_rate": 9.342877999115667e-05,
      "loss": 0.1711,
      "step": 1442
    },
    {
      "epoch": 0.5233949945593036,
      "grad_norm": 0.19848479330539703,
      "learning_rate": 9.331466700464117e-05,
      "loss": 0.1807,
      "step": 1443
    },
    {
      "epoch": 0.5237577076532463,
      "grad_norm": 0.17750594019889832,
      "learning_rate": 9.320056276203054e-05,
      "loss": 0.1907,
      "step": 1444
    },
    {
      "epoch": 0.524120420747189,
      "grad_norm": 0.16206082701683044,
      "learning_rate": 9.308646741256439e-05,
      "loss": 0.1808,
      "step": 1445
    },
    {
      "epoch": 0.5244831338411317,
      "grad_norm": 0.1657271534204483,
      "learning_rate": 9.297238110547074e-05,
      "loss": 0.177,
      "step": 1446
    },
    {
      "epoch": 0.5248458469350744,
      "grad_norm": 0.19123826920986176,
      "learning_rate": 9.285830398996571e-05,
      "loss": 0.1817,
      "step": 1447
    },
    {
      "epoch": 0.5252085600290171,
      "grad_norm": 0.16904449462890625,
      "learning_rate": 9.274423621525354e-05,
      "loss": 0.1837,
      "step": 1448
    },
    {
      "epoch": 0.5255712731229597,
      "grad_norm": 0.19816622138023376,
      "learning_rate": 9.263017793052615e-05,
      "loss": 0.1954,
      "step": 1449
    },
    {
      "epoch": 0.5259339862169025,
      "grad_norm": 0.18440890312194824,
      "learning_rate": 9.251612928496298e-05,
      "loss": 0.1708,
      "step": 1450
    },
    {
      "epoch": 0.5262966993108451,
      "grad_norm": 0.18821316957473755,
      "learning_rate": 9.240209042773105e-05,
      "loss": 0.1929,
      "step": 1451
    },
    {
      "epoch": 0.5266594124047879,
      "grad_norm": 0.18499478697776794,
      "learning_rate": 9.228806150798442e-05,
      "loss": 0.1774,
      "step": 1452
    },
    {
      "epoch": 0.5270221254987305,
      "grad_norm": 0.21519748866558075,
      "learning_rate": 9.21740426748642e-05,
      "loss": 0.1915,
      "step": 1453
    },
    {
      "epoch": 0.5273848385926732,
      "grad_norm": 0.18411661684513092,
      "learning_rate": 9.206003407749833e-05,
      "loss": 0.2101,
      "step": 1454
    },
    {
      "epoch": 0.5277475516866159,
      "grad_norm": 0.17182524502277374,
      "learning_rate": 9.194603586500136e-05,
      "loss": 0.1672,
      "step": 1455
    },
    {
      "epoch": 0.5281102647805586,
      "grad_norm": 0.18551282584667206,
      "learning_rate": 9.183204818647424e-05,
      "loss": 0.1924,
      "step": 1456
    },
    {
      "epoch": 0.5284729778745013,
      "grad_norm": 0.18289272487163544,
      "learning_rate": 9.171807119100413e-05,
      "loss": 0.1781,
      "step": 1457
    },
    {
      "epoch": 0.528835690968444,
      "grad_norm": 0.169638991355896,
      "learning_rate": 9.160410502766424e-05,
      "loss": 0.1704,
      "step": 1458
    },
    {
      "epoch": 0.5291984040623866,
      "grad_norm": 0.17855599522590637,
      "learning_rate": 9.149014984551357e-05,
      "loss": 0.1761,
      "step": 1459
    },
    {
      "epoch": 0.5295611171563294,
      "grad_norm": 0.21452195942401886,
      "learning_rate": 9.137620579359685e-05,
      "loss": 0.1778,
      "step": 1460
    },
    {
      "epoch": 0.529923830250272,
      "grad_norm": 0.20922896265983582,
      "learning_rate": 9.126227302094417e-05,
      "loss": 0.2186,
      "step": 1461
    },
    {
      "epoch": 0.5302865433442148,
      "grad_norm": 0.15859532356262207,
      "learning_rate": 9.114835167657091e-05,
      "loss": 0.1829,
      "step": 1462
    },
    {
      "epoch": 0.5306492564381574,
      "grad_norm": 0.17610323429107666,
      "learning_rate": 9.103444190947746e-05,
      "loss": 0.2027,
      "step": 1463
    },
    {
      "epoch": 0.5310119695321001,
      "grad_norm": 0.17557282745838165,
      "learning_rate": 9.092054386864912e-05,
      "loss": 0.1747,
      "step": 1464
    },
    {
      "epoch": 0.5313746826260428,
      "grad_norm": 0.19372673332691193,
      "learning_rate": 9.080665770305578e-05,
      "loss": 0.1644,
      "step": 1465
    },
    {
      "epoch": 0.5317373957199855,
      "grad_norm": 0.20970730483531952,
      "learning_rate": 9.069278356165187e-05,
      "loss": 0.2032,
      "step": 1466
    },
    {
      "epoch": 0.5321001088139282,
      "grad_norm": 0.2470318228006363,
      "learning_rate": 9.057892159337612e-05,
      "loss": 0.2121,
      "step": 1467
    },
    {
      "epoch": 0.5324628219078709,
      "grad_norm": 0.1663379967212677,
      "learning_rate": 9.046507194715121e-05,
      "loss": 0.1741,
      "step": 1468
    },
    {
      "epoch": 0.5328255350018135,
      "grad_norm": 0.1842135637998581,
      "learning_rate": 9.035123477188381e-05,
      "loss": 0.1793,
      "step": 1469
    },
    {
      "epoch": 0.5331882480957563,
      "grad_norm": 0.19390299916267395,
      "learning_rate": 9.023741021646427e-05,
      "loss": 0.2071,
      "step": 1470
    },
    {
      "epoch": 0.5335509611896989,
      "grad_norm": 0.17016194760799408,
      "learning_rate": 9.012359842976638e-05,
      "loss": 0.1718,
      "step": 1471
    },
    {
      "epoch": 0.5339136742836417,
      "grad_norm": 0.19337502121925354,
      "learning_rate": 9.000979956064725e-05,
      "loss": 0.2095,
      "step": 1472
    },
    {
      "epoch": 0.5342763873775843,
      "grad_norm": 0.21092645823955536,
      "learning_rate": 8.989601375794717e-05,
      "loss": 0.1854,
      "step": 1473
    },
    {
      "epoch": 0.5346391004715271,
      "grad_norm": 0.18103566765785217,
      "learning_rate": 8.978224117048925e-05,
      "loss": 0.1829,
      "step": 1474
    },
    {
      "epoch": 0.5350018135654697,
      "grad_norm": 0.17190292477607727,
      "learning_rate": 8.966848194707931e-05,
      "loss": 0.1733,
      "step": 1475
    },
    {
      "epoch": 0.5353645266594124,
      "grad_norm": 0.18108366429805756,
      "learning_rate": 8.955473623650578e-05,
      "loss": 0.2058,
      "step": 1476
    },
    {
      "epoch": 0.5357272397533551,
      "grad_norm": 0.16649720072746277,
      "learning_rate": 8.944100418753931e-05,
      "loss": 0.1744,
      "step": 1477
    },
    {
      "epoch": 0.5360899528472978,
      "grad_norm": 0.15770559012889862,
      "learning_rate": 8.932728594893271e-05,
      "loss": 0.1775,
      "step": 1478
    },
    {
      "epoch": 0.5364526659412405,
      "grad_norm": 0.1907668113708496,
      "learning_rate": 8.921358166942084e-05,
      "loss": 0.1766,
      "step": 1479
    },
    {
      "epoch": 0.5368153790351832,
      "grad_norm": 0.18284808099269867,
      "learning_rate": 8.909989149772015e-05,
      "loss": 0.1708,
      "step": 1480
    },
    {
      "epoch": 0.5371780921291258,
      "grad_norm": 0.20297999680042267,
      "learning_rate": 8.898621558252874e-05,
      "loss": 0.165,
      "step": 1481
    },
    {
      "epoch": 0.5375408052230686,
      "grad_norm": 0.22023969888687134,
      "learning_rate": 8.887255407252596e-05,
      "loss": 0.1668,
      "step": 1482
    },
    {
      "epoch": 0.5379035183170112,
      "grad_norm": 0.17669132351875305,
      "learning_rate": 8.875890711637243e-05,
      "loss": 0.2046,
      "step": 1483
    },
    {
      "epoch": 0.538266231410954,
      "grad_norm": 0.17783772945404053,
      "learning_rate": 8.864527486270964e-05,
      "loss": 0.1648,
      "step": 1484
    },
    {
      "epoch": 0.5386289445048966,
      "grad_norm": 0.171718031167984,
      "learning_rate": 8.853165746015997e-05,
      "loss": 0.1897,
      "step": 1485
    },
    {
      "epoch": 0.5389916575988393,
      "grad_norm": 0.16997992992401123,
      "learning_rate": 8.841805505732626e-05,
      "loss": 0.167,
      "step": 1486
    },
    {
      "epoch": 0.539354370692782,
      "grad_norm": 0.1764468550682068,
      "learning_rate": 8.830446780279176e-05,
      "loss": 0.1659,
      "step": 1487
    },
    {
      "epoch": 0.5397170837867247,
      "grad_norm": 0.18435722589492798,
      "learning_rate": 8.819089584511996e-05,
      "loss": 0.1754,
      "step": 1488
    },
    {
      "epoch": 0.5400797968806674,
      "grad_norm": 0.19305875897407532,
      "learning_rate": 8.807733933285429e-05,
      "loss": 0.1918,
      "step": 1489
    },
    {
      "epoch": 0.5404425099746101,
      "grad_norm": 0.1882489174604416,
      "learning_rate": 8.796379841451796e-05,
      "loss": 0.1906,
      "step": 1490
    },
    {
      "epoch": 0.5408052230685527,
      "grad_norm": 0.14983880519866943,
      "learning_rate": 8.785027323861386e-05,
      "loss": 0.1552,
      "step": 1491
    },
    {
      "epoch": 0.5411679361624955,
      "grad_norm": 0.16522106528282166,
      "learning_rate": 8.773676395362425e-05,
      "loss": 0.1761,
      "step": 1492
    },
    {
      "epoch": 0.5415306492564381,
      "grad_norm": 0.17727860808372498,
      "learning_rate": 8.76232707080106e-05,
      "loss": 0.1631,
      "step": 1493
    },
    {
      "epoch": 0.5418933623503809,
      "grad_norm": 0.1912899911403656,
      "learning_rate": 8.750979365021338e-05,
      "loss": 0.1804,
      "step": 1494
    },
    {
      "epoch": 0.5422560754443235,
      "grad_norm": 0.185381218791008,
      "learning_rate": 8.739633292865192e-05,
      "loss": 0.1831,
      "step": 1495
    },
    {
      "epoch": 0.5426187885382663,
      "grad_norm": 0.18887324631214142,
      "learning_rate": 8.728288869172421e-05,
      "loss": 0.178,
      "step": 1496
    },
    {
      "epoch": 0.5429815016322089,
      "grad_norm": 0.1737644374370575,
      "learning_rate": 8.716946108780655e-05,
      "loss": 0.1769,
      "step": 1497
    },
    {
      "epoch": 0.5433442147261516,
      "grad_norm": 0.18002916872501373,
      "learning_rate": 8.705605026525371e-05,
      "loss": 0.1599,
      "step": 1498
    },
    {
      "epoch": 0.5437069278200943,
      "grad_norm": 0.18868666887283325,
      "learning_rate": 8.694265637239831e-05,
      "loss": 0.1661,
      "step": 1499
    },
    {
      "epoch": 0.544069640914037,
      "grad_norm": 0.20771367847919464,
      "learning_rate": 8.682927955755093e-05,
      "loss": 0.1839,
      "step": 1500
    },
    {
      "epoch": 0.5444323540079797,
      "grad_norm": 0.1799492985010147,
      "learning_rate": 8.671591996899974e-05,
      "loss": 0.1782,
      "step": 1501
    },
    {
      "epoch": 0.5447950671019224,
      "grad_norm": 0.17485234141349792,
      "learning_rate": 8.660257775501045e-05,
      "loss": 0.1698,
      "step": 1502
    },
    {
      "epoch": 0.545157780195865,
      "grad_norm": 0.17470629513263702,
      "learning_rate": 8.6489253063826e-05,
      "loss": 0.1695,
      "step": 1503
    },
    {
      "epoch": 0.5455204932898078,
      "grad_norm": 0.17630697786808014,
      "learning_rate": 8.637594604366647e-05,
      "loss": 0.175,
      "step": 1504
    },
    {
      "epoch": 0.5458832063837504,
      "grad_norm": 0.19793953001499176,
      "learning_rate": 8.626265684272876e-05,
      "loss": 0.1798,
      "step": 1505
    },
    {
      "epoch": 0.5462459194776932,
      "grad_norm": 0.19965516030788422,
      "learning_rate": 8.614938560918649e-05,
      "loss": 0.2011,
      "step": 1506
    },
    {
      "epoch": 0.5466086325716358,
      "grad_norm": 0.18119129538536072,
      "learning_rate": 8.603613249118977e-05,
      "loss": 0.1624,
      "step": 1507
    },
    {
      "epoch": 0.5469713456655785,
      "grad_norm": 0.19433656334877014,
      "learning_rate": 8.592289763686505e-05,
      "loss": 0.1842,
      "step": 1508
    },
    {
      "epoch": 0.5473340587595212,
      "grad_norm": 0.17872895300388336,
      "learning_rate": 8.580968119431483e-05,
      "loss": 0.1628,
      "step": 1509
    },
    {
      "epoch": 0.5476967718534639,
      "grad_norm": 0.18134737014770508,
      "learning_rate": 8.569648331161762e-05,
      "loss": 0.1649,
      "step": 1510
    },
    {
      "epoch": 0.5480594849474066,
      "grad_norm": 0.19080941379070282,
      "learning_rate": 8.558330413682759e-05,
      "loss": 0.1856,
      "step": 1511
    },
    {
      "epoch": 0.5484221980413493,
      "grad_norm": 0.20772339403629303,
      "learning_rate": 8.547014381797445e-05,
      "loss": 0.1904,
      "step": 1512
    },
    {
      "epoch": 0.5487849111352919,
      "grad_norm": 0.1807977259159088,
      "learning_rate": 8.535700250306322e-05,
      "loss": 0.1719,
      "step": 1513
    },
    {
      "epoch": 0.5491476242292347,
      "grad_norm": 0.18353581428527832,
      "learning_rate": 8.524388034007415e-05,
      "loss": 0.1758,
      "step": 1514
    },
    {
      "epoch": 0.5495103373231773,
      "grad_norm": 0.22524112462997437,
      "learning_rate": 8.51307774769623e-05,
      "loss": 0.1821,
      "step": 1515
    },
    {
      "epoch": 0.5498730504171201,
      "grad_norm": 0.17495766282081604,
      "learning_rate": 8.501769406165769e-05,
      "loss": 0.2193,
      "step": 1516
    },
    {
      "epoch": 0.5502357635110627,
      "grad_norm": 0.17903603613376617,
      "learning_rate": 8.490463024206474e-05,
      "loss": 0.1687,
      "step": 1517
    },
    {
      "epoch": 0.5505984766050055,
      "grad_norm": 0.1783863753080368,
      "learning_rate": 8.479158616606228e-05,
      "loss": 0.1699,
      "step": 1518
    },
    {
      "epoch": 0.5509611896989481,
      "grad_norm": 0.17774266004562378,
      "learning_rate": 8.467856198150333e-05,
      "loss": 0.1946,
      "step": 1519
    },
    {
      "epoch": 0.5513239027928908,
      "grad_norm": 0.20432449877262115,
      "learning_rate": 8.45655578362149e-05,
      "loss": 0.193,
      "step": 1520
    },
    {
      "epoch": 0.5516866158868335,
      "grad_norm": 0.1733636111021042,
      "learning_rate": 8.44525738779977e-05,
      "loss": 0.1712,
      "step": 1521
    },
    {
      "epoch": 0.5520493289807762,
      "grad_norm": 0.19748555123806,
      "learning_rate": 8.433961025462624e-05,
      "loss": 0.1969,
      "step": 1522
    },
    {
      "epoch": 0.552412042074719,
      "grad_norm": 0.18513956665992737,
      "learning_rate": 8.422666711384827e-05,
      "loss": 0.1735,
      "step": 1523
    },
    {
      "epoch": 0.5527747551686616,
      "grad_norm": 0.22357869148254395,
      "learning_rate": 8.411374460338474e-05,
      "loss": 0.1725,
      "step": 1524
    },
    {
      "epoch": 0.5531374682626042,
      "grad_norm": 0.18229088187217712,
      "learning_rate": 8.400084287092973e-05,
      "loss": 0.1724,
      "step": 1525
    },
    {
      "epoch": 0.553500181356547,
      "grad_norm": 0.15753042697906494,
      "learning_rate": 8.388796206415004e-05,
      "loss": 0.1762,
      "step": 1526
    },
    {
      "epoch": 0.5538628944504896,
      "grad_norm": 0.18276041746139526,
      "learning_rate": 8.377510233068518e-05,
      "loss": 0.1862,
      "step": 1527
    },
    {
      "epoch": 0.5542256075444324,
      "grad_norm": 0.2091018706560135,
      "learning_rate": 8.366226381814697e-05,
      "loss": 0.1722,
      "step": 1528
    },
    {
      "epoch": 0.554588320638375,
      "grad_norm": 0.1851229965686798,
      "learning_rate": 8.354944667411968e-05,
      "loss": 0.174,
      "step": 1529
    },
    {
      "epoch": 0.5549510337323177,
      "grad_norm": 0.18812698125839233,
      "learning_rate": 8.343665104615948e-05,
      "loss": 0.192,
      "step": 1530
    },
    {
      "epoch": 0.5553137468262604,
      "grad_norm": 0.18323373794555664,
      "learning_rate": 8.332387708179441e-05,
      "loss": 0.185,
      "step": 1531
    },
    {
      "epoch": 0.5556764599202031,
      "grad_norm": 0.187171071767807,
      "learning_rate": 8.321112492852422e-05,
      "loss": 0.18,
      "step": 1532
    },
    {
      "epoch": 0.5560391730141458,
      "grad_norm": 0.18064919114112854,
      "learning_rate": 8.30983947338201e-05,
      "loss": 0.1739,
      "step": 1533
    },
    {
      "epoch": 0.5564018861080885,
      "grad_norm": 0.1815587282180786,
      "learning_rate": 8.29856866451245e-05,
      "loss": 0.1818,
      "step": 1534
    },
    {
      "epoch": 0.5567645992020311,
      "grad_norm": 0.19945740699768066,
      "learning_rate": 8.287300080985106e-05,
      "loss": 0.2014,
      "step": 1535
    },
    {
      "epoch": 0.5571273122959739,
      "grad_norm": 0.1874108761548996,
      "learning_rate": 8.276033737538424e-05,
      "loss": 0.1719,
      "step": 1536
    },
    {
      "epoch": 0.5574900253899165,
      "grad_norm": 0.173946350812912,
      "learning_rate": 8.264769648907915e-05,
      "loss": 0.1616,
      "step": 1537
    },
    {
      "epoch": 0.5578527384838593,
      "grad_norm": 0.20264151692390442,
      "learning_rate": 8.25350782982615e-05,
      "loss": 0.1815,
      "step": 1538
    },
    {
      "epoch": 0.558215451577802,
      "grad_norm": 0.17723354697227478,
      "learning_rate": 8.242248295022727e-05,
      "loss": 0.1869,
      "step": 1539
    },
    {
      "epoch": 0.5585781646717447,
      "grad_norm": 0.16882532835006714,
      "learning_rate": 8.230991059224257e-05,
      "loss": 0.1593,
      "step": 1540
    },
    {
      "epoch": 0.5589408777656873,
      "grad_norm": 0.17361445724964142,
      "learning_rate": 8.219736137154347e-05,
      "loss": 0.1696,
      "step": 1541
    },
    {
      "epoch": 0.55930359085963,
      "grad_norm": 0.1865490823984146,
      "learning_rate": 8.208483543533573e-05,
      "loss": 0.2033,
      "step": 1542
    },
    {
      "epoch": 0.5596663039535728,
      "grad_norm": 0.17689920961856842,
      "learning_rate": 8.197233293079468e-05,
      "loss": 0.1679,
      "step": 1543
    },
    {
      "epoch": 0.5600290170475154,
      "grad_norm": 0.18286365270614624,
      "learning_rate": 8.185985400506502e-05,
      "loss": 0.1654,
      "step": 1544
    },
    {
      "epoch": 0.5603917301414582,
      "grad_norm": 0.18033449351787567,
      "learning_rate": 8.174739880526057e-05,
      "loss": 0.1814,
      "step": 1545
    },
    {
      "epoch": 0.5607544432354008,
      "grad_norm": 0.17507143318653107,
      "learning_rate": 8.163496747846411e-05,
      "loss": 0.1669,
      "step": 1546
    },
    {
      "epoch": 0.5611171563293434,
      "grad_norm": 0.16485197842121124,
      "learning_rate": 8.152256017172732e-05,
      "loss": 0.1666,
      "step": 1547
    },
    {
      "epoch": 0.5614798694232862,
      "grad_norm": 0.18058069050312042,
      "learning_rate": 8.14101770320703e-05,
      "loss": 0.1626,
      "step": 1548
    },
    {
      "epoch": 0.5618425825172289,
      "grad_norm": 0.17364412546157837,
      "learning_rate": 8.129781820648164e-05,
      "loss": 0.1913,
      "step": 1549
    },
    {
      "epoch": 0.5622052956111716,
      "grad_norm": 0.18617358803749084,
      "learning_rate": 8.118548384191809e-05,
      "loss": 0.1844,
      "step": 1550
    },
    {
      "epoch": 0.5625680087051143,
      "grad_norm": 0.17379792034626007,
      "learning_rate": 8.107317408530441e-05,
      "loss": 0.1657,
      "step": 1551
    },
    {
      "epoch": 0.5629307217990569,
      "grad_norm": 0.1696668565273285,
      "learning_rate": 8.096088908353315e-05,
      "loss": 0.1663,
      "step": 1552
    },
    {
      "epoch": 0.5632934348929997,
      "grad_norm": 0.16332849860191345,
      "learning_rate": 8.084862898346459e-05,
      "loss": 0.1707,
      "step": 1553
    },
    {
      "epoch": 0.5636561479869423,
      "grad_norm": 0.20836418867111206,
      "learning_rate": 8.073639393192634e-05,
      "loss": 0.1849,
      "step": 1554
    },
    {
      "epoch": 0.5640188610808851,
      "grad_norm": 0.1766640543937683,
      "learning_rate": 8.062418407571326e-05,
      "loss": 0.1593,
      "step": 1555
    },
    {
      "epoch": 0.5643815741748277,
      "grad_norm": 0.1723148226737976,
      "learning_rate": 8.051199956158727e-05,
      "loss": 0.1753,
      "step": 1556
    },
    {
      "epoch": 0.5647442872687704,
      "grad_norm": 0.17197547852993011,
      "learning_rate": 8.039984053627714e-05,
      "loss": 0.1664,
      "step": 1557
    },
    {
      "epoch": 0.5651070003627131,
      "grad_norm": 0.17370520532131195,
      "learning_rate": 8.02877071464783e-05,
      "loss": 0.1767,
      "step": 1558
    },
    {
      "epoch": 0.5654697134566558,
      "grad_norm": 0.18708960711956024,
      "learning_rate": 8.017559953885267e-05,
      "loss": 0.1951,
      "step": 1559
    },
    {
      "epoch": 0.5658324265505985,
      "grad_norm": 0.21225912868976593,
      "learning_rate": 8.006351786002846e-05,
      "loss": 0.1752,
      "step": 1560
    },
    {
      "epoch": 0.5661951396445412,
      "grad_norm": 0.17883837223052979,
      "learning_rate": 7.995146225659994e-05,
      "loss": 0.1665,
      "step": 1561
    },
    {
      "epoch": 0.5665578527384839,
      "grad_norm": 0.16992917656898499,
      "learning_rate": 7.98394328751272e-05,
      "loss": 0.1691,
      "step": 1562
    },
    {
      "epoch": 0.5669205658324266,
      "grad_norm": 0.18541240692138672,
      "learning_rate": 7.972742986213623e-05,
      "loss": 0.1818,
      "step": 1563
    },
    {
      "epoch": 0.5672832789263692,
      "grad_norm": 0.17470984160900116,
      "learning_rate": 7.961545336411836e-05,
      "loss": 0.1715,
      "step": 1564
    },
    {
      "epoch": 0.567645992020312,
      "grad_norm": 0.21040913462638855,
      "learning_rate": 7.950350352753023e-05,
      "loss": 0.1873,
      "step": 1565
    },
    {
      "epoch": 0.5680087051142546,
      "grad_norm": 0.17107225954532623,
      "learning_rate": 7.93915804987938e-05,
      "loss": 0.1559,
      "step": 1566
    },
    {
      "epoch": 0.5683714182081974,
      "grad_norm": 0.16713112592697144,
      "learning_rate": 7.927968442429576e-05,
      "loss": 0.1734,
      "step": 1567
    },
    {
      "epoch": 0.56873413130214,
      "grad_norm": 0.18837302923202515,
      "learning_rate": 7.916781545038767e-05,
      "loss": 0.167,
      "step": 1568
    },
    {
      "epoch": 0.5690968443960827,
      "grad_norm": 0.17015686631202698,
      "learning_rate": 7.905597372338558e-05,
      "loss": 0.1703,
      "step": 1569
    },
    {
      "epoch": 0.5694595574900254,
      "grad_norm": 0.17552775144577026,
      "learning_rate": 7.894415938956991e-05,
      "loss": 0.1623,
      "step": 1570
    },
    {
      "epoch": 0.5698222705839681,
      "grad_norm": 0.1910295933485031,
      "learning_rate": 7.883237259518526e-05,
      "loss": 0.1642,
      "step": 1571
    },
    {
      "epoch": 0.5701849836779108,
      "grad_norm": 0.19286568462848663,
      "learning_rate": 7.872061348644028e-05,
      "loss": 0.1776,
      "step": 1572
    },
    {
      "epoch": 0.5705476967718535,
      "grad_norm": 0.17776118218898773,
      "learning_rate": 7.86088822095073e-05,
      "loss": 0.167,
      "step": 1573
    },
    {
      "epoch": 0.5709104098657961,
      "grad_norm": 0.1805812269449234,
      "learning_rate": 7.84971789105223e-05,
      "loss": 0.1666,
      "step": 1574
    },
    {
      "epoch": 0.5712731229597389,
      "grad_norm": 0.3048454523086548,
      "learning_rate": 7.838550373558469e-05,
      "loss": 0.2252,
      "step": 1575
    },
    {
      "epoch": 0.5716358360536815,
      "grad_norm": 0.18575210869312286,
      "learning_rate": 7.827385683075701e-05,
      "loss": 0.1673,
      "step": 1576
    },
    {
      "epoch": 0.5719985491476243,
      "grad_norm": 0.19140534102916718,
      "learning_rate": 7.816223834206489e-05,
      "loss": 0.1651,
      "step": 1577
    },
    {
      "epoch": 0.5723612622415669,
      "grad_norm": 0.15774936974048615,
      "learning_rate": 7.805064841549685e-05,
      "loss": 0.1579,
      "step": 1578
    },
    {
      "epoch": 0.5727239753355096,
      "grad_norm": 0.16118699312210083,
      "learning_rate": 7.793908719700396e-05,
      "loss": 0.1656,
      "step": 1579
    },
    {
      "epoch": 0.5730866884294523,
      "grad_norm": 0.19020985066890717,
      "learning_rate": 7.782755483249973e-05,
      "loss": 0.1775,
      "step": 1580
    },
    {
      "epoch": 0.573449401523395,
      "grad_norm": 0.1851213425397873,
      "learning_rate": 7.771605146786003e-05,
      "loss": 0.1876,
      "step": 1581
    },
    {
      "epoch": 0.5738121146173377,
      "grad_norm": 0.17101642489433289,
      "learning_rate": 7.760457724892272e-05,
      "loss": 0.1714,
      "step": 1582
    },
    {
      "epoch": 0.5741748277112804,
      "grad_norm": 0.17683084309101105,
      "learning_rate": 7.749313232148753e-05,
      "loss": 0.166,
      "step": 1583
    },
    {
      "epoch": 0.5745375408052231,
      "grad_norm": 0.1966182291507721,
      "learning_rate": 7.738171683131594e-05,
      "loss": 0.1763,
      "step": 1584
    },
    {
      "epoch": 0.5749002538991658,
      "grad_norm": 0.1787012666463852,
      "learning_rate": 7.727033092413094e-05,
      "loss": 0.1621,
      "step": 1585
    },
    {
      "epoch": 0.5752629669931084,
      "grad_norm": 0.18337036669254303,
      "learning_rate": 7.715897474561675e-05,
      "loss": 0.1568,
      "step": 1586
    },
    {
      "epoch": 0.5756256800870512,
      "grad_norm": 0.18342240154743195,
      "learning_rate": 7.704764844141873e-05,
      "loss": 0.1722,
      "step": 1587
    },
    {
      "epoch": 0.5759883931809938,
      "grad_norm": 0.17828598618507385,
      "learning_rate": 7.693635215714322e-05,
      "loss": 0.1562,
      "step": 1588
    },
    {
      "epoch": 0.5763511062749366,
      "grad_norm": 0.19080400466918945,
      "learning_rate": 7.682508603835722e-05,
      "loss": 0.1783,
      "step": 1589
    },
    {
      "epoch": 0.5767138193688792,
      "grad_norm": 0.16964450478553772,
      "learning_rate": 7.67138502305883e-05,
      "loss": 0.1726,
      "step": 1590
    },
    {
      "epoch": 0.5770765324628219,
      "grad_norm": 0.19029711186885834,
      "learning_rate": 7.660264487932444e-05,
      "loss": 0.1574,
      "step": 1591
    },
    {
      "epoch": 0.5774392455567646,
      "grad_norm": 0.21546104550361633,
      "learning_rate": 7.649147013001376e-05,
      "loss": 0.1691,
      "step": 1592
    },
    {
      "epoch": 0.5778019586507073,
      "grad_norm": 0.17420600354671478,
      "learning_rate": 7.63803261280643e-05,
      "loss": 0.1612,
      "step": 1593
    },
    {
      "epoch": 0.57816467174465,
      "grad_norm": 0.18015912175178528,
      "learning_rate": 7.626921301884395e-05,
      "loss": 0.1622,
      "step": 1594
    },
    {
      "epoch": 0.5785273848385927,
      "grad_norm": 0.16851022839546204,
      "learning_rate": 7.615813094768012e-05,
      "loss": 0.1642,
      "step": 1595
    },
    {
      "epoch": 0.5788900979325353,
      "grad_norm": 0.1783701479434967,
      "learning_rate": 7.604708005985971e-05,
      "loss": 0.1726,
      "step": 1596
    },
    {
      "epoch": 0.5792528110264781,
      "grad_norm": 0.16931217908859253,
      "learning_rate": 7.593606050062881e-05,
      "loss": 0.1608,
      "step": 1597
    },
    {
      "epoch": 0.5796155241204207,
      "grad_norm": 0.16568873822689056,
      "learning_rate": 7.582507241519252e-05,
      "loss": 0.163,
      "step": 1598
    },
    {
      "epoch": 0.5799782372143635,
      "grad_norm": 0.16731184720993042,
      "learning_rate": 7.571411594871474e-05,
      "loss": 0.2004,
      "step": 1599
    },
    {
      "epoch": 0.5803409503083061,
      "grad_norm": 0.2044878900051117,
      "learning_rate": 7.56031912463181e-05,
      "loss": 0.1608,
      "step": 1600
    },
    {
      "epoch": 0.5807036634022488,
      "grad_norm": 0.2527421712875366,
      "learning_rate": 7.549229845308362e-05,
      "loss": 0.1948,
      "step": 1601
    },
    {
      "epoch": 0.5810663764961915,
      "grad_norm": 0.16458679735660553,
      "learning_rate": 7.538143771405055e-05,
      "loss": 0.1495,
      "step": 1602
    },
    {
      "epoch": 0.5814290895901342,
      "grad_norm": 0.16658927500247955,
      "learning_rate": 7.527060917421635e-05,
      "loss": 0.1555,
      "step": 1603
    },
    {
      "epoch": 0.5817918026840769,
      "grad_norm": 0.17401687800884247,
      "learning_rate": 7.515981297853626e-05,
      "loss": 0.1702,
      "step": 1604
    },
    {
      "epoch": 0.5821545157780196,
      "grad_norm": 0.17915883660316467,
      "learning_rate": 7.504904927192322e-05,
      "loss": 0.175,
      "step": 1605
    },
    {
      "epoch": 0.5825172288719622,
      "grad_norm": 0.18019749224185944,
      "learning_rate": 7.493831819924772e-05,
      "loss": 0.1703,
      "step": 1606
    },
    {
      "epoch": 0.582879941965905,
      "grad_norm": 0.18500368297100067,
      "learning_rate": 7.482761990533752e-05,
      "loss": 0.1741,
      "step": 1607
    },
    {
      "epoch": 0.5832426550598476,
      "grad_norm": 0.18486149609088898,
      "learning_rate": 7.47169545349775e-05,
      "loss": 0.1508,
      "step": 1608
    },
    {
      "epoch": 0.5836053681537904,
      "grad_norm": 0.2042957842350006,
      "learning_rate": 7.46063222329096e-05,
      "loss": 0.173,
      "step": 1609
    },
    {
      "epoch": 0.583968081247733,
      "grad_norm": 0.19605065882205963,
      "learning_rate": 7.449572314383237e-05,
      "loss": 0.1865,
      "step": 1610
    },
    {
      "epoch": 0.5843307943416758,
      "grad_norm": 0.18277035653591156,
      "learning_rate": 7.438515741240097e-05,
      "loss": 0.195,
      "step": 1611
    },
    {
      "epoch": 0.5846935074356184,
      "grad_norm": 0.18347297608852386,
      "learning_rate": 7.427462518322693e-05,
      "loss": 0.1579,
      "step": 1612
    },
    {
      "epoch": 0.5850562205295611,
      "grad_norm": 0.1746947020292282,
      "learning_rate": 7.416412660087796e-05,
      "loss": 0.1951,
      "step": 1613
    },
    {
      "epoch": 0.5854189336235038,
      "grad_norm": 0.1751972883939743,
      "learning_rate": 7.405366180987775e-05,
      "loss": 0.1633,
      "step": 1614
    },
    {
      "epoch": 0.5857816467174465,
      "grad_norm": 0.17814141511917114,
      "learning_rate": 7.394323095470586e-05,
      "loss": 0.1845,
      "step": 1615
    },
    {
      "epoch": 0.5861443598113892,
      "grad_norm": 0.1747366487979889,
      "learning_rate": 7.383283417979739e-05,
      "loss": 0.1777,
      "step": 1616
    },
    {
      "epoch": 0.5865070729053319,
      "grad_norm": 0.177615687251091,
      "learning_rate": 7.372247162954282e-05,
      "loss": 0.1691,
      "step": 1617
    },
    {
      "epoch": 0.5868697859992745,
      "grad_norm": 0.1927955448627472,
      "learning_rate": 7.361214344828805e-05,
      "loss": 0.164,
      "step": 1618
    },
    {
      "epoch": 0.5872324990932173,
      "grad_norm": 0.17188555002212524,
      "learning_rate": 7.350184978033386e-05,
      "loss": 0.1704,
      "step": 1619
    },
    {
      "epoch": 0.5875952121871599,
      "grad_norm": 0.25001007318496704,
      "learning_rate": 7.339159076993592e-05,
      "loss": 0.2025,
      "step": 1620
    },
    {
      "epoch": 0.5879579252811027,
      "grad_norm": 0.18958470225334167,
      "learning_rate": 7.328136656130458e-05,
      "loss": 0.1793,
      "step": 1621
    },
    {
      "epoch": 0.5883206383750453,
      "grad_norm": 0.18085351586341858,
      "learning_rate": 7.317117729860475e-05,
      "loss": 0.1669,
      "step": 1622
    },
    {
      "epoch": 0.588683351468988,
      "grad_norm": 0.18232987821102142,
      "learning_rate": 7.306102312595553e-05,
      "loss": 0.1649,
      "step": 1623
    },
    {
      "epoch": 0.5890460645629307,
      "grad_norm": 0.17970141768455505,
      "learning_rate": 7.295090418743018e-05,
      "loss": 0.1757,
      "step": 1624
    },
    {
      "epoch": 0.5894087776568734,
      "grad_norm": 0.1799871325492859,
      "learning_rate": 7.284082062705584e-05,
      "loss": 0.1716,
      "step": 1625
    },
    {
      "epoch": 0.5897714907508161,
      "grad_norm": 0.1792754977941513,
      "learning_rate": 7.273077258881342e-05,
      "loss": 0.1825,
      "step": 1626
    },
    {
      "epoch": 0.5901342038447588,
      "grad_norm": 0.17742280662059784,
      "learning_rate": 7.262076021663727e-05,
      "loss": 0.159,
      "step": 1627
    },
    {
      "epoch": 0.5904969169387014,
      "grad_norm": 0.20353969931602478,
      "learning_rate": 7.251078365441528e-05,
      "loss": 0.1597,
      "step": 1628
    },
    {
      "epoch": 0.5908596300326442,
      "grad_norm": 0.18415038287639618,
      "learning_rate": 7.240084304598835e-05,
      "loss": 0.1774,
      "step": 1629
    },
    {
      "epoch": 0.5912223431265868,
      "grad_norm": 0.18927162885665894,
      "learning_rate": 7.229093853515038e-05,
      "loss": 0.1628,
      "step": 1630
    },
    {
      "epoch": 0.5915850562205296,
      "grad_norm": 0.1826174110174179,
      "learning_rate": 7.21810702656481e-05,
      "loss": 0.1604,
      "step": 1631
    },
    {
      "epoch": 0.5919477693144722,
      "grad_norm": 0.17375624179840088,
      "learning_rate": 7.207123838118077e-05,
      "loss": 0.1647,
      "step": 1632
    },
    {
      "epoch": 0.592310482408415,
      "grad_norm": 0.1889926791191101,
      "learning_rate": 7.196144302540014e-05,
      "loss": 0.1882,
      "step": 1633
    },
    {
      "epoch": 0.5926731955023576,
      "grad_norm": 0.17155472934246063,
      "learning_rate": 7.185168434191014e-05,
      "loss": 0.1552,
      "step": 1634
    },
    {
      "epoch": 0.5930359085963003,
      "grad_norm": 0.18929725885391235,
      "learning_rate": 7.174196247426677e-05,
      "loss": 0.163,
      "step": 1635
    },
    {
      "epoch": 0.593398621690243,
      "grad_norm": 0.18491095304489136,
      "learning_rate": 7.163227756597779e-05,
      "loss": 0.172,
      "step": 1636
    },
    {
      "epoch": 0.5937613347841857,
      "grad_norm": 0.19160285592079163,
      "learning_rate": 7.152262976050275e-05,
      "loss": 0.1642,
      "step": 1637
    },
    {
      "epoch": 0.5941240478781284,
      "grad_norm": 0.18393130600452423,
      "learning_rate": 7.141301920125256e-05,
      "loss": 0.1504,
      "step": 1638
    },
    {
      "epoch": 0.5944867609720711,
      "grad_norm": 0.1797264665365219,
      "learning_rate": 7.130344603158942e-05,
      "loss": 0.1607,
      "step": 1639
    },
    {
      "epoch": 0.5948494740660137,
      "grad_norm": 0.16639918088912964,
      "learning_rate": 7.119391039482677e-05,
      "loss": 0.1637,
      "step": 1640
    },
    {
      "epoch": 0.5952121871599565,
      "grad_norm": 0.17723850905895233,
      "learning_rate": 7.10844124342288e-05,
      "loss": 0.1695,
      "step": 1641
    },
    {
      "epoch": 0.5955749002538991,
      "grad_norm": 0.1672993302345276,
      "learning_rate": 7.097495229301048e-05,
      "loss": 0.1596,
      "step": 1642
    },
    {
      "epoch": 0.5959376133478419,
      "grad_norm": 0.18969713151454926,
      "learning_rate": 7.08655301143373e-05,
      "loss": 0.1658,
      "step": 1643
    },
    {
      "epoch": 0.5963003264417845,
      "grad_norm": 0.18681742250919342,
      "learning_rate": 7.075614604132512e-05,
      "loss": 0.1822,
      "step": 1644
    },
    {
      "epoch": 0.5966630395357272,
      "grad_norm": 0.22509360313415527,
      "learning_rate": 7.064680021703992e-05,
      "loss": 0.1951,
      "step": 1645
    },
    {
      "epoch": 0.59702575262967,
      "grad_norm": 0.1588478535413742,
      "learning_rate": 7.053749278449774e-05,
      "loss": 0.1643,
      "step": 1646
    },
    {
      "epoch": 0.5973884657236126,
      "grad_norm": 0.1908983290195465,
      "learning_rate": 7.042822388666436e-05,
      "loss": 0.1674,
      "step": 1647
    },
    {
      "epoch": 0.5977511788175554,
      "grad_norm": 0.19821012020111084,
      "learning_rate": 7.031899366645511e-05,
      "loss": 0.1817,
      "step": 1648
    },
    {
      "epoch": 0.598113891911498,
      "grad_norm": 0.18674594163894653,
      "learning_rate": 7.020980226673477e-05,
      "loss": 0.1547,
      "step": 1649
    },
    {
      "epoch": 0.5984766050054406,
      "grad_norm": 0.2012438029050827,
      "learning_rate": 7.010064983031737e-05,
      "loss": 0.1793,
      "step": 1650
    },
    {
      "epoch": 0.5988393180993834,
      "grad_norm": 0.18832942843437195,
      "learning_rate": 6.999153649996595e-05,
      "loss": 0.1797,
      "step": 1651
    },
    {
      "epoch": 0.599202031193326,
      "grad_norm": 0.20757931470870972,
      "learning_rate": 6.98824624183924e-05,
      "loss": 0.174,
      "step": 1652
    },
    {
      "epoch": 0.5995647442872688,
      "grad_norm": 0.1787773221731186,
      "learning_rate": 6.977342772825732e-05,
      "loss": 0.1577,
      "step": 1653
    },
    {
      "epoch": 0.5999274573812114,
      "grad_norm": 0.18228726089000702,
      "learning_rate": 6.966443257216971e-05,
      "loss": 0.1834,
      "step": 1654
    },
    {
      "epoch": 0.6002901704751542,
      "grad_norm": 10869.5341796875,
      "learning_rate": 6.955547709268697e-05,
      "loss": 0.1647,
      "step": 1655
    },
    {
      "epoch": 0.6006528835690969,
      "grad_norm": 0.18677209317684174,
      "learning_rate": 6.94465614323145e-05,
      "loss": 0.1921,
      "step": 1656
    },
    {
      "epoch": 0.6010155966630395,
      "grad_norm": 0.21163515746593475,
      "learning_rate": 6.933768573350567e-05,
      "loss": 0.171,
      "step": 1657
    },
    {
      "epoch": 0.6013783097569823,
      "grad_norm": 0.1897449642419815,
      "learning_rate": 6.922885013866153e-05,
      "loss": 0.1877,
      "step": 1658
    },
    {
      "epoch": 0.6017410228509249,
      "grad_norm": 0.20126648247241974,
      "learning_rate": 6.912005479013082e-05,
      "loss": 0.2154,
      "step": 1659
    },
    {
      "epoch": 0.6021037359448677,
      "grad_norm": 0.21092937886714935,
      "learning_rate": 6.901129983020948e-05,
      "loss": 0.1868,
      "step": 1660
    },
    {
      "epoch": 0.6024664490388103,
      "grad_norm": 0.23496972024440765,
      "learning_rate": 6.890258540114074e-05,
      "loss": 0.1784,
      "step": 1661
    },
    {
      "epoch": 0.602829162132753,
      "grad_norm": 0.21016502380371094,
      "learning_rate": 6.879391164511471e-05,
      "loss": 0.1728,
      "step": 1662
    },
    {
      "epoch": 0.6031918752266957,
      "grad_norm": 0.2230292558670044,
      "learning_rate": 6.86852787042684e-05,
      "loss": 0.1849,
      "step": 1663
    },
    {
      "epoch": 0.6035545883206384,
      "grad_norm": 0.19853949546813965,
      "learning_rate": 6.857668672068534e-05,
      "loss": 0.1782,
      "step": 1664
    },
    {
      "epoch": 0.6039173014145811,
      "grad_norm": 0.1775451898574829,
      "learning_rate": 6.846813583639562e-05,
      "loss": 0.1497,
      "step": 1665
    },
    {
      "epoch": 0.6042800145085238,
      "grad_norm": 0.1857757419347763,
      "learning_rate": 6.835962619337549e-05,
      "loss": 0.1836,
      "step": 1666
    },
    {
      "epoch": 0.6046427276024664,
      "grad_norm": 0.1867503970861435,
      "learning_rate": 6.825115793354726e-05,
      "loss": 0.1556,
      "step": 1667
    },
    {
      "epoch": 0.6050054406964092,
      "grad_norm": 0.18607592582702637,
      "learning_rate": 6.814273119877912e-05,
      "loss": 0.2011,
      "step": 1668
    },
    {
      "epoch": 0.6053681537903518,
      "grad_norm": 0.18926583230495453,
      "learning_rate": 6.803434613088497e-05,
      "loss": 0.1661,
      "step": 1669
    },
    {
      "epoch": 0.6057308668842946,
      "grad_norm": 0.18735969066619873,
      "learning_rate": 6.792600287162416e-05,
      "loss": 0.1591,
      "step": 1670
    },
    {
      "epoch": 0.6060935799782372,
      "grad_norm": 0.23324711620807648,
      "learning_rate": 6.781770156270149e-05,
      "loss": 0.1656,
      "step": 1671
    },
    {
      "epoch": 0.6064562930721799,
      "grad_norm": 0.1974279284477234,
      "learning_rate": 6.77094423457667e-05,
      "loss": 0.1585,
      "step": 1672
    },
    {
      "epoch": 0.6068190061661226,
      "grad_norm": 0.20500749349594116,
      "learning_rate": 6.760122536241462e-05,
      "loss": 0.164,
      "step": 1673
    },
    {
      "epoch": 0.6071817192600653,
      "grad_norm": 0.16157761216163635,
      "learning_rate": 6.749305075418482e-05,
      "loss": 0.171,
      "step": 1674
    },
    {
      "epoch": 0.607544432354008,
      "grad_norm": 0.19271859526634216,
      "learning_rate": 6.738491866256138e-05,
      "loss": 0.1777,
      "step": 1675
    },
    {
      "epoch": 0.6079071454479507,
      "grad_norm": 0.18441638350486755,
      "learning_rate": 6.727682922897282e-05,
      "loss": 0.1683,
      "step": 1676
    },
    {
      "epoch": 0.6082698585418934,
      "grad_norm": 0.17519617080688477,
      "learning_rate": 6.716878259479189e-05,
      "loss": 0.1739,
      "step": 1677
    },
    {
      "epoch": 0.6086325716358361,
      "grad_norm": 0.18938271701335907,
      "learning_rate": 6.706077890133531e-05,
      "loss": 0.1606,
      "step": 1678
    },
    {
      "epoch": 0.6089952847297787,
      "grad_norm": 0.20264668762683868,
      "learning_rate": 6.695281828986369e-05,
      "loss": 0.174,
      "step": 1679
    },
    {
      "epoch": 0.6093579978237215,
      "grad_norm": 0.22438956797122955,
      "learning_rate": 6.684490090158124e-05,
      "loss": 0.1594,
      "step": 1680
    },
    {
      "epoch": 0.6097207109176641,
      "grad_norm": 0.19163423776626587,
      "learning_rate": 6.673702687763565e-05,
      "loss": 0.1594,
      "step": 1681
    },
    {
      "epoch": 0.6100834240116069,
      "grad_norm": 0.1845075786113739,
      "learning_rate": 6.662919635911793e-05,
      "loss": 0.173,
      "step": 1682
    },
    {
      "epoch": 0.6104461371055495,
      "grad_norm": 0.18868669867515564,
      "learning_rate": 6.652140948706209e-05,
      "loss": 0.1786,
      "step": 1683
    },
    {
      "epoch": 0.6108088501994922,
      "grad_norm": 0.22319957613945007,
      "learning_rate": 6.641366640244525e-05,
      "loss": 0.2068,
      "step": 1684
    },
    {
      "epoch": 0.6111715632934349,
      "grad_norm": 0.18685069680213928,
      "learning_rate": 6.630596724618703e-05,
      "loss": 0.1751,
      "step": 1685
    },
    {
      "epoch": 0.6115342763873776,
      "grad_norm": 0.18427863717079163,
      "learning_rate": 6.619831215914974e-05,
      "loss": 0.1707,
      "step": 1686
    },
    {
      "epoch": 0.6118969894813203,
      "grad_norm": 0.19461330771446228,
      "learning_rate": 6.609070128213802e-05,
      "loss": 0.178,
      "step": 1687
    },
    {
      "epoch": 0.612259702575263,
      "grad_norm": 0.21272696554660797,
      "learning_rate": 6.598313475589863e-05,
      "loss": 0.1789,
      "step": 1688
    },
    {
      "epoch": 0.6126224156692056,
      "grad_norm": 0.20163173973560333,
      "learning_rate": 6.58756127211204e-05,
      "loss": 0.2014,
      "step": 1689
    },
    {
      "epoch": 0.6129851287631484,
      "grad_norm": 0.1940133273601532,
      "learning_rate": 6.576813531843396e-05,
      "loss": 0.1703,
      "step": 1690
    },
    {
      "epoch": 0.613347841857091,
      "grad_norm": 0.17384611070156097,
      "learning_rate": 6.566070268841152e-05,
      "loss": 0.1556,
      "step": 1691
    },
    {
      "epoch": 0.6137105549510338,
      "grad_norm": 0.1869945228099823,
      "learning_rate": 6.555331497156672e-05,
      "loss": 0.1548,
      "step": 1692
    },
    {
      "epoch": 0.6140732680449764,
      "grad_norm": 0.18520064651966095,
      "learning_rate": 6.544597230835454e-05,
      "loss": 0.1807,
      "step": 1693
    },
    {
      "epoch": 0.6144359811389191,
      "grad_norm": 0.17966820299625397,
      "learning_rate": 6.533867483917098e-05,
      "loss": 0.1516,
      "step": 1694
    },
    {
      "epoch": 0.6147986942328618,
      "grad_norm": 0.1705074906349182,
      "learning_rate": 6.523142270435288e-05,
      "loss": 0.1518,
      "step": 1695
    },
    {
      "epoch": 0.6151614073268045,
      "grad_norm": 0.24414807558059692,
      "learning_rate": 6.512421604417792e-05,
      "loss": 0.2026,
      "step": 1696
    },
    {
      "epoch": 0.6155241204207472,
      "grad_norm": 0.16796554625034332,
      "learning_rate": 6.501705499886418e-05,
      "loss": 0.1554,
      "step": 1697
    },
    {
      "epoch": 0.6158868335146899,
      "grad_norm": 0.19749103486537933,
      "learning_rate": 6.490993970857011e-05,
      "loss": 0.1807,
      "step": 1698
    },
    {
      "epoch": 0.6162495466086326,
      "grad_norm": 0.16789931058883667,
      "learning_rate": 6.480287031339436e-05,
      "loss": 0.1617,
      "step": 1699
    },
    {
      "epoch": 0.6166122597025753,
      "grad_norm": 0.1916869580745697,
      "learning_rate": 6.469584695337548e-05,
      "loss": 0.188,
      "step": 1700
    },
    {
      "epoch": 0.6169749727965179,
      "grad_norm": 0.19540345668792725,
      "learning_rate": 6.458886976849183e-05,
      "loss": 0.1743,
      "step": 1701
    },
    {
      "epoch": 0.6173376858904607,
      "grad_norm": 0.17193295061588287,
      "learning_rate": 6.448193889866149e-05,
      "loss": 0.1763,
      "step": 1702
    },
    {
      "epoch": 0.6177003989844033,
      "grad_norm": 0.17156308889389038,
      "learning_rate": 6.43750544837418e-05,
      "loss": 0.158,
      "step": 1703
    },
    {
      "epoch": 0.6180631120783461,
      "grad_norm": 0.1796158254146576,
      "learning_rate": 6.426821666352942e-05,
      "loss": 0.1656,
      "step": 1704
    },
    {
      "epoch": 0.6184258251722887,
      "grad_norm": 0.18700680136680603,
      "learning_rate": 6.416142557776006e-05,
      "loss": 0.174,
      "step": 1705
    },
    {
      "epoch": 0.6187885382662314,
      "grad_norm": 0.16723744571208954,
      "learning_rate": 6.405468136610832e-05,
      "loss": 0.1619,
      "step": 1706
    },
    {
      "epoch": 0.6191512513601741,
      "grad_norm": 0.17422862350940704,
      "learning_rate": 6.394798416818739e-05,
      "loss": 0.1609,
      "step": 1707
    },
    {
      "epoch": 0.6195139644541168,
      "grad_norm": 0.20079629123210907,
      "learning_rate": 6.384133412354918e-05,
      "loss": 0.1652,
      "step": 1708
    },
    {
      "epoch": 0.6198766775480595,
      "grad_norm": 0.2474866658449173,
      "learning_rate": 6.373473137168373e-05,
      "loss": 0.1663,
      "step": 1709
    },
    {
      "epoch": 0.6202393906420022,
      "grad_norm": 0.1707204282283783,
      "learning_rate": 6.36281760520193e-05,
      "loss": 0.1592,
      "step": 1710
    },
    {
      "epoch": 0.6206021037359448,
      "grad_norm": 0.17606933414936066,
      "learning_rate": 6.352166830392213e-05,
      "loss": 0.1662,
      "step": 1711
    },
    {
      "epoch": 0.6209648168298876,
      "grad_norm": 0.17025688290596008,
      "learning_rate": 6.341520826669621e-05,
      "loss": 0.1592,
      "step": 1712
    },
    {
      "epoch": 0.6213275299238302,
      "grad_norm": 0.18838566541671753,
      "learning_rate": 6.330879607958314e-05,
      "loss": 0.1816,
      "step": 1713
    },
    {
      "epoch": 0.621690243017773,
      "grad_norm": 0.2592281103134155,
      "learning_rate": 6.320243188176185e-05,
      "loss": 0.2014,
      "step": 1714
    },
    {
      "epoch": 0.6220529561117156,
      "grad_norm": 0.16398011147975922,
      "learning_rate": 6.309611581234872e-05,
      "loss": 0.1585,
      "step": 1715
    },
    {
      "epoch": 0.6224156692056583,
      "grad_norm": 0.1793876439332962,
      "learning_rate": 6.298984801039697e-05,
      "loss": 0.1532,
      "step": 1716
    },
    {
      "epoch": 0.622778382299601,
      "grad_norm": 0.1910189986228943,
      "learning_rate": 6.28836286148968e-05,
      "loss": 0.1666,
      "step": 1717
    },
    {
      "epoch": 0.6231410953935437,
      "grad_norm": 0.20349231362342834,
      "learning_rate": 6.277745776477506e-05,
      "loss": 0.2075,
      "step": 1718
    },
    {
      "epoch": 0.6235038084874864,
      "grad_norm": 0.19140169024467468,
      "learning_rate": 6.267133559889509e-05,
      "loss": 0.1574,
      "step": 1719
    },
    {
      "epoch": 0.6238665215814291,
      "grad_norm": 0.18104875087738037,
      "learning_rate": 6.256526225605652e-05,
      "loss": 0.1594,
      "step": 1720
    },
    {
      "epoch": 0.6242292346753718,
      "grad_norm": 0.18763144314289093,
      "learning_rate": 6.245923787499532e-05,
      "loss": 0.1613,
      "step": 1721
    },
    {
      "epoch": 0.6245919477693145,
      "grad_norm": 0.16338056325912476,
      "learning_rate": 6.235326259438317e-05,
      "loss": 0.1823,
      "step": 1722
    },
    {
      "epoch": 0.6249546608632571,
      "grad_norm": 0.1663455367088318,
      "learning_rate": 6.224733655282771e-05,
      "loss": 0.167,
      "step": 1723
    },
    {
      "epoch": 0.6253173739571999,
      "grad_norm": 0.17179372906684875,
      "learning_rate": 6.214145988887206e-05,
      "loss": 0.1645,
      "step": 1724
    },
    {
      "epoch": 0.6256800870511425,
      "grad_norm": 0.16161875426769257,
      "learning_rate": 6.203563274099481e-05,
      "loss": 0.1402,
      "step": 1725
    },
    {
      "epoch": 0.6260428001450853,
      "grad_norm": 0.2017858475446701,
      "learning_rate": 6.19298552476098e-05,
      "loss": 0.1667,
      "step": 1726
    },
    {
      "epoch": 0.6264055132390279,
      "grad_norm": 0.22198174893856049,
      "learning_rate": 6.182412754706594e-05,
      "loss": 0.1902,
      "step": 1727
    },
    {
      "epoch": 0.6267682263329706,
      "grad_norm": 0.1705772578716278,
      "learning_rate": 6.171844977764695e-05,
      "loss": 0.1588,
      "step": 1728
    },
    {
      "epoch": 0.6271309394269133,
      "grad_norm": 0.17019295692443848,
      "learning_rate": 6.161282207757126e-05,
      "loss": 0.1609,
      "step": 1729
    },
    {
      "epoch": 0.627493652520856,
      "grad_norm": 0.1743742674589157,
      "learning_rate": 6.15072445849919e-05,
      "loss": 0.179,
      "step": 1730
    },
    {
      "epoch": 0.6278563656147987,
      "grad_norm": 0.16775129735469818,
      "learning_rate": 6.140171743799611e-05,
      "loss": 0.1807,
      "step": 1731
    },
    {
      "epoch": 0.6282190787087414,
      "grad_norm": 0.18963152170181274,
      "learning_rate": 6.129624077460532e-05,
      "loss": 0.2007,
      "step": 1732
    },
    {
      "epoch": 0.628581791802684,
      "grad_norm": 0.182524174451828,
      "learning_rate": 6.119081473277501e-05,
      "loss": 0.1738,
      "step": 1733
    },
    {
      "epoch": 0.6289445048966268,
      "grad_norm": 0.18262414634227753,
      "learning_rate": 6.108543945039438e-05,
      "loss": 0.1897,
      "step": 1734
    },
    {
      "epoch": 0.6293072179905694,
      "grad_norm": 0.1729535162448883,
      "learning_rate": 6.098011506528623e-05,
      "loss": 0.1586,
      "step": 1735
    },
    {
      "epoch": 0.6296699310845122,
      "grad_norm": 0.1677355319261551,
      "learning_rate": 6.0874841715206785e-05,
      "loss": 0.1871,
      "step": 1736
    },
    {
      "epoch": 0.6300326441784548,
      "grad_norm": 0.17900875210762024,
      "learning_rate": 6.076961953784559e-05,
      "loss": 0.1595,
      "step": 1737
    },
    {
      "epoch": 0.6303953572723975,
      "grad_norm": 0.18250757455825806,
      "learning_rate": 6.066444867082515e-05,
      "loss": 0.1842,
      "step": 1738
    },
    {
      "epoch": 0.6307580703663402,
      "grad_norm": 0.17696964740753174,
      "learning_rate": 6.0559329251701005e-05,
      "loss": 0.1709,
      "step": 1739
    },
    {
      "epoch": 0.6311207834602829,
      "grad_norm": 0.1764724850654602,
      "learning_rate": 6.045426141796128e-05,
      "loss": 0.161,
      "step": 1740
    },
    {
      "epoch": 0.6314834965542256,
      "grad_norm": 0.17228443920612335,
      "learning_rate": 6.03492453070267e-05,
      "loss": 0.1579,
      "step": 1741
    },
    {
      "epoch": 0.6318462096481683,
      "grad_norm": 0.17399545013904572,
      "learning_rate": 6.024428105625028e-05,
      "loss": 0.1555,
      "step": 1742
    },
    {
      "epoch": 0.6322089227421109,
      "grad_norm": 0.1953967958688736,
      "learning_rate": 6.0139368802917284e-05,
      "loss": 0.2569,
      "step": 1743
    },
    {
      "epoch": 0.6325716358360537,
      "grad_norm": 0.17359597980976105,
      "learning_rate": 6.0034508684244875e-05,
      "loss": 0.1783,
      "step": 1744
    },
    {
      "epoch": 0.6329343489299963,
      "grad_norm": 0.1505521535873413,
      "learning_rate": 5.992970083738212e-05,
      "loss": 0.1567,
      "step": 1745
    },
    {
      "epoch": 0.6332970620239391,
      "grad_norm": 0.18801428377628326,
      "learning_rate": 5.982494539940966e-05,
      "loss": 0.2076,
      "step": 1746
    },
    {
      "epoch": 0.6336597751178817,
      "grad_norm": 0.16666316986083984,
      "learning_rate": 5.97202425073396e-05,
      "loss": 0.1617,
      "step": 1747
    },
    {
      "epoch": 0.6340224882118245,
      "grad_norm": 0.174256831407547,
      "learning_rate": 5.961559229811535e-05,
      "loss": 0.167,
      "step": 1748
    },
    {
      "epoch": 0.6343852013057671,
      "grad_norm": 0.16997861862182617,
      "learning_rate": 5.951099490861136e-05,
      "loss": 0.191,
      "step": 1749
    },
    {
      "epoch": 0.6347479143997098,
      "grad_norm": 0.18059667944908142,
      "learning_rate": 5.940645047563306e-05,
      "loss": 0.1769,
      "step": 1750
    },
    {
      "epoch": 0.6351106274936525,
      "grad_norm": 0.17815832793712616,
      "learning_rate": 5.9301959135916496e-05,
      "loss": 0.1406,
      "step": 1751
    },
    {
      "epoch": 0.6354733405875952,
      "grad_norm": 0.1702101081609726,
      "learning_rate": 5.919752102612848e-05,
      "loss": 0.1471,
      "step": 1752
    },
    {
      "epoch": 0.635836053681538,
      "grad_norm": 0.1625283807516098,
      "learning_rate": 5.909313628286601e-05,
      "loss": 0.1446,
      "step": 1753
    },
    {
      "epoch": 0.6361987667754806,
      "grad_norm": 0.16857244074344635,
      "learning_rate": 5.898880504265638e-05,
      "loss": 0.1561,
      "step": 1754
    },
    {
      "epoch": 0.6365614798694232,
      "grad_norm": 0.18340398371219635,
      "learning_rate": 5.888452744195687e-05,
      "loss": 0.1862,
      "step": 1755
    },
    {
      "epoch": 0.636924192963366,
      "grad_norm": 0.20158030092716217,
      "learning_rate": 5.878030361715461e-05,
      "loss": 0.1571,
      "step": 1756
    },
    {
      "epoch": 0.6372869060573086,
      "grad_norm": 0.17433685064315796,
      "learning_rate": 5.867613370456636e-05,
      "loss": 0.1629,
      "step": 1757
    },
    {
      "epoch": 0.6376496191512514,
      "grad_norm": 0.16959048807621002,
      "learning_rate": 5.857201784043851e-05,
      "loss": 0.1742,
      "step": 1758
    },
    {
      "epoch": 0.638012332245194,
      "grad_norm": 0.17399851977825165,
      "learning_rate": 5.8467956160946604e-05,
      "loss": 0.1605,
      "step": 1759
    },
    {
      "epoch": 0.6383750453391367,
      "grad_norm": 0.1925593912601471,
      "learning_rate": 5.8363948802195356e-05,
      "loss": 0.2142,
      "step": 1760
    },
    {
      "epoch": 0.6387377584330794,
      "grad_norm": 0.1870613396167755,
      "learning_rate": 5.8259995900218465e-05,
      "loss": 0.1619,
      "step": 1761
    },
    {
      "epoch": 0.6391004715270221,
      "grad_norm": 0.18008996546268463,
      "learning_rate": 5.815609759097837e-05,
      "loss": 0.1594,
      "step": 1762
    },
    {
      "epoch": 0.6394631846209649,
      "grad_norm": 0.1749439388513565,
      "learning_rate": 5.8052254010366105e-05,
      "loss": 0.1543,
      "step": 1763
    },
    {
      "epoch": 0.6398258977149075,
      "grad_norm": 0.17792417109012604,
      "learning_rate": 5.7948465294201194e-05,
      "loss": 0.1679,
      "step": 1764
    },
    {
      "epoch": 0.6401886108088501,
      "grad_norm": 0.18781551718711853,
      "learning_rate": 5.7844731578231334e-05,
      "loss": 0.1634,
      "step": 1765
    },
    {
      "epoch": 0.6405513239027929,
      "grad_norm": 0.17064349353313446,
      "learning_rate": 5.7741052998132285e-05,
      "loss": 0.1547,
      "step": 1766
    },
    {
      "epoch": 0.6409140369967355,
      "grad_norm": 0.15985310077667236,
      "learning_rate": 5.7637429689507713e-05,
      "loss": 0.1446,
      "step": 1767
    },
    {
      "epoch": 0.6412767500906783,
      "grad_norm": 0.18584533035755157,
      "learning_rate": 5.7533861787888995e-05,
      "loss": 0.1692,
      "step": 1768
    },
    {
      "epoch": 0.641639463184621,
      "grad_norm": 0.18340182304382324,
      "learning_rate": 5.7430349428734995e-05,
      "loss": 0.1698,
      "step": 1769
    },
    {
      "epoch": 0.6420021762785637,
      "grad_norm": 0.15710604190826416,
      "learning_rate": 5.732689274743204e-05,
      "loss": 0.1465,
      "step": 1770
    },
    {
      "epoch": 0.6423648893725064,
      "grad_norm": 0.17073456943035126,
      "learning_rate": 5.7223491879293526e-05,
      "loss": 0.1531,
      "step": 1771
    },
    {
      "epoch": 0.642727602466449,
      "grad_norm": 0.17552490532398224,
      "learning_rate": 5.712014695955991e-05,
      "loss": 0.1519,
      "step": 1772
    },
    {
      "epoch": 0.6430903155603918,
      "grad_norm": 0.20075669884681702,
      "learning_rate": 5.7016858123398434e-05,
      "loss": 0.167,
      "step": 1773
    },
    {
      "epoch": 0.6434530286543344,
      "grad_norm": 0.20733250677585602,
      "learning_rate": 5.691362550590297e-05,
      "loss": 0.1745,
      "step": 1774
    },
    {
      "epoch": 0.6438157417482772,
      "grad_norm": 0.16159029304981232,
      "learning_rate": 5.681044924209398e-05,
      "loss": 0.15,
      "step": 1775
    },
    {
      "epoch": 0.6441784548422198,
      "grad_norm": 0.184630885720253,
      "learning_rate": 5.670732946691808e-05,
      "loss": 0.1756,
      "step": 1776
    },
    {
      "epoch": 0.6445411679361625,
      "grad_norm": 0.16852855682373047,
      "learning_rate": 5.6604266315248034e-05,
      "loss": 0.1642,
      "step": 1777
    },
    {
      "epoch": 0.6449038810301052,
      "grad_norm": 0.16728003323078156,
      "learning_rate": 5.6501259921882655e-05,
      "loss": 0.1612,
      "step": 1778
    },
    {
      "epoch": 0.6452665941240479,
      "grad_norm": 0.17908404767513275,
      "learning_rate": 5.6398310421546376e-05,
      "loss": 0.1759,
      "step": 1779
    },
    {
      "epoch": 0.6456293072179906,
      "grad_norm": 0.16568151116371155,
      "learning_rate": 5.6295417948889306e-05,
      "loss": 0.1514,
      "step": 1780
    },
    {
      "epoch": 0.6459920203119333,
      "grad_norm": 0.2028510570526123,
      "learning_rate": 5.619258263848692e-05,
      "loss": 0.1626,
      "step": 1781
    },
    {
      "epoch": 0.6463547334058759,
      "grad_norm": 0.19075465202331543,
      "learning_rate": 5.608980462483991e-05,
      "loss": 0.1809,
      "step": 1782
    },
    {
      "epoch": 0.6467174464998187,
      "grad_norm": 0.18601737916469574,
      "learning_rate": 5.598708404237416e-05,
      "loss": 0.1606,
      "step": 1783
    },
    {
      "epoch": 0.6470801595937613,
      "grad_norm": 0.18421201407909393,
      "learning_rate": 5.588442102544029e-05,
      "loss": 0.1527,
      "step": 1784
    },
    {
      "epoch": 0.6474428726877041,
      "grad_norm": 0.20656828582286835,
      "learning_rate": 5.578181570831369e-05,
      "loss": 0.1726,
      "step": 1785
    },
    {
      "epoch": 0.6478055857816467,
      "grad_norm": 0.1901615560054779,
      "learning_rate": 5.567926822519427e-05,
      "loss": 0.1865,
      "step": 1786
    },
    {
      "epoch": 0.6481682988755894,
      "grad_norm": 0.17387042939662933,
      "learning_rate": 5.55767787102063e-05,
      "loss": 0.1643,
      "step": 1787
    },
    {
      "epoch": 0.6485310119695321,
      "grad_norm": 0.16012033820152283,
      "learning_rate": 5.547434729739822e-05,
      "loss": 0.162,
      "step": 1788
    },
    {
      "epoch": 0.6488937250634748,
      "grad_norm": 0.17737270891666412,
      "learning_rate": 5.537197412074257e-05,
      "loss": 0.1563,
      "step": 1789
    },
    {
      "epoch": 0.6492564381574175,
      "grad_norm": 0.17308826744556427,
      "learning_rate": 5.526965931413557e-05,
      "loss": 0.1596,
      "step": 1790
    },
    {
      "epoch": 0.6496191512513602,
      "grad_norm": 0.20024463534355164,
      "learning_rate": 5.516740301139721e-05,
      "loss": 0.1763,
      "step": 1791
    },
    {
      "epoch": 0.6499818643453029,
      "grad_norm": 0.17333653569221497,
      "learning_rate": 5.506520534627091e-05,
      "loss": 0.1666,
      "step": 1792
    },
    {
      "epoch": 0.6503445774392456,
      "grad_norm": 0.17827224731445312,
      "learning_rate": 5.496306645242339e-05,
      "loss": 0.1718,
      "step": 1793
    },
    {
      "epoch": 0.6507072905331882,
      "grad_norm": 0.19950279593467712,
      "learning_rate": 5.4860986463444506e-05,
      "loss": 0.2117,
      "step": 1794
    },
    {
      "epoch": 0.651070003627131,
      "grad_norm": 0.17631955444812775,
      "learning_rate": 5.475896551284716e-05,
      "loss": 0.1784,
      "step": 1795
    },
    {
      "epoch": 0.6514327167210736,
      "grad_norm": 0.18082845211029053,
      "learning_rate": 5.4657003734066925e-05,
      "loss": 0.2068,
      "step": 1796
    },
    {
      "epoch": 0.6517954298150164,
      "grad_norm": 0.17366324365139008,
      "learning_rate": 5.455510126046199e-05,
      "loss": 0.1443,
      "step": 1797
    },
    {
      "epoch": 0.652158142908959,
      "grad_norm": 0.17154483497142792,
      "learning_rate": 5.445325822531304e-05,
      "loss": 0.17,
      "step": 1798
    },
    {
      "epoch": 0.6525208560029017,
      "grad_norm": 0.18583987653255463,
      "learning_rate": 5.435147476182298e-05,
      "loss": 0.1609,
      "step": 1799
    },
    {
      "epoch": 0.6528835690968444,
      "grad_norm": 0.16991505026817322,
      "learning_rate": 5.424975100311676e-05,
      "loss": 0.1537,
      "step": 1800
    },
    {
      "epoch": 0.6532462821907871,
      "grad_norm": 0.1840389221906662,
      "learning_rate": 5.414808708224135e-05,
      "loss": 0.1628,
      "step": 1801
    },
    {
      "epoch": 0.6536089952847298,
      "grad_norm": 0.197292760014534,
      "learning_rate": 5.404648313216538e-05,
      "loss": 0.1722,
      "step": 1802
    },
    {
      "epoch": 0.6539717083786725,
      "grad_norm": 0.1785934418439865,
      "learning_rate": 5.394493928577903e-05,
      "loss": 0.1629,
      "step": 1803
    },
    {
      "epoch": 0.6543344214726151,
      "grad_norm": 0.17052417993545532,
      "learning_rate": 5.384345567589391e-05,
      "loss": 0.1639,
      "step": 1804
    },
    {
      "epoch": 0.6546971345665579,
      "grad_norm": 0.1716339886188507,
      "learning_rate": 5.374203243524283e-05,
      "loss": 0.1628,
      "step": 1805
    },
    {
      "epoch": 0.6550598476605005,
      "grad_norm": 0.16768915951251984,
      "learning_rate": 5.364066969647963e-05,
      "loss": 0.1426,
      "step": 1806
    },
    {
      "epoch": 0.6554225607544433,
      "grad_norm": 0.1639591008424759,
      "learning_rate": 5.353936759217899e-05,
      "loss": 0.1604,
      "step": 1807
    },
    {
      "epoch": 0.6557852738483859,
      "grad_norm": 0.1945423036813736,
      "learning_rate": 5.343812625483642e-05,
      "loss": 0.1562,
      "step": 1808
    },
    {
      "epoch": 0.6561479869423286,
      "grad_norm": 0.1996852457523346,
      "learning_rate": 5.333694581686779e-05,
      "loss": 0.1712,
      "step": 1809
    },
    {
      "epoch": 0.6565107000362713,
      "grad_norm": 0.18032366037368774,
      "learning_rate": 5.32358264106094e-05,
      "loss": 0.196,
      "step": 1810
    },
    {
      "epoch": 0.656873413130214,
      "grad_norm": 0.16884812712669373,
      "learning_rate": 5.313476816831768e-05,
      "loss": 0.1558,
      "step": 1811
    },
    {
      "epoch": 0.6572361262241567,
      "grad_norm": 0.1865408569574356,
      "learning_rate": 5.303377122216915e-05,
      "loss": 0.184,
      "step": 1812
    },
    {
      "epoch": 0.6575988393180994,
      "grad_norm": 0.18371020257472992,
      "learning_rate": 5.293283570426007e-05,
      "loss": 0.1672,
      "step": 1813
    },
    {
      "epoch": 0.6579615524120421,
      "grad_norm": 0.1799343377351761,
      "learning_rate": 5.283196174660633e-05,
      "loss": 0.1544,
      "step": 1814
    },
    {
      "epoch": 0.6583242655059848,
      "grad_norm": 0.17262513935565948,
      "learning_rate": 5.273114948114346e-05,
      "loss": 0.1582,
      "step": 1815
    },
    {
      "epoch": 0.6586869785999274,
      "grad_norm": 0.19773328304290771,
      "learning_rate": 5.263039903972618e-05,
      "loss": 0.1649,
      "step": 1816
    },
    {
      "epoch": 0.6590496916938702,
      "grad_norm": 0.18928907811641693,
      "learning_rate": 5.252971055412832e-05,
      "loss": 0.1853,
      "step": 1817
    },
    {
      "epoch": 0.6594124047878128,
      "grad_norm": 0.17779038846492767,
      "learning_rate": 5.242908415604277e-05,
      "loss": 0.1643,
      "step": 1818
    },
    {
      "epoch": 0.6597751178817556,
      "grad_norm": 0.2303963601589203,
      "learning_rate": 5.2328519977081105e-05,
      "loss": 0.1926,
      "step": 1819
    },
    {
      "epoch": 0.6601378309756982,
      "grad_norm": 0.16455812752246857,
      "learning_rate": 5.222801814877369e-05,
      "loss": 0.1582,
      "step": 1820
    },
    {
      "epoch": 0.6605005440696409,
      "grad_norm": 0.16079877316951752,
      "learning_rate": 5.21275788025692e-05,
      "loss": 0.149,
      "step": 1821
    },
    {
      "epoch": 0.6608632571635836,
      "grad_norm": 0.1705598533153534,
      "learning_rate": 5.20272020698346e-05,
      "loss": 0.1624,
      "step": 1822
    },
    {
      "epoch": 0.6612259702575263,
      "grad_norm": 0.16610048711299896,
      "learning_rate": 5.192688808185502e-05,
      "loss": 0.1527,
      "step": 1823
    },
    {
      "epoch": 0.661588683351469,
      "grad_norm": 0.19774171710014343,
      "learning_rate": 5.1826636969833475e-05,
      "loss": 0.1631,
      "step": 1824
    },
    {
      "epoch": 0.6619513964454117,
      "grad_norm": 0.17446525394916534,
      "learning_rate": 5.172644886489073e-05,
      "loss": 0.1621,
      "step": 1825
    },
    {
      "epoch": 0.6623141095393543,
      "grad_norm": 0.20300233364105225,
      "learning_rate": 5.162632389806523e-05,
      "loss": 0.1907,
      "step": 1826
    },
    {
      "epoch": 0.6626768226332971,
      "grad_norm": 0.204659104347229,
      "learning_rate": 5.152626220031278e-05,
      "loss": 0.1596,
      "step": 1827
    },
    {
      "epoch": 0.6630395357272397,
      "grad_norm": 0.1757912039756775,
      "learning_rate": 5.1426263902506414e-05,
      "loss": 0.1535,
      "step": 1828
    },
    {
      "epoch": 0.6634022488211825,
      "grad_norm": 0.19932380318641663,
      "learning_rate": 5.132632913543627e-05,
      "loss": 0.1705,
      "step": 1829
    },
    {
      "epoch": 0.6637649619151251,
      "grad_norm": 0.18215243518352509,
      "learning_rate": 5.1226458029809387e-05,
      "loss": 0.1636,
      "step": 1830
    },
    {
      "epoch": 0.6641276750090678,
      "grad_norm": 0.1725538820028305,
      "learning_rate": 5.112665071624951e-05,
      "loss": 0.1397,
      "step": 1831
    },
    {
      "epoch": 0.6644903881030105,
      "grad_norm": 0.18406741321086884,
      "learning_rate": 5.1026907325297044e-05,
      "loss": 0.1639,
      "step": 1832
    },
    {
      "epoch": 0.6648531011969532,
      "grad_norm": 0.17330917716026306,
      "learning_rate": 5.092722798740871e-05,
      "loss": 0.1588,
      "step": 1833
    },
    {
      "epoch": 0.6652158142908959,
      "grad_norm": 0.16775713860988617,
      "learning_rate": 5.082761283295745e-05,
      "loss": 0.1407,
      "step": 1834
    },
    {
      "epoch": 0.6655785273848386,
      "grad_norm": 0.17397847771644592,
      "learning_rate": 5.072806199223228e-05,
      "loss": 0.1767,
      "step": 1835
    },
    {
      "epoch": 0.6659412404787813,
      "grad_norm": 0.17217876017093658,
      "learning_rate": 5.062857559543809e-05,
      "loss": 0.1644,
      "step": 1836
    },
    {
      "epoch": 0.666303953572724,
      "grad_norm": 0.1916993409395218,
      "learning_rate": 5.0529153772695495e-05,
      "loss": 0.1631,
      "step": 1837
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.19008702039718628,
      "learning_rate": 5.0429796654040595e-05,
      "loss": 0.1677,
      "step": 1838
    },
    {
      "epoch": 0.6670293797606094,
      "grad_norm": 0.18073846399784088,
      "learning_rate": 5.033050436942501e-05,
      "loss": 0.1644,
      "step": 1839
    },
    {
      "epoch": 0.667392092854552,
      "grad_norm": 0.1769622266292572,
      "learning_rate": 5.023127704871541e-05,
      "loss": 0.1764,
      "step": 1840
    },
    {
      "epoch": 0.6677548059484948,
      "grad_norm": 0.17394478619098663,
      "learning_rate": 5.013211482169354e-05,
      "loss": 0.1652,
      "step": 1841
    },
    {
      "epoch": 0.6681175190424374,
      "grad_norm": 0.18357783555984497,
      "learning_rate": 5.003301781805604e-05,
      "loss": 0.1799,
      "step": 1842
    },
    {
      "epoch": 0.6684802321363801,
      "grad_norm": 0.18445712327957153,
      "learning_rate": 4.993398616741421e-05,
      "loss": 0.1731,
      "step": 1843
    },
    {
      "epoch": 0.6688429452303228,
      "grad_norm": 0.17181545495986938,
      "learning_rate": 4.983501999929384e-05,
      "loss": 0.1647,
      "step": 1844
    },
    {
      "epoch": 0.6692056583242655,
      "grad_norm": 0.1643923968076706,
      "learning_rate": 4.97361194431352e-05,
      "loss": 0.1522,
      "step": 1845
    },
    {
      "epoch": 0.6695683714182082,
      "grad_norm": 0.178927481174469,
      "learning_rate": 4.963728462829262e-05,
      "loss": 0.1693,
      "step": 1846
    },
    {
      "epoch": 0.6699310845121509,
      "grad_norm": 0.16977953910827637,
      "learning_rate": 4.95385156840345e-05,
      "loss": 0.1634,
      "step": 1847
    },
    {
      "epoch": 0.6702937976060935,
      "grad_norm": 0.19453585147857666,
      "learning_rate": 4.943981273954302e-05,
      "loss": 0.161,
      "step": 1848
    },
    {
      "epoch": 0.6706565107000363,
      "grad_norm": 0.15591104328632355,
      "learning_rate": 4.9341175923914184e-05,
      "loss": 0.1336,
      "step": 1849
    },
    {
      "epoch": 0.6710192237939789,
      "grad_norm": 0.19056206941604614,
      "learning_rate": 4.9242605366157356e-05,
      "loss": 0.1647,
      "step": 1850
    },
    {
      "epoch": 0.6713819368879217,
      "grad_norm": 0.18081988394260406,
      "learning_rate": 4.914410119519528e-05,
      "loss": 0.1679,
      "step": 1851
    },
    {
      "epoch": 0.6717446499818643,
      "grad_norm": 0.1665160208940506,
      "learning_rate": 4.904566353986394e-05,
      "loss": 0.1585,
      "step": 1852
    },
    {
      "epoch": 0.672107363075807,
      "grad_norm": 0.18015241622924805,
      "learning_rate": 4.894729252891224e-05,
      "loss": 0.1687,
      "step": 1853
    },
    {
      "epoch": 0.6724700761697497,
      "grad_norm": 0.16529425978660583,
      "learning_rate": 4.884898829100194e-05,
      "loss": 0.1569,
      "step": 1854
    },
    {
      "epoch": 0.6728327892636924,
      "grad_norm": 0.17505323886871338,
      "learning_rate": 4.87507509547075e-05,
      "loss": 0.1651,
      "step": 1855
    },
    {
      "epoch": 0.6731955023576351,
      "grad_norm": 0.18190018832683563,
      "learning_rate": 4.865258064851579e-05,
      "loss": 0.1706,
      "step": 1856
    },
    {
      "epoch": 0.6735582154515778,
      "grad_norm": 0.1668224334716797,
      "learning_rate": 4.855447750082615e-05,
      "loss": 0.1639,
      "step": 1857
    },
    {
      "epoch": 0.6739209285455205,
      "grad_norm": 0.18514534831047058,
      "learning_rate": 4.845644163994996e-05,
      "loss": 0.1912,
      "step": 1858
    },
    {
      "epoch": 0.6742836416394632,
      "grad_norm": 0.19206570088863373,
      "learning_rate": 4.835847319411065e-05,
      "loss": 0.1595,
      "step": 1859
    },
    {
      "epoch": 0.6746463547334058,
      "grad_norm": 0.19193512201309204,
      "learning_rate": 4.8260572291443465e-05,
      "loss": 0.1586,
      "step": 1860
    },
    {
      "epoch": 0.6750090678273486,
      "grad_norm": 0.1866559088230133,
      "learning_rate": 4.816273905999529e-05,
      "loss": 0.1841,
      "step": 1861
    },
    {
      "epoch": 0.6753717809212912,
      "grad_norm": 0.1677185595035553,
      "learning_rate": 4.80649736277245e-05,
      "loss": 0.1672,
      "step": 1862
    },
    {
      "epoch": 0.675734494015234,
      "grad_norm": 0.16328024864196777,
      "learning_rate": 4.796727612250087e-05,
      "loss": 0.1556,
      "step": 1863
    },
    {
      "epoch": 0.6760972071091766,
      "grad_norm": 0.1733468621969223,
      "learning_rate": 4.7869646672105254e-05,
      "loss": 0.1572,
      "step": 1864
    },
    {
      "epoch": 0.6764599202031193,
      "grad_norm": 0.19276085495948792,
      "learning_rate": 4.7772085404229495e-05,
      "loss": 0.1681,
      "step": 1865
    },
    {
      "epoch": 0.676822633297062,
      "grad_norm": 0.2415236532688141,
      "learning_rate": 4.767459244647629e-05,
      "loss": 0.2347,
      "step": 1866
    },
    {
      "epoch": 0.6771853463910047,
      "grad_norm": 0.21599356830120087,
      "learning_rate": 4.757716792635898e-05,
      "loss": 0.1985,
      "step": 1867
    },
    {
      "epoch": 0.6775480594849475,
      "grad_norm": 0.17399145662784576,
      "learning_rate": 4.747981197130139e-05,
      "loss": 0.1662,
      "step": 1868
    },
    {
      "epoch": 0.6779107725788901,
      "grad_norm": 0.1672641634941101,
      "learning_rate": 4.738252470863763e-05,
      "loss": 0.1482,
      "step": 1869
    },
    {
      "epoch": 0.6782734856728327,
      "grad_norm": 0.17770545184612274,
      "learning_rate": 4.7285306265612106e-05,
      "loss": 0.157,
      "step": 1870
    },
    {
      "epoch": 0.6786361987667755,
      "grad_norm": 0.18158309161663055,
      "learning_rate": 4.7188156769379063e-05,
      "loss": 0.1569,
      "step": 1871
    },
    {
      "epoch": 0.6789989118607181,
      "grad_norm": 0.2067386507987976,
      "learning_rate": 4.7091076347002613e-05,
      "loss": 0.1686,
      "step": 1872
    },
    {
      "epoch": 0.6793616249546609,
      "grad_norm": 0.16841058433055878,
      "learning_rate": 4.6994065125456546e-05,
      "loss": 0.1564,
      "step": 1873
    },
    {
      "epoch": 0.6797243380486035,
      "grad_norm": 0.19121627509593964,
      "learning_rate": 4.6897123231624105e-05,
      "loss": 0.1794,
      "step": 1874
    },
    {
      "epoch": 0.6800870511425462,
      "grad_norm": 0.16333697736263275,
      "learning_rate": 4.6800250792297885e-05,
      "loss": 0.1497,
      "step": 1875
    },
    {
      "epoch": 0.680449764236489,
      "grad_norm": 0.16970248520374298,
      "learning_rate": 4.670344793417967e-05,
      "loss": 0.1672,
      "step": 1876
    },
    {
      "epoch": 0.6808124773304316,
      "grad_norm": 0.1738625019788742,
      "learning_rate": 4.660671478388019e-05,
      "loss": 0.1689,
      "step": 1877
    },
    {
      "epoch": 0.6811751904243744,
      "grad_norm": 0.167289599776268,
      "learning_rate": 4.651005146791901e-05,
      "loss": 0.1446,
      "step": 1878
    },
    {
      "epoch": 0.681537903518317,
      "grad_norm": 0.1755392998456955,
      "learning_rate": 4.641345811272436e-05,
      "loss": 0.1509,
      "step": 1879
    },
    {
      "epoch": 0.6819006166122598,
      "grad_norm": 0.1769733875989914,
      "learning_rate": 4.631693484463299e-05,
      "loss": 0.1688,
      "step": 1880
    },
    {
      "epoch": 0.6822633297062024,
      "grad_norm": 0.17857052385807037,
      "learning_rate": 4.622048178988989e-05,
      "loss": 0.1799,
      "step": 1881
    },
    {
      "epoch": 0.682626042800145,
      "grad_norm": 0.17262940108776093,
      "learning_rate": 4.6124099074648375e-05,
      "loss": 0.1613,
      "step": 1882
    },
    {
      "epoch": 0.6829887558940878,
      "grad_norm": 0.17255136370658875,
      "learning_rate": 4.602778682496965e-05,
      "loss": 0.1647,
      "step": 1883
    },
    {
      "epoch": 0.6833514689880305,
      "grad_norm": 0.19975058734416962,
      "learning_rate": 4.593154516682276e-05,
      "loss": 0.1705,
      "step": 1884
    },
    {
      "epoch": 0.6837141820819732,
      "grad_norm": 0.19348910450935364,
      "learning_rate": 4.5835374226084424e-05,
      "loss": 0.1635,
      "step": 1885
    },
    {
      "epoch": 0.6840768951759159,
      "grad_norm": 0.17311705648899078,
      "learning_rate": 4.573927412853896e-05,
      "loss": 0.1764,
      "step": 1886
    },
    {
      "epoch": 0.6844396082698585,
      "grad_norm": 0.17351648211479187,
      "learning_rate": 4.56432449998779e-05,
      "loss": 0.1466,
      "step": 1887
    },
    {
      "epoch": 0.6848023213638013,
      "grad_norm": 0.16917894780635834,
      "learning_rate": 4.554728696570001e-05,
      "loss": 0.1565,
      "step": 1888
    },
    {
      "epoch": 0.6851650344577439,
      "grad_norm": 0.17121654748916626,
      "learning_rate": 4.545140015151105e-05,
      "loss": 0.1638,
      "step": 1889
    },
    {
      "epoch": 0.6855277475516867,
      "grad_norm": 0.18969422578811646,
      "learning_rate": 4.535558468272371e-05,
      "loss": 0.1533,
      "step": 1890
    },
    {
      "epoch": 0.6858904606456293,
      "grad_norm": 0.17447051405906677,
      "learning_rate": 4.525984068465725e-05,
      "loss": 0.1624,
      "step": 1891
    },
    {
      "epoch": 0.686253173739572,
      "grad_norm": 0.1624990999698639,
      "learning_rate": 4.5164168282537546e-05,
      "loss": 0.1482,
      "step": 1892
    },
    {
      "epoch": 0.6866158868335147,
      "grad_norm": 0.17492160201072693,
      "learning_rate": 4.506856760149671e-05,
      "loss": 0.1733,
      "step": 1893
    },
    {
      "epoch": 0.6869785999274574,
      "grad_norm": 0.16198083758354187,
      "learning_rate": 4.497303876657324e-05,
      "loss": 0.1433,
      "step": 1894
    },
    {
      "epoch": 0.6873413130214001,
      "grad_norm": 0.1759859323501587,
      "learning_rate": 4.48775819027115e-05,
      "loss": 0.146,
      "step": 1895
    },
    {
      "epoch": 0.6877040261153428,
      "grad_norm": 0.16649121046066284,
      "learning_rate": 4.478219713476178e-05,
      "loss": 0.1652,
      "step": 1896
    },
    {
      "epoch": 0.6880667392092854,
      "grad_norm": 0.1907196342945099,
      "learning_rate": 4.468688458748006e-05,
      "loss": 0.1731,
      "step": 1897
    },
    {
      "epoch": 0.6884294523032282,
      "grad_norm": 0.1932022124528885,
      "learning_rate": 4.459164438552789e-05,
      "loss": 0.1693,
      "step": 1898
    },
    {
      "epoch": 0.6887921653971708,
      "grad_norm": 0.1829594522714615,
      "learning_rate": 4.449647665347216e-05,
      "loss": 0.1957,
      "step": 1899
    },
    {
      "epoch": 0.6891548784911136,
      "grad_norm": 0.17210708558559418,
      "learning_rate": 4.4401381515784965e-05,
      "loss": 0.1596,
      "step": 1900
    },
    {
      "epoch": 0.6895175915850562,
      "grad_norm": 0.16382241249084473,
      "learning_rate": 4.430635909684356e-05,
      "loss": 0.1417,
      "step": 1901
    },
    {
      "epoch": 0.6898803046789989,
      "grad_norm": 0.16617849469184875,
      "learning_rate": 4.421140952092997e-05,
      "loss": 0.1459,
      "step": 1902
    },
    {
      "epoch": 0.6902430177729416,
      "grad_norm": 0.16519035398960114,
      "learning_rate": 4.411653291223097e-05,
      "loss": 0.1616,
      "step": 1903
    },
    {
      "epoch": 0.6906057308668843,
      "grad_norm": 0.17537926137447357,
      "learning_rate": 4.402172939483794e-05,
      "loss": 0.1637,
      "step": 1904
    },
    {
      "epoch": 0.690968443960827,
      "grad_norm": 0.18427397310733795,
      "learning_rate": 4.392699909274664e-05,
      "loss": 0.1876,
      "step": 1905
    },
    {
      "epoch": 0.6913311570547697,
      "grad_norm": 0.1629849672317505,
      "learning_rate": 4.383234212985701e-05,
      "loss": 0.1436,
      "step": 1906
    },
    {
      "epoch": 0.6916938701487124,
      "grad_norm": 0.1907191276550293,
      "learning_rate": 4.3737758629973204e-05,
      "loss": 0.1723,
      "step": 1907
    },
    {
      "epoch": 0.6920565832426551,
      "grad_norm": 0.18214593827724457,
      "learning_rate": 4.3643248716803184e-05,
      "loss": 0.1683,
      "step": 1908
    },
    {
      "epoch": 0.6924192963365977,
      "grad_norm": 0.18101546168327332,
      "learning_rate": 4.354881251395871e-05,
      "loss": 0.1554,
      "step": 1909
    },
    {
      "epoch": 0.6927820094305405,
      "grad_norm": 0.18527980148792267,
      "learning_rate": 4.3454450144955105e-05,
      "loss": 0.1832,
      "step": 1910
    },
    {
      "epoch": 0.6931447225244831,
      "grad_norm": 0.16371949017047882,
      "learning_rate": 4.3360161733211145e-05,
      "loss": 0.1528,
      "step": 1911
    },
    {
      "epoch": 0.6935074356184259,
      "grad_norm": 0.172775536775589,
      "learning_rate": 4.3265947402048834e-05,
      "loss": 0.1564,
      "step": 1912
    },
    {
      "epoch": 0.6938701487123685,
      "grad_norm": 0.17069590091705322,
      "learning_rate": 4.3171807274693386e-05,
      "loss": 0.1555,
      "step": 1913
    },
    {
      "epoch": 0.6942328618063112,
      "grad_norm": 0.1884002387523651,
      "learning_rate": 4.307774147427287e-05,
      "loss": 0.1611,
      "step": 1914
    },
    {
      "epoch": 0.6945955749002539,
      "grad_norm": 0.17518699169158936,
      "learning_rate": 4.2983750123818155e-05,
      "loss": 0.1651,
      "step": 1915
    },
    {
      "epoch": 0.6949582879941966,
      "grad_norm": 0.17112936079502106,
      "learning_rate": 4.288983334626275e-05,
      "loss": 0.1472,
      "step": 1916
    },
    {
      "epoch": 0.6953210010881393,
      "grad_norm": 0.1765616238117218,
      "learning_rate": 4.279599126444264e-05,
      "loss": 0.1552,
      "step": 1917
    },
    {
      "epoch": 0.695683714182082,
      "grad_norm": 0.18281279504299164,
      "learning_rate": 4.2702224001096045e-05,
      "loss": 0.1758,
      "step": 1918
    },
    {
      "epoch": 0.6960464272760246,
      "grad_norm": 0.1792001724243164,
      "learning_rate": 4.2608531678863475e-05,
      "loss": 0.1643,
      "step": 1919
    },
    {
      "epoch": 0.6964091403699674,
      "grad_norm": 0.1666647344827652,
      "learning_rate": 4.2514914420287266e-05,
      "loss": 0.146,
      "step": 1920
    },
    {
      "epoch": 0.69677185346391,
      "grad_norm": 0.2033475637435913,
      "learning_rate": 4.242137234781166e-05,
      "loss": 0.1841,
      "step": 1921
    },
    {
      "epoch": 0.6971345665578528,
      "grad_norm": 0.17656663060188293,
      "learning_rate": 4.23279055837825e-05,
      "loss": 0.1614,
      "step": 1922
    },
    {
      "epoch": 0.6974972796517954,
      "grad_norm": 0.1725003868341446,
      "learning_rate": 4.2234514250447255e-05,
      "loss": 0.155,
      "step": 1923
    },
    {
      "epoch": 0.6978599927457381,
      "grad_norm": 0.17976543307304382,
      "learning_rate": 4.214119846995461e-05,
      "loss": 0.1646,
      "step": 1924
    },
    {
      "epoch": 0.6982227058396808,
      "grad_norm": 0.16774506866931915,
      "learning_rate": 4.204795836435448e-05,
      "loss": 0.1672,
      "step": 1925
    },
    {
      "epoch": 0.6985854189336235,
      "grad_norm": 0.18107999861240387,
      "learning_rate": 4.1954794055597756e-05,
      "loss": 0.1769,
      "step": 1926
    },
    {
      "epoch": 0.6989481320275662,
      "grad_norm": 0.19499120116233826,
      "learning_rate": 4.1861705665536324e-05,
      "loss": 0.1737,
      "step": 1927
    },
    {
      "epoch": 0.6993108451215089,
      "grad_norm": 0.18403582274913788,
      "learning_rate": 4.1768693315922635e-05,
      "loss": 0.1671,
      "step": 1928
    },
    {
      "epoch": 0.6996735582154516,
      "grad_norm": 0.18355792760849,
      "learning_rate": 4.167575712840974e-05,
      "loss": 0.1587,
      "step": 1929
    },
    {
      "epoch": 0.7000362713093943,
      "grad_norm": 0.20113395154476166,
      "learning_rate": 4.15828972245511e-05,
      "loss": 0.1667,
      "step": 1930
    },
    {
      "epoch": 0.7003989844033369,
      "grad_norm": 0.1907624453306198,
      "learning_rate": 4.149011372580029e-05,
      "loss": 0.1708,
      "step": 1931
    },
    {
      "epoch": 0.7007616974972797,
      "grad_norm": 0.16733594238758087,
      "learning_rate": 4.139740675351116e-05,
      "loss": 0.1629,
      "step": 1932
    },
    {
      "epoch": 0.7011244105912223,
      "grad_norm": 0.15931111574172974,
      "learning_rate": 4.130477642893729e-05,
      "loss": 0.1534,
      "step": 1933
    },
    {
      "epoch": 0.7014871236851651,
      "grad_norm": 0.19512903690338135,
      "learning_rate": 4.1212222873232054e-05,
      "loss": 0.1814,
      "step": 1934
    },
    {
      "epoch": 0.7018498367791077,
      "grad_norm": 0.18595078587532043,
      "learning_rate": 4.111974620744845e-05,
      "loss": 0.1632,
      "step": 1935
    },
    {
      "epoch": 0.7022125498730504,
      "grad_norm": 0.17419064044952393,
      "learning_rate": 4.10273465525389e-05,
      "loss": 0.1448,
      "step": 1936
    },
    {
      "epoch": 0.7025752629669931,
      "grad_norm": 0.178279310464859,
      "learning_rate": 4.093502402935504e-05,
      "loss": 0.1578,
      "step": 1937
    },
    {
      "epoch": 0.7029379760609358,
      "grad_norm": 0.18063177168369293,
      "learning_rate": 4.084277875864776e-05,
      "loss": 0.1502,
      "step": 1938
    },
    {
      "epoch": 0.7033006891548785,
      "grad_norm": 0.20529168844223022,
      "learning_rate": 4.075061086106678e-05,
      "loss": 0.1748,
      "step": 1939
    },
    {
      "epoch": 0.7036634022488212,
      "grad_norm": 0.1844182014465332,
      "learning_rate": 4.065852045716069e-05,
      "loss": 0.1543,
      "step": 1940
    },
    {
      "epoch": 0.7040261153427638,
      "grad_norm": 0.1840999871492386,
      "learning_rate": 4.056650766737669e-05,
      "loss": 0.189,
      "step": 1941
    },
    {
      "epoch": 0.7043888284367066,
      "grad_norm": 0.1571437418460846,
      "learning_rate": 4.047457261206047e-05,
      "loss": 0.1546,
      "step": 1942
    },
    {
      "epoch": 0.7047515415306492,
      "grad_norm": 0.17258736491203308,
      "learning_rate": 4.038271541145604e-05,
      "loss": 0.1531,
      "step": 1943
    },
    {
      "epoch": 0.705114254624592,
      "grad_norm": 0.16301092505455017,
      "learning_rate": 4.0290936185705674e-05,
      "loss": 0.1554,
      "step": 1944
    },
    {
      "epoch": 0.7054769677185346,
      "grad_norm": 0.1766006052494049,
      "learning_rate": 4.0199235054849546e-05,
      "loss": 0.1484,
      "step": 1945
    },
    {
      "epoch": 0.7058396808124773,
      "grad_norm": 0.18022476136684418,
      "learning_rate": 4.010761213882572e-05,
      "loss": 0.1519,
      "step": 1946
    },
    {
      "epoch": 0.70620239390642,
      "grad_norm": 0.16101764142513275,
      "learning_rate": 4.001606755746999e-05,
      "loss": 0.1564,
      "step": 1947
    },
    {
      "epoch": 0.7065651070003627,
      "grad_norm": 0.18494002521038055,
      "learning_rate": 3.992460143051566e-05,
      "loss": 0.1549,
      "step": 1948
    },
    {
      "epoch": 0.7069278200943054,
      "grad_norm": 0.18700887262821198,
      "learning_rate": 3.983321387759342e-05,
      "loss": 0.1656,
      "step": 1949
    },
    {
      "epoch": 0.7072905331882481,
      "grad_norm": 0.18422120809555054,
      "learning_rate": 3.974190501823126e-05,
      "loss": 0.1646,
      "step": 1950
    },
    {
      "epoch": 0.7076532462821908,
      "grad_norm": 0.17262974381446838,
      "learning_rate": 3.965067497185416e-05,
      "loss": 0.1553,
      "step": 1951
    },
    {
      "epoch": 0.7080159593761335,
      "grad_norm": 0.16152386367321014,
      "learning_rate": 3.955952385778406e-05,
      "loss": 0.1341,
      "step": 1952
    },
    {
      "epoch": 0.7083786724700761,
      "grad_norm": 0.16990354657173157,
      "learning_rate": 3.946845179523965e-05,
      "loss": 0.1727,
      "step": 1953
    },
    {
      "epoch": 0.7087413855640189,
      "grad_norm": 0.1854991912841797,
      "learning_rate": 3.937745890333623e-05,
      "loss": 0.1548,
      "step": 1954
    },
    {
      "epoch": 0.7091040986579615,
      "grad_norm": 0.1773202270269394,
      "learning_rate": 3.928654530108552e-05,
      "loss": 0.1723,
      "step": 1955
    },
    {
      "epoch": 0.7094668117519043,
      "grad_norm": 0.18670934438705444,
      "learning_rate": 3.9195711107395624e-05,
      "loss": 0.1688,
      "step": 1956
    },
    {
      "epoch": 0.7098295248458469,
      "grad_norm": 0.17176151275634766,
      "learning_rate": 3.9104956441070715e-05,
      "loss": 0.1524,
      "step": 1957
    },
    {
      "epoch": 0.7101922379397896,
      "grad_norm": 0.17264217138290405,
      "learning_rate": 3.901428142081095e-05,
      "loss": 0.1568,
      "step": 1958
    },
    {
      "epoch": 0.7105549510337323,
      "grad_norm": 0.16863767802715302,
      "learning_rate": 3.892368616521229e-05,
      "loss": 0.1514,
      "step": 1959
    },
    {
      "epoch": 0.710917664127675,
      "grad_norm": 0.1810598075389862,
      "learning_rate": 3.883317079276649e-05,
      "loss": 0.1494,
      "step": 1960
    },
    {
      "epoch": 0.7112803772216177,
      "grad_norm": 0.18499146401882172,
      "learning_rate": 3.87427354218607e-05,
      "loss": 0.155,
      "step": 1961
    },
    {
      "epoch": 0.7116430903155604,
      "grad_norm": 0.16301509737968445,
      "learning_rate": 3.865238017077748e-05,
      "loss": 0.1505,
      "step": 1962
    },
    {
      "epoch": 0.712005803409503,
      "grad_norm": 0.18313588201999664,
      "learning_rate": 3.856210515769456e-05,
      "loss": 0.1696,
      "step": 1963
    },
    {
      "epoch": 0.7123685165034458,
      "grad_norm": 0.18576788902282715,
      "learning_rate": 3.847191050068483e-05,
      "loss": 0.1584,
      "step": 1964
    },
    {
      "epoch": 0.7127312295973884,
      "grad_norm": 0.16800563037395477,
      "learning_rate": 3.838179631771598e-05,
      "loss": 0.1409,
      "step": 1965
    },
    {
      "epoch": 0.7130939426913312,
      "grad_norm": 0.15716706216335297,
      "learning_rate": 3.829176272665047e-05,
      "loss": 0.1647,
      "step": 1966
    },
    {
      "epoch": 0.7134566557852738,
      "grad_norm": 0.19974446296691895,
      "learning_rate": 3.8201809845245364e-05,
      "loss": 0.2084,
      "step": 1967
    },
    {
      "epoch": 0.7138193688792165,
      "grad_norm": 0.18544046580791473,
      "learning_rate": 3.811193779115213e-05,
      "loss": 0.1579,
      "step": 1968
    },
    {
      "epoch": 0.7141820819731592,
      "grad_norm": 0.17015773057937622,
      "learning_rate": 3.80221466819166e-05,
      "loss": 0.1663,
      "step": 1969
    },
    {
      "epoch": 0.7145447950671019,
      "grad_norm": 0.1646818220615387,
      "learning_rate": 3.7932436634978684e-05,
      "loss": 0.1582,
      "step": 1970
    },
    {
      "epoch": 0.7149075081610446,
      "grad_norm": 0.16714130342006683,
      "learning_rate": 3.784280776767224e-05,
      "loss": 0.137,
      "step": 1971
    },
    {
      "epoch": 0.7152702212549873,
      "grad_norm": 0.17864611744880676,
      "learning_rate": 3.7753260197224995e-05,
      "loss": 0.1496,
      "step": 1972
    },
    {
      "epoch": 0.71563293434893,
      "grad_norm": 0.18264222145080566,
      "learning_rate": 3.766379404075832e-05,
      "loss": 0.1583,
      "step": 1973
    },
    {
      "epoch": 0.7159956474428727,
      "grad_norm": 0.1730545610189438,
      "learning_rate": 3.757440941528708e-05,
      "loss": 0.1616,
      "step": 1974
    },
    {
      "epoch": 0.7163583605368153,
      "grad_norm": 0.1775929182767868,
      "learning_rate": 3.748510643771962e-05,
      "loss": 0.1514,
      "step": 1975
    },
    {
      "epoch": 0.7167210736307581,
      "grad_norm": 0.1856832504272461,
      "learning_rate": 3.739588522485736e-05,
      "loss": 0.1558,
      "step": 1976
    },
    {
      "epoch": 0.7170837867247007,
      "grad_norm": 0.19256243109703064,
      "learning_rate": 3.7306745893394845e-05,
      "loss": 0.1966,
      "step": 1977
    },
    {
      "epoch": 0.7174464998186435,
      "grad_norm": 0.15902438759803772,
      "learning_rate": 3.72176885599195e-05,
      "loss": 0.1493,
      "step": 1978
    },
    {
      "epoch": 0.7178092129125861,
      "grad_norm": 0.16954579949378967,
      "learning_rate": 3.7128713340911535e-05,
      "loss": 0.1692,
      "step": 1979
    },
    {
      "epoch": 0.7181719260065288,
      "grad_norm": 0.17363213002681732,
      "learning_rate": 3.7039820352743685e-05,
      "loss": 0.1491,
      "step": 1980
    },
    {
      "epoch": 0.7185346391004716,
      "grad_norm": 0.18617630004882812,
      "learning_rate": 3.6951009711681253e-05,
      "loss": 0.1762,
      "step": 1981
    },
    {
      "epoch": 0.7188973521944142,
      "grad_norm": 0.15999780595302582,
      "learning_rate": 3.6862281533881745e-05,
      "loss": 0.1488,
      "step": 1982
    },
    {
      "epoch": 0.719260065288357,
      "grad_norm": 0.16866905987262726,
      "learning_rate": 3.677363593539485e-05,
      "loss": 0.1467,
      "step": 1983
    },
    {
      "epoch": 0.7196227783822996,
      "grad_norm": 0.1777690201997757,
      "learning_rate": 3.668507303216223e-05,
      "loss": 0.1525,
      "step": 1984
    },
    {
      "epoch": 0.7199854914762422,
      "grad_norm": 0.19426722824573517,
      "learning_rate": 3.659659294001739e-05,
      "loss": 0.2006,
      "step": 1985
    },
    {
      "epoch": 0.720348204570185,
      "grad_norm": 0.17638282477855682,
      "learning_rate": 3.6508195774685515e-05,
      "loss": 0.1548,
      "step": 1986
    },
    {
      "epoch": 0.7207109176641276,
      "grad_norm": 0.16942881047725677,
      "learning_rate": 3.641988165178339e-05,
      "loss": 0.1646,
      "step": 1987
    },
    {
      "epoch": 0.7210736307580704,
      "grad_norm": 0.17678217589855194,
      "learning_rate": 3.633165068681914e-05,
      "loss": 0.1342,
      "step": 1988
    },
    {
      "epoch": 0.721436343852013,
      "grad_norm": 0.15457268059253693,
      "learning_rate": 3.624350299519209e-05,
      "loss": 0.1489,
      "step": 1989
    },
    {
      "epoch": 0.7217990569459557,
      "grad_norm": 0.17524264752864838,
      "learning_rate": 3.615543869219271e-05,
      "loss": 0.1565,
      "step": 1990
    },
    {
      "epoch": 0.7221617700398985,
      "grad_norm": 0.16811302304267883,
      "learning_rate": 3.6067457893002376e-05,
      "loss": 0.1518,
      "step": 1991
    },
    {
      "epoch": 0.7225244831338411,
      "grad_norm": 0.18975135684013367,
      "learning_rate": 3.597956071269326e-05,
      "loss": 0.1605,
      "step": 1992
    },
    {
      "epoch": 0.7228871962277839,
      "grad_norm": 0.17413167655467987,
      "learning_rate": 3.58917472662281e-05,
      "loss": 0.1782,
      "step": 1993
    },
    {
      "epoch": 0.7232499093217265,
      "grad_norm": 0.17248669266700745,
      "learning_rate": 3.580401766846028e-05,
      "loss": 0.1499,
      "step": 1994
    },
    {
      "epoch": 0.7236126224156693,
      "grad_norm": 0.16712360084056854,
      "learning_rate": 3.571637203413334e-05,
      "loss": 0.1561,
      "step": 1995
    },
    {
      "epoch": 0.7239753355096119,
      "grad_norm": 0.17022311687469482,
      "learning_rate": 3.56288104778811e-05,
      "loss": 0.152,
      "step": 1996
    },
    {
      "epoch": 0.7243380486035546,
      "grad_norm": 0.17325520515441895,
      "learning_rate": 3.554133311422735e-05,
      "loss": 0.1554,
      "step": 1997
    },
    {
      "epoch": 0.7247007616974973,
      "grad_norm": 0.17560617625713348,
      "learning_rate": 3.5453940057585866e-05,
      "loss": 0.1869,
      "step": 1998
    },
    {
      "epoch": 0.72506347479144,
      "grad_norm": 0.19136746227741241,
      "learning_rate": 3.5366631422260045e-05,
      "loss": 0.1761,
      "step": 1999
    },
    {
      "epoch": 0.7254261878853827,
      "grad_norm": 0.1808745115995407,
      "learning_rate": 3.527940732244289e-05,
      "loss": 0.1558,
      "step": 2000
    },
    {
      "epoch": 0.7257889009793254,
      "grad_norm": 0.16616669297218323,
      "learning_rate": 3.519226787221692e-05,
      "loss": 0.1465,
      "step": 2001
    },
    {
      "epoch": 0.726151614073268,
      "grad_norm": 0.1782522052526474,
      "learning_rate": 3.5105213185553856e-05,
      "loss": 0.1546,
      "step": 2002
    },
    {
      "epoch": 0.7265143271672108,
      "grad_norm": 0.1684170663356781,
      "learning_rate": 3.5018243376314574e-05,
      "loss": 0.1625,
      "step": 2003
    },
    {
      "epoch": 0.7268770402611534,
      "grad_norm": 0.16710427403450012,
      "learning_rate": 3.493135855824894e-05,
      "loss": 0.155,
      "step": 2004
    },
    {
      "epoch": 0.7272397533550962,
      "grad_norm": 4411.4638671875,
      "learning_rate": 3.484455884499561e-05,
      "loss": 0.1437,
      "step": 2005
    },
    {
      "epoch": 0.7276024664490388,
      "grad_norm": 0.1757262647151947,
      "learning_rate": 3.475784435008208e-05,
      "loss": 0.1531,
      "step": 2006
    },
    {
      "epoch": 0.7279651795429815,
      "grad_norm": 0.1928826868534088,
      "learning_rate": 3.467121518692422e-05,
      "loss": 0.1655,
      "step": 2007
    },
    {
      "epoch": 0.7283278926369242,
      "grad_norm": 0.19880840182304382,
      "learning_rate": 3.458467146882637e-05,
      "loss": 0.1579,
      "step": 2008
    },
    {
      "epoch": 0.7286906057308669,
      "grad_norm": 0.23102417588233948,
      "learning_rate": 3.4498213308981095e-05,
      "loss": 0.1581,
      "step": 2009
    },
    {
      "epoch": 0.7290533188248096,
      "grad_norm": 0.1807643175125122,
      "learning_rate": 3.441184082046908e-05,
      "loss": 0.1462,
      "step": 2010
    },
    {
      "epoch": 0.7294160319187523,
      "grad_norm": 0.18923969566822052,
      "learning_rate": 3.4325554116258894e-05,
      "loss": 0.1507,
      "step": 2011
    },
    {
      "epoch": 0.7297787450126949,
      "grad_norm": 0.22489802539348602,
      "learning_rate": 3.423935330920702e-05,
      "loss": 0.1803,
      "step": 2012
    },
    {
      "epoch": 0.7301414581066377,
      "grad_norm": 0.23475851118564606,
      "learning_rate": 3.415323851205752e-05,
      "loss": 0.1649,
      "step": 2013
    },
    {
      "epoch": 0.7305041712005803,
      "grad_norm": 0.2082839459180832,
      "learning_rate": 3.406720983744193e-05,
      "loss": 0.182,
      "step": 2014
    },
    {
      "epoch": 0.7308668842945231,
      "grad_norm": 0.19769790768623352,
      "learning_rate": 3.3981267397879215e-05,
      "loss": 0.1543,
      "step": 2015
    },
    {
      "epoch": 0.7312295973884657,
      "grad_norm": 0.1755545437335968,
      "learning_rate": 3.38954113057755e-05,
      "loss": 0.1469,
      "step": 2016
    },
    {
      "epoch": 0.7315923104824085,
      "grad_norm": 0.18786299228668213,
      "learning_rate": 3.3809641673423985e-05,
      "loss": 0.1778,
      "step": 2017
    },
    {
      "epoch": 0.7319550235763511,
      "grad_norm": 0.17806515097618103,
      "learning_rate": 3.3723958613004855e-05,
      "loss": 0.1567,
      "step": 2018
    },
    {
      "epoch": 0.7323177366702938,
      "grad_norm": 0.17538048326969147,
      "learning_rate": 3.3638362236584965e-05,
      "loss": 0.1573,
      "step": 2019
    },
    {
      "epoch": 0.7326804497642365,
      "grad_norm": 0.17543213069438934,
      "learning_rate": 3.355285265611784e-05,
      "loss": 0.1651,
      "step": 2020
    },
    {
      "epoch": 0.7330431628581792,
      "grad_norm": 0.1797361820936203,
      "learning_rate": 3.346742998344348e-05,
      "loss": 0.1696,
      "step": 2021
    },
    {
      "epoch": 0.7334058759521219,
      "grad_norm": 0.20315411686897278,
      "learning_rate": 3.3382094330288216e-05,
      "loss": 0.1682,
      "step": 2022
    },
    {
      "epoch": 0.7337685890460646,
      "grad_norm": 0.17584829032421112,
      "learning_rate": 3.3296845808264574e-05,
      "loss": 0.1734,
      "step": 2023
    },
    {
      "epoch": 0.7341313021400072,
      "grad_norm": 0.192337304353714,
      "learning_rate": 3.321168452887106e-05,
      "loss": 0.185,
      "step": 2024
    },
    {
      "epoch": 0.73449401523395,
      "grad_norm": 0.1659361571073532,
      "learning_rate": 3.3126610603492194e-05,
      "loss": 0.1556,
      "step": 2025
    },
    {
      "epoch": 0.7348567283278926,
      "grad_norm": 0.16753138601779938,
      "learning_rate": 3.304162414339814e-05,
      "loss": 0.1467,
      "step": 2026
    },
    {
      "epoch": 0.7352194414218354,
      "grad_norm": 0.18743427097797394,
      "learning_rate": 3.295672525974469e-05,
      "loss": 0.1653,
      "step": 2027
    },
    {
      "epoch": 0.735582154515778,
      "grad_norm": 0.16860130429267883,
      "learning_rate": 3.287191406357311e-05,
      "loss": 0.1563,
      "step": 2028
    },
    {
      "epoch": 0.7359448676097207,
      "grad_norm": 0.16440363228321075,
      "learning_rate": 3.278719066580995e-05,
      "loss": 0.1493,
      "step": 2029
    },
    {
      "epoch": 0.7363075807036634,
      "grad_norm": 0.1813763827085495,
      "learning_rate": 3.270255517726691e-05,
      "loss": 0.1621,
      "step": 2030
    },
    {
      "epoch": 0.7366702937976061,
      "grad_norm": 0.16494570672512054,
      "learning_rate": 3.261800770864083e-05,
      "loss": 0.1381,
      "step": 2031
    },
    {
      "epoch": 0.7370330068915488,
      "grad_norm": 0.1700211763381958,
      "learning_rate": 3.2533548370513286e-05,
      "loss": 0.1508,
      "step": 2032
    },
    {
      "epoch": 0.7373957199854915,
      "grad_norm": 0.19019465148448944,
      "learning_rate": 3.244917727335066e-05,
      "loss": 0.1596,
      "step": 2033
    },
    {
      "epoch": 0.7377584330794341,
      "grad_norm": 0.1853635013103485,
      "learning_rate": 3.236489452750385e-05,
      "loss": 0.1433,
      "step": 2034
    },
    {
      "epoch": 0.7381211461733769,
      "grad_norm": 0.19163811206817627,
      "learning_rate": 3.228070024320833e-05,
      "loss": 0.1605,
      "step": 2035
    },
    {
      "epoch": 0.7384838592673195,
      "grad_norm": 0.2122446596622467,
      "learning_rate": 3.2196594530583735e-05,
      "loss": 0.1792,
      "step": 2036
    },
    {
      "epoch": 0.7388465723612623,
      "grad_norm": 0.18100525438785553,
      "learning_rate": 3.211257749963391e-05,
      "loss": 0.1703,
      "step": 2037
    },
    {
      "epoch": 0.7392092854552049,
      "grad_norm": 0.15972734987735748,
      "learning_rate": 3.2028649260246754e-05,
      "loss": 0.1691,
      "step": 2038
    },
    {
      "epoch": 0.7395719985491476,
      "grad_norm": 0.17128963768482208,
      "learning_rate": 3.1944809922193986e-05,
      "loss": 0.1611,
      "step": 2039
    },
    {
      "epoch": 0.7399347116430903,
      "grad_norm": 0.18161478638648987,
      "learning_rate": 3.186105959513103e-05,
      "loss": 0.1457,
      "step": 2040
    },
    {
      "epoch": 0.740297424737033,
      "grad_norm": 0.1911374032497406,
      "learning_rate": 3.177739838859694e-05,
      "loss": 0.1655,
      "step": 2041
    },
    {
      "epoch": 0.7406601378309757,
      "grad_norm": 0.16643930971622467,
      "learning_rate": 3.1693826412014114e-05,
      "loss": 0.1744,
      "step": 2042
    },
    {
      "epoch": 0.7410228509249184,
      "grad_norm": 0.17060095071792603,
      "learning_rate": 3.1610343774688414e-05,
      "loss": 0.1469,
      "step": 2043
    },
    {
      "epoch": 0.7413855640188611,
      "grad_norm": 0.1795426309108734,
      "learning_rate": 3.152695058580871e-05,
      "loss": 0.1487,
      "step": 2044
    },
    {
      "epoch": 0.7417482771128038,
      "grad_norm": 0.1854647696018219,
      "learning_rate": 3.1443646954446914e-05,
      "loss": 0.17,
      "step": 2045
    },
    {
      "epoch": 0.7421109902067464,
      "grad_norm": 0.1683138608932495,
      "learning_rate": 3.136043298955782e-05,
      "loss": 0.1584,
      "step": 2046
    },
    {
      "epoch": 0.7424737033006892,
      "grad_norm": 0.18557599186897278,
      "learning_rate": 3.127730879997895e-05,
      "loss": 0.1507,
      "step": 2047
    },
    {
      "epoch": 0.7428364163946318,
      "grad_norm": 0.17158469557762146,
      "learning_rate": 3.119427449443032e-05,
      "loss": 0.1512,
      "step": 2048
    },
    {
      "epoch": 0.7431991294885746,
      "grad_norm": 0.1670829951763153,
      "learning_rate": 3.111133018151456e-05,
      "loss": 0.167,
      "step": 2049
    },
    {
      "epoch": 0.7435618425825172,
      "grad_norm": 0.1642339676618576,
      "learning_rate": 3.102847596971646e-05,
      "loss": 0.144,
      "step": 2050
    },
    {
      "epoch": 0.7439245556764599,
      "grad_norm": 0.16173475980758667,
      "learning_rate": 3.094571196740299e-05,
      "loss": 0.1412,
      "step": 2051
    },
    {
      "epoch": 0.7442872687704026,
      "grad_norm": 0.16731561720371246,
      "learning_rate": 3.086303828282315e-05,
      "loss": 0.1586,
      "step": 2052
    },
    {
      "epoch": 0.7446499818643453,
      "grad_norm": 0.19204100966453552,
      "learning_rate": 3.078045502410779e-05,
      "loss": 0.2226,
      "step": 2053
    },
    {
      "epoch": 0.745012694958288,
      "grad_norm": 0.17547018826007843,
      "learning_rate": 3.069796229926952e-05,
      "loss": 0.1509,
      "step": 2054
    },
    {
      "epoch": 0.7453754080522307,
      "grad_norm": 0.1662409007549286,
      "learning_rate": 3.0615560216202486e-05,
      "loss": 0.1554,
      "step": 2055
    },
    {
      "epoch": 0.7457381211461733,
      "grad_norm": 0.18224076926708221,
      "learning_rate": 3.0533248882682374e-05,
      "loss": 0.1608,
      "step": 2056
    },
    {
      "epoch": 0.7461008342401161,
      "grad_norm": 0.2161344736814499,
      "learning_rate": 3.045102840636609e-05,
      "loss": 0.1661,
      "step": 2057
    },
    {
      "epoch": 0.7464635473340587,
      "grad_norm": 0.16624325513839722,
      "learning_rate": 3.0368898894791753e-05,
      "loss": 0.1558,
      "step": 2058
    },
    {
      "epoch": 0.7468262604280015,
      "grad_norm": 0.15912269055843353,
      "learning_rate": 3.0286860455378462e-05,
      "loss": 0.1536,
      "step": 2059
    },
    {
      "epoch": 0.7471889735219441,
      "grad_norm": 0.1618340164422989,
      "learning_rate": 3.0204913195426254e-05,
      "loss": 0.1436,
      "step": 2060
    },
    {
      "epoch": 0.7475516866158868,
      "grad_norm": 0.16747722029685974,
      "learning_rate": 3.0123057222115836e-05,
      "loss": 0.149,
      "step": 2061
    },
    {
      "epoch": 0.7479143997098295,
      "grad_norm": 0.1707213968038559,
      "learning_rate": 3.0041292642508644e-05,
      "loss": 0.1522,
      "step": 2062
    },
    {
      "epoch": 0.7482771128037722,
      "grad_norm": 0.17695897817611694,
      "learning_rate": 2.995961956354646e-05,
      "loss": 0.1573,
      "step": 2063
    },
    {
      "epoch": 0.7486398258977149,
      "grad_norm": 0.18760527670383453,
      "learning_rate": 2.9878038092051443e-05,
      "loss": 0.1551,
      "step": 2064
    },
    {
      "epoch": 0.7490025389916576,
      "grad_norm": 0.1940336525440216,
      "learning_rate": 2.9796548334725916e-05,
      "loss": 0.1531,
      "step": 2065
    },
    {
      "epoch": 0.7493652520856003,
      "grad_norm": 0.16656464338302612,
      "learning_rate": 2.9715150398152268e-05,
      "loss": 0.1474,
      "step": 2066
    },
    {
      "epoch": 0.749727965179543,
      "grad_norm": 0.16804639995098114,
      "learning_rate": 2.9633844388792732e-05,
      "loss": 0.1651,
      "step": 2067
    },
    {
      "epoch": 0.7500906782734856,
      "grad_norm": 0.16543330252170563,
      "learning_rate": 2.9552630412989434e-05,
      "loss": 0.1433,
      "step": 2068
    },
    {
      "epoch": 0.7504533913674284,
      "grad_norm": 0.17684879899024963,
      "learning_rate": 2.9471508576964023e-05,
      "loss": 0.1533,
      "step": 2069
    },
    {
      "epoch": 0.750816104461371,
      "grad_norm": 0.16878783702850342,
      "learning_rate": 2.939047898681765e-05,
      "loss": 0.1509,
      "step": 2070
    },
    {
      "epoch": 0.7511788175553138,
      "grad_norm": 0.16449496150016785,
      "learning_rate": 2.93095417485308e-05,
      "loss": 0.1628,
      "step": 2071
    },
    {
      "epoch": 0.7515415306492564,
      "grad_norm": 0.20348592102527618,
      "learning_rate": 2.9228696967963275e-05,
      "loss": 0.1695,
      "step": 2072
    },
    {
      "epoch": 0.7519042437431991,
      "grad_norm": 0.1528720259666443,
      "learning_rate": 2.9147944750853816e-05,
      "loss": 0.1396,
      "step": 2073
    },
    {
      "epoch": 0.7522669568371418,
      "grad_norm": 0.17836391925811768,
      "learning_rate": 2.906728520282015e-05,
      "loss": 0.1538,
      "step": 2074
    },
    {
      "epoch": 0.7526296699310845,
      "grad_norm": 0.16207584738731384,
      "learning_rate": 2.898671842935885e-05,
      "loss": 0.1457,
      "step": 2075
    },
    {
      "epoch": 0.7529923830250272,
      "grad_norm": 0.17391245067119598,
      "learning_rate": 2.8906244535845072e-05,
      "loss": 0.1813,
      "step": 2076
    },
    {
      "epoch": 0.7533550961189699,
      "grad_norm": 0.1827738881111145,
      "learning_rate": 2.8825863627532524e-05,
      "loss": 0.1712,
      "step": 2077
    },
    {
      "epoch": 0.7537178092129125,
      "grad_norm": 0.16939976811408997,
      "learning_rate": 2.8745575809553294e-05,
      "loss": 0.1599,
      "step": 2078
    },
    {
      "epoch": 0.7540805223068553,
      "grad_norm": 0.15600422024726868,
      "learning_rate": 2.8665381186917718e-05,
      "loss": 0.1469,
      "step": 2079
    },
    {
      "epoch": 0.7544432354007979,
      "grad_norm": 0.2160848081111908,
      "learning_rate": 2.858527986451419e-05,
      "loss": 0.1748,
      "step": 2080
    },
    {
      "epoch": 0.7548059484947407,
      "grad_norm": 0.16352678835391998,
      "learning_rate": 2.8505271947109203e-05,
      "loss": 0.1486,
      "step": 2081
    },
    {
      "epoch": 0.7551686615886833,
      "grad_norm": 0.16789479553699493,
      "learning_rate": 2.842535753934695e-05,
      "loss": 0.1765,
      "step": 2082
    },
    {
      "epoch": 0.755531374682626,
      "grad_norm": 0.16260650753974915,
      "learning_rate": 2.8345536745749403e-05,
      "loss": 0.1374,
      "step": 2083
    },
    {
      "epoch": 0.7558940877765687,
      "grad_norm": 0.16362746059894562,
      "learning_rate": 2.8265809670716027e-05,
      "loss": 0.1528,
      "step": 2084
    },
    {
      "epoch": 0.7562568008705114,
      "grad_norm": 0.1730203479528427,
      "learning_rate": 2.818617641852376e-05,
      "loss": 0.16,
      "step": 2085
    },
    {
      "epoch": 0.7566195139644541,
      "grad_norm": 0.1941351443529129,
      "learning_rate": 2.8106637093326782e-05,
      "loss": 0.1578,
      "step": 2086
    },
    {
      "epoch": 0.7569822270583968,
      "grad_norm": 0.17957964539527893,
      "learning_rate": 2.8027191799156514e-05,
      "loss": 0.1497,
      "step": 2087
    },
    {
      "epoch": 0.7573449401523396,
      "grad_norm": 0.1569589227437973,
      "learning_rate": 2.794784063992131e-05,
      "loss": 0.1377,
      "step": 2088
    },
    {
      "epoch": 0.7577076532462822,
      "grad_norm": 0.16305673122406006,
      "learning_rate": 2.7868583719406403e-05,
      "loss": 0.1471,
      "step": 2089
    },
    {
      "epoch": 0.7580703663402248,
      "grad_norm": 0.171325221657753,
      "learning_rate": 2.778942114127382e-05,
      "loss": 0.1501,
      "step": 2090
    },
    {
      "epoch": 0.7584330794341676,
      "grad_norm": 0.1620980203151703,
      "learning_rate": 2.771035300906215e-05,
      "loss": 0.1461,
      "step": 2091
    },
    {
      "epoch": 0.7587957925281102,
      "grad_norm": 0.16900931298732758,
      "learning_rate": 2.7631379426186434e-05,
      "loss": 0.143,
      "step": 2092
    },
    {
      "epoch": 0.759158505622053,
      "grad_norm": 0.1761879175901413,
      "learning_rate": 2.755250049593816e-05,
      "loss": 0.1541,
      "step": 2093
    },
    {
      "epoch": 0.7595212187159956,
      "grad_norm": 0.18240278959274292,
      "learning_rate": 2.74737163214849e-05,
      "loss": 0.1931,
      "step": 2094
    },
    {
      "epoch": 0.7598839318099383,
      "grad_norm": 0.15427257120609283,
      "learning_rate": 2.7395027005870343e-05,
      "loss": 0.1453,
      "step": 2095
    },
    {
      "epoch": 0.760246644903881,
      "grad_norm": 0.18148113787174225,
      "learning_rate": 2.73164326520141e-05,
      "loss": 0.1733,
      "step": 2096
    },
    {
      "epoch": 0.7606093579978237,
      "grad_norm": 0.1736038774251938,
      "learning_rate": 2.7237933362711576e-05,
      "loss": 0.1532,
      "step": 2097
    },
    {
      "epoch": 0.7609720710917665,
      "grad_norm": 0.18636751174926758,
      "learning_rate": 2.715952924063383e-05,
      "loss": 0.1627,
      "step": 2098
    },
    {
      "epoch": 0.7613347841857091,
      "grad_norm": 0.18383683264255524,
      "learning_rate": 2.7081220388327522e-05,
      "loss": 0.1625,
      "step": 2099
    },
    {
      "epoch": 0.7616974972796517,
      "grad_norm": 0.16700130701065063,
      "learning_rate": 2.70030069082146e-05,
      "loss": 0.1536,
      "step": 2100
    },
    {
      "epoch": 0.7620602103735945,
      "grad_norm": 0.178177148103714,
      "learning_rate": 2.692488890259235e-05,
      "loss": 0.1593,
      "step": 2101
    },
    {
      "epoch": 0.7624229234675372,
      "grad_norm": 0.16141119599342346,
      "learning_rate": 2.6846866473633125e-05,
      "loss": 0.1476,
      "step": 2102
    },
    {
      "epoch": 0.7627856365614799,
      "grad_norm": 0.16690880060195923,
      "learning_rate": 2.676893972338432e-05,
      "loss": 0.1606,
      "step": 2103
    },
    {
      "epoch": 0.7631483496554226,
      "grad_norm": 0.18088023364543915,
      "learning_rate": 2.6691108753768146e-05,
      "loss": 0.1799,
      "step": 2104
    },
    {
      "epoch": 0.7635110627493652,
      "grad_norm": 0.16774174571037292,
      "learning_rate": 2.661337366658161e-05,
      "loss": 0.1534,
      "step": 2105
    },
    {
      "epoch": 0.763873775843308,
      "grad_norm": 0.1739625185728073,
      "learning_rate": 2.653573456349624e-05,
      "loss": 0.1752,
      "step": 2106
    },
    {
      "epoch": 0.7642364889372506,
      "grad_norm": 0.1661982536315918,
      "learning_rate": 2.6458191546058064e-05,
      "loss": 0.1554,
      "step": 2107
    },
    {
      "epoch": 0.7645992020311934,
      "grad_norm": 0.15863363444805145,
      "learning_rate": 2.638074471568739e-05,
      "loss": 0.1563,
      "step": 2108
    },
    {
      "epoch": 0.764961915125136,
      "grad_norm": 0.1664765626192093,
      "learning_rate": 2.630339417367882e-05,
      "loss": 0.1613,
      "step": 2109
    },
    {
      "epoch": 0.7653246282190788,
      "grad_norm": 0.17983406782150269,
      "learning_rate": 2.622614002120091e-05,
      "loss": 0.1354,
      "step": 2110
    },
    {
      "epoch": 0.7656873413130214,
      "grad_norm": 0.18512356281280518,
      "learning_rate": 2.6148982359296205e-05,
      "loss": 0.1548,
      "step": 2111
    },
    {
      "epoch": 0.766050054406964,
      "grad_norm": 0.16237185895442963,
      "learning_rate": 2.6071921288880984e-05,
      "loss": 0.151,
      "step": 2112
    },
    {
      "epoch": 0.7664127675009068,
      "grad_norm": 0.16601556539535522,
      "learning_rate": 2.5994956910745326e-05,
      "loss": 0.1616,
      "step": 2113
    },
    {
      "epoch": 0.7667754805948495,
      "grad_norm": 0.163995161652565,
      "learning_rate": 2.5918089325552707e-05,
      "loss": 0.1485,
      "step": 2114
    },
    {
      "epoch": 0.7671381936887922,
      "grad_norm": 0.18575289845466614,
      "learning_rate": 2.5841318633840072e-05,
      "loss": 0.1577,
      "step": 2115
    },
    {
      "epoch": 0.7675009067827349,
      "grad_norm": 0.19277150928974152,
      "learning_rate": 2.576464493601761e-05,
      "loss": 0.155,
      "step": 2116
    },
    {
      "epoch": 0.7678636198766775,
      "grad_norm": 0.1656551957130432,
      "learning_rate": 2.5688068332368632e-05,
      "loss": 0.1486,
      "step": 2117
    },
    {
      "epoch": 0.7682263329706203,
      "grad_norm": 0.15799161791801453,
      "learning_rate": 2.5611588923049544e-05,
      "loss": 0.1369,
      "step": 2118
    },
    {
      "epoch": 0.7685890460645629,
      "grad_norm": 0.17702096700668335,
      "learning_rate": 2.5535206808089553e-05,
      "loss": 0.1789,
      "step": 2119
    },
    {
      "epoch": 0.7689517591585057,
      "grad_norm": 2096.28515625,
      "learning_rate": 2.5458922087390613e-05,
      "loss": 0.1436,
      "step": 2120
    },
    {
      "epoch": 0.7693144722524483,
      "grad_norm": 0.17093558609485626,
      "learning_rate": 2.5382734860727332e-05,
      "loss": 0.1518,
      "step": 2121
    },
    {
      "epoch": 0.769677185346391,
      "grad_norm": 0.1638222485780716,
      "learning_rate": 2.5306645227746762e-05,
      "loss": 0.1473,
      "step": 2122
    },
    {
      "epoch": 0.7700398984403337,
      "grad_norm": 0.1996994912624359,
      "learning_rate": 2.523065328796831e-05,
      "loss": 0.1809,
      "step": 2123
    },
    {
      "epoch": 0.7704026115342764,
      "grad_norm": 0.1753552258014679,
      "learning_rate": 2.515475914078369e-05,
      "loss": 0.1811,
      "step": 2124
    },
    {
      "epoch": 0.7707653246282191,
      "grad_norm": 0.19755405187606812,
      "learning_rate": 2.5078962885456612e-05,
      "loss": 0.1783,
      "step": 2125
    },
    {
      "epoch": 0.7711280377221618,
      "grad_norm": 0.18720857799053192,
      "learning_rate": 2.5003264621122802e-05,
      "loss": 0.1519,
      "step": 2126
    },
    {
      "epoch": 0.7714907508161044,
      "grad_norm": 0.1806974709033966,
      "learning_rate": 2.4927664446789788e-05,
      "loss": 0.1594,
      "step": 2127
    },
    {
      "epoch": 0.7718534639100472,
      "grad_norm": 0.18246807157993317,
      "learning_rate": 2.4852162461336835e-05,
      "loss": 0.1395,
      "step": 2128
    },
    {
      "epoch": 0.7722161770039898,
      "grad_norm": 0.18061847984790802,
      "learning_rate": 2.477675876351475e-05,
      "loss": 0.1709,
      "step": 2129
    },
    {
      "epoch": 0.7725788900979326,
      "grad_norm": 0.1823715716600418,
      "learning_rate": 2.4701453451945846e-05,
      "loss": 0.1488,
      "step": 2130
    },
    {
      "epoch": 0.7729416031918752,
      "grad_norm": 0.16946843266487122,
      "learning_rate": 2.4626246625123706e-05,
      "loss": 0.1498,
      "step": 2131
    },
    {
      "epoch": 0.773304316285818,
      "grad_norm": 0.17811253666877747,
      "learning_rate": 2.455113838141311e-05,
      "loss": 0.1649,
      "step": 2132
    },
    {
      "epoch": 0.7736670293797606,
      "grad_norm": 0.16584321856498718,
      "learning_rate": 2.4476128819049893e-05,
      "loss": 0.1814,
      "step": 2133
    },
    {
      "epoch": 0.7740297424737033,
      "grad_norm": 0.15835148096084595,
      "learning_rate": 2.4401218036140848e-05,
      "loss": 0.1453,
      "step": 2134
    },
    {
      "epoch": 0.774392455567646,
      "grad_norm": 0.17442336678504944,
      "learning_rate": 2.4326406130663527e-05,
      "loss": 0.1457,
      "step": 2135
    },
    {
      "epoch": 0.7747551686615887,
      "grad_norm": 0.18500109016895294,
      "learning_rate": 2.4251693200466242e-05,
      "loss": 0.1673,
      "step": 2136
    },
    {
      "epoch": 0.7751178817555314,
      "grad_norm": 0.17963416874408722,
      "learning_rate": 2.417707934326775e-05,
      "loss": 0.1522,
      "step": 2137
    },
    {
      "epoch": 0.7754805948494741,
      "grad_norm": 0.17526273429393768,
      "learning_rate": 2.4102564656657312e-05,
      "loss": 0.1485,
      "step": 2138
    },
    {
      "epoch": 0.7758433079434167,
      "grad_norm": 0.15860708057880402,
      "learning_rate": 2.402814923809442e-05,
      "loss": 0.1446,
      "step": 2139
    },
    {
      "epoch": 0.7762060210373595,
      "grad_norm": 0.1740608960390091,
      "learning_rate": 2.3953833184908757e-05,
      "loss": 0.1521,
      "step": 2140
    },
    {
      "epoch": 0.7765687341313021,
      "grad_norm": 0.1701829582452774,
      "learning_rate": 2.387961659430007e-05,
      "loss": 0.1386,
      "step": 2141
    },
    {
      "epoch": 0.7769314472252449,
      "grad_norm": 0.17111440002918243,
      "learning_rate": 2.380549956333793e-05,
      "loss": 0.1452,
      "step": 2142
    },
    {
      "epoch": 0.7772941603191875,
      "grad_norm": 0.17982304096221924,
      "learning_rate": 2.3731482188961818e-05,
      "loss": 0.163,
      "step": 2143
    },
    {
      "epoch": 0.7776568734131302,
      "grad_norm": 0.1801091730594635,
      "learning_rate": 2.3657564567980782e-05,
      "loss": 0.1423,
      "step": 2144
    },
    {
      "epoch": 0.7780195865070729,
      "grad_norm": 0.15309491753578186,
      "learning_rate": 2.358374679707339e-05,
      "loss": 0.1393,
      "step": 2145
    },
    {
      "epoch": 0.7783822996010156,
      "grad_norm": 0.15650945901870728,
      "learning_rate": 2.351002897278771e-05,
      "loss": 0.1894,
      "step": 2146
    },
    {
      "epoch": 0.7787450126949583,
      "grad_norm": 0.17866793274879456,
      "learning_rate": 2.343641119154101e-05,
      "loss": 0.1549,
      "step": 2147
    },
    {
      "epoch": 0.779107725788901,
      "grad_norm": 0.17232728004455566,
      "learning_rate": 2.336289354961969e-05,
      "loss": 0.1802,
      "step": 2148
    },
    {
      "epoch": 0.7794704388828436,
      "grad_norm": 0.18021385371685028,
      "learning_rate": 2.3289476143179202e-05,
      "loss": 0.143,
      "step": 2149
    },
    {
      "epoch": 0.7798331519767864,
      "grad_norm": 0.18300630152225494,
      "learning_rate": 2.3216159068243958e-05,
      "loss": 0.1739,
      "step": 2150
    },
    {
      "epoch": 0.780195865070729,
      "grad_norm": 0.18222151696681976,
      "learning_rate": 2.314294242070706e-05,
      "loss": 0.1653,
      "step": 2151
    },
    {
      "epoch": 0.7805585781646718,
      "grad_norm": 0.16753800213336945,
      "learning_rate": 2.30698262963303e-05,
      "loss": 0.1766,
      "step": 2152
    },
    {
      "epoch": 0.7809212912586144,
      "grad_norm": 0.16288548707962036,
      "learning_rate": 2.2996810790743983e-05,
      "loss": 0.1417,
      "step": 2153
    },
    {
      "epoch": 0.7812840043525572,
      "grad_norm": 0.14791814982891083,
      "learning_rate": 2.2923895999446764e-05,
      "loss": 0.1452,
      "step": 2154
    },
    {
      "epoch": 0.7816467174464998,
      "grad_norm": 0.17105069756507874,
      "learning_rate": 2.2851082017805703e-05,
      "loss": 0.1641,
      "step": 2155
    },
    {
      "epoch": 0.7820094305404425,
      "grad_norm": 0.17432281374931335,
      "learning_rate": 2.2778368941055882e-05,
      "loss": 0.1774,
      "step": 2156
    },
    {
      "epoch": 0.7823721436343852,
      "grad_norm": 0.19430530071258545,
      "learning_rate": 2.2705756864300454e-05,
      "loss": 0.167,
      "step": 2157
    },
    {
      "epoch": 0.7827348567283279,
      "grad_norm": 0.16627925634384155,
      "learning_rate": 2.2633245882510457e-05,
      "loss": 0.1328,
      "step": 2158
    },
    {
      "epoch": 0.7830975698222706,
      "grad_norm": 0.1691751331090927,
      "learning_rate": 2.256083609052474e-05,
      "loss": 0.1504,
      "step": 2159
    },
    {
      "epoch": 0.7834602829162133,
      "grad_norm": 0.17866089940071106,
      "learning_rate": 2.2488527583049736e-05,
      "loss": 0.1503,
      "step": 2160
    },
    {
      "epoch": 0.7838229960101559,
      "grad_norm": 0.19467145204544067,
      "learning_rate": 2.2416320454659512e-05,
      "loss": 0.1611,
      "step": 2161
    },
    {
      "epoch": 0.7841857091040987,
      "grad_norm": 0.17603172361850739,
      "learning_rate": 2.2344214799795438e-05,
      "loss": 0.1519,
      "step": 2162
    },
    {
      "epoch": 0.7845484221980413,
      "grad_norm": 0.18451876938343048,
      "learning_rate": 2.2272210712766205e-05,
      "loss": 0.1675,
      "step": 2163
    },
    {
      "epoch": 0.7849111352919841,
      "grad_norm": 0.17610016465187073,
      "learning_rate": 2.2200308287747673e-05,
      "loss": 0.1597,
      "step": 2164
    },
    {
      "epoch": 0.7852738483859267,
      "grad_norm": 0.1533452421426773,
      "learning_rate": 2.21285076187827e-05,
      "loss": 0.1381,
      "step": 2165
    },
    {
      "epoch": 0.7856365614798694,
      "grad_norm": 0.16271378099918365,
      "learning_rate": 2.205680879978107e-05,
      "loss": 0.1435,
      "step": 2166
    },
    {
      "epoch": 0.7859992745738121,
      "grad_norm": 0.15660040080547333,
      "learning_rate": 2.19852119245194e-05,
      "loss": 0.1441,
      "step": 2167
    },
    {
      "epoch": 0.7863619876677548,
      "grad_norm": 0.16608907282352448,
      "learning_rate": 2.1913717086640906e-05,
      "loss": 0.1603,
      "step": 2168
    },
    {
      "epoch": 0.7867247007616975,
      "grad_norm": 0.19811011850833893,
      "learning_rate": 2.1842324379655378e-05,
      "loss": 0.1729,
      "step": 2169
    },
    {
      "epoch": 0.7870874138556402,
      "grad_norm": 0.16923308372497559,
      "learning_rate": 2.177103389693903e-05,
      "loss": 0.1572,
      "step": 2170
    },
    {
      "epoch": 0.7874501269495828,
      "grad_norm": 0.16869297623634338,
      "learning_rate": 2.169984573173436e-05,
      "loss": 0.1523,
      "step": 2171
    },
    {
      "epoch": 0.7878128400435256,
      "grad_norm": 0.16741646826267242,
      "learning_rate": 2.162875997715005e-05,
      "loss": 0.1336,
      "step": 2172
    },
    {
      "epoch": 0.7881755531374682,
      "grad_norm": 0.17434288561344147,
      "learning_rate": 2.1557776726160807e-05,
      "loss": 0.1615,
      "step": 2173
    },
    {
      "epoch": 0.788538266231411,
      "grad_norm": 0.19176846742630005,
      "learning_rate": 2.1486896071607364e-05,
      "loss": 0.158,
      "step": 2174
    },
    {
      "epoch": 0.7889009793253536,
      "grad_norm": 0.19300417602062225,
      "learning_rate": 2.141611810619617e-05,
      "loss": 0.1618,
      "step": 2175
    },
    {
      "epoch": 0.7892636924192964,
      "grad_norm": 0.18857765197753906,
      "learning_rate": 2.1345442922499394e-05,
      "loss": 0.1552,
      "step": 2176
    },
    {
      "epoch": 0.789626405513239,
      "grad_norm": 0.16958756744861603,
      "learning_rate": 2.127487061295478e-05,
      "loss": 0.1498,
      "step": 2177
    },
    {
      "epoch": 0.7899891186071817,
      "grad_norm": 0.1617862582206726,
      "learning_rate": 2.1204401269865526e-05,
      "loss": 0.1468,
      "step": 2178
    },
    {
      "epoch": 0.7903518317011244,
      "grad_norm": 0.17696796357631683,
      "learning_rate": 2.113403498540011e-05,
      "loss": 0.158,
      "step": 2179
    },
    {
      "epoch": 0.7907145447950671,
      "grad_norm": 0.18679635226726532,
      "learning_rate": 2.1063771851592316e-05,
      "loss": 0.1725,
      "step": 2180
    },
    {
      "epoch": 0.7910772578890098,
      "grad_norm": 0.16767951846122742,
      "learning_rate": 2.099361196034093e-05,
      "loss": 0.1541,
      "step": 2181
    },
    {
      "epoch": 0.7914399709829525,
      "grad_norm": 0.17078953981399536,
      "learning_rate": 2.09235554034097e-05,
      "loss": 0.1517,
      "step": 2182
    },
    {
      "epoch": 0.7918026840768951,
      "grad_norm": 0.18054896593093872,
      "learning_rate": 2.085360227242731e-05,
      "loss": 0.1668,
      "step": 2183
    },
    {
      "epoch": 0.7921653971708379,
      "grad_norm": 0.17167535424232483,
      "learning_rate": 2.0783752658887066e-05,
      "loss": 0.1486,
      "step": 2184
    },
    {
      "epoch": 0.7925281102647805,
      "grad_norm": 0.18194803595542908,
      "learning_rate": 2.0714006654146955e-05,
      "loss": 0.1705,
      "step": 2185
    },
    {
      "epoch": 0.7928908233587233,
      "grad_norm": 0.15957947075366974,
      "learning_rate": 2.0644364349429378e-05,
      "loss": 0.1393,
      "step": 2186
    },
    {
      "epoch": 0.7932535364526659,
      "grad_norm": 0.17193473875522614,
      "learning_rate": 2.057482583582122e-05,
      "loss": 0.1549,
      "step": 2187
    },
    {
      "epoch": 0.7936162495466086,
      "grad_norm": 0.16619963943958282,
      "learning_rate": 2.0505391204273495e-05,
      "loss": 0.1526,
      "step": 2188
    },
    {
      "epoch": 0.7939789626405513,
      "grad_norm": 0.15132339298725128,
      "learning_rate": 2.043606054560141e-05,
      "loss": 0.1602,
      "step": 2189
    },
    {
      "epoch": 0.794341675734494,
      "grad_norm": 0.17620229721069336,
      "learning_rate": 2.0366833950484164e-05,
      "loss": 0.1505,
      "step": 2190
    },
    {
      "epoch": 0.7947043888284367,
      "grad_norm": 0.16328759491443634,
      "learning_rate": 2.0297711509464833e-05,
      "loss": 0.1407,
      "step": 2191
    },
    {
      "epoch": 0.7950671019223794,
      "grad_norm": 0.16912280023097992,
      "learning_rate": 2.0228693312950352e-05,
      "loss": 0.1571,
      "step": 2192
    },
    {
      "epoch": 0.795429815016322,
      "grad_norm": 0.16919687390327454,
      "learning_rate": 2.0159779451211204e-05,
      "loss": 0.1484,
      "step": 2193
    },
    {
      "epoch": 0.7957925281102648,
      "grad_norm": 0.17652738094329834,
      "learning_rate": 2.009097001438147e-05,
      "loss": 0.1388,
      "step": 2194
    },
    {
      "epoch": 0.7961552412042074,
      "grad_norm": 0.17439448833465576,
      "learning_rate": 2.0022265092458638e-05,
      "loss": 0.162,
      "step": 2195
    },
    {
      "epoch": 0.7965179542981502,
      "grad_norm": 0.16315314173698425,
      "learning_rate": 1.9953664775303483e-05,
      "loss": 0.1463,
      "step": 2196
    },
    {
      "epoch": 0.7968806673920928,
      "grad_norm": 0.15268266201019287,
      "learning_rate": 1.988516915263996e-05,
      "loss": 0.1421,
      "step": 2197
    },
    {
      "epoch": 0.7972433804860355,
      "grad_norm": 0.16543833911418915,
      "learning_rate": 1.981677831405516e-05,
      "loss": 0.1495,
      "step": 2198
    },
    {
      "epoch": 0.7976060935799782,
      "grad_norm": 0.1608053743839264,
      "learning_rate": 1.974849234899907e-05,
      "loss": 0.1383,
      "step": 2199
    },
    {
      "epoch": 0.7979688066739209,
      "grad_norm": 0.1577446609735489,
      "learning_rate": 1.9680311346784496e-05,
      "loss": 0.1418,
      "step": 2200
    }
  ],
  "logging_steps": 1,
  "max_steps": 2757,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.5288134512966107e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}