{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5767012687427913,
  "eval_steps": 500,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0014417531718569781,
      "grad_norm": 3808.0,
      "kd_loss": 0.4765625,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 2.4865,
      "step": 5,
      "student_loss": 1.2782293558120728,
      "teacher_loss": 0.0020202866289764643
    },
    {
      "epoch": 0.0028835063437139563,
      "grad_norm": 496.0,
      "kd_loss": 0.453125,
      "learning_rate": 3e-06,
      "loss": 2.0957,
      "step": 10,
      "student_loss": 1.0292338132858276,
      "teacher_loss": 0.005245466250926256
    },
    {
      "epoch": 0.004325259515570935,
      "grad_norm": 238.0,
      "kd_loss": 0.4453125,
      "learning_rate": 4.666666666666667e-06,
      "loss": 1.9295,
      "step": 15,
      "student_loss": 0.631219208240509,
      "teacher_loss": 0.0013347615022212267
    },
    {
      "epoch": 0.0057670126874279125,
      "grad_norm": 133.0,
      "kd_loss": 0.44140625,
      "learning_rate": 6.333333333333333e-06,
      "loss": 1.8503,
      "step": 20,
      "student_loss": 1.4391331672668457,
      "teacher_loss": 0.0005473981145769358
    },
    {
      "epoch": 0.00720876585928489,
      "grad_norm": 75.5,
      "kd_loss": 0.3984375,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.0972,
      "step": 25,
      "student_loss": 0.18605084717273712,
      "teacher_loss": 0.0011649713851511478
    },
    {
      "epoch": 0.00865051903114187,
      "grad_norm": 24.25,
      "kd_loss": 0.376953125,
      "learning_rate": 9.666666666666667e-06,
      "loss": 0.5883,
      "step": 30,
      "student_loss": 0.05895603448152542,
      "teacher_loss": 0.030797353014349937
    },
    {
      "epoch": 0.010092272202998846,
      "grad_norm": 9.1875,
      "kd_loss": 0.318359375,
      "learning_rate": 9.99958042442916e-06,
      "loss": 0.4657,
      "step": 35,
      "student_loss": 0.00801500491797924,
      "teacher_loss": 0.04946871101856232
    },
    {
      "epoch": 0.011534025374855825,
      "grad_norm": 7.09375,
      "kd_loss": 0.296875,
      "learning_rate": 9.997876019358083e-06,
      "loss": 0.402,
      "step": 40,
      "student_loss": 0.27407729625701904,
      "teacher_loss": 0.04900167137384415
    },
    {
      "epoch": 0.012975778546712802,
      "grad_norm": 10.6875,
      "kd_loss": 0.265625,
      "learning_rate": 9.99486100792044e-06,
      "loss": 0.3281,
      "step": 45,
      "student_loss": 0.3285456597805023,
      "teacher_loss": 0.003808467648923397
    },
    {
      "epoch": 0.01441753171856978,
      "grad_norm": 21.875,
      "kd_loss": 0.2578125,
      "learning_rate": 9.990536180750724e-06,
      "loss": 0.351,
      "step": 50,
      "student_loss": 0.03528054431080818,
      "teacher_loss": 0.04187293350696564
    },
    {
      "epoch": 0.015859284890426758,
      "grad_norm": 228.0,
      "kd_loss": 0.2421875,
      "learning_rate": 9.984902671959911e-06,
      "loss": 0.3368,
      "step": 55,
      "student_loss": 0.004587164148688316,
      "teacher_loss": 0.0026238495483994484
    },
    {
      "epoch": 0.01730103806228374,
      "grad_norm": 6.4375,
      "kd_loss": 0.23046875,
      "learning_rate": 9.97796195883804e-06,
      "loss": 0.3291,
      "step": 60,
      "student_loss": 0.048888176679611206,
      "teacher_loss": 0.0033420324325561523
    },
    {
      "epoch": 0.018742791234140715,
      "grad_norm": 6.375,
      "kd_loss": 0.2099609375,
      "learning_rate": 9.969715861466839e-06,
      "loss": 0.3147,
      "step": 65,
      "student_loss": 0.11189773678779602,
      "teacher_loss": 0.0413309670984745
    },
    {
      "epoch": 0.020184544405997693,
      "grad_norm": 4.09375,
      "kd_loss": 0.208984375,
      "learning_rate": 9.96016654224243e-06,
      "loss": 0.3096,
      "step": 70,
      "student_loss": 0.026729928329586983,
      "teacher_loss": 0.0019827873911708593
    },
    {
      "epoch": 0.02162629757785467,
      "grad_norm": 4.25,
      "kd_loss": 0.1748046875,
      "learning_rate": 9.94931650530827e-06,
      "loss": 0.2729,
      "step": 75,
      "student_loss": 0.006473238579928875,
      "teacher_loss": 0.005465318448841572
    },
    {
      "epoch": 0.02306805074971165,
      "grad_norm": 3.859375,
      "kd_loss": 0.16796875,
      "learning_rate": 9.93716859589851e-06,
      "loss": 0.2662,
      "step": 80,
      "student_loss": 0.00662571657449007,
      "teacher_loss": 0.004144964274019003
    },
    {
      "epoch": 0.024509803921568627,
      "grad_norm": 2.78125,
      "kd_loss": 0.1640625,
      "learning_rate": 9.923725999591846e-06,
      "loss": 0.2261,
      "step": 85,
      "student_loss": 0.004623747896403074,
      "teacher_loss": 0.002723712706938386
    },
    {
      "epoch": 0.025951557093425604,
      "grad_norm": 5.5625,
      "kd_loss": 0.1943359375,
      "learning_rate": 9.908992241476189e-06,
      "loss": 0.2543,
      "step": 90,
      "student_loss": 0.11273087561130524,
      "teacher_loss": 0.0015502618625760078
    },
    {
      "epoch": 0.027393310265282585,
      "grad_norm": 3.4375,
      "kd_loss": 0.189453125,
      "learning_rate": 9.892971185224244e-06,
      "loss": 0.2267,
      "step": 95,
      "student_loss": 0.006197327747941017,
      "teacher_loss": 0.008993545547127724
    },
    {
      "epoch": 0.02883506343713956,
      "grad_norm": 6.34375,
      "kd_loss": 0.134765625,
      "learning_rate": 9.875667032080354e-06,
      "loss": 0.2274,
      "step": 100,
      "student_loss": 0.0032730416860431433,
      "teacher_loss": 0.0036007578019052744
    },
    {
      "epoch": 0.03027681660899654,
      "grad_norm": 4.0,
      "kd_loss": 0.146484375,
      "learning_rate": 9.857084319758772e-06,
      "loss": 0.2421,
      "step": 105,
      "student_loss": 0.04058241471648216,
      "teacher_loss": 0.0012296679196879268
    },
    {
      "epoch": 0.031718569780853516,
      "grad_norm": 4.6875,
      "kd_loss": 0.1787109375,
      "learning_rate": 9.837227921253747e-06,
      "loss": 0.2273,
      "step": 110,
      "student_loss": 0.004547884222120047,
      "teacher_loss": 0.023880567401647568
    },
    {
      "epoch": 0.03316032295271049,
      "grad_norm": 2.625,
      "kd_loss": 0.14453125,
      "learning_rate": 9.816103043561648e-06,
      "loss": 0.2142,
      "step": 115,
      "student_loss": 0.001855566632002592,
      "teacher_loss": 0.0016716865357011557
    },
    {
      "epoch": 0.03460207612456748,
      "grad_norm": 3.078125,
      "kd_loss": 0.1357421875,
      "learning_rate": 9.79371522631553e-06,
      "loss": 0.2149,
      "step": 120,
      "student_loss": 0.019737211987376213,
      "teacher_loss": 0.0027425403241068125
    },
    {
      "epoch": 0.036043829296424454,
      "grad_norm": 3.390625,
      "kd_loss": 0.146484375,
      "learning_rate": 9.770070340332457e-06,
      "loss": 0.1956,
      "step": 125,
      "student_loss": 0.10938042402267456,
      "teacher_loss": 0.001064821844920516
    },
    {
      "epoch": 0.03748558246828143,
      "grad_norm": 3.734375,
      "kd_loss": 0.146484375,
      "learning_rate": 9.745174586073982e-06,
      "loss": 0.2099,
      "step": 130,
      "student_loss": 0.0035836249589920044,
      "teacher_loss": 0.002439548959955573
    },
    {
      "epoch": 0.03892733564013841,
      "grad_norm": 3.0,
      "kd_loss": 0.1337890625,
      "learning_rate": 9.719034492020183e-06,
      "loss": 0.202,
      "step": 135,
      "student_loss": 0.003862213110551238,
      "teacher_loss": 0.0010834896238520741
    },
    {
      "epoch": 0.040369088811995385,
      "grad_norm": 7.1875,
      "kd_loss": 0.1357421875,
      "learning_rate": 9.691656912957686e-06,
      "loss": 0.218,
      "step": 140,
      "student_loss": 0.0022195407655090094,
      "teacher_loss": 0.0014228483196347952
    },
    {
      "epoch": 0.04181084198385236,
      "grad_norm": 3.703125,
      "kd_loss": 0.150390625,
      "learning_rate": 9.663049028182112e-06,
      "loss": 0.2077,
      "step": 145,
      "student_loss": 0.11333022266626358,
      "teacher_loss": 0.00682886503636837
    },
    {
      "epoch": 0.04325259515570934,
      "grad_norm": 2.859375,
      "kd_loss": 0.14453125,
      "learning_rate": 9.633218339615433e-06,
      "loss": 0.1935,
      "step": 150,
      "student_loss": 0.0032606760505586863,
      "teacher_loss": 0.0031273479107767344
    },
    {
      "epoch": 0.04469434832756632,
      "grad_norm": 3.578125,
      "kd_loss": 0.12451171875,
      "learning_rate": 9.602172669838721e-06,
      "loss": 0.2199,
      "step": 155,
      "student_loss": 0.0088576041162014,
      "teacher_loss": 0.0016166985733434558
    },
    {
      "epoch": 0.0461361014994233,
      "grad_norm": 4.09375,
      "kd_loss": 0.1708984375,
      "learning_rate": 9.569920160040815e-06,
      "loss": 0.2018,
      "step": 160,
      "student_loss": 0.13294154405593872,
      "teacher_loss": 0.03791189566254616
    },
    {
      "epoch": 0.04757785467128028,
      "grad_norm": 3.921875,
      "kd_loss": 0.138671875,
      "learning_rate": 9.536469267883432e-06,
      "loss": 0.208,
      "step": 165,
      "student_loss": 0.002772042527794838,
      "teacher_loss": 0.005522818770259619
    },
    {
      "epoch": 0.049019607843137254,
      "grad_norm": 5.03125,
      "kd_loss": 0.126953125,
      "learning_rate": 9.501828765283295e-06,
      "loss": 0.1962,
      "step": 170,
      "student_loss": 0.003656906308606267,
      "teacher_loss": 0.0018494409741833806
    },
    {
      "epoch": 0.05046136101499423,
      "grad_norm": 3.515625,
      "kd_loss": 0.12451171875,
      "learning_rate": 9.466007736111846e-06,
      "loss": 0.1935,
      "step": 175,
      "student_loss": 0.017079656943678856,
      "teacher_loss": 0.0010717228287830949
    },
    {
      "epoch": 0.05190311418685121,
      "grad_norm": 5.03125,
      "kd_loss": 0.11669921875,
      "learning_rate": 9.429015573813163e-06,
      "loss": 0.1861,
      "step": 180,
      "student_loss": 0.003456867765635252,
      "teacher_loss": 0.0010596277425065637
    },
    {
      "epoch": 0.05334486735870819,
      "grad_norm": 4.0625,
      "kd_loss": 0.1455078125,
      "learning_rate": 9.390861978940687e-06,
      "loss": 0.1921,
      "step": 185,
      "student_loss": 0.31187787652015686,
      "teacher_loss": 0.0008243238553404808
    },
    {
      "epoch": 0.05478662053056517,
      "grad_norm": 5.09375,
      "kd_loss": 0.1416015625,
      "learning_rate": 9.351556956613423e-06,
      "loss": 0.2044,
      "step": 190,
      "student_loss": 0.011734717525541782,
      "teacher_loss": 0.0015390698099508882
    },
    {
      "epoch": 0.056228373702422146,
      "grad_norm": 4.5,
      "kd_loss": 0.1337890625,
      "learning_rate": 9.31111081389227e-06,
      "loss": 0.1778,
      "step": 195,
      "student_loss": 0.05741060897707939,
      "teacher_loss": 0.0007789382943883538
    },
    {
      "epoch": 0.05767012687427912,
      "grad_norm": 2.28125,
      "kd_loss": 0.12890625,
      "learning_rate": 9.269534157077177e-06,
      "loss": 0.1743,
      "step": 200,
      "student_loss": 0.0014264394994825125,
      "teacher_loss": 0.0006533891428261995
    },
    {
      "epoch": 0.0591118800461361,
      "grad_norm": 4.25,
      "kd_loss": 0.1376953125,
      "learning_rate": 9.226837888925813e-06,
      "loss": 0.1969,
      "step": 205,
      "student_loss": 0.0015782959526404738,
      "teacher_loss": 0.0368424728512764
    },
    {
      "epoch": 0.06055363321799308,
      "grad_norm": 7.5625,
      "kd_loss": 0.1123046875,
      "learning_rate": 9.183033205794525e-06,
      "loss": 0.1836,
      "step": 210,
      "student_loss": 0.01342203002423048,
      "teacher_loss": 0.0011842605890706182
    },
    {
      "epoch": 0.061995386389850055,
      "grad_norm": 3.0,
      "kd_loss": 0.126953125,
      "learning_rate": 9.13813159470227e-06,
      "loss": 0.1824,
      "step": 215,
      "student_loss": 0.0014404732501134276,
      "teacher_loss": 0.0007589462329633534
    },
    {
      "epoch": 0.06343713956170703,
      "grad_norm": 7.125,
      "kd_loss": 0.1328125,
      "learning_rate": 9.092144830318357e-06,
      "loss": 0.21,
      "step": 220,
      "student_loss": 0.2732444703578949,
      "teacher_loss": 0.00960276648402214
    },
    {
      "epoch": 0.06487889273356401,
      "grad_norm": 6.15625,
      "kd_loss": 0.1083984375,
      "learning_rate": 9.045084971874738e-06,
      "loss": 0.1941,
      "step": 225,
      "student_loss": 0.2691424489021301,
      "teacher_loss": 0.003315337933599949
    },
    {
      "epoch": 0.06632064590542099,
      "grad_norm": 2.46875,
      "kd_loss": 0.10986328125,
      "learning_rate": 8.99696436000368e-06,
      "loss": 0.1702,
      "step": 230,
      "student_loss": 0.08001423627138138,
      "teacher_loss": 0.009347192943096161
    },
    {
      "epoch": 0.06776239907727798,
      "grad_norm": 3.734375,
      "kd_loss": 0.1337890625,
      "learning_rate": 8.947795613501658e-06,
      "loss": 0.1778,
      "step": 235,
      "student_loss": 0.003426821669563651,
      "teacher_loss": 0.0008243515621870756
    },
    {
      "epoch": 0.06920415224913495,
      "grad_norm": 3.421875,
      "kd_loss": 0.10205078125,
      "learning_rate": 8.897591626020284e-06,
      "loss": 0.1928,
      "step": 240,
      "student_loss": 0.004231320694088936,
      "teacher_loss": 0.0010777115821838379
    },
    {
      "epoch": 0.07064590542099193,
      "grad_norm": 3.640625,
      "kd_loss": 0.11181640625,
      "learning_rate": 8.846365562685178e-06,
      "loss": 0.1721,
      "step": 245,
      "student_loss": 0.003189836163073778,
      "teacher_loss": 0.0029278292786329985
    },
    {
      "epoch": 0.07208765859284891,
      "grad_norm": 3.28125,
      "kd_loss": 0.107421875,
      "learning_rate": 8.794130856643635e-06,
      "loss": 0.1624,
      "step": 250,
      "student_loss": 0.0030161093454807997,
      "teacher_loss": 0.0015030049253255129
    },
    {
      "epoch": 0.07352941176470588,
      "grad_norm": 2.671875,
      "kd_loss": 0.1171875,
      "learning_rate": 8.74090120554202e-06,
      "loss": 0.181,
      "step": 255,
      "student_loss": 0.0010447532404214144,
      "teacher_loss": 0.0014572968939319253
    },
    {
      "epoch": 0.07497116493656286,
      "grad_norm": 3.03125,
      "kd_loss": 0.125,
      "learning_rate": 8.686690567933803e-06,
      "loss": 0.18,
      "step": 260,
      "student_loss": 0.002235305029898882,
      "teacher_loss": 0.03705403953790665
    },
    {
      "epoch": 0.07641291810841984,
      "grad_norm": 3.84375,
      "kd_loss": 0.10107421875,
      "learning_rate": 8.63151315961915e-06,
      "loss": 0.1751,
      "step": 265,
      "student_loss": 0.0019888102542608976,
      "teacher_loss": 0.0012628042604774237
    },
    {
      "epoch": 0.07785467128027682,
      "grad_norm": 4.03125,
      "kd_loss": 0.103515625,
      "learning_rate": 8.575383449917103e-06,
      "loss": 0.1698,
      "step": 270,
      "student_loss": 0.009670126251876354,
      "teacher_loss": 0.0018007074249908328
    },
    {
      "epoch": 0.07929642445213379,
      "grad_norm": 5.0625,
      "kd_loss": 0.11669921875,
      "learning_rate": 8.518316157871232e-06,
      "loss": 0.1792,
      "step": 275,
      "student_loss": 0.0027291348669677973,
      "teacher_loss": 0.03865275904536247
    },
    {
      "epoch": 0.08073817762399077,
      "grad_norm": 6.40625,
      "kd_loss": 0.12451171875,
      "learning_rate": 8.460326248389825e-06,
      "loss": 0.1868,
      "step": 280,
      "student_loss": 0.0005779159837402403,
      "teacher_loss": 0.0004988706787116826
    },
    {
      "epoch": 0.08217993079584775,
      "grad_norm": 5.03125,
      "kd_loss": 0.1083984375,
      "learning_rate": 8.401428928321607e-06,
      "loss": 0.1777,
      "step": 285,
      "student_loss": 0.00322159961797297,
      "teacher_loss": 0.0016653644852340221
    },
    {
      "epoch": 0.08362168396770472,
      "grad_norm": 4.15625,
      "kd_loss": 0.119140625,
      "learning_rate": 8.341639642468002e-06,
      "loss": 0.2245,
      "step": 290,
      "student_loss": 0.025423452258110046,
      "teacher_loss": 0.006107364781200886
    },
    {
      "epoch": 0.0850634371395617,
      "grad_norm": 2.21875,
      "kd_loss": 0.10498046875,
      "learning_rate": 8.280974069532999e-06,
      "loss": 0.1742,
      "step": 295,
      "student_loss": 0.0032805479131639004,
      "teacher_loss": 0.002079744590446353
    },
    {
      "epoch": 0.08650519031141868,
      "grad_norm": 4.875,
      "kd_loss": 0.1220703125,
      "learning_rate": 8.219448118011687e-06,
      "loss": 0.1698,
      "step": 300,
      "student_loss": 0.05386965721845627,
      "teacher_loss": 0.0015291464515030384
    },
    {
      "epoch": 0.08794694348327567,
      "grad_norm": 2.703125,
      "kd_loss": 0.09375,
      "learning_rate": 8.157077922018537e-06,
      "loss": 0.1735,
      "step": 305,
      "student_loss": 0.007909238338470459,
      "teacher_loss": 0.0032228778582066298
    },
    {
      "epoch": 0.08938869665513265,
      "grad_norm": 6.375,
      "kd_loss": 0.091796875,
      "learning_rate": 8.093879837056486e-06,
      "loss": 0.1662,
      "step": 310,
      "student_loss": 0.0014559343690052629,
      "teacher_loss": 0.0014570873463526368
    },
    {
      "epoch": 0.09083044982698962,
      "grad_norm": 6.09375,
      "kd_loss": 0.09716796875,
      "learning_rate": 8.029870435728018e-06,
      "loss": 0.1905,
      "step": 315,
      "student_loss": 0.13904070854187012,
      "teacher_loss": 0.00045576939010061324
    },
    {
      "epoch": 0.0922722029988466,
      "grad_norm": 8.75,
      "kd_loss": 0.091796875,
      "learning_rate": 7.965066503389264e-06,
      "loss": 0.1801,
      "step": 320,
      "student_loss": 0.0017298327293246984,
      "teacher_loss": 0.001036101020872593
    },
    {
      "epoch": 0.09371395617070358,
      "grad_norm": 5.53125,
      "kd_loss": 0.15625,
      "learning_rate": 7.89948503374835e-06,
      "loss": 0.1636,
      "step": 325,
      "student_loss": 0.0033407427836209536,
      "teacher_loss": 0.02077825367450714
    },
    {
      "epoch": 0.09515570934256055,
      "grad_norm": 5.09375,
      "kd_loss": 0.10693359375,
      "learning_rate": 7.833143224409076e-06,
      "loss": 0.1884,
      "step": 330,
      "student_loss": 0.006418874487280846,
      "teacher_loss": 0.0011637036222964525
    },
    {
      "epoch": 0.09659746251441753,
      "grad_norm": 4.71875,
      "kd_loss": 0.09716796875,
      "learning_rate": 7.766058472361154e-06,
      "loss": 0.1577,
      "step": 335,
      "student_loss": 0.0016794800758361816,
      "teacher_loss": 0.0023754944559186697
    },
    {
      "epoch": 0.09803921568627451,
      "grad_norm": 5.09375,
      "kd_loss": 0.09326171875,
      "learning_rate": 7.698248369418146e-06,
      "loss": 0.1589,
      "step": 340,
      "student_loss": 0.044694170355796814,
      "teacher_loss": 0.007826481945812702
    },
    {
      "epoch": 0.09948096885813149,
      "grad_norm": 5.375,
      "kd_loss": 0.0966796875,
      "learning_rate": 7.629730697604314e-06,
      "loss": 0.1807,
      "step": 345,
      "student_loss": 0.09194417297840118,
      "teacher_loss": 0.0007945778197608888
    },
    {
      "epoch": 0.10092272202998846,
      "grad_norm": 5.875,
      "kd_loss": 0.11865234375,
      "learning_rate": 7.560523424491595e-06,
      "loss": 0.1526,
      "step": 350,
      "student_loss": 0.005946993827819824,
      "teacher_loss": 0.0006145219667814672
    },
    {
      "epoch": 0.10236447520184544,
      "grad_norm": 9.1875,
      "kd_loss": 0.10302734375,
      "learning_rate": 7.490644698487909e-06,
      "loss": 0.1627,
      "step": 355,
      "student_loss": 0.0015843416331335902,
      "teacher_loss": 0.0014968032483011484
    },
    {
      "epoch": 0.10380622837370242,
      "grad_norm": 12.625,
      "kd_loss": 0.10791015625,
      "learning_rate": 7.420112844078066e-06,
      "loss": 0.1682,
      "step": 360,
      "student_loss": 0.01987134851515293,
      "teacher_loss": 0.001595525536686182
    },
    {
      "epoch": 0.1052479815455594,
      "grad_norm": 6.5625,
      "kd_loss": 0.103515625,
      "learning_rate": 7.348946357018479e-06,
      "loss": 0.1509,
      "step": 365,
      "student_loss": 0.006010106764733791,
      "teacher_loss": 0.032394833862781525
    },
    {
      "epoch": 0.10668973471741638,
      "grad_norm": 6.6875,
      "kd_loss": 0.1181640625,
      "learning_rate": 7.277163899486975e-06,
      "loss": 0.1623,
      "step": 370,
      "student_loss": 0.15845070779323578,
      "teacher_loss": 0.0004756299313157797
    },
    {
      "epoch": 0.10813148788927336,
      "grad_norm": 4.625,
      "kd_loss": 0.1240234375,
      "learning_rate": 7.204784295188959e-06,
      "loss": 0.1506,
      "step": 375,
      "student_loss": 0.10649572312831879,
      "teacher_loss": 0.02242193929851055
    },
    {
      "epoch": 0.10957324106113034,
      "grad_norm": 3.4375,
      "kd_loss": 0.1025390625,
      "learning_rate": 7.1318265244212305e-06,
      "loss": 0.1752,
      "step": 380,
      "student_loss": 0.00281524658203125,
      "teacher_loss": 0.0015117195434868336
    },
    {
      "epoch": 0.11101499423298732,
      "grad_norm": 2.359375,
      "kd_loss": 0.10205078125,
      "learning_rate": 7.05830971909472e-06,
      "loss": 0.1547,
      "step": 385,
      "student_loss": 0.0016335069667547941,
      "teacher_loss": 0.0012311713071539998
    },
    {
      "epoch": 0.11245674740484429,
      "grad_norm": 4.125,
      "kd_loss": 0.10205078125,
      "learning_rate": 6.9842531577174865e-06,
      "loss": 0.1538,
      "step": 390,
      "student_loss": 0.0012884392635896802,
      "teacher_loss": 0.001418368425220251
    },
    {
      "epoch": 0.11389850057670127,
      "grad_norm": 5.1875,
      "kd_loss": 0.1025390625,
      "learning_rate": 6.9096762603392595e-06,
      "loss": 0.1698,
      "step": 395,
      "student_loss": 0.0018499374855309725,
      "teacher_loss": 0.0013690440682694316
    },
    {
      "epoch": 0.11534025374855825,
      "grad_norm": 6.53125,
      "kd_loss": 0.10546875,
      "learning_rate": 6.834598583458862e-06,
      "loss": 0.16,
      "step": 400,
      "student_loss": 0.0014036521315574646,
      "teacher_loss": 0.00040830764919519424
    },
    {
      "epoch": 0.11678200692041522,
      "grad_norm": 4.71875,
      "kd_loss": 0.0888671875,
      "learning_rate": 6.7590398148958625e-06,
      "loss": 0.1718,
      "step": 405,
      "student_loss": 0.10261467099189758,
      "teacher_loss": 0.0006754493806511164
    },
    {
      "epoch": 0.1182237600922722,
      "grad_norm": 4.3125,
      "kd_loss": 0.171875,
      "learning_rate": 6.6830197686277945e-06,
      "loss": 0.1878,
      "step": 410,
      "student_loss": 0.4882833659648895,
      "teacher_loss": 0.00981883890926838
    },
    {
      "epoch": 0.11966551326412918,
      "grad_norm": 2.8125,
      "kd_loss": 0.1083984375,
      "learning_rate": 6.6065583795942625e-06,
      "loss": 0.182,
      "step": 415,
      "student_loss": 0.03729023039340973,
      "teacher_loss": 0.0042837257497012615
    },
    {
      "epoch": 0.12110726643598616,
      "grad_norm": 4.65625,
      "kd_loss": 0.1064453125,
      "learning_rate": 6.52967569846937e-06,
      "loss": 0.1607,
      "step": 420,
      "student_loss": 0.05881139263510704,
      "teacher_loss": 0.024456653743982315
    },
    {
      "epoch": 0.12254901960784313,
      "grad_norm": 4.25,
      "kd_loss": 0.10009765625,
      "learning_rate": 6.452391886403767e-06,
      "loss": 0.1674,
      "step": 425,
      "student_loss": 0.05037780851125717,
      "teacher_loss": 0.0040146904066205025
    },
    {
      "epoch": 0.12399077277970011,
      "grad_norm": 4.75,
      "kd_loss": 0.1748046875,
      "learning_rate": 6.374727209737743e-06,
      "loss": 0.1766,
      "step": 430,
      "student_loss": 0.00238221138715744,
      "teacher_loss": 0.06439146399497986
    },
    {
      "epoch": 0.1254325259515571,
      "grad_norm": 5.53125,
      "kd_loss": 0.1015625,
      "learning_rate": 6.296702034686726e-06,
      "loss": 0.1714,
      "step": 435,
      "student_loss": 0.002659996272996068,
      "teacher_loss": 0.0022907655220478773
    },
    {
      "epoch": 0.12687427912341406,
      "grad_norm": 3.078125,
      "kd_loss": 0.1845703125,
      "learning_rate": 6.218336822000598e-06,
      "loss": 0.1775,
      "step": 440,
      "student_loss": 0.46329638361930847,
      "teacher_loss": 0.008188321255147457
    },
    {
      "epoch": 0.12831603229527105,
      "grad_norm": 3.953125,
      "kd_loss": 0.1259765625,
      "learning_rate": 6.139652121598219e-06,
      "loss": 0.1769,
      "step": 445,
      "student_loss": 0.0006292742909863591,
      "teacher_loss": 0.02016839198768139
    },
    {
      "epoch": 0.12975778546712802,
      "grad_norm": 3.53125,
      "kd_loss": 0.10400390625,
      "learning_rate": 6.060668567178561e-06,
      "loss": 0.1663,
      "step": 450,
      "student_loss": 0.002717025112360716,
      "teacher_loss": 0.0016874197172001004
    },
    {
      "epoch": 0.131199538638985,
      "grad_norm": 2.671875,
      "kd_loss": 0.087890625,
      "learning_rate": 5.981406870809889e-06,
      "loss": 0.1748,
      "step": 455,
      "student_loss": 0.012300008907914162,
      "teacher_loss": 0.0016890015685930848
    },
    {
      "epoch": 0.13264129181084197,
      "grad_norm": 5.1875,
      "kd_loss": 0.10791015625,
      "learning_rate": 5.9018878174983674e-06,
      "loss": 0.17,
      "step": 460,
      "student_loss": 0.03240777552127838,
      "teacher_loss": 0.0010722745209932327
    },
    {
      "epoch": 0.13408304498269896,
      "grad_norm": 2.765625,
      "kd_loss": 0.1328125,
      "learning_rate": 5.822132259737565e-06,
      "loss": 0.1858,
      "step": 465,
      "student_loss": 0.0023128872271627188,
      "teacher_loss": 0.0006816239329054952
    },
    {
      "epoch": 0.13552479815455595,
      "grad_norm": 5.3125,
      "kd_loss": 0.09521484375,
      "learning_rate": 5.742161112040237e-06,
      "loss": 0.1887,
      "step": 470,
      "student_loss": 0.0013243159046396613,
      "teacher_loss": 0.0008191668312065303
    },
    {
      "epoch": 0.13696655132641292,
      "grad_norm": 4.34375,
      "kd_loss": 0.12890625,
      "learning_rate": 5.661995345453867e-06,
      "loss": 0.1479,
      "step": 475,
      "student_loss": 0.0022922754287719727,
      "teacher_loss": 0.0007053640438243747
    },
    {
      "epoch": 0.1384083044982699,
      "grad_norm": 4.1875,
      "kd_loss": 0.10888671875,
      "learning_rate": 5.581655982061367e-06,
      "loss": 0.2052,
      "step": 480,
      "student_loss": 0.016067378222942352,
      "teacher_loss": 0.0467948317527771
    },
    {
      "epoch": 0.13985005767012687,
      "grad_norm": 4.625,
      "kd_loss": 0.09521484375,
      "learning_rate": 5.501164089468406e-06,
      "loss": 0.1535,
      "step": 485,
      "student_loss": 0.001838831347413361,
      "teacher_loss": 0.0018535954877734184
    },
    {
      "epoch": 0.14129181084198386,
      "grad_norm": 4.3125,
      "kd_loss": 0.099609375,
      "learning_rate": 5.4205407752787884e-06,
      "loss": 0.1702,
      "step": 490,
      "student_loss": 0.0021060549188405275,
      "teacher_loss": 0.0013811348471790552
    },
    {
      "epoch": 0.14273356401384082,
      "grad_norm": 5.0,
      "kd_loss": 0.12109375,
      "learning_rate": 5.339807181559359e-06,
      "loss": 0.1698,
      "step": 495,
      "student_loss": 0.004670781549066305,
      "teacher_loss": 0.0008499641553498805
    },
    {
      "epoch": 0.14417531718569782,
      "grad_norm": 7.28125,
      "kd_loss": 0.1005859375,
      "learning_rate": 5.258984479295853e-06,
      "loss": 0.1663,
      "step": 500,
      "student_loss": 0.0009078571456484497,
      "teacher_loss": 0.0008732817368581891
    },
    {
      "epoch": 0.14561707035755478,
      "grad_norm": 4.8125,
      "kd_loss": 0.09521484375,
      "learning_rate": 5.1780938628411795e-06,
      "loss": 0.1857,
      "step": 505,
      "student_loss": 0.002319552004337311,
      "teacher_loss": 0.0009417013498023152
    },
    {
      "epoch": 0.14705882352941177,
      "grad_norm": 5.5,
      "kd_loss": 0.09130859375,
      "learning_rate": 5.097156544357567e-06,
      "loss": 0.168,
      "step": 510,
      "student_loss": 0.001904567121528089,
      "teacher_loss": 0.0011415554909035563
    },
    {
      "epoch": 0.14850057670126873,
      "grad_norm": 4.9375,
      "kd_loss": 0.11474609375,
      "learning_rate": 5.016193748254045e-06,
      "loss": 0.1561,
      "step": 515,
      "student_loss": 0.004430091939866543,
      "teacher_loss": 0.000705283775459975
    },
    {
      "epoch": 0.14994232987312572,
      "grad_norm": 4.0,
      "kd_loss": 0.1005859375,
      "learning_rate": 4.935226705620699e-06,
      "loss": 0.1742,
      "step": 520,
      "student_loss": 0.4650050103664398,
      "teacher_loss": 0.011486685834825039
    },
    {
      "epoch": 0.1513840830449827,
      "grad_norm": 2.28125,
      "kd_loss": 0.09423828125,
      "learning_rate": 4.8542766486612035e-06,
      "loss": 0.1568,
      "step": 525,
      "student_loss": 0.004688178189098835,
      "teacher_loss": 0.0005817305063828826
    },
    {
      "epoch": 0.15282583621683968,
      "grad_norm": 6.21875,
      "kd_loss": 0.1025390625,
      "learning_rate": 4.773364805125025e-06,
      "loss": 0.1569,
      "step": 530,
      "student_loss": 0.002902889158576727,
      "teacher_loss": 0.0036108619533479214
    },
    {
      "epoch": 0.15426758938869667,
      "grad_norm": 2.8125,
      "kd_loss": 0.0947265625,
      "learning_rate": 4.6925123927408265e-06,
      "loss": 0.146,
      "step": 535,
      "student_loss": 0.004958340898156166,
      "teacher_loss": 0.0009314365452155471
    },
    {
      "epoch": 0.15570934256055363,
      "grad_norm": 5.09375,
      "kd_loss": 0.1083984375,
      "learning_rate": 4.611740613652485e-06,
      "loss": 0.1485,
      "step": 540,
      "student_loss": 0.022316506132483482,
      "teacher_loss": 0.0009606878156773746
    },
    {
      "epoch": 0.15715109573241062,
      "grad_norm": 5.90625,
      "kd_loss": 0.095703125,
      "learning_rate": 4.531070648859186e-06,
      "loss": 0.171,
      "step": 545,
      "student_loss": 0.005919112823903561,
      "teacher_loss": 0.016547029837965965
    },
    {
      "epoch": 0.15859284890426759,
      "grad_norm": 4.375,
      "kd_loss": 0.1123046875,
      "learning_rate": 4.450523652661086e-06,
      "loss": 0.142,
      "step": 550,
      "student_loss": 0.0007885328959673643,
      "teacher_loss": 0.0045303236693143845
    },
    {
      "epoch": 0.16003460207612458,
      "grad_norm": 4.03125,
      "kd_loss": 0.09326171875,
      "learning_rate": 4.370120747111956e-06,
      "loss": 0.1566,
      "step": 555,
      "student_loss": 0.0045122369192540646,
      "teacher_loss": 0.0012258175993338227
    },
    {
      "epoch": 0.16147635524798154,
      "grad_norm": 5.1875,
      "kd_loss": 0.09423828125,
      "learning_rate": 4.289883016480291e-06,
      "loss": 0.1694,
      "step": 560,
      "student_loss": 0.038154710084199905,
      "teacher_loss": 0.00046423348248936236
    },
    {
      "epoch": 0.16291810841983853,
      "grad_norm": 3.34375,
      "kd_loss": 0.109375,
      "learning_rate": 4.209831501720328e-06,
      "loss": 0.1557,
      "step": 565,
      "student_loss": 0.018078487366437912,
      "teacher_loss": 0.021091489121317863
    },
    {
      "epoch": 0.1643598615916955,
      "grad_norm": 5.21875,
      "kd_loss": 0.1689453125,
      "learning_rate": 4.129987194954421e-06,
      "loss": 0.17,
      "step": 570,
      "student_loss": 0.15178009867668152,
      "teacher_loss": 0.0086033521220088
    },
    {
      "epoch": 0.16580161476355249,
      "grad_norm": 2.890625,
      "kd_loss": 0.08544921875,
      "learning_rate": 4.050371033968216e-06,
      "loss": 0.1651,
      "step": 575,
      "student_loss": 0.0016716659301891923,
      "teacher_loss": 0.0008001797832548618
    },
    {
      "epoch": 0.16724336793540945,
      "grad_norm": 4.1875,
      "kd_loss": 0.236328125,
      "learning_rate": 3.9710038967200825e-06,
      "loss": 0.1443,
      "step": 580,
      "student_loss": 0.004638470709323883,
      "teacher_loss": 0.006588623858988285
    },
    {
      "epoch": 0.16868512110726644,
      "grad_norm": 2.890625,
      "kd_loss": 0.0966796875,
      "learning_rate": 3.89190659586623e-06,
      "loss": 0.1551,
      "step": 585,
      "student_loss": 0.00187311926856637,
      "teacher_loss": 0.0005596915725618601
    },
    {
      "epoch": 0.1701268742791234,
      "grad_norm": 6.65625,
      "kd_loss": 0.091796875,
      "learning_rate": 3.8130998733029517e-06,
      "loss": 0.1722,
      "step": 590,
      "student_loss": 0.017516393214464188,
      "teacher_loss": 0.002362610539421439
    },
    {
      "epoch": 0.1715686274509804,
      "grad_norm": 2.234375,
      "kd_loss": 0.09423828125,
      "learning_rate": 3.734604394727419e-06,
      "loss": 0.1736,
      "step": 595,
      "student_loss": 0.0015100985765457153,
      "teacher_loss": 0.0012370356125757098
    },
    {
      "epoch": 0.17301038062283736,
      "grad_norm": 5.375,
      "kd_loss": 0.1064453125,
      "learning_rate": 3.656440744218464e-06,
      "loss": 0.1822,
      "step": 600,
      "student_loss": 0.3471376895904541,
      "teacher_loss": 0.006922336760908365
    },
    {
      "epoch": 0.17445213379469435,
      "grad_norm": 5.65625,
      "kd_loss": 0.10400390625,
      "learning_rate": 3.578629418838757e-06,
      "loss": 0.1706,
      "step": 605,
      "student_loss": 0.09560892730951309,
      "teacher_loss": 0.04084807634353638
    },
    {
      "epoch": 0.17589388696655134,
      "grad_norm": 3.609375,
      "kd_loss": 0.10888671875,
      "learning_rate": 3.5011908232598124e-06,
      "loss": 0.1418,
      "step": 610,
      "student_loss": 0.0035140912514179945,
      "teacher_loss": 0.0005105194286443293
    },
    {
      "epoch": 0.1773356401384083,
      "grad_norm": 3.375,
      "kd_loss": 0.10498046875,
      "learning_rate": 3.4241452644112085e-06,
      "loss": 0.1453,
      "step": 615,
      "student_loss": 0.0014288002857938409,
      "teacher_loss": 0.001070382189936936
    },
    {
      "epoch": 0.1787773933102653,
      "grad_norm": 2.578125,
      "kd_loss": 0.1416015625,
      "learning_rate": 3.3475129461554567e-06,
      "loss": 0.1677,
      "step": 620,
      "student_loss": 0.0047634500078856945,
      "teacher_loss": 0.009211473166942596
    },
    {
      "epoch": 0.18021914648212226,
      "grad_norm": 3.578125,
      "kd_loss": 0.09814453125,
      "learning_rate": 3.271313963989886e-06,
      "loss": 0.1556,
      "step": 625,
      "student_loss": 0.019517898559570312,
      "teacher_loss": 0.004466219339519739
    },
    {
      "epoch": 0.18166089965397925,
      "grad_norm": 4.21875,
      "kd_loss": 0.10009765625,
      "learning_rate": 3.195568299776945e-06,
      "loss": 0.1587,
      "step": 630,
      "student_loss": 0.09341763705015182,
      "teacher_loss": 0.0017769263358786702
    },
    {
      "epoch": 0.1831026528258362,
      "grad_norm": 4.21875,
      "kd_loss": 0.09130859375,
      "learning_rate": 3.1202958165043053e-06,
      "loss": 0.1877,
      "step": 635,
      "student_loss": 0.0012313922634348273,
      "teacher_loss": 0.0007036713068373501
    },
    {
      "epoch": 0.1845444059976932,
      "grad_norm": 5.84375,
      "kd_loss": 0.0966796875,
      "learning_rate": 3.045516253076137e-06,
      "loss": 0.1654,
      "step": 640,
      "student_loss": 0.001555976108647883,
      "teacher_loss": 0.0010528129059821367
    },
    {
      "epoch": 0.18598615916955016,
      "grad_norm": 7.96875,
      "kd_loss": 0.09228515625,
      "learning_rate": 2.9712492191369245e-06,
      "loss": 0.1564,
      "step": 645,
      "student_loss": 0.0033667683601379395,
      "teacher_loss": 0.0009755496867001057
    },
    {
      "epoch": 0.18742791234140715,
      "grad_norm": 2.921875,
      "kd_loss": 0.11376953125,
      "learning_rate": 2.8975141899291777e-06,
      "loss": 0.1552,
      "step": 650,
      "student_loss": 0.001696955063380301,
      "teacher_loss": 0.0012513434048742056
    },
    {
      "epoch": 0.18886966551326412,
      "grad_norm": 3.234375,
      "kd_loss": 0.08544921875,
      "learning_rate": 2.8243305011863843e-06,
      "loss": 0.1481,
      "step": 655,
      "student_loss": 0.027264071628451347,
      "teacher_loss": 0.0005043753772042692
    },
    {
      "epoch": 0.1903114186851211,
      "grad_norm": 3.84375,
      "kd_loss": 0.0966796875,
      "learning_rate": 2.751717344062552e-06,
      "loss": 0.1658,
      "step": 660,
      "student_loss": 0.006026037037372589,
      "teacher_loss": 0.0037035837303847075
    },
    {
      "epoch": 0.19175317185697807,
      "grad_norm": 3.96875,
      "kd_loss": 0.11181640625,
      "learning_rate": 2.6796937600996587e-06,
      "loss": 0.1585,
      "step": 665,
      "student_loss": 0.0023006678093224764,
      "teacher_loss": 0.0006673650932498276
    },
    {
      "epoch": 0.19319492502883506,
      "grad_norm": 4.125,
      "kd_loss": 0.08837890625,
      "learning_rate": 2.6082786362343377e-06,
      "loss": 0.1818,
      "step": 670,
      "student_loss": 0.0015634546289220452,
      "teacher_loss": 0.0005979883135296404
    },
    {
      "epoch": 0.19463667820069205,
      "grad_norm": 3.59375,
      "kd_loss": 0.09814453125,
      "learning_rate": 2.5374906998451094e-06,
      "loss": 0.1598,
      "step": 675,
      "student_loss": 0.0016033351421356201,
      "teacher_loss": 0.001516613527201116
    },
    {
      "epoch": 0.19607843137254902,
      "grad_norm": 3.625,
      "kd_loss": 0.162109375,
      "learning_rate": 2.467348513841447e-06,
      "loss": 0.1566,
      "step": 680,
      "student_loss": 0.15181653201580048,
      "teacher_loss": 0.04114415496587753
    },
    {
      "epoch": 0.197520184544406,
      "grad_norm": 2.703125,
      "kd_loss": 0.15625,
      "learning_rate": 2.3978704717959777e-06,
      "loss": 0.154,
      "step": 685,
      "student_loss": 0.0007377453148365021,
      "teacher_loss": 0.0339120589196682
    },
    {
      "epoch": 0.19896193771626297,
      "grad_norm": 3.15625,
      "kd_loss": 0.09521484375,
      "learning_rate": 2.329074793121085e-06,
      "loss": 0.1582,
      "step": 690,
      "student_loss": 0.0044479165226221085,
      "teacher_loss": 0.012265580706298351
    },
    {
      "epoch": 0.20040369088811996,
      "grad_norm": 3.234375,
      "kd_loss": 0.10693359375,
      "learning_rate": 2.260979518291186e-06,
      "loss": 0.1724,
      "step": 695,
      "student_loss": 0.015444566495716572,
      "teacher_loss": 0.010763188824057579
    },
    {
      "epoch": 0.20184544405997693,
      "grad_norm": 3.75,
      "kd_loss": 0.091796875,
      "learning_rate": 2.1936025041119268e-06,
      "loss": 0.1753,
      "step": 700,
      "student_loss": 0.0019369354704394937,
      "teacher_loss": 0.0009062191820703447
    },
    {
      "epoch": 0.20328719723183392,
      "grad_norm": 3.296875,
      "kd_loss": 0.1044921875,
      "learning_rate": 2.1269614190375477e-06,
      "loss": 0.1584,
      "step": 705,
      "student_loss": 0.001297777402214706,
      "teacher_loss": 0.0018579652532935143
    },
    {
      "epoch": 0.20472895040369088,
      "grad_norm": 3.75,
      "kd_loss": 0.10400390625,
      "learning_rate": 2.061073738537635e-06,
      "loss": 0.1901,
      "step": 710,
      "student_loss": 0.08087821304798126,
      "teacher_loss": 0.004622929729521275
    },
    {
      "epoch": 0.20617070357554787,
      "grad_norm": 4.1875,
      "kd_loss": 0.08935546875,
      "learning_rate": 1.9959567405144825e-06,
      "loss": 0.1863,
      "step": 715,
      "student_loss": 0.009472950361669064,
      "teacher_loss": 0.007570087444037199
    },
    {
      "epoch": 0.20761245674740483,
      "grad_norm": 4.34375,
      "kd_loss": 0.11767578125,
      "learning_rate": 1.931627500772263e-06,
      "loss": 0.1746,
      "step": 720,
      "student_loss": 0.001279592514038086,
      "teacher_loss": 0.004464911296963692
    },
    {
      "epoch": 0.20905420991926182,
      "grad_norm": 2.25,
      "kd_loss": 0.10888671875,
      "learning_rate": 1.8681028885391905e-06,
      "loss": 0.1528,
      "step": 725,
      "student_loss": 0.0024647831451147795,
      "teacher_loss": 0.0011802453082054853
    },
    {
      "epoch": 0.2104959630911188,
      "grad_norm": 2.671875,
      "kd_loss": 0.0986328125,
      "learning_rate": 1.8053995620438625e-06,
      "loss": 0.152,
      "step": 730,
      "student_loss": 0.04315745085477829,
      "teacher_loss": 0.00156076205894351
    },
    {
      "epoch": 0.21193771626297578,
      "grad_norm": 4.78125,
      "kd_loss": 0.10498046875,
      "learning_rate": 1.743533964146924e-06,
      "loss": 0.1704,
      "step": 735,
      "student_loss": 0.0016925001982599497,
      "teacher_loss": 0.0004609136376529932
    },
    {
      "epoch": 0.21337946943483277,
      "grad_norm": 3.9375,
      "kd_loss": 0.1142578125,
      "learning_rate": 1.6825223180292138e-06,
      "loss": 0.1432,
      "step": 740,
      "student_loss": 0.012965809553861618,
      "teacher_loss": 0.0004022814682684839
    },
    {
      "epoch": 0.21482122260668973,
      "grad_norm": 5.1875,
      "kd_loss": 0.12890625,
      "learning_rate": 1.6223806229375182e-06,
      "loss": 0.1491,
      "step": 745,
      "student_loss": 0.1358025223016739,
      "teacher_loss": 0.02106391452252865
    },
    {
      "epoch": 0.21626297577854672,
      "grad_norm": 4.4375,
      "kd_loss": 0.11328125,
      "learning_rate": 1.563124649989043e-06,
      "loss": 0.1605,
      "step": 750,
      "student_loss": 0.10271821916103363,
      "teacher_loss": 0.004584586247801781
    },
    {
      "epoch": 0.2177047289504037,
      "grad_norm": 4.28125,
      "kd_loss": 0.091796875,
      "learning_rate": 1.5047699380357134e-06,
      "loss": 0.1681,
      "step": 755,
      "student_loss": 0.1378186047077179,
      "teacher_loss": 0.006503281649202108
    },
    {
      "epoch": 0.21914648212226068,
      "grad_norm": 9.5,
      "kd_loss": 0.0908203125,
      "learning_rate": 1.4473317895893773e-06,
      "loss": 0.16,
      "step": 760,
      "student_loss": 0.4880536198616028,
      "teacher_loss": 0.00078756851144135
    },
    {
      "epoch": 0.22058823529411764,
      "grad_norm": 6.96875,
      "kd_loss": 0.11328125,
      "learning_rate": 1.39082526680899e-06,
      "loss": 0.1728,
      "step": 765,
      "student_loss": 0.07314120978116989,
      "teacher_loss": 0.0007181121036410332
    },
    {
      "epoch": 0.22202998846597463,
      "grad_norm": 2.65625,
      "kd_loss": 0.09912109375,
      "learning_rate": 1.3352651875508204e-06,
      "loss": 0.1513,
      "step": 770,
      "student_loss": 0.004254591651260853,
      "teacher_loss": 0.0007984668482095003
    },
    {
      "epoch": 0.2234717416378316,
      "grad_norm": 3.640625,
      "kd_loss": 0.1044921875,
      "learning_rate": 1.2806661214827286e-06,
      "loss": 0.1587,
      "step": 775,
      "student_loss": 0.002741985023021698,
      "teacher_loss": 0.0007013682625256479
    },
    {
      "epoch": 0.22491349480968859,
      "grad_norm": 4.53125,
      "kd_loss": 0.09765625,
      "learning_rate": 1.2270423862635188e-06,
      "loss": 0.1708,
      "step": 780,
      "student_loss": 0.0015033041127026081,
      "teacher_loss": 0.0006990543915890157
    },
    {
      "epoch": 0.22635524798154555,
      "grad_norm": 3.90625,
      "kd_loss": 0.09423828125,
      "learning_rate": 1.1744080437883859e-06,
      "loss": 0.1409,
      "step": 785,
      "student_loss": 0.001736114383675158,
      "teacher_loss": 0.001990710385143757
    },
    {
      "epoch": 0.22779700115340254,
      "grad_norm": 9.25,
      "kd_loss": 0.11083984375,
      "learning_rate": 1.1227768965014246e-06,
      "loss": 0.1804,
      "step": 790,
      "student_loss": 0.03133748471736908,
      "teacher_loss": 0.008059236221015453
    },
    {
      "epoch": 0.2292387543252595,
      "grad_norm": 3.84375,
      "kd_loss": 0.11474609375,
      "learning_rate": 1.0721624837761768e-06,
      "loss": 0.1703,
      "step": 795,
      "student_loss": 0.005942783784121275,
      "teacher_loss": 0.0006947139045223594
    },
    {
      "epoch": 0.2306805074971165,
      "grad_norm": 3.921875,
      "kd_loss": 0.166015625,
      "learning_rate": 1.0225780783651689e-06,
      "loss": 0.1879,
      "step": 800,
      "student_loss": 0.05473716929554939,
      "teacher_loss": 0.03766282647848129
    },
    {
      "epoch": 0.23212226066897348,
      "grad_norm": 4.34375,
      "kd_loss": 0.08642578125,
      "learning_rate": 9.740366829193587e-07,
      "loss": 0.1824,
      "step": 805,
      "student_loss": 0.001553440117277205,
      "teacher_loss": 0.0012171101989224553
    },
    {
      "epoch": 0.23356401384083045,
      "grad_norm": 7.34375,
      "kd_loss": 0.09423828125,
      "learning_rate": 9.265510265784189e-07,
      "loss": 0.1771,
      "step": 810,
      "student_loss": 0.0017513898201286793,
      "teacher_loss": 0.0006000488647259772
    },
    {
      "epoch": 0.23500576701268744,
      "grad_norm": 5.46875,
      "kd_loss": 0.09912109375,
      "learning_rate": 8.801335616327378e-07,
      "loss": 0.1664,
      "step": 815,
      "student_loss": 0.007318615913391113,
      "teacher_loss": 0.010634765028953552
    },
    {
      "epoch": 0.2364475201845444,
      "grad_norm": 3.90625,
      "kd_loss": 0.11474609375,
      "learning_rate": 8.347964602580245e-07,
      "loss": 0.1615,
      "step": 820,
      "student_loss": 0.04161018878221512,
      "teacher_loss": 0.001969601958990097
    },
    {
      "epoch": 0.2378892733564014,
      "grad_norm": 4.65625,
      "kd_loss": 0.1142578125,
      "learning_rate": 7.905516113233652e-07,
      "loss": 0.1532,
      "step": 825,
      "student_loss": 0.000943031394854188,
      "teacher_loss": 0.020420216023921967
    },
    {
      "epoch": 0.23933102652825836,
      "grad_norm": 2.875,
      "kd_loss": 0.09521484375,
      "learning_rate": 7.474106172735746e-07,
      "loss": 0.1601,
      "step": 830,
      "student_loss": 0.018866391852498055,
      "teacher_loss": 0.0037704347632825375
    },
    {
      "epoch": 0.24077277970011535,
      "grad_norm": 5.09375,
      "kd_loss": 0.0888671875,
      "learning_rate": 7.053847910866513e-07,
      "loss": 0.1552,
      "step": 835,
      "student_loss": 0.12261331081390381,
      "teacher_loss": 0.005213484168052673
    },
    {
      "epoch": 0.2422145328719723,
      "grad_norm": 2.84375,
      "kd_loss": 0.11767578125,
      "learning_rate": 6.644851533071556e-07,
      "loss": 0.1478,
      "step": 840,
      "student_loss": 0.0071019199676811695,
      "teacher_loss": 0.0005135077517479658
    },
    {
      "epoch": 0.2436562860438293,
      "grad_norm": 4.6875,
      "kd_loss": 0.1337890625,
      "learning_rate": 6.24722429156251e-07,
      "loss": 0.228,
      "step": 845,
      "student_loss": 0.0022525617387145758,
      "teacher_loss": 0.0012849880149587989
    },
    {
      "epoch": 0.24509803921568626,
      "grad_norm": 6.5625,
      "kd_loss": 0.0966796875,
      "learning_rate": 5.861070457192081e-07,
      "loss": 0.1695,
      "step": 850,
      "student_loss": 0.06699959933757782,
      "teacher_loss": 0.0007787467329762876
    },
    {
      "epoch": 0.24653979238754326,
      "grad_norm": 2.46875,
      "kd_loss": 0.10546875,
      "learning_rate": 5.486491292110796e-07,
      "loss": 0.1498,
      "step": 855,
      "student_loss": 0.0011905976571142673,
      "teacher_loss": 0.0006796009838581085
    },
    {
      "epoch": 0.24798154555940022,
      "grad_norm": 3.40625,
      "kd_loss": 0.10107421875,
      "learning_rate": 5.123585023212785e-07,
      "loss": 0.1846,
      "step": 860,
      "student_loss": 0.005176758859306574,
      "teacher_loss": 0.0015740481903776526
    },
    {
      "epoch": 0.2494232987312572,
      "grad_norm": 3.46875,
      "kd_loss": 0.095703125,
      "learning_rate": 4.772446816377408e-07,
      "loss": 0.1519,
      "step": 865,
      "student_loss": 0.0017797622131183743,
      "teacher_loss": 0.001129323965869844
    },
    {
      "epoch": 0.2508650519031142,
      "grad_norm": 2.515625,
      "kd_loss": 0.09326171875,
      "learning_rate": 4.4331687515137614e-07,
      "loss": 0.1724,
      "step": 870,
      "student_loss": 0.0048367022536695,
      "teacher_loss": 0.0008864006958901882
    },
    {
      "epoch": 0.25230680507497116,
      "grad_norm": 2.390625,
      "kd_loss": 0.09619140625,
      "learning_rate": 4.1058397984142405e-07,
      "loss": 0.1396,
      "step": 875,
      "student_loss": 0.0008503241115249693,
      "teacher_loss": 0.0008235117420554161
    },
    {
      "epoch": 0.2537485582468281,
      "grad_norm": 3.0625,
      "kd_loss": 0.09423828125,
      "learning_rate": 3.790545793423761e-07,
      "loss": 0.1662,
      "step": 880,
      "student_loss": 0.0019780993461608887,
      "teacher_loss": 0.0007267682813107967
    },
    {
      "epoch": 0.25519031141868515,
      "grad_norm": 3.25,
      "kd_loss": 0.1025390625,
      "learning_rate": 3.4873694169306915e-07,
      "loss": 0.1567,
      "step": 885,
      "student_loss": 0.020344872027635574,
      "teacher_loss": 0.056762393563985825
    },
    {
      "epoch": 0.2566320645905421,
      "grad_norm": 2.796875,
      "kd_loss": 0.09326171875,
      "learning_rate": 3.196390171685343e-07,
      "loss": 0.1636,
      "step": 890,
      "student_loss": 0.001583437086082995,
      "teacher_loss": 0.00122374901548028
    },
    {
      "epoch": 0.25807381776239907,
      "grad_norm": 4.09375,
      "kd_loss": 0.11083984375,
      "learning_rate": 2.917684361951728e-07,
      "loss": 0.1583,
      "step": 895,
      "student_loss": 0.11338726431131363,
      "teacher_loss": 0.006426448002457619
    },
    {
      "epoch": 0.25951557093425603,
      "grad_norm": 3.34375,
      "kd_loss": 0.1201171875,
      "learning_rate": 2.65132507349814e-07,
      "loss": 0.1934,
      "step": 900,
      "student_loss": 0.0020212531089782715,
      "teacher_loss": 0.03192909434437752
    },
    {
      "epoch": 0.26095732410611305,
      "grad_norm": 3.3125,
      "kd_loss": 0.09716796875,
      "learning_rate": 2.397382154431621e-07,
      "loss": 0.1627,
      "step": 905,
      "student_loss": 0.0032915188930928707,
      "teacher_loss": 0.0014988789334893227
    },
    {
      "epoch": 0.26239907727797,
      "grad_norm": 4.0,
      "kd_loss": 0.0986328125,
      "learning_rate": 2.1559221968815547e-07,
      "loss": 0.182,
      "step": 910,
      "student_loss": 0.001489490270614624,
      "teacher_loss": 0.0012580000329762697
    },
    {
      "epoch": 0.263840830449827,
      "grad_norm": 3.390625,
      "kd_loss": 0.09716796875,
      "learning_rate": 1.9270085195370048e-07,
      "loss": 0.143,
      "step": 915,
      "student_loss": 0.04323554039001465,
      "teacher_loss": 0.001784435473382473
    },
    {
      "epoch": 0.26528258362168394,
      "grad_norm": 2.546875,
      "kd_loss": 0.1318359375,
      "learning_rate": 1.7107011510424766e-07,
      "loss": 0.1721,
      "step": 920,
      "student_loss": 0.01360052265226841,
      "teacher_loss": 0.018217744305729866
    },
    {
      "epoch": 0.26672433679354096,
      "grad_norm": 3.71875,
      "kd_loss": 0.087890625,
      "learning_rate": 1.5070568142564912e-07,
      "loss": 0.1489,
      "step": 925,
      "student_loss": 0.0011945515871047974,
      "teacher_loss": 0.0009807685855776072
    },
    {
      "epoch": 0.2681660899653979,
      "grad_norm": 3.40625,
      "kd_loss": 0.1142578125,
      "learning_rate": 1.3161289113769405e-07,
      "loss": 0.1539,
      "step": 930,
      "student_loss": 0.055781442672014236,
      "teacher_loss": 0.0011405627010390162
    },
    {
      "epoch": 0.2696078431372549,
      "grad_norm": 2.84375,
      "kd_loss": 0.10009765625,
      "learning_rate": 1.1379675099373489e-07,
      "loss": 0.1501,
      "step": 935,
      "student_loss": 0.005637112073600292,
      "teacher_loss": 0.002441459335386753
    },
    {
      "epoch": 0.2710495963091119,
      "grad_norm": 5.625,
      "kd_loss": 0.18359375,
      "learning_rate": 9.726193296774767e-08,
      "loss": 0.1684,
      "step": 940,
      "student_loss": 0.011978531256318092,
      "teacher_loss": 0.009902331046760082
    },
    {
      "epoch": 0.27249134948096887,
      "grad_norm": 5.375,
      "kd_loss": 0.0966796875,
      "learning_rate": 8.201277302919086e-08,
      "loss": 0.1661,
      "step": 945,
      "student_loss": 0.12388397753238678,
      "teacher_loss": 0.0019162542885169387
    },
    {
      "epoch": 0.27393310265282583,
      "grad_norm": 3.046875,
      "kd_loss": 0.12451171875,
      "learning_rate": 6.805327000596995e-08,
      "loss": 0.1539,
      "step": 950,
      "student_loss": 0.004596967715770006,
      "teacher_loss": 0.0005623517790809274
    },
    {
      "epoch": 0.2753748558246828,
      "grad_norm": 4.3125,
      "kd_loss": 0.083984375,
      "learning_rate": 5.538708453581787e-08,
      "loss": 0.1616,
      "step": 955,
      "student_loss": 0.007824474945664406,
      "teacher_loss": 0.0011617924319580197
    },
    {
      "epoch": 0.2768166089965398,
      "grad_norm": 8.0625,
      "kd_loss": 0.0947265625,
      "learning_rate": 4.40175381063529e-08,
      "loss": 0.1586,
      "step": 960,
      "student_loss": 0.0018909722566604614,
      "teacher_loss": 0.00250077061355114
    },
    {
      "epoch": 0.2782583621683968,
      "grad_norm": 4.40625,
      "kd_loss": 0.162109375,
      "learning_rate": 3.394761218407705e-08,
      "loss": 0.1666,
      "step": 965,
      "student_loss": 0.11850693821907043,
      "teacher_loss": 0.008037789724767208
    },
    {
      "epoch": 0.27970011534025374,
      "grad_norm": 3.1875,
      "kd_loss": 0.11083984375,
      "learning_rate": 2.5179947432540376e-08,
      "loss": 0.1665,
      "step": 970,
      "student_loss": 0.0006995275616645813,
      "teacher_loss": 0.0004927213303744793
    },
    {
      "epoch": 0.2811418685121107,
      "grad_norm": 2.9375,
      "kd_loss": 0.087890625,
      "learning_rate": 1.7716843019867646e-08,
      "loss": 0.1614,
      "step": 975,
      "student_loss": 0.11272090673446655,
      "teacher_loss": 0.002362866187468171
    },
    {
      "epoch": 0.2825836216839677,
      "grad_norm": 4.6875,
      "kd_loss": 0.0927734375,
      "learning_rate": 1.156025601584676e-08,
      "loss": 0.1578,
      "step": 980,
      "student_loss": 0.002314644167199731,
      "teacher_loss": 0.0005237645236775279
    },
    {
      "epoch": 0.2840253748558247,
      "grad_norm": 5.28125,
      "kd_loss": 0.09814453125,
      "learning_rate": 6.711800878718144e-09,
      "loss": 0.1708,
      "step": 985,
      "student_loss": 0.0012468647910282016,
      "teacher_loss": 0.0008435134077444673
    },
    {
      "epoch": 0.28546712802768165,
      "grad_norm": 9.3125,
      "kd_loss": 0.09130859375,
      "learning_rate": 3.1727490318111953e-09,
      "loss": 0.1632,
      "step": 990,
      "student_loss": 0.002036402700468898,
      "teacher_loss": 0.0007938549388200045
    },
    {
      "epoch": 0.2869088811995386,
      "grad_norm": 4.5,
      "kd_loss": 0.10986328125,
      "learning_rate": 9.440285301370865e-10,
      "loss": 0.183,
      "step": 995,
      "student_loss": 0.0015997332520782948,
      "teacher_loss": 0.00439803209155798
    },
    {
      "epoch": 0.28835063437139563,
      "grad_norm": 2.375,
      "kd_loss": 0.09423828125,
      "learning_rate": 2.622381702066523e-11,
      "loss": 0.1477,
      "step": 1000,
      "student_loss": 0.07939934730529785,
      "teacher_loss": 0.0005344336968846619
    },
    {
      "epoch": 0.28835063437139563,
      "kd_loss": 0.09423828125,
      "step": 1000,
      "student_loss": 0.07939934730529785,
      "teacher_loss": 0.0005344336968846619,
      "total_flos": 0.0,
      "train_loss": 0.22623604363203048,
      "train_runtime": 7596.2458,
      "train_samples_per_second": 2.106,
      "train_steps_per_second": 0.132
    },
    {
      "epoch": 0.2897923875432526,
      "grad_norm": 3.265625,
      "kd_loss": 0.1083984375,
      "learning_rate": 7.75705864825114e-06,
      "loss": 0.1639,
      "step": 1005,
      "student_loss": 0.021362992003560066,
      "teacher_loss": 0.07951661199331284
    },
    {
      "epoch": 0.29123414071510956,
      "grad_norm": 7.375,
      "kd_loss": 0.09326171875,
      "learning_rate": 7.734502946076656e-06,
      "loss": 0.1608,
      "step": 1010,
      "student_loss": 0.0017111932393163443,
      "teacher_loss": 0.004124164581298828
    },
    {
      "epoch": 0.2926758938869666,
      "grad_norm": 5.3125,
      "kd_loss": 0.146484375,
      "learning_rate": 7.711867567242769e-06,
      "loss": 0.1511,
      "step": 1015,
      "student_loss": 0.0037448785733431578,
      "teacher_loss": 0.01143695879727602
    },
    {
      "epoch": 0.29411764705882354,
      "grad_norm": 3.046875,
      "kd_loss": 0.1767578125,
      "learning_rate": 7.689153171288487e-06,
      "loss": 0.1481,
      "step": 1020,
      "student_loss": 0.018935445696115494,
      "teacher_loss": 0.03223176300525665
    },
    {
      "epoch": 0.2955594002306805,
      "grad_norm": 5.03125,
      "kd_loss": 0.10107421875,
      "learning_rate": 7.666360420055188e-06,
      "loss": 0.1648,
      "step": 1025,
      "student_loss": 0.00270785391330719,
      "teacher_loss": 0.0004231084603816271
    },
    {
      "epoch": 0.29700115340253747,
      "grad_norm": 4.71875,
      "kd_loss": 0.0908203125,
      "learning_rate": 7.643489977667327e-06,
      "loss": 0.1659,
      "step": 1030,
      "student_loss": 0.02544678933918476,
      "teacher_loss": 0.0005848580040037632
    },
    {
      "epoch": 0.2984429065743945,
      "grad_norm": 4.75,
      "kd_loss": 0.0986328125,
      "learning_rate": 7.6205425105130855e-06,
      "loss": 0.1671,
      "step": 1035,
      "student_loss": 0.009377697482705116,
      "teacher_loss": 0.002407669322565198
    },
    {
      "epoch": 0.29988465974625145,
      "grad_norm": 6.0,
      "kd_loss": 0.1005859375,
      "learning_rate": 7.597518687224959e-06,
      "loss": 0.1854,
      "step": 1040,
      "student_loss": 0.09456347674131393,
      "teacher_loss": 0.0008634831756353378
    },
    {
      "epoch": 0.3013264129181084,
      "grad_norm": 5.03125,
      "kd_loss": 0.07958984375,
      "learning_rate": 7.574419178660269e-06,
      "loss": 0.1669,
      "step": 1045,
      "student_loss": 0.0017204463947564363,
      "teacher_loss": 0.0008596886764280498
    },
    {
      "epoch": 0.3027681660899654,
      "grad_norm": 6.21875,
      "kd_loss": 0.095703125,
      "learning_rate": 7.551244657881618e-06,
      "loss": 0.1942,
      "step": 1050,
      "student_loss": 0.16669750213623047,
      "teacher_loss": 0.0011612839298322797
    },
    {
      "epoch": 0.3042099192618224,
      "grad_norm": 2.484375,
      "kd_loss": 0.09375,
      "learning_rate": 7.527995800137287e-06,
      "loss": 0.1475,
      "step": 1055,
      "student_loss": 0.0016981420340016484,
      "teacher_loss": 0.001001509721390903
    },
    {
      "epoch": 0.30565167243367936,
      "grad_norm": 5.21875,
      "kd_loss": 0.09326171875,
      "learning_rate": 7.504673282841544e-06,
      "loss": 0.1647,
      "step": 1060,
      "student_loss": 0.09439224749803543,
      "teacher_loss": 0.0003985276853200048
    },
    {
      "epoch": 0.3070934256055363,
      "grad_norm": 4.875,
      "kd_loss": 0.1044921875,
      "learning_rate": 7.481277785554918e-06,
      "loss": 0.161,
      "step": 1065,
      "student_loss": 0.059324074536561966,
      "teacher_loss": 0.0028861502651125193
    },
    {
      "epoch": 0.30853517877739334,
      "grad_norm": 6.78125,
      "kd_loss": 0.11474609375,
      "learning_rate": 7.457809989964393e-06,
      "loss": 0.1812,
      "step": 1070,
      "student_loss": 0.0447225496172905,
      "teacher_loss": 0.00039993959944695234
    },
    {
      "epoch": 0.3099769319492503,
      "grad_norm": 3.84375,
      "kd_loss": 0.099609375,
      "learning_rate": 7.434270579863549e-06,
      "loss": 0.1539,
      "step": 1075,
      "student_loss": 0.0011834139004349709,
      "teacher_loss": 0.0010074133751913905
    },
    {
      "epoch": 0.31141868512110726,
      "grad_norm": 4.21875,
      "kd_loss": 0.1005859375,
      "learning_rate": 7.4106602411326345e-06,
      "loss": 0.1642,
      "step": 1080,
      "student_loss": 0.003048022510483861,
      "teacher_loss": 0.00988290086388588
    },
    {
      "epoch": 0.3128604382929642,
      "grad_norm": 4.0625,
      "kd_loss": 0.09765625,
      "learning_rate": 7.386979661718585e-06,
      "loss": 0.1702,
      "step": 1085,
      "student_loss": 0.003489202819764614,
      "teacher_loss": 0.0008156410767696798
    },
    {
      "epoch": 0.31430219146482125,
      "grad_norm": 5.65625,
      "kd_loss": 0.0888671875,
      "learning_rate": 7.363229531614973e-06,
      "loss": 0.1515,
      "step": 1090,
      "student_loss": 0.2183372676372528,
      "teacher_loss": 0.004773187451064587
    },
    {
      "epoch": 0.3157439446366782,
      "grad_norm": 4.125,
      "kd_loss": 0.1171875,
      "learning_rate": 7.339410542841906e-06,
      "loss": 0.1799,
      "step": 1095,
      "student_loss": 0.13511748611927032,
      "teacher_loss": 0.00648617185652256
    },
    {
      "epoch": 0.31718569780853517,
      "grad_norm": 5.03125,
      "kd_loss": 0.10498046875,
      "learning_rate": 7.315523389425867e-06,
      "loss": 0.1607,
      "step": 1100,
      "student_loss": 0.0012231277069076896,
      "teacher_loss": 0.0004083520616404712
    },
    {
      "epoch": 0.31862745098039214,
      "grad_norm": 4.0625,
      "kd_loss": 0.0859375,
      "learning_rate": 7.291568767379484e-06,
      "loss": 0.144,
      "step": 1105,
      "student_loss": 0.016774829477071762,
      "teacher_loss": 0.0005346160614863038
    },
    {
      "epoch": 0.32006920415224915,
      "grad_norm": 3.984375,
      "kd_loss": 0.095703125,
      "learning_rate": 7.267547374681259e-06,
      "loss": 0.1602,
      "step": 1110,
      "student_loss": 0.024096982553601265,
      "teacher_loss": 0.0008525612065568566
    },
    {
      "epoch": 0.3215109573241061,
      "grad_norm": 4.59375,
      "kd_loss": 0.10400390625,
      "learning_rate": 7.24345991125522e-06,
      "loss": 0.1532,
      "step": 1115,
      "student_loss": 0.0033125807531177998,
      "teacher_loss": 0.0005502361455000937
    },
    {
      "epoch": 0.3229527104959631,
      "grad_norm": 5.59375,
      "kd_loss": 0.107421875,
      "learning_rate": 7.219307078950536e-06,
      "loss": 0.1625,
      "step": 1120,
      "student_loss": 0.0204778965562582,
      "teacher_loss": 0.004392318893224001
    },
    {
      "epoch": 0.32439446366782004,
      "grad_norm": 10.0625,
      "kd_loss": 0.0986328125,
      "learning_rate": 7.195089581521064e-06,
      "loss": 0.1654,
      "step": 1125,
      "student_loss": 0.19389592111110687,
      "teacher_loss": 0.0214696004986763
    },
    {
      "epoch": 0.32583621683967706,
      "grad_norm": 3.859375,
      "kd_loss": 0.10986328125,
      "learning_rate": 7.170808124604842e-06,
      "loss": 0.1556,
      "step": 1130,
      "student_loss": 0.03847292810678482,
      "teacher_loss": 0.0006047665374353528
    },
    {
      "epoch": 0.327277970011534,
      "grad_norm": 4.96875,
      "kd_loss": 0.091796875,
      "learning_rate": 7.14646341570353e-06,
      "loss": 0.1696,
      "step": 1135,
      "student_loss": 0.06856270879507065,
      "teacher_loss": 0.01667657122015953
    },
    {
      "epoch": 0.328719723183391,
      "grad_norm": 3.90625,
      "kd_loss": 0.1142578125,
      "learning_rate": 7.122056164161795e-06,
      "loss": 0.1778,
      "step": 1140,
      "student_loss": 0.021477092057466507,
      "teacher_loss": 0.012335257604718208
    },
    {
      "epoch": 0.330161476355248,
      "grad_norm": 11.3125,
      "kd_loss": 0.080078125,
      "learning_rate": 7.097587081146636e-06,
      "loss": 0.1589,
      "step": 1145,
      "student_loss": 0.045279014855623245,
      "teacher_loss": 0.0029319608584046364
    },
    {
      "epoch": 0.33160322952710497,
      "grad_norm": 4.125,
      "kd_loss": 0.08203125,
      "learning_rate": 7.073056879626681e-06,
      "loss": 0.204,
      "step": 1150,
      "student_loss": 0.002648564986884594,
      "teacher_loss": 0.0008686608052812517
    },
    {
      "epoch": 0.33304498269896193,
      "grad_norm": 2.640625,
      "kd_loss": 0.09814453125,
      "learning_rate": 7.048466274351389e-06,
      "loss": 0.1497,
      "step": 1155,
      "student_loss": 0.058320529758930206,
      "teacher_loss": 0.00035479728830978274
    },
    {
      "epoch": 0.3344867358708189,
      "grad_norm": 6.4375,
      "kd_loss": 0.09716796875,
      "learning_rate": 7.023815981830236e-06,
      "loss": 0.1904,
      "step": 1160,
      "student_loss": 0.0025387869682163,
      "teacher_loss": 0.028956690803170204
    },
    {
      "epoch": 0.3359284890426759,
      "grad_norm": 3.53125,
      "kd_loss": 0.10302734375,
      "learning_rate": 6.999106720311846e-06,
      "loss": 0.1704,
      "step": 1165,
      "student_loss": 0.08381687104701996,
      "teacher_loss": 0.000761769013479352
    },
    {
      "epoch": 0.3373702422145329,
      "grad_norm": 4.03125,
      "kd_loss": 0.11669921875,
      "learning_rate": 6.974339209763043e-06,
      "loss": 0.1536,
      "step": 1170,
      "student_loss": 0.021977189928293228,
      "teacher_loss": 0.02045821212232113
    },
    {
      "epoch": 0.33881199538638984,
      "grad_norm": 5.125,
      "kd_loss": 0.09033203125,
      "learning_rate": 6.949514171847891e-06,
      "loss": 0.1685,
      "step": 1175,
      "student_loss": 0.004976021591573954,
      "teacher_loss": 0.0024228477850556374
    },
    {
      "epoch": 0.3402537485582468,
      "grad_norm": 4.90625,
      "kd_loss": 0.09423828125,
      "learning_rate": 6.924632329906657e-06,
      "loss": 0.1613,
      "step": 1180,
      "student_loss": 0.008308586664497852,
      "teacher_loss": 0.0010117895435541868
    },
    {
      "epoch": 0.3416955017301038,
      "grad_norm": 2.96875,
      "kd_loss": 0.09423828125,
      "learning_rate": 6.899694408934734e-06,
      "loss": 0.1462,
      "step": 1185,
      "student_loss": 0.0045226323418319225,
      "teacher_loss": 0.000678456446621567
    },
    {
      "epoch": 0.3431372549019608,
      "grad_norm": 2.359375,
      "kd_loss": 0.09912109375,
      "learning_rate": 6.874701135561524e-06,
      "loss": 0.1473,
      "step": 1190,
      "student_loss": 0.0010705965105444193,
      "teacher_loss": 0.0005625460762530565
    },
    {
      "epoch": 0.34457900807381775,
      "grad_norm": 3.90625,
      "kd_loss": 0.0869140625,
      "learning_rate": 6.849653238029261e-06,
      "loss": 0.144,
      "step": 1195,
      "student_loss": 0.03853433579206467,
      "teacher_loss": 0.0004980422672815621
    },
    {
      "epoch": 0.3460207612456747,
      "grad_norm": 2.109375,
      "kd_loss": 0.08984375,
      "learning_rate": 6.824551446171788e-06,
      "loss": 0.2125,
      "step": 1200,
      "student_loss": 0.0008995746029540896,
      "teacher_loss": 0.0007796635036356747
    },
    {
      "epoch": 0.34746251441753173,
      "grad_norm": 4.03125,
      "kd_loss": 0.0888671875,
      "learning_rate": 6.7993964913932975e-06,
      "loss": 0.1821,
      "step": 1205,
      "student_loss": 0.07766856998205185,
      "teacher_loss": 0.0004231579077895731
    },
    {
      "epoch": 0.3489042675893887,
      "grad_norm": 3.3125,
      "kd_loss": 0.091796875,
      "learning_rate": 6.774189106647021e-06,
      "loss": 0.1555,
      "step": 1210,
      "student_loss": 0.002076697302982211,
      "teacher_loss": 0.0008232980617322028
    },
    {
      "epoch": 0.35034602076124566,
      "grad_norm": 5.65625,
      "kd_loss": 0.095703125,
      "learning_rate": 6.748930026413865e-06,
      "loss": 0.1712,
      "step": 1215,
      "student_loss": 0.11520007997751236,
      "teacher_loss": 0.0005120415589772165
    },
    {
      "epoch": 0.3517877739331027,
      "grad_norm": 4.125,
      "kd_loss": 0.11279296875,
      "learning_rate": 6.7236199866810185e-06,
      "loss": 0.164,
      "step": 1220,
      "student_loss": 0.06622859835624695,
      "teacher_loss": 0.010332350619137287
    },
    {
      "epoch": 0.35322952710495964,
      "grad_norm": 4.75,
      "kd_loss": 0.10595703125,
      "learning_rate": 6.698259724920503e-06,
      "loss": 0.1654,
      "step": 1225,
      "student_loss": 0.03172338008880615,
      "teacher_loss": 0.0024025817401707172
    },
    {
      "epoch": 0.3546712802768166,
      "grad_norm": 4.96875,
      "kd_loss": 0.0986328125,
      "learning_rate": 6.672849980067685e-06,
      "loss": 0.1646,
      "step": 1230,
      "student_loss": 0.0014958116225898266,
      "teacher_loss": 0.00136648362968117
    },
    {
      "epoch": 0.35611303344867357,
      "grad_norm": 7.4375,
      "kd_loss": 0.10791015625,
      "learning_rate": 6.647391492499746e-06,
      "loss": 0.1467,
      "step": 1235,
      "student_loss": 0.001844382262788713,
      "teacher_loss": 0.0012089475058019161
    },
    {
      "epoch": 0.3575547866205306,
      "grad_norm": 5.125,
      "kd_loss": 0.09375,
      "learning_rate": 6.621885004014113e-06,
      "loss": 0.1856,
      "step": 1240,
      "student_loss": 0.0013189911842346191,
      "teacher_loss": 0.0011863983236253262
    },
    {
      "epoch": 0.35899653979238755,
      "grad_norm": 3.6875,
      "kd_loss": 0.10986328125,
      "learning_rate": 6.596331257806837e-06,
      "loss": 0.1588,
      "step": 1245,
      "student_loss": 0.0016421154141426086,
      "teacher_loss": 0.001257838448509574
    },
    {
      "epoch": 0.3604382929642445,
      "grad_norm": 5.1875,
      "kd_loss": 0.1083984375,
      "learning_rate": 6.570730998450945e-06,
      "loss": 0.1663,
      "step": 1250,
      "student_loss": 0.19827650487422943,
      "teacher_loss": 0.002391376066952944
    },
    {
      "epoch": 0.3618800461361015,
      "grad_norm": 4.84375,
      "kd_loss": 0.109375,
      "learning_rate": 6.545084971874738e-06,
      "loss": 0.1693,
      "step": 1255,
      "student_loss": 0.033441461622714996,
      "teacher_loss": 0.007763924542814493
    },
    {
      "epoch": 0.3633217993079585,
      "grad_norm": 4.875,
      "kd_loss": 0.10400390625,
      "learning_rate": 6.519393925340067e-06,
      "loss": 0.1687,
      "step": 1260,
      "student_loss": 0.0005883485428057611,
      "teacher_loss": 0.0006072800024412572
    },
    {
      "epoch": 0.36476355247981546,
      "grad_norm": 5.0,
      "kd_loss": 0.1123046875,
      "learning_rate": 6.49365860742055e-06,
      "loss": 0.1807,
      "step": 1265,
      "student_loss": 0.3620021343231201,
      "teacher_loss": 0.0192008875310421
    },
    {
      "epoch": 0.3662053056516724,
      "grad_norm": 2.546875,
      "kd_loss": 0.09033203125,
      "learning_rate": 6.467879767979764e-06,
      "loss": 0.1367,
      "step": 1270,
      "student_loss": 0.0019303744193166494,
      "teacher_loss": 0.0008835737244226038
    },
    {
      "epoch": 0.36764705882352944,
      "grad_norm": 4.84375,
      "kd_loss": 0.09765625,
      "learning_rate": 6.442058158149396e-06,
      "loss": 0.1364,
      "step": 1275,
      "student_loss": 0.017311925068497658,
      "teacher_loss": 0.010822150856256485
    },
    {
      "epoch": 0.3690888119953864,
      "grad_norm": 2.390625,
      "kd_loss": 0.08837890625,
      "learning_rate": 6.4161945303073535e-06,
      "loss": 0.1339,
      "step": 1280,
      "student_loss": 0.0016525188693776727,
      "teacher_loss": 0.00045569639769382775
    },
    {
      "epoch": 0.37053056516724336,
      "grad_norm": 2.59375,
      "kd_loss": 0.09716796875,
      "learning_rate": 6.390289638055851e-06,
      "loss": 0.1514,
      "step": 1285,
      "student_loss": 0.0017534851795062423,
      "teacher_loss": 0.000792986829765141
    },
    {
      "epoch": 0.3719723183391003,
      "grad_norm": 5.15625,
      "kd_loss": 0.08203125,
      "learning_rate": 6.364344236199441e-06,
      "loss": 0.1544,
      "step": 1290,
      "student_loss": 0.4242388606071472,
      "teacher_loss": 0.015242666937410831
    },
    {
      "epoch": 0.37341407151095735,
      "grad_norm": 4.0,
      "kd_loss": 0.08251953125,
      "learning_rate": 6.3383590807230264e-06,
      "loss": 0.1732,
      "step": 1295,
      "student_loss": 0.0017893314361572266,
      "teacher_loss": 0.005244513973593712
    },
    {
      "epoch": 0.3748558246828143,
      "grad_norm": 4.875,
      "kd_loss": 0.09765625,
      "learning_rate": 6.3123349287698345e-06,
      "loss": 0.1343,
      "step": 1300,
      "student_loss": 0.0016616806387901306,
      "teacher_loss": 0.000766773009672761
    },
    {
      "epoch": 0.3762975778546713,
      "grad_norm": 4.34375,
      "kd_loss": 0.0986328125,
      "learning_rate": 6.286272538619351e-06,
      "loss": 0.1656,
      "step": 1305,
      "student_loss": 0.001378720044158399,
      "teacher_loss": 0.2784559726715088
    },
    {
      "epoch": 0.37773933102652824,
      "grad_norm": 4.78125,
      "kd_loss": 0.09326171875,
      "learning_rate": 6.260172669665233e-06,
      "loss": 0.1376,
      "step": 1310,
      "student_loss": 0.0015898743877187371,
      "teacher_loss": 0.001270298846065998
    },
    {
      "epoch": 0.37918108419838525,
      "grad_norm": 6.34375,
      "kd_loss": 0.09716796875,
      "learning_rate": 6.234036082393171e-06,
      "loss": 0.1719,
      "step": 1315,
      "student_loss": 0.2977891266345978,
      "teacher_loss": 0.0018072956008836627
    },
    {
      "epoch": 0.3806228373702422,
      "grad_norm": 4.5,
      "kd_loss": 0.09814453125,
      "learning_rate": 6.207863538358741e-06,
      "loss": 0.166,
      "step": 1320,
      "student_loss": 0.002190067432820797,
      "teacher_loss": 0.0004770367522723973
    },
    {
      "epoch": 0.3820645905420992,
      "grad_norm": 4.625,
      "kd_loss": 0.10546875,
      "learning_rate": 6.181655800165207e-06,
      "loss": 0.1752,
      "step": 1325,
      "student_loss": 0.014989044517278671,
      "teacher_loss": 0.0011476778890937567
    },
    {
      "epoch": 0.38350634371395614,
      "grad_norm": 3.609375,
      "kd_loss": 0.08740234375,
      "learning_rate": 6.155413631441307e-06,
      "loss": 0.1513,
      "step": 1330,
      "student_loss": 0.04820695146918297,
      "teacher_loss": 0.0003813351795542985
    },
    {
      "epoch": 0.38494809688581316,
      "grad_norm": 7.1875,
      "kd_loss": 0.09228515625,
      "learning_rate": 6.129137796818997e-06,
      "loss": 0.149,
      "step": 1335,
      "student_loss": 0.0018507987260818481,
      "teacher_loss": 0.0005417931824922562
    },
    {
      "epoch": 0.3863898500576701,
      "grad_norm": 5.1875,
      "kd_loss": 0.1728515625,
      "learning_rate": 6.102829061911176e-06,
      "loss": 0.1629,
      "step": 1340,
      "student_loss": 0.0006290597375482321,
      "teacher_loss": 0.007059386931359768
    },
    {
      "epoch": 0.3878316032295271,
      "grad_norm": 4.53125,
      "kd_loss": 0.09375,
      "learning_rate": 6.076488193289375e-06,
      "loss": 0.154,
      "step": 1345,
      "student_loss": 0.001199022983200848,
      "teacher_loss": 0.001256449380889535
    },
    {
      "epoch": 0.3892733564013841,
      "grad_norm": 3.796875,
      "kd_loss": 0.09912109375,
      "learning_rate": 6.050115958461423e-06,
      "loss": 0.1423,
      "step": 1350,
      "student_loss": 0.028213880956172943,
      "teacher_loss": 0.0014634531689807773
    },
    {
      "epoch": 0.39071510957324107,
      "grad_norm": 5.1875,
      "kd_loss": 0.09814453125,
      "learning_rate": 6.02371312584908e-06,
      "loss": 0.1606,
      "step": 1355,
      "student_loss": 0.046754222363233566,
      "teacher_loss": 0.0003306324942968786
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 6.75,
      "kd_loss": 0.1025390625,
      "learning_rate": 5.997280464765655e-06,
      "loss": 0.1687,
      "step": 1360,
      "student_loss": 0.01089841965585947,
      "teacher_loss": 0.0005644945777021348
    },
    {
      "epoch": 0.393598615916955,
      "grad_norm": 3.734375,
      "kd_loss": 0.1025390625,
      "learning_rate": 5.970818745393579e-06,
      "loss": 0.1514,
      "step": 1365,
      "student_loss": 0.012727648951113224,
      "teacher_loss": 0.04049056023359299
    },
    {
      "epoch": 0.395040369088812,
      "grad_norm": 4.59375,
      "kd_loss": 0.095703125,
      "learning_rate": 5.9443287387619754e-06,
      "loss": 0.1645,
      "step": 1370,
      "student_loss": 0.3426652252674103,
      "teacher_loss": 0.02165866084396839
    },
    {
      "epoch": 0.396482122260669,
      "grad_norm": 6.65625,
      "kd_loss": 0.0966796875,
      "learning_rate": 5.9178112167241805e-06,
      "loss": 0.1544,
      "step": 1375,
      "student_loss": 0.09628524631261826,
      "teacher_loss": 0.0004050543357152492
    },
    {
      "epoch": 0.39792387543252594,
      "grad_norm": 2.828125,
      "kd_loss": 0.099609375,
      "learning_rate": 5.8912669519352725e-06,
      "loss": 0.1484,
      "step": 1380,
      "student_loss": 0.024134894832968712,
      "teacher_loss": 0.0030764644034206867
    },
    {
      "epoch": 0.3993656286043829,
      "grad_norm": 4.5625,
      "kd_loss": 0.0849609375,
      "learning_rate": 5.864696717829539e-06,
      "loss": 0.1566,
      "step": 1385,
      "student_loss": 0.06617551296949387,
      "teacher_loss": 0.011502874083817005
    },
    {
      "epoch": 0.4008073817762399,
      "grad_norm": 4.6875,
      "kd_loss": 0.09619140625,
      "learning_rate": 5.838101288597951e-06,
      "loss": 0.1487,
      "step": 1390,
      "student_loss": 0.0014513310743495822,
      "teacher_loss": 0.0005679084570147097
    },
    {
      "epoch": 0.4022491349480969,
      "grad_norm": 3.421875,
      "kd_loss": 0.08984375,
      "learning_rate": 5.8114814391656046e-06,
      "loss": 0.1609,
      "step": 1395,
      "student_loss": 0.001117706298828125,
      "teacher_loss": 0.00049404869787395
    },
    {
      "epoch": 0.40369088811995385,
      "grad_norm": 3.375,
      "kd_loss": 0.091796875,
      "learning_rate": 5.78483794516914e-06,
      "loss": 0.1509,
      "step": 1400,
      "student_loss": 0.005229848902672529,
      "teacher_loss": 0.00046830569044686854
    },
    {
      "epoch": 0.40513264129181087,
      "grad_norm": 3.28125,
      "kd_loss": 0.10107421875,
      "learning_rate": 5.75817158293414e-06,
      "loss": 0.1549,
      "step": 1405,
      "student_loss": 0.000877993879839778,
      "teacher_loss": 0.0005521044950000942
    },
    {
      "epoch": 0.40657439446366783,
      "grad_norm": 4.25,
      "kd_loss": 0.0927734375,
      "learning_rate": 5.731483129452514e-06,
      "loss": 0.1684,
      "step": 1410,
      "student_loss": 0.008468794636428356,
      "teacher_loss": 0.0004955396871082485
    },
    {
      "epoch": 0.4080161476355248,
      "grad_norm": 4.78125,
      "kd_loss": 0.10009765625,
      "learning_rate": 5.704773362359854e-06,
      "loss": 0.1529,
      "step": 1415,
      "student_loss": 0.023767048493027687,
      "teacher_loss": 0.014984571374952793
    },
    {
      "epoch": 0.40945790080738176,
      "grad_norm": 4.9375,
      "kd_loss": 0.103515625,
      "learning_rate": 5.678043059912776e-06,
      "loss": 0.1818,
      "step": 1420,
      "student_loss": 0.0011405398836359382,
      "teacher_loss": 0.0018354527419432998
    },
    {
      "epoch": 0.4108996539792388,
      "grad_norm": 3.859375,
      "kd_loss": 0.0849609375,
      "learning_rate": 5.6512930009662524e-06,
      "loss": 0.1643,
      "step": 1425,
      "student_loss": 0.20638686418533325,
      "teacher_loss": 0.0004497423942666501
    },
    {
      "epoch": 0.41234140715109574,
      "grad_norm": 5.15625,
      "kd_loss": 0.111328125,
      "learning_rate": 5.624523964950903e-06,
      "loss": 0.1493,
      "step": 1430,
      "student_loss": 0.003926432225853205,
      "teacher_loss": 0.0005563534796237946
    },
    {
      "epoch": 0.4137831603229527,
      "grad_norm": 2.734375,
      "kd_loss": 0.08935546875,
      "learning_rate": 5.597736731850295e-06,
      "loss": 0.164,
      "step": 1435,
      "student_loss": 0.012115873396396637,
      "teacher_loss": 0.00135420064907521
    },
    {
      "epoch": 0.41522491349480967,
      "grad_norm": 8.375,
      "kd_loss": 0.095703125,
      "learning_rate": 5.570932082178219e-06,
      "loss": 0.1733,
      "step": 1440,
      "student_loss": 0.05656226724386215,
      "teacher_loss": 0.0003561509947758168
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 5.25,
      "kd_loss": 0.1005859375,
      "learning_rate": 5.5441107969559315e-06,
      "loss": 0.1578,
      "step": 1445,
      "student_loss": 0.2771185636520386,
      "teacher_loss": 0.002755317836999893
    },
    {
      "epoch": 0.41810841983852365,
      "grad_norm": 4.1875,
      "kd_loss": 0.138671875,
      "learning_rate": 5.517273657689419e-06,
      "loss": 0.1413,
      "step": 1450,
      "student_loss": 0.004985239822417498,
      "teacher_loss": 0.002304993337020278
    },
    {
      "epoch": 0.4195501730103806,
      "grad_norm": 5.625,
      "kd_loss": 0.10595703125,
      "learning_rate": 5.490421446346608e-06,
      "loss": 0.1495,
      "step": 1455,
      "student_loss": 0.002044258639216423,
      "teacher_loss": 0.0006097870063968003
    },
    {
      "epoch": 0.4209919261822376,
      "grad_norm": 3.890625,
      "kd_loss": 0.1123046875,
      "learning_rate": 5.463554945334589e-06,
      "loss": 0.1499,
      "step": 1460,
      "student_loss": 0.001577138900756836,
      "teacher_loss": 0.00036811313475482166
    },
    {
      "epoch": 0.4224336793540946,
      "grad_norm": 4.46875,
      "kd_loss": 0.126953125,
      "learning_rate": 5.43667493747682e-06,
      "loss": 0.1629,
      "step": 1465,
      "student_loss": 0.0005169888027012348,
      "teacher_loss": 0.015567619353532791
    },
    {
      "epoch": 0.42387543252595156,
      "grad_norm": 5.75,
      "kd_loss": 0.0859375,
      "learning_rate": 5.409782205990317e-06,
      "loss": 0.1757,
      "step": 1470,
      "student_loss": 0.0012229635613039136,
      "teacher_loss": 0.0044844611547887325
    },
    {
      "epoch": 0.4253171856978085,
      "grad_norm": 6.8125,
      "kd_loss": 0.0888671875,
      "learning_rate": 5.3828775344628245e-06,
      "loss": 0.1525,
      "step": 1475,
      "student_loss": 0.0009603102807886899,
      "teacher_loss": 0.0009318754309788346
    },
    {
      "epoch": 0.42675893886966554,
      "grad_norm": 3.734375,
      "kd_loss": 0.0908203125,
      "learning_rate": 5.355961706829997e-06,
      "loss": 0.1638,
      "step": 1480,
      "student_loss": 0.0015584760112687945,
      "teacher_loss": 0.0012691307347267866
    },
    {
      "epoch": 0.4282006920415225,
      "grad_norm": 9.375,
      "kd_loss": 0.10009765625,
      "learning_rate": 5.329035507352548e-06,
      "loss": 0.1616,
      "step": 1485,
      "student_loss": 0.0008603151072748005,
      "teacher_loss": 0.0008554637315683067
    },
    {
      "epoch": 0.42964244521337946,
      "grad_norm": 8.375,
      "kd_loss": 0.09814453125,
      "learning_rate": 5.3020997205933985e-06,
      "loss": 0.1486,
      "step": 1490,
      "student_loss": 0.10303473472595215,
      "teacher_loss": 0.005800185259431601
    },
    {
      "epoch": 0.43108419838523643,
      "grad_norm": 3.4375,
      "kd_loss": 0.09033203125,
      "learning_rate": 5.275155131394825e-06,
      "loss": 0.1504,
      "step": 1495,
      "student_loss": 0.002375382697209716,
      "teacher_loss": 0.001016065594740212
    },
    {
      "epoch": 0.43252595155709345,
      "grad_norm": 4.65625,
      "kd_loss": 0.0927734375,
      "learning_rate": 5.248202524855578e-06,
      "loss": 0.1497,
      "step": 1500,
      "student_loss": 0.046541083604097366,
      "teacher_loss": 0.0038300170563161373
    },
    {
      "epoch": 0.4339677047289504,
      "grad_norm": 2.84375,
      "kd_loss": 0.08642578125,
      "learning_rate": 5.221242686308019e-06,
      "loss": 0.1424,
      "step": 1505,
      "student_loss": 0.04092458263039589,
      "teacher_loss": 0.0005184438778087497
    },
    {
      "epoch": 0.4354094579008074,
      "grad_norm": 5.9375,
      "kd_loss": 0.14453125,
      "learning_rate": 5.194276401295231e-06,
      "loss": 0.1581,
      "step": 1510,
      "student_loss": 0.11372507363557816,
      "teacher_loss": 0.012486970983445644
    },
    {
      "epoch": 0.43685121107266434,
      "grad_norm": 5.6875,
      "kd_loss": 0.103515625,
      "learning_rate": 5.167304455548128e-06,
      "loss": 0.1542,
      "step": 1515,
      "student_loss": 0.0004513502062764019,
      "teacher_loss": 0.0004412997222971171
    },
    {
      "epoch": 0.43829296424452135,
      "grad_norm": 4.46875,
      "kd_loss": 0.09326171875,
      "learning_rate": 5.14032763496257e-06,
      "loss": 0.1503,
      "step": 1520,
      "student_loss": 0.016323139891028404,
      "teacher_loss": 0.0005559992277994752
    },
    {
      "epoch": 0.4397347174163783,
      "grad_norm": 2.875,
      "kd_loss": 0.1171875,
      "learning_rate": 5.11334672557645e-06,
      "loss": 0.1516,
      "step": 1525,
      "student_loss": 0.009535513818264008,
      "teacher_loss": 0.001467025140300393
    },
    {
      "epoch": 0.4411764705882353,
      "grad_norm": 3.203125,
      "kd_loss": 0.146484375,
      "learning_rate": 5.086362513546807e-06,
      "loss": 0.1389,
      "step": 1530,
      "student_loss": 0.1711445301771164,
      "teacher_loss": 0.008548562414944172
    },
    {
      "epoch": 0.4426182237600923,
      "grad_norm": 3.96875,
      "kd_loss": 0.09033203125,
      "learning_rate": 5.059375785126907e-06,
      "loss": 0.1367,
      "step": 1535,
      "student_loss": 0.09691781550645828,
      "teacher_loss": 0.011890435591340065
    },
    {
      "epoch": 0.44405997693194926,
      "grad_norm": 3.15625,
      "kd_loss": 0.1025390625,
      "learning_rate": 5.032387326643331e-06,
      "loss": 0.15,
      "step": 1540,
      "student_loss": 0.11253131926059723,
      "teacher_loss": 0.00038647381006740034
    },
    {
      "epoch": 0.4455017301038062,
      "grad_norm": 4.28125,
      "kd_loss": 0.0986328125,
      "learning_rate": 5.005397924473082e-06,
      "loss": 0.1453,
      "step": 1545,
      "student_loss": 0.0029098070226609707,
      "teacher_loss": 0.007037348113954067
    },
    {
      "epoch": 0.4469434832756632,
      "grad_norm": 4.5625,
      "kd_loss": 0.08935546875,
      "learning_rate": 4.978408365020651e-06,
      "loss": 0.1724,
      "step": 1550,
      "student_loss": 0.09735474735498428,
      "teacher_loss": 0.0007218251703307033
    },
    {
      "epoch": 0.4483852364475202,
      "grad_norm": 5.40625,
      "kd_loss": 0.10888671875,
      "learning_rate": 4.951419434695115e-06,
      "loss": 0.1426,
      "step": 1555,
      "student_loss": 0.024885384365916252,
      "teacher_loss": 0.0010013995924964547
    },
    {
      "epoch": 0.44982698961937717,
      "grad_norm": 4.34375,
      "kd_loss": 0.0927734375,
      "learning_rate": 4.924431919887216e-06,
      "loss": 0.1592,
      "step": 1560,
      "student_loss": 0.0011940286494791508,
      "teacher_loss": 0.0006662014056928456
    },
    {
      "epoch": 0.45126874279123413,
      "grad_norm": 4.78125,
      "kd_loss": 0.095703125,
      "learning_rate": 4.897446606946459e-06,
      "loss": 0.1363,
      "step": 1565,
      "student_loss": 0.008483109064400196,
      "teacher_loss": 0.0011815401958301663
    },
    {
      "epoch": 0.4527104959630911,
      "grad_norm": 6.09375,
      "kd_loss": 0.1337890625,
      "learning_rate": 4.870464282158184e-06,
      "loss": 0.1435,
      "step": 1570,
      "student_loss": 0.0016101751243695617,
      "teacher_loss": 0.03063173033297062
    },
    {
      "epoch": 0.4541522491349481,
      "grad_norm": 4.75,
      "kd_loss": 0.1337890625,
      "learning_rate": 4.84348573172067e-06,
      "loss": 0.1472,
      "step": 1575,
      "student_loss": 0.000616877747233957,
      "teacher_loss": 0.02498156577348709
    },
    {
      "epoch": 0.4555940023068051,
      "grad_norm": 6.65625,
      "kd_loss": 0.0791015625,
      "learning_rate": 4.816511741722215e-06,
      "loss": 0.1727,
      "step": 1580,
      "student_loss": 0.09299268573522568,
      "teacher_loss": 0.000702059711329639
    },
    {
      "epoch": 0.45703575547866204,
      "grad_norm": 5.3125,
      "kd_loss": 0.09423828125,
      "learning_rate": 4.7895430981182415e-06,
      "loss": 0.1725,
      "step": 1585,
      "student_loss": 0.001776401768438518,
      "teacher_loss": 0.0011725560761988163
    },
    {
      "epoch": 0.458477508650519,
      "grad_norm": 5.375,
      "kd_loss": 0.0966796875,
      "learning_rate": 4.762580586708389e-06,
      "loss": 0.1547,
      "step": 1590,
      "student_loss": 0.0018952718237414956,
      "teacher_loss": 0.0010945210233330727
    },
    {
      "epoch": 0.459919261822376,
      "grad_norm": 4.4375,
      "kd_loss": 0.09619140625,
      "learning_rate": 4.73562499311362e-06,
      "loss": 0.1534,
      "step": 1595,
      "student_loss": 0.0008283228962682188,
      "teacher_loss": 0.0009313338669016957
    },
    {
      "epoch": 0.461361014994233,
      "grad_norm": 3.984375,
      "kd_loss": 0.08984375,
      "learning_rate": 4.708677102753331e-06,
      "loss": 0.1371,
      "step": 1600,
      "student_loss": 0.04035179316997528,
      "teacher_loss": 0.002971302019432187
    },
    {
      "epoch": 0.46280276816608995,
      "grad_norm": 5.4375,
      "kd_loss": 0.10888671875,
      "learning_rate": 4.681737700822464e-06,
      "loss": 0.1731,
      "step": 1605,
      "student_loss": 0.0004709873755928129,
      "teacher_loss": 0.025587571784853935
    },
    {
      "epoch": 0.46424452133794697,
      "grad_norm": 3.015625,
      "kd_loss": 0.142578125,
      "learning_rate": 4.654807572268628e-06,
      "loss": 0.1602,
      "step": 1610,
      "student_loss": 0.002385765314102173,
      "teacher_loss": 0.0010947687551379204
    },
    {
      "epoch": 0.46568627450980393,
      "grad_norm": 4.65625,
      "kd_loss": 0.10009765625,
      "learning_rate": 4.627887501769231e-06,
      "loss": 0.1628,
      "step": 1615,
      "student_loss": 0.004139338154345751,
      "teacher_loss": 0.009530629962682724
    },
    {
      "epoch": 0.4671280276816609,
      "grad_norm": 3.9375,
      "kd_loss": 0.119140625,
      "learning_rate": 4.600978273708612e-06,
      "loss": 0.153,
      "step": 1620,
      "student_loss": 0.003188611473888159,
      "teacher_loss": 0.001373080536723137
    },
    {
      "epoch": 0.46856978085351786,
      "grad_norm": 4.28125,
      "kd_loss": 0.1025390625,
      "learning_rate": 4.574080672155189e-06,
      "loss": 0.1591,
      "step": 1625,
      "student_loss": 0.0014868304133415222,
      "teacher_loss": 0.000639898469671607
    },
    {
      "epoch": 0.4700115340253749,
      "grad_norm": 3.21875,
      "kd_loss": 0.0810546875,
      "learning_rate": 4.547195480838612e-06,
      "loss": 0.1515,
      "step": 1630,
      "student_loss": 0.040516145527362823,
      "teacher_loss": 0.0004312426899559796
    },
    {
      "epoch": 0.47145328719723184,
      "grad_norm": 4.84375,
      "kd_loss": 0.087890625,
      "learning_rate": 4.520323483126928e-06,
      "loss": 0.1862,
      "step": 1635,
      "student_loss": 0.12052398920059204,
      "teacher_loss": 0.0003846465260721743
    },
    {
      "epoch": 0.4728950403690888,
      "grad_norm": 4.65625,
      "kd_loss": 0.0908203125,
      "learning_rate": 4.493465462003756e-06,
      "loss": 0.1453,
      "step": 1640,
      "student_loss": 0.0010070661082863808,
      "teacher_loss": 0.0012260322691872716
    },
    {
      "epoch": 0.47433679354094577,
      "grad_norm": 2.875,
      "kd_loss": 0.09375,
      "learning_rate": 4.4666222000454685e-06,
      "loss": 0.1545,
      "step": 1645,
      "student_loss": 0.0013779783621430397,
      "teacher_loss": 0.00042751312139444053
    },
    {
      "epoch": 0.4757785467128028,
      "grad_norm": 7.15625,
      "kd_loss": 0.0869140625,
      "learning_rate": 4.4397944793983946e-06,
      "loss": 0.1599,
      "step": 1650,
      "student_loss": 0.0005161279696039855,
      "teacher_loss": 0.0007879316690377891
    },
    {
      "epoch": 0.47722029988465975,
      "grad_norm": 3.421875,
      "kd_loss": 0.08203125,
      "learning_rate": 4.4129830817560284e-06,
      "loss": 0.1627,
      "step": 1655,
      "student_loss": 0.003220248268917203,
      "teacher_loss": 0.0008016406209208071
    },
    {
      "epoch": 0.4786620530565167,
      "grad_norm": 4.125,
      "kd_loss": 0.1015625,
      "learning_rate": 4.386188788336251e-06,
      "loss": 0.1404,
      "step": 1660,
      "student_loss": 0.08471440523862839,
      "teacher_loss": 0.0003611688152886927
    },
    {
      "epoch": 0.4801038062283737,
      "grad_norm": 4.0,
      "kd_loss": 0.09716796875,
      "learning_rate": 4.359412379858569e-06,
      "loss": 0.1428,
      "step": 1665,
      "student_loss": 0.0006392439245246351,
      "teacher_loss": 0.00034953776048496366
    },
    {
      "epoch": 0.4815455594002307,
      "grad_norm": 6.0,
      "kd_loss": 0.1484375,
      "learning_rate": 4.332654636521365e-06,
      "loss": 0.1493,
      "step": 1670,
      "student_loss": 0.13810043036937714,
      "teacher_loss": 0.005655170418322086
    },
    {
      "epoch": 0.48298731257208766,
      "grad_norm": 2.9375,
      "kd_loss": 0.1015625,
      "learning_rate": 4.3059163379791676e-06,
      "loss": 0.1588,
      "step": 1675,
      "student_loss": 0.0011410564184188843,
      "teacher_loss": 0.0009165616356767714
    },
    {
      "epoch": 0.4844290657439446,
      "grad_norm": 3.96875,
      "kd_loss": 0.103515625,
      "learning_rate": 4.279198263319932e-06,
      "loss": 0.1983,
      "step": 1680,
      "student_loss": 0.042820997536182404,
      "teacher_loss": 0.0006943390471860766
    },
    {
      "epoch": 0.48587081891580164,
      "grad_norm": 4.65625,
      "kd_loss": 0.0927734375,
      "learning_rate": 4.252501191042334e-06,
      "loss": 0.1458,
      "step": 1685,
      "student_loss": 0.001107779797166586,
      "teacher_loss": 0.000587086018640548
    },
    {
      "epoch": 0.4873125720876586,
      "grad_norm": 3.84375,
      "kd_loss": 0.08154296875,
      "learning_rate": 4.2258258990331015e-06,
      "loss": 0.1505,
      "step": 1690,
      "student_loss": 0.0010096587939187884,
      "teacher_loss": 0.0006587179377675056
    },
    {
      "epoch": 0.48875432525951557,
      "grad_norm": 3.296875,
      "kd_loss": 0.09423828125,
      "learning_rate": 4.199173164544331e-06,
      "loss": 0.1301,
      "step": 1695,
      "student_loss": 0.0007151216268539429,
      "teacher_loss": 0.0005271242698654532
    },
    {
      "epoch": 0.49019607843137253,
      "grad_norm": 2.75,
      "kd_loss": 0.111328125,
      "learning_rate": 4.1725437641708535e-06,
      "loss": 0.1292,
      "step": 1700,
      "student_loss": 0.0004782706964761019,
      "teacher_loss": 0.00025354631361551583
    },
    {
      "epoch": 0.49163783160322955,
      "grad_norm": 4.84375,
      "kd_loss": 0.0908203125,
      "learning_rate": 4.145938473827598e-06,
      "loss": 0.1694,
      "step": 1705,
      "student_loss": 0.03137379139661789,
      "teacher_loss": 0.0014872003812342882
    },
    {
      "epoch": 0.4930795847750865,
      "grad_norm": 3.890625,
      "kd_loss": 0.0859375,
      "learning_rate": 4.1193580687269896e-06,
      "loss": 0.1799,
      "step": 1710,
      "student_loss": 0.13360068202018738,
      "teacher_loss": 0.0003576852031983435
    },
    {
      "epoch": 0.4945213379469435,
      "grad_norm": 3.6875,
      "kd_loss": 0.0849609375,
      "learning_rate": 4.092803323356357e-06,
      "loss": 0.1568,
      "step": 1715,
      "student_loss": 0.0007690335623919964,
      "teacher_loss": 0.0004268670454621315
    },
    {
      "epoch": 0.49596309111880044,
      "grad_norm": 4.53125,
      "kd_loss": 0.09423828125,
      "learning_rate": 4.066275011455369e-06,
      "loss": 0.1345,
      "step": 1720,
      "student_loss": 0.0010869682300835848,
      "teacher_loss": 0.0008715330623090267
    },
    {
      "epoch": 0.49740484429065746,
      "grad_norm": 3.78125,
      "kd_loss": 0.10302734375,
      "learning_rate": 4.039773905993486e-06,
      "loss": 0.1661,
      "step": 1725,
      "student_loss": 0.001568131148815155,
      "teacher_loss": 0.0013625255087390542
    },
    {
      "epoch": 0.4988465974625144,
      "grad_norm": 3.234375,
      "kd_loss": 0.103515625,
      "learning_rate": 4.013300779147445e-06,
      "loss": 0.1311,
      "step": 1730,
      "student_loss": 0.003118544816970825,
      "teacher_loss": 0.027190769091248512
    },
    {
      "epoch": 0.5002883506343714,
      "grad_norm": 3.984375,
      "kd_loss": 0.1337890625,
      "learning_rate": 3.98685640227875e-06,
      "loss": 0.1465,
      "step": 1735,
      "student_loss": 0.004482457414269447,
      "teacher_loss": 0.06759393215179443
    },
    {
      "epoch": 0.5017301038062284,
      "grad_norm": 4.84375,
      "kd_loss": 0.1123046875,
      "learning_rate": 3.960441545911205e-06,
      "loss": 0.1692,
      "step": 1740,
      "student_loss": 0.0023235215339809656,
      "teacher_loss": 0.027365142479538918
    },
    {
      "epoch": 0.5031718569780853,
      "grad_norm": 2.78125,
      "kd_loss": 0.11474609375,
      "learning_rate": 3.934056979708456e-06,
      "loss": 0.1393,
      "step": 1745,
      "student_loss": 0.0015286001143977046,
      "teacher_loss": 0.02260914258658886
    },
    {
      "epoch": 0.5046136101499423,
      "grad_norm": 6.3125,
      "kd_loss": 0.10009765625,
      "learning_rate": 3.907703472451574e-06,
      "loss": 0.1627,
      "step": 1750,
      "student_loss": 0.009829165413975716,
      "teacher_loss": 0.0006399175035767257
    },
    {
      "epoch": 0.5060553633217993,
      "grad_norm": 7.96875,
      "kd_loss": 0.099609375,
      "learning_rate": 3.881381792016645e-06,
      "loss": 0.1749,
      "step": 1755,
      "student_loss": 0.0006391415954567492,
      "teacher_loss": 0.0003294479101896286
    },
    {
      "epoch": 0.5074971164936563,
      "grad_norm": 3.53125,
      "kd_loss": 0.1220703125,
      "learning_rate": 3.8550927053523994e-06,
      "loss": 0.1389,
      "step": 1760,
      "student_loss": 0.0007123491377569735,
      "teacher_loss": 0.046919528394937515
    },
    {
      "epoch": 0.5089388696655133,
      "grad_norm": 5.09375,
      "kd_loss": 0.083984375,
      "learning_rate": 3.828836978457868e-06,
      "loss": 0.1522,
      "step": 1765,
      "student_loss": 0.0016679943073540926,
      "teacher_loss": 0.000926964043173939
    },
    {
      "epoch": 0.5103806228373703,
      "grad_norm": 3.671875,
      "kd_loss": 0.1357421875,
      "learning_rate": 3.8026153763600603e-06,
      "loss": 0.1477,
      "step": 1770,
      "student_loss": 0.022712958976626396,
      "teacher_loss": 0.029349761083722115
    },
    {
      "epoch": 0.5118223760092272,
      "grad_norm": 3.625,
      "kd_loss": 0.09228515625,
      "learning_rate": 3.7764286630916704e-06,
      "loss": 0.1425,
      "step": 1775,
      "student_loss": 0.0012370613403618336,
      "teacher_loss": 0.0007929064449854195
    },
    {
      "epoch": 0.5132641291810842,
      "grad_norm": 3.234375,
      "kd_loss": 0.0947265625,
      "learning_rate": 3.7502776016688234e-06,
      "loss": 0.1589,
      "step": 1780,
      "student_loss": 0.008692040108144283,
      "teacher_loss": 0.0190599225461483
    },
    {
      "epoch": 0.5147058823529411,
      "grad_norm": 4.46875,
      "kd_loss": 0.1181640625,
      "learning_rate": 3.724162954068835e-06,
      "loss": 0.1568,
      "step": 1785,
      "student_loss": 0.1760350614786148,
      "teacher_loss": 0.028955036774277687
    },
    {
      "epoch": 0.5161476355247981,
      "grad_norm": 3.28125,
      "kd_loss": 0.083984375,
      "learning_rate": 3.6980854812080097e-06,
      "loss": 0.1497,
      "step": 1790,
      "student_loss": 0.0018669115379452705,
      "teacher_loss": 0.0008881228277459741
    },
    {
      "epoch": 0.5175893886966552,
      "grad_norm": 4.6875,
      "kd_loss": 0.08984375,
      "learning_rate": 3.6720459429194743e-06,
      "loss": 0.1635,
      "step": 1795,
      "student_loss": 0.1518515795469284,
      "teacher_loss": 0.00034799822606146336
    },
    {
      "epoch": 0.5190311418685121,
      "grad_norm": 2.828125,
      "kd_loss": 0.0869140625,
      "learning_rate": 3.646045097931037e-06,
      "loss": 0.1584,
      "step": 1800,
      "student_loss": 0.0007797479629516602,
      "teacher_loss": 0.0005545561434701085
    },
    {
      "epoch": 0.5204728950403691,
      "grad_norm": 5.5,
      "kd_loss": 0.08056640625,
      "learning_rate": 3.620083703843077e-06,
      "loss": 0.1433,
      "step": 1805,
      "student_loss": 0.03987161070108414,
      "teacher_loss": 0.00046788767213001847
    },
    {
      "epoch": 0.5219146482122261,
      "grad_norm": 4.0,
      "kd_loss": 0.095703125,
      "learning_rate": 3.594162517106472e-06,
      "loss": 0.1646,
      "step": 1810,
      "student_loss": 0.0409666933119297,
      "teacher_loss": 0.0038134430069476366
    },
    {
      "epoch": 0.523356401384083,
      "grad_norm": 3.71875,
      "kd_loss": 0.10693359375,
      "learning_rate": 3.5682822930005567e-06,
      "loss": 0.1424,
      "step": 1815,
      "student_loss": 0.30990689992904663,
      "teacher_loss": 0.019313883036375046
    },
    {
      "epoch": 0.52479815455594,
      "grad_norm": 6.0625,
      "kd_loss": 0.1015625,
      "learning_rate": 3.542443785611117e-06,
      "loss": 0.1455,
      "step": 1820,
      "student_loss": 0.05496774613857269,
      "teacher_loss": 0.003318265313282609
    },
    {
      "epoch": 0.526239907727797,
      "grad_norm": 7.9375,
      "kd_loss": 0.103515625,
      "learning_rate": 3.516647747808417e-06,
      "loss": 0.1445,
      "step": 1825,
      "student_loss": 0.0014039704110473394,
      "teacher_loss": 0.004902483429759741
    },
    {
      "epoch": 0.527681660899654,
      "grad_norm": 3.84375,
      "kd_loss": 0.08642578125,
      "learning_rate": 3.4908949312252593e-06,
      "loss": 0.1453,
      "step": 1830,
      "student_loss": 0.001090447069145739,
      "teacher_loss": 0.0005476956139318645
    },
    {
      "epoch": 0.529123414071511,
      "grad_norm": 3.828125,
      "kd_loss": 0.10595703125,
      "learning_rate": 3.4651860862350893e-06,
      "loss": 0.1355,
      "step": 1835,
      "student_loss": 0.00827399455010891,
      "teacher_loss": 0.0005034086061641574
    },
    {
      "epoch": 0.5305651672433679,
      "grad_norm": 3.375,
      "kd_loss": 0.083984375,
      "learning_rate": 3.4395219619301288e-06,
      "loss": 0.1429,
      "step": 1840,
      "student_loss": 0.02982058748602867,
      "teacher_loss": 0.003948381636291742
    },
    {
      "epoch": 0.5320069204152249,
      "grad_norm": 4.0625,
      "kd_loss": 0.10791015625,
      "learning_rate": 3.4139033060995484e-06,
      "loss": 0.1606,
      "step": 1845,
      "student_loss": 0.0009567984379827976,
      "teacher_loss": 0.0006957401055842638
    },
    {
      "epoch": 0.5334486735870819,
      "grad_norm": 3.484375,
      "kd_loss": 0.0859375,
      "learning_rate": 3.388330865207681e-06,
      "loss": 0.1516,
      "step": 1850,
      "student_loss": 0.09060114622116089,
      "teacher_loss": 0.011022915132343769
    },
    {
      "epoch": 0.5348904267589388,
      "grad_norm": 3.8125,
      "kd_loss": 0.09326171875,
      "learning_rate": 3.3628053843722674e-06,
      "loss": 0.1586,
      "step": 1855,
      "student_loss": 0.0023815552704036236,
      "teacher_loss": 0.0009834859520196915
    },
    {
      "epoch": 0.5363321799307958,
      "grad_norm": 2.890625,
      "kd_loss": 0.08642578125,
      "learning_rate": 3.337327607342753e-06,
      "loss": 0.1443,
      "step": 1860,
      "student_loss": 0.0012727677822113037,
      "teacher_loss": 0.0003461229207459837
    },
    {
      "epoch": 0.5377739331026529,
      "grad_norm": 3.796875,
      "kd_loss": 0.09765625,
      "learning_rate": 3.3118982764786055e-06,
      "loss": 0.1753,
      "step": 1865,
      "student_loss": 0.12450817972421646,
      "teacher_loss": 0.00035991144250147045
    },
    {
      "epoch": 0.5392156862745098,
      "grad_norm": 6.3125,
      "kd_loss": 0.099609375,
      "learning_rate": 3.2865181327277007e-06,
      "loss": 0.1487,
      "step": 1870,
      "student_loss": 0.14028604328632355,
      "teacher_loss": 0.0013080085627734661
    },
    {
      "epoch": 0.5406574394463668,
      "grad_norm": 3.25,
      "kd_loss": 0.08984375,
      "learning_rate": 3.2611879156047147e-06,
      "loss": 0.1471,
      "step": 1875,
      "student_loss": 0.0018398945685476065,
      "teacher_loss": 0.0011750732082873583
    },
    {
      "epoch": 0.5420991926182238,
      "grad_norm": 4.53125,
      "kd_loss": 0.11376953125,
      "learning_rate": 3.2359083631695897e-06,
      "loss": 0.1327,
      "step": 1880,
      "student_loss": 0.03754269704222679,
      "teacher_loss": 0.0011901544639840722
    },
    {
      "epoch": 0.5435409457900807,
      "grad_norm": 4.625,
      "kd_loss": 0.10400390625,
      "learning_rate": 3.2106802120060197e-06,
      "loss": 0.1568,
      "step": 1885,
      "student_loss": 0.003520218888297677,
      "teacher_loss": 0.0013501073699444532
    },
    {
      "epoch": 0.5449826989619377,
      "grad_norm": 4.1875,
      "kd_loss": 0.08203125,
      "learning_rate": 3.185504197199999e-06,
      "loss": 0.1376,
      "step": 1890,
      "student_loss": 0.008974825032055378,
      "teacher_loss": 0.00042682504863478243
    },
    {
      "epoch": 0.5464244521337946,
      "grad_norm": 5.1875,
      "kd_loss": 0.0966796875,
      "learning_rate": 3.160381052318393e-06,
      "loss": 0.1649,
      "step": 1895,
      "student_loss": 0.0789928063750267,
      "teacher_loss": 0.0007635668735019863
    },
    {
      "epoch": 0.5478662053056517,
      "grad_norm": 2.859375,
      "kd_loss": 0.0791015625,
      "learning_rate": 3.1353115093875676e-06,
      "loss": 0.1554,
      "step": 1900,
      "student_loss": 0.002470338949933648,
      "teacher_loss": 0.0004501968214754015
    },
    {
      "epoch": 0.5493079584775087,
      "grad_norm": 4.46875,
      "kd_loss": 0.09375,
      "learning_rate": 3.1102962988720615e-06,
      "loss": 0.1432,
      "step": 1905,
      "student_loss": 0.04193798825144768,
      "teacher_loss": 0.0009529749513603747
    },
    {
      "epoch": 0.5507497116493656,
      "grad_norm": 5.25,
      "kd_loss": 0.09716796875,
      "learning_rate": 3.085336149653303e-06,
      "loss": 0.1487,
      "step": 1910,
      "student_loss": 0.000636325916275382,
      "teacher_loss": 0.0005562056903727353
    },
    {
      "epoch": 0.5521914648212226,
      "grad_norm": 3.359375,
      "kd_loss": 0.10107421875,
      "learning_rate": 3.060431789008368e-06,
      "loss": 0.1681,
      "step": 1915,
      "student_loss": 0.0016948822885751724,
      "teacher_loss": 0.0023001739755272865
    },
    {
      "epoch": 0.5536332179930796,
      "grad_norm": 3.578125,
      "kd_loss": 0.08447265625,
      "learning_rate": 3.035583942588791e-06,
      "loss": 0.1655,
      "step": 1920,
      "student_loss": 0.055358272045850754,
      "teacher_loss": 0.00030110430088825524
    },
    {
      "epoch": 0.5550749711649365,
      "grad_norm": 4.125,
      "kd_loss": 0.09814453125,
      "learning_rate": 3.0107933343994233e-06,
      "loss": 0.1582,
      "step": 1925,
      "student_loss": 0.008619318716228008,
      "teacher_loss": 0.0032901125960052013
    },
    {
      "epoch": 0.5565167243367936,
      "grad_norm": 6.75,
      "kd_loss": 0.08349609375,
      "learning_rate": 2.9860606867773323e-06,
      "loss": 0.1394,
      "step": 1930,
      "student_loss": 0.03425801545381546,
      "teacher_loss": 0.00030506699113175273
    },
    {
      "epoch": 0.5579584775086506,
      "grad_norm": 4.3125,
      "kd_loss": 0.0908203125,
      "learning_rate": 2.9613867203707627e-06,
      "loss": 0.1535,
      "step": 1935,
      "student_loss": 0.14860902726650238,
      "teacher_loss": 0.021592382341623306
    },
    {
      "epoch": 0.5594002306805075,
      "grad_norm": 4.96875,
      "kd_loss": 0.10546875,
      "learning_rate": 2.936772154118129e-06,
      "loss": 0.1545,
      "step": 1940,
      "student_loss": 0.007172099314630032,
      "teacher_loss": 0.000852234719786793
    },
    {
      "epoch": 0.5608419838523645,
      "grad_norm": 3.828125,
      "kd_loss": 0.09619140625,
      "learning_rate": 2.912217705227075e-06,
      "loss": 0.1493,
      "step": 1945,
      "student_loss": 0.04466139152646065,
      "teacher_loss": 0.028232689946889877
    },
    {
      "epoch": 0.5622837370242214,
      "grad_norm": 8.1875,
      "kd_loss": 0.08740234375,
      "learning_rate": 2.88772408915357e-06,
      "loss": 0.1749,
      "step": 1950,
      "student_loss": 0.0008998726261779666,
      "teacher_loss": 0.0005217011785134673
    },
    {
      "epoch": 0.5637254901960784,
      "grad_norm": 4.0625,
      "kd_loss": 0.10498046875,
      "learning_rate": 2.863292019581071e-06,
      "loss": 0.1535,
      "step": 1955,
      "student_loss": 0.23264119029045105,
      "teacher_loss": 0.0003505937347654253
    },
    {
      "epoch": 0.5651672433679354,
      "grad_norm": 4.5,
      "kd_loss": 0.11572265625,
      "learning_rate": 2.838922208399712e-06,
      "loss": 0.1646,
      "step": 1960,
      "student_loss": 0.005253693088889122,
      "teacher_loss": 0.0008160973084159195
    },
    {
      "epoch": 0.5666089965397924,
      "grad_norm": 3.359375,
      "kd_loss": 0.08935546875,
      "learning_rate": 2.8146153656855858e-06,
      "loss": 0.1571,
      "step": 1965,
      "student_loss": 0.0008905039285309613,
      "teacher_loss": 0.00038642369327135384
    },
    {
      "epoch": 0.5680507497116494,
      "grad_norm": 6.96875,
      "kd_loss": 0.10107421875,
      "learning_rate": 2.7903721996800248e-06,
      "loss": 0.1488,
      "step": 1970,
      "student_loss": 0.001944546471349895,
      "teacher_loss": 0.0004150049644522369
    },
    {
      "epoch": 0.5694925028835064,
      "grad_norm": 2.453125,
      "kd_loss": 0.09716796875,
      "learning_rate": 2.7661934167689887e-06,
      "loss": 0.1556,
      "step": 1975,
      "student_loss": 0.0032470019068568945,
      "teacher_loss": 0.0009415296372026205
    },
    {
      "epoch": 0.5709342560553633,
      "grad_norm": 2.25,
      "kd_loss": 0.08642578125,
      "learning_rate": 2.742079721462471e-06,
      "loss": 0.1674,
      "step": 1980,
      "student_loss": 0.05945152789354324,
      "teacher_loss": 0.0008091035415418446
    },
    {
      "epoch": 0.5723760092272203,
      "grad_norm": 3.65625,
      "kd_loss": 0.0771484375,
      "learning_rate": 2.7180318163739704e-06,
      "loss": 0.1519,
      "step": 1985,
      "student_loss": 0.0015980260213837028,
      "teacher_loss": 0.0005768106202594936
    },
    {
      "epoch": 0.5738177623990772,
      "grad_norm": 2.65625,
      "kd_loss": 0.115234375,
      "learning_rate": 2.6940504022000248e-06,
      "loss": 0.1546,
      "step": 1990,
      "student_loss": 0.0632084533572197,
      "teacher_loss": 0.015749456360936165
    },
    {
      "epoch": 0.5752595155709342,
      "grad_norm": 5.4375,
      "kd_loss": 0.0869140625,
      "learning_rate": 2.67013617769979e-06,
      "loss": 0.153,
      "step": 1995,
      "student_loss": 0.0011626326013356447,
      "teacher_loss": 0.000745030993130058
    },
    {
      "epoch": 0.5767012687427913,
      "grad_norm": 4.0,
      "kd_loss": 0.09912109375,
      "learning_rate": 2.6462898396746783e-06,
      "loss": 0.1493,
      "step": 2000,
      "student_loss": 0.002248254604637623,
      "teacher_loss": 0.0006202560034580529
    }
  ],
  "logging_steps": 5,
  "max_steps": 3000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}