{
  "best_global_step": 4500,
  "best_metric": 1.2012678384780884,
  "best_model_checkpoint": "./orpheus-turkish-emotion-finetune/checkpoint-4500",
  "epoch": 24.882242990654206,
  "eval_steps": 500,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.24922118380062305,
      "grad_norm": 100.0,
      "learning_rate": 1.218905472636816e-06,
      "loss": 9.7783,
      "step": 50
    },
    {
      "epoch": 0.4984423676012461,
      "grad_norm": 74.5,
      "learning_rate": 2.4626865671641794e-06,
      "loss": 9.5155,
      "step": 100
    },
    {
      "epoch": 0.7476635514018691,
      "grad_norm": 74.0,
      "learning_rate": 3.706467661691542e-06,
      "loss": 9.0351,
      "step": 150
    },
    {
      "epoch": 0.9968847352024922,
      "grad_norm": 80.5,
      "learning_rate": 4.950248756218906e-06,
      "loss": 8.4023,
      "step": 200
    },
    {
      "epoch": 1.2442367601246107,
      "grad_norm": 80.0,
      "learning_rate": 6.194029850746269e-06,
      "loss": 7.3784,
      "step": 250
    },
    {
      "epoch": 1.4934579439252336,
      "grad_norm": 134.0,
      "learning_rate": 7.437810945273633e-06,
      "loss": 5.7507,
      "step": 300
    },
    {
      "epoch": 1.7426791277258566,
      "grad_norm": 65.0,
      "learning_rate": 8.681592039800995e-06,
      "loss": 3.8008,
      "step": 350
    },
    {
      "epoch": 1.9919003115264797,
      "grad_norm": 17.0,
      "learning_rate": 9.925373134328359e-06,
      "loss": 2.103,
      "step": 400
    },
    {
      "epoch": 2.2392523364485983,
      "grad_norm": 1.65625,
      "learning_rate": 9.995836696556696e-06,
      "loss": 1.4184,
      "step": 450
    },
    {
      "epoch": 2.4884735202492214,
      "grad_norm": 0.84765625,
      "learning_rate": 9.982274873915892e-06,
      "loss": 1.2978,
      "step": 500
    },
    {
      "epoch": 2.4884735202492214,
      "eval_loss": 1.3274219036102295,
      "eval_runtime": 15.5223,
      "eval_samples_per_second": 11.532,
      "eval_steps_per_second": 1.482,
      "step": 500
    },
    {
      "epoch": 2.7376947040498445,
      "grad_norm": 0.87109375,
      "learning_rate": 9.95932312693483e-06,
      "loss": 1.2695,
      "step": 550
    },
    {
      "epoch": 2.986915887850467,
      "grad_norm": 1.3984375,
      "learning_rate": 9.927024711991988e-06,
      "loss": 1.2801,
      "step": 600
    },
    {
      "epoch": 3.2342679127725855,
      "grad_norm": 0.91015625,
      "learning_rate": 9.885440500813695e-06,
      "loss": 1.2495,
      "step": 650
    },
    {
      "epoch": 3.4834890965732086,
      "grad_norm": 0.9375,
      "learning_rate": 9.834648865751254e-06,
      "loss": 1.2456,
      "step": 700
    },
    {
      "epoch": 3.7327102803738317,
      "grad_norm": 1.078125,
      "learning_rate": 9.774745532075235e-06,
      "loss": 1.2472,
      "step": 750
    },
    {
      "epoch": 3.9819314641744548,
      "grad_norm": 0.89453125,
      "learning_rate": 9.705843397565304e-06,
      "loss": 1.2243,
      "step": 800
    },
    {
      "epoch": 4.229283489096574,
      "grad_norm": 1.1484375,
      "learning_rate": 9.628072319735607e-06,
      "loss": 1.2273,
      "step": 850
    },
    {
      "epoch": 4.478504672897197,
      "grad_norm": 1.0,
      "learning_rate": 9.541578871096728e-06,
      "loss": 1.2192,
      "step": 900
    },
    {
      "epoch": 4.72772585669782,
      "grad_norm": 0.85546875,
      "learning_rate": 9.446526062915449e-06,
      "loss": 1.2295,
      "step": 950
    },
    {
      "epoch": 4.976947040498443,
      "grad_norm": 1.2265625,
      "learning_rate": 9.343093037992946e-06,
      "loss": 1.2226,
      "step": 1000
    },
    {
      "epoch": 4.976947040498443,
      "eval_loss": 1.2828963994979858,
      "eval_runtime": 15.5322,
      "eval_samples_per_second": 11.524,
      "eval_steps_per_second": 1.481,
      "step": 1000
    },
    {
      "epoch": 5.224299065420561,
      "grad_norm": 0.92578125,
      "learning_rate": 9.231474733040436e-06,
      "loss": 1.2206,
      "step": 1050
    },
    {
      "epoch": 5.473520249221184,
      "grad_norm": 0.9609375,
      "learning_rate": 9.111881511288579e-06,
      "loss": 1.2081,
      "step": 1100
    },
    {
      "epoch": 5.722741433021807,
      "grad_norm": 1.0703125,
      "learning_rate": 8.984538766023024e-06,
      "loss": 1.2224,
      "step": 1150
    },
    {
      "epoch": 5.97196261682243,
      "grad_norm": 1.0625,
      "learning_rate": 8.849686495793349e-06,
      "loss": 1.2105,
      "step": 1200
    },
    {
      "epoch": 6.219314641744548,
      "grad_norm": 1.1015625,
      "learning_rate": 8.707578852095928e-06,
      "loss": 1.2096,
      "step": 1250
    },
    {
      "epoch": 6.468535825545171,
      "grad_norm": 1.3203125,
      "learning_rate": 8.558483660383245e-06,
      "loss": 1.2097,
      "step": 1300
    },
    {
      "epoch": 6.717757009345794,
      "grad_norm": 1.1875,
      "learning_rate": 8.402681915302344e-06,
      "loss": 1.2227,
      "step": 1350
    },
    {
      "epoch": 6.966978193146417,
      "grad_norm": 1.2265625,
      "learning_rate": 8.240467251113762e-06,
      "loss": 1.2102,
      "step": 1400
    },
    {
      "epoch": 7.214330218068536,
      "grad_norm": 1.1015625,
      "learning_rate": 8.072145388289002e-06,
      "loss": 1.185,
      "step": 1450
    },
    {
      "epoch": 7.463551401869159,
      "grad_norm": 1.1953125,
      "learning_rate": 7.898033557329536e-06,
      "loss": 1.2051,
      "step": 1500
    },
    {
      "epoch": 7.463551401869159,
      "eval_loss": 1.2759937047958374,
      "eval_runtime": 15.5082,
      "eval_samples_per_second": 11.542,
      "eval_steps_per_second": 1.483,
      "step": 1500
    },
    {
      "epoch": 7.712772585669782,
      "grad_norm": 0.9921875,
      "learning_rate": 7.718459900893254e-06,
      "loss": 1.2148,
      "step": 1550
    },
    {
      "epoch": 7.961993769470405,
      "grad_norm": 1.46875,
      "learning_rate": 7.533762855355126e-06,
      "loss": 1.2196,
      "step": 1600
    },
    {
      "epoch": 8.209345794392524,
      "grad_norm": 1.6328125,
      "learning_rate": 7.344290512967664e-06,
      "loss": 1.1935,
      "step": 1650
    },
    {
      "epoch": 8.458566978193147,
      "grad_norm": 1.3203125,
      "learning_rate": 7.150399965823252e-06,
      "loss": 1.208,
      "step": 1700
    },
    {
      "epoch": 8.70778816199377,
      "grad_norm": 1.484375,
      "learning_rate": 6.952456632854821e-06,
      "loss": 1.1997,
      "step": 1750
    },
    {
      "epoch": 8.957009345794393,
      "grad_norm": 1.171875,
      "learning_rate": 6.750833571143174e-06,
      "loss": 1.1962,
      "step": 1800
    },
    {
      "epoch": 9.20436137071651,
      "grad_norm": 1.015625,
      "learning_rate": 6.5459107728289784e-06,
      "loss": 1.216,
      "step": 1850
    },
    {
      "epoch": 9.453582554517133,
      "grad_norm": 1.2109375,
      "learning_rate": 6.338074448954472e-06,
      "loss": 1.1888,
      "step": 1900
    },
    {
      "epoch": 9.702803738317757,
      "grad_norm": 1.140625,
      "learning_rate": 6.127716301584618e-06,
      "loss": 1.1998,
      "step": 1950
    },
    {
      "epoch": 9.95202492211838,
      "grad_norm": 1.25,
      "learning_rate": 5.915232785579527e-06,
      "loss": 1.2089,
      "step": 2000
    },
    {
      "epoch": 9.95202492211838,
      "eval_loss": 1.2739386558532715,
      "eval_runtime": 15.5272,
      "eval_samples_per_second": 11.528,
      "eval_steps_per_second": 1.481,
      "step": 2000
    },
    {
      "epoch": 10.20436137071651,
      "grad_norm": 0.87109375,
      "learning_rate": 5.701024361409431e-06,
      "loss": 1.2265,
      "step": 2050
    },
    {
      "epoch": 10.453582554517133,
      "grad_norm": 0.95703125,
      "learning_rate": 5.485494740420431e-06,
      "loss": 1.198,
      "step": 2100
    },
    {
      "epoch": 10.702803738317757,
      "grad_norm": 1.7421875,
      "learning_rate": 5.26905012397343e-06,
      "loss": 1.2148,
      "step": 2150
    },
    {
      "epoch": 10.95202492211838,
      "grad_norm": 1.5234375,
      "learning_rate": 5.052098437890215e-06,
      "loss": 1.1983,
      "step": 2200
    },
    {
      "epoch": 11.199376947040498,
      "grad_norm": 1.15625,
      "learning_rate": 4.835048563649499e-06,
      "loss": 1.2025,
      "step": 2250
    },
    {
      "epoch": 11.448598130841122,
      "grad_norm": 1.0078125,
      "learning_rate": 4.6183095677818825e-06,
      "loss": 1.1926,
      "step": 2300
    },
    {
      "epoch": 11.697819314641745,
      "grad_norm": 1.4453125,
      "learning_rate": 4.402289930916053e-06,
      "loss": 1.2022,
      "step": 2350
    },
    {
      "epoch": 11.947040498442368,
      "grad_norm": 1.1328125,
      "learning_rate": 4.187396777929205e-06,
      "loss": 1.2099,
      "step": 2400
    },
    {
      "epoch": 12.194392523364487,
      "grad_norm": 1.625,
      "learning_rate": 3.974035110652596e-06,
      "loss": 1.2093,
      "step": 2450
    },
    {
      "epoch": 12.44361370716511,
      "grad_norm": 1.0625,
      "learning_rate": 3.762607044578357e-06,
      "loss": 1.1972,
      "step": 2500
    },
    {
      "epoch": 12.44361370716511,
      "eval_loss": 1.2259057760238647,
      "eval_runtime": 15.4359,
      "eval_samples_per_second": 11.596,
      "eval_steps_per_second": 1.49,
      "step": 2500
    },
    {
      "epoch": 12.692834890965733,
      "grad_norm": 1.40625,
      "learning_rate": 3.55351105100606e-06,
      "loss": 1.1879,
      "step": 2550
    },
    {
      "epoch": 12.942056074766356,
      "grad_norm": 0.89453125,
      "learning_rate": 3.3471412060573944e-06,
      "loss": 1.215,
      "step": 2600
    },
    {
      "epoch": 13.189408099688473,
      "grad_norm": 1.15625,
      "learning_rate": 3.1438864479742693e-06,
      "loss": 1.2105,
      "step": 2650
    },
    {
      "epoch": 13.438629283489096,
      "grad_norm": 1.2109375,
      "learning_rate": 2.9441298441001165e-06,
      "loss": 1.1956,
      "step": 2700
    },
    {
      "epoch": 13.687850467289719,
      "grad_norm": 1.15625,
      "learning_rate": 2.7482478689258733e-06,
      "loss": 1.2139,
      "step": 2750
    },
    {
      "epoch": 13.937071651090342,
      "grad_norm": 1.640625,
      "learning_rate": 2.556609694561273e-06,
      "loss": 1.1846,
      "step": 2800
    },
    {
      "epoch": 14.184423676012461,
      "grad_norm": 0.98828125,
      "learning_rate": 2.3695764949687234e-06,
      "loss": 1.1978,
      "step": 2850
    },
    {
      "epoch": 14.433644859813084,
      "grad_norm": 1.2890625,
      "learning_rate": 2.1875007652709768e-06,
      "loss": 1.199,
      "step": 2900
    },
    {
      "epoch": 14.682866043613707,
      "grad_norm": 0.9140625,
      "learning_rate": 2.0107256574155564e-06,
      "loss": 1.2097,
      "step": 2950
    },
    {
      "epoch": 14.93208722741433,
      "grad_norm": 1.0625,
      "learning_rate": 1.8395843334479125e-06,
      "loss": 1.2051,
      "step": 3000
    },
    {
      "epoch": 14.93208722741433,
      "eval_loss": 1.2260087728500366,
      "eval_runtime": 15.4261,
      "eval_samples_per_second": 11.604,
      "eval_steps_per_second": 1.491,
      "step": 3000
    },
    {
      "epoch": 15.179439252336449,
      "grad_norm": 1.4296875,
      "learning_rate": 4.01645826177586e-06,
      "loss": 1.2379,
      "step": 3050
    },
    {
      "epoch": 15.428660436137072,
      "grad_norm": 0.96875,
      "learning_rate": 3.846795459902898e-06,
      "loss": 1.2348,
      "step": 3100
    },
    {
      "epoch": 15.677881619937695,
      "grad_norm": 1.234375,
      "learning_rate": 3.6785240237887355e-06,
      "loss": 1.2098,
      "step": 3150
    },
    {
      "epoch": 15.927102803738318,
      "grad_norm": 1.7265625,
      "learning_rate": 3.511846976493248e-06,
      "loss": 1.209,
      "step": 3200
    },
    {
      "epoch": 16.174454828660437,
      "grad_norm": 1.2109375,
      "learning_rate": 3.3469654174123565e-06,
      "loss": 1.2129,
      "step": 3250
    },
    {
      "epoch": 16.42367601246106,
      "grad_norm": 1.15625,
      "learning_rate": 3.184078279647331e-06,
      "loss": 1.2187,
      "step": 3300
    },
    {
      "epoch": 16.672897196261683,
      "grad_norm": 1.2578125,
      "learning_rate": 3.0233820899877898e-06,
      "loss": 1.2018,
      "step": 3350
    },
    {
      "epoch": 16.922118380062305,
      "grad_norm": 1.1484375,
      "learning_rate": 2.8650707317979437e-06,
      "loss": 1.2255,
      "step": 3400
    },
    {
      "epoch": 17.169470404984423,
      "grad_norm": 1.1796875,
      "learning_rate": 2.709335211092214e-06,
      "loss": 1.1997,
      "step": 3450
    },
    {
      "epoch": 17.418691588785048,
      "grad_norm": 1.1875,
      "learning_rate": 2.556363426082418e-06,
      "loss": 1.211,
      "step": 3500
    },
    {
      "epoch": 17.418691588785048,
      "eval_loss": 1.2014065980911255,
      "eval_runtime": 15.5998,
      "eval_samples_per_second": 11.474,
      "eval_steps_per_second": 1.474,
      "step": 3500
    },
    {
      "epoch": 17.66791277258567,
      "grad_norm": 1.046875,
      "learning_rate": 2.4063399404745724e-06,
      "loss": 1.2199,
      "step": 3550
    },
    {
      "epoch": 17.917133956386294,
      "grad_norm": 1.625,
      "learning_rate": 2.2594457607888917e-06,
      "loss": 1.217,
      "step": 3600
    },
    {
      "epoch": 18.16448598130841,
      "grad_norm": 1.3515625,
      "learning_rate": 2.115858117971553e-06,
      "loss": 1.2021,
      "step": 3650
    },
    {
      "epoch": 18.413707165109034,
      "grad_norm": 1.484375,
      "learning_rate": 1.9757502535618137e-06,
      "loss": 1.2159,
      "step": 3700
    },
    {
      "epoch": 18.662928348909656,
      "grad_norm": 1.015625,
      "learning_rate": 1.839291210672407e-06,
      "loss": 1.2117,
      "step": 3750
    },
    {
      "epoch": 18.91214953271028,
      "grad_norm": 1.234375,
      "learning_rate": 1.7066456300354462e-06,
      "loss": 1.225,
      "step": 3800
    },
    {
      "epoch": 19.1595015576324,
      "grad_norm": 1.390625,
      "learning_rate": 1.577973551359877e-06,
      "loss": 1.2239,
      "step": 3850
    },
    {
      "epoch": 19.40872274143302,
      "grad_norm": 1.6015625,
      "learning_rate": 1.453430220240178e-06,
      "loss": 1.209,
      "step": 3900
    },
    {
      "epoch": 19.657943925233646,
      "grad_norm": 1.203125,
      "learning_rate": 1.333165900849255e-06,
      "loss": 1.2148,
      "step": 3950
    },
    {
      "epoch": 19.907165109034267,
      "grad_norm": 1.1484375,
      "learning_rate": 1.2173256946415214e-06,
      "loss": 1.2024,
      "step": 4000
    },
    {
      "epoch": 19.907165109034267,
      "eval_loss": 1.2013256549835205,
      "eval_runtime": 15.5958,
      "eval_samples_per_second": 11.477,
      "eval_steps_per_second": 1.475,
      "step": 4000
    },
    {
      "epoch": 20.154517133956386,
      "grad_norm": 1.1328125,
      "learning_rate": 1.106049365284918e-06,
      "loss": 1.2362,
      "step": 4050
    },
    {
      "epoch": 20.40373831775701,
      "grad_norm": 1.0078125,
      "learning_rate": 9.994711700330779e-07,
      "loss": 1.2212,
      "step": 4100
    },
    {
      "epoch": 20.652959501557632,
      "grad_norm": 1.5078125,
      "learning_rate": 8.97719697741104e-07,
      "loss": 1.1908,
      "step": 4150
    },
    {
      "epoch": 20.902180685358257,
      "grad_norm": 1.0390625,
      "learning_rate": 8.009177137203794e-07,
      "loss": 1.2261,
      "step": 4200
    },
    {
      "epoch": 21.149532710280372,
      "grad_norm": 1.046875,
      "learning_rate": 7.091820116196152e-07,
      "loss": 1.1987,
      "step": 4250
    },
    {
      "epoch": 21.398753894080997,
      "grad_norm": 1.46875,
      "learning_rate": 6.2262327251084e-07,
      "loss": 1.2089,
      "step": 4300
    },
    {
      "epoch": 21.64797507788162,
      "grad_norm": 1.1796875,
      "learning_rate": 5.413459313503272e-07,
      "loss": 1.2162,
      "step": 4350
    },
    {
      "epoch": 21.897196261682243,
      "grad_norm": 1.0859375,
      "learning_rate": 4.654480509756082e-07,
      "loss": 1.216,
      "step": 4400
    },
    {
      "epoch": 22.144548286604362,
      "grad_norm": 1.484375,
      "learning_rate": 3.9502120379057764e-07,
      "loss": 1.2089,
      "step": 4450
    },
    {
      "epoch": 22.393769470404983,
      "grad_norm": 1.171875,
      "learning_rate": 3.301503612814444e-07,
      "loss": 1.2161,
      "step": 4500
    },
    {
      "epoch": 22.393769470404983,
      "eval_loss": 1.2012678384780884,
      "eval_runtime": 15.6175,
      "eval_samples_per_second": 11.462,
      "eval_steps_per_second": 1.473,
      "step": 4500
    },
    {
      "epoch": 22.642990654205608,
      "grad_norm": 1.0625,
      "learning_rate": 2.7091379149682683e-07,
      "loss": 1.2239,
      "step": 4550
    },
    {
      "epoch": 22.89221183800623,
      "grad_norm": 1.3515625,
      "learning_rate": 2.1738296461569164e-07,
      "loss": 1.2121,
      "step": 4600
    },
    {
      "epoch": 23.139563862928348,
      "grad_norm": 1.2421875,
      "learning_rate": 1.6962246671706872e-07,
      "loss": 1.1973,
      "step": 4650
    },
    {
      "epoch": 23.388785046728973,
      "grad_norm": 1.2578125,
      "learning_rate": 1.2768992185557104e-07,
      "loss": 1.2183,
      "step": 4700
    },
    {
      "epoch": 23.638006230529594,
      "grad_norm": 1.3125,
      "learning_rate": 9.163592253675247e-08,
      "loss": 1.2195,
      "step": 4750
    },
    {
      "epoch": 23.88722741433022,
      "grad_norm": 1.2109375,
      "learning_rate": 6.15039686761748e-08,
      "loss": 1.21,
      "step": 4800
    },
    {
      "epoch": 24.134579439252338,
      "grad_norm": 1.2265625,
      "learning_rate": 3.733041511583768e-08,
      "loss": 1.2056,
      "step": 4850
    },
    {
      "epoch": 24.38380062305296,
      "grad_norm": 1.46875,
      "learning_rate": 1.914442776128622e-08,
      "loss": 1.1913,
      "step": 4900
    },
    {
      "epoch": 24.633021806853584,
      "grad_norm": 1.1796875,
      "learning_rate": 6.9679483923318356e-09,
      "loss": 1.2346,
      "step": 4950
    },
    {
      "epoch": 24.882242990654206,
      "grad_norm": 1.171875,
      "learning_rate": 8.156681898252583e-10,
      "loss": 1.2149,
      "step": 5000
    },
    {
      "epoch": 24.882242990654206,
      "eval_loss": 1.201310396194458,
      "eval_runtime": 15.6169,
      "eval_samples_per_second": 11.462,
      "eval_steps_per_second": 1.473,
      "step": 5000
    }
  ],
  "logging_steps": 50,
  "max_steps": 5025,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 25,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3835310591104778e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}