{
  "best_global_step": 3654,
  "best_metric": 0.25175856147050574,
  "best_model_checkpoint": "outputs/textcnn/checkpoint-3654",
  "epoch": 42.0,
  "eval_steps": 500,
  "global_step": 3654,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 5.989197731018066,
      "learning_rate": 3.44e-06,
      "loss": 2.0625,
      "step": 87
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.31486880466472306,
      "eval_loss": 1.9201620817184448,
      "eval_macro_f1": 0.08069587306875443,
      "eval_runtime": 0.0822,
      "eval_samples_per_second": 8343.34,
      "eval_steps_per_second": 133.785,
      "step": 87
    },
    {
      "epoch": 2.0,
      "grad_norm": 4.812881946563721,
      "learning_rate": 6.92e-06,
      "loss": 2.0517,
      "step": 174
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.3163265306122449,
      "eval_loss": 1.867976188659668,
      "eval_macro_f1": 0.08271289631865439,
      "eval_runtime": 0.0798,
      "eval_samples_per_second": 8598.327,
      "eval_steps_per_second": 137.874,
      "step": 174
    },
    {
      "epoch": 3.0,
      "grad_norm": 4.3668341636657715,
      "learning_rate": 1.04e-05,
      "loss": 1.9731,
      "step": 261
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.31924198250728864,
      "eval_loss": 1.8050793409347534,
      "eval_macro_f1": 0.09255094257382587,
      "eval_runtime": 0.0765,
      "eval_samples_per_second": 8966.769,
      "eval_steps_per_second": 143.782,
      "step": 261
    },
    {
      "epoch": 4.0,
      "grad_norm": 4.521817207336426,
      "learning_rate": 1.3880000000000001e-05,
      "loss": 1.9355,
      "step": 348
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.3206997084548105,
      "eval_loss": 1.760697841644287,
      "eval_macro_f1": 0.09828636171767466,
      "eval_runtime": 0.0776,
      "eval_samples_per_second": 8839.5,
      "eval_steps_per_second": 141.741,
      "step": 348
    },
    {
      "epoch": 5.0,
      "grad_norm": 4.453028678894043,
      "learning_rate": 1.736e-05,
      "loss": 1.9005,
      "step": 435
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.32653061224489793,
      "eval_loss": 1.7365907430648804,
      "eval_macro_f1": 0.11368274326806725,
      "eval_runtime": 0.0784,
      "eval_samples_per_second": 8750.81,
      "eval_steps_per_second": 140.319,
      "step": 435
    },
    {
      "epoch": 6.0,
      "grad_norm": 4.236560344696045,
      "learning_rate": 1.999967634800249e-05,
      "loss": 1.8734,
      "step": 522
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.33527696793002915,
      "eval_loss": 1.7214981317520142,
      "eval_macro_f1": 0.12326578903926995,
      "eval_runtime": 0.0768,
      "eval_samples_per_second": 8932.057,
      "eval_steps_per_second": 143.225,
      "step": 522
    },
    {
      "epoch": 7.0,
      "grad_norm": 4.54931640625,
      "learning_rate": 1.999144090999249e-05,
      "loss": 1.8459,
      "step": 609
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.33819241982507287,
      "eval_loss": 1.7085658311843872,
      "eval_macro_f1": 0.12473908000560015,
      "eval_runtime": 0.0772,
      "eval_samples_per_second": 8891.235,
      "eval_steps_per_second": 142.571,
      "step": 609
    },
    {
      "epoch": 8.0,
      "grad_norm": 4.285991191864014,
      "learning_rate": 1.9972106098590665e-05,
      "loss": 1.8271,
      "step": 696
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.3469387755102041,
      "eval_loss": 1.6989842653274536,
      "eval_macro_f1": 0.1374280909101405,
      "eval_runtime": 0.0776,
      "eval_samples_per_second": 8844.853,
      "eval_steps_per_second": 141.827,
      "step": 696
    },
    {
      "epoch": 9.0,
      "grad_norm": 5.04291296005249,
      "learning_rate": 1.994169339261005e-05,
      "loss": 1.8219,
      "step": 783
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.3498542274052478,
      "eval_loss": 1.6909065246582031,
      "eval_macro_f1": 0.14476905523124012,
      "eval_runtime": 0.0766,
      "eval_samples_per_second": 8950.395,
      "eval_steps_per_second": 143.519,
      "step": 783
    },
    {
      "epoch": 10.0,
      "grad_norm": 3.8076608180999756,
      "learning_rate": 1.990023657716558e-05,
      "loss": 1.8039,
      "step": 870
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.3469387755102041,
      "eval_loss": 1.6828982830047607,
      "eval_macro_f1": 0.14793175460560187,
      "eval_runtime": 0.0764,
      "eval_samples_per_second": 8983.678,
      "eval_steps_per_second": 144.053,
      "step": 870
    },
    {
      "epoch": 11.0,
      "grad_norm": 3.9515891075134277,
      "learning_rate": 1.9847781706142608e-05,
      "loss": 1.7898,
      "step": 957
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.35131195335276966,
      "eval_loss": 1.675271987915039,
      "eval_macro_f1": 0.15154267292502702,
      "eval_runtime": 0.0776,
      "eval_samples_per_second": 8837.816,
      "eval_steps_per_second": 141.714,
      "step": 957
    },
    {
      "epoch": 12.0,
      "grad_norm": 3.946139097213745,
      "learning_rate": 1.978438705103621e-05,
      "loss": 1.7634,
      "step": 1044
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.36151603498542273,
      "eval_loss": 1.6689125299453735,
      "eval_macro_f1": 0.16042602782078802,
      "eval_runtime": 0.0767,
      "eval_samples_per_second": 8948.781,
      "eval_steps_per_second": 143.494,
      "step": 1044
    },
    {
      "epoch": 13.0,
      "grad_norm": 3.8360438346862793,
      "learning_rate": 1.9710123036218044e-05,
      "loss": 1.7572,
      "step": 1131
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.37026239067055394,
      "eval_loss": 1.6614633798599243,
      "eval_macro_f1": 0.17028534014340227,
      "eval_runtime": 0.0767,
      "eval_samples_per_second": 8943.635,
      "eval_steps_per_second": 143.411,
      "step": 1131
    },
    {
      "epoch": 14.0,
      "grad_norm": 3.794384479522705,
      "learning_rate": 1.962507216070276e-05,
      "loss": 1.7411,
      "step": 1218
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.36151603498542273,
      "eval_loss": 1.6555291414260864,
      "eval_macro_f1": 0.17229172694357175,
      "eval_runtime": 0.0764,
      "eval_samples_per_second": 8976.952,
      "eval_steps_per_second": 143.945,
      "step": 1218
    },
    {
      "epoch": 15.0,
      "grad_norm": 3.697802782058716,
      "learning_rate": 1.9529328906500833e-05,
      "loss": 1.7355,
      "step": 1305
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.36443148688046645,
      "eval_loss": 1.6497727632522583,
      "eval_macro_f1": 0.17077990977186067,
      "eval_runtime": 0.0762,
      "eval_samples_per_second": 8997.528,
      "eval_steps_per_second": 144.275,
      "step": 1305
    },
    {
      "epoch": 16.0,
      "grad_norm": 4.296336650848389,
      "learning_rate": 1.9422999633659592e-05,
      "loss": 1.7163,
      "step": 1392
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.3717201166180758,
      "eval_loss": 1.6435818672180176,
      "eval_macro_f1": 0.1808240545174343,
      "eval_runtime": 0.0787,
      "eval_samples_per_second": 8721.685,
      "eval_steps_per_second": 139.852,
      "step": 1392
    },
    {
      "epoch": 17.0,
      "grad_norm": 4.240530490875244,
      "learning_rate": 1.9306202462109128e-05,
      "loss": 1.6979,
      "step": 1479
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.3760932944606414,
      "eval_loss": 1.6384371519088745,
      "eval_macro_f1": 0.18768397854098065,
      "eval_runtime": 0.0781,
      "eval_samples_per_second": 8785.572,
      "eval_steps_per_second": 140.877,
      "step": 1479
    },
    {
      "epoch": 18.0,
      "grad_norm": 4.70124626159668,
      "learning_rate": 1.9179067140444246e-05,
      "loss": 1.7027,
      "step": 1566
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.37317784256559766,
      "eval_loss": 1.6329833269119263,
      "eval_macro_f1": 0.1832569421283258,
      "eval_runtime": 0.0773,
      "eval_samples_per_second": 8871.989,
      "eval_steps_per_second": 142.262,
      "step": 1566
    },
    {
      "epoch": 19.0,
      "grad_norm": 4.254021167755127,
      "learning_rate": 1.9041734901788285e-05,
      "loss": 1.6776,
      "step": 1653
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.3760932944606414,
      "eval_loss": 1.6269856691360474,
      "eval_macro_f1": 0.18890492604023376,
      "eval_runtime": 0.0793,
      "eval_samples_per_second": 8655.516,
      "eval_steps_per_second": 138.791,
      "step": 1653
    },
    {
      "epoch": 20.0,
      "grad_norm": 3.7426421642303467,
      "learning_rate": 1.8894358306898934e-05,
      "loss": 1.6651,
      "step": 1740
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.37900874635568516,
      "eval_loss": 1.621616005897522,
      "eval_macro_f1": 0.1934068278580951,
      "eval_runtime": 0.0784,
      "eval_samples_per_second": 8746.314,
      "eval_steps_per_second": 140.247,
      "step": 1740
    },
    {
      "epoch": 21.0,
      "grad_norm": 4.341787338256836,
      "learning_rate": 1.8737101074690274e-05,
      "loss": 1.6694,
      "step": 1827
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.38338192419825073,
      "eval_loss": 1.617226243019104,
      "eval_macro_f1": 0.19340109033111008,
      "eval_runtime": 0.0763,
      "eval_samples_per_second": 8984.969,
      "eval_steps_per_second": 144.074,
      "step": 1827
    },
    {
      "epoch": 22.0,
      "grad_norm": 4.18576717376709,
      "learning_rate": 1.8570137900359382e-05,
      "loss": 1.6561,
      "step": 1914
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.38338192419825073,
      "eval_loss": 1.6133029460906982,
      "eval_macro_f1": 0.19942474851997433,
      "eval_runtime": 0.0768,
      "eval_samples_per_second": 8932.362,
      "eval_steps_per_second": 143.23,
      "step": 1914
    },
    {
      "epoch": 23.0,
      "grad_norm": 4.433280944824219,
      "learning_rate": 1.8393654261319504e-05,
      "loss": 1.6456,
      "step": 2001
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.3877551020408163,
      "eval_loss": 1.6075658798217773,
      "eval_macro_f1": 0.2021179986320824,
      "eval_runtime": 0.0779,
      "eval_samples_per_second": 8804.876,
      "eval_steps_per_second": 141.186,
      "step": 2001
    },
    {
      "epoch": 24.0,
      "grad_norm": 3.650712490081787,
      "learning_rate": 1.8207846211155388e-05,
      "loss": 1.6412,
      "step": 2088
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.39212827988338195,
      "eval_loss": 1.6046576499938965,
      "eval_macro_f1": 0.20558065728483735,
      "eval_runtime": 0.0777,
      "eval_samples_per_second": 8832.472,
      "eval_steps_per_second": 141.629,
      "step": 2088
    },
    {
      "epoch": 25.0,
      "grad_norm": 3.7270474433898926,
      "learning_rate": 1.8012920161829693e-05,
      "loss": 1.6369,
      "step": 2175
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.39504373177842567,
      "eval_loss": 1.6002745628356934,
      "eval_macro_f1": 0.2085329794328549,
      "eval_runtime": 0.0763,
      "eval_samples_per_second": 8986.091,
      "eval_steps_per_second": 144.092,
      "step": 2175
    },
    {
      "epoch": 26.0,
      "grad_norm": 3.5878360271453857,
      "learning_rate": 1.7809092654382368e-05,
      "loss": 1.6141,
      "step": 2262
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.39941690962099125,
      "eval_loss": 1.5953983068466187,
      "eval_macro_f1": 0.21136043336239665,
      "eval_runtime": 0.0767,
      "eval_samples_per_second": 8941.745,
      "eval_steps_per_second": 143.381,
      "step": 2262
    },
    {
      "epoch": 27.0,
      "grad_norm": 3.669312000274658,
      "learning_rate": 1.7596590118377787e-05,
      "loss": 1.5989,
      "step": 2349
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.40233236151603496,
      "eval_loss": 1.5911133289337158,
      "eval_macro_f1": 0.21358021621926357,
      "eval_runtime": 0.0772,
      "eval_samples_per_second": 8884.756,
      "eval_steps_per_second": 142.467,
      "step": 2349
    },
    {
      "epoch": 28.0,
      "grad_norm": 3.686958074569702,
      "learning_rate": 1.7375648620366817e-05,
      "loss": 1.6096,
      "step": 2436
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.40524781341107874,
      "eval_loss": 1.5873298645019531,
      "eval_macro_f1": 0.214485741970254,
      "eval_runtime": 0.08,
      "eval_samples_per_second": 8573.194,
      "eval_steps_per_second": 137.471,
      "step": 2436
    },
    {
      "epoch": 29.0,
      "grad_norm": 3.553083896636963,
      "learning_rate": 1.7146513601643282e-05,
      "loss": 1.6039,
      "step": 2523
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.4067055393586006,
      "eval_loss": 1.584189534187317,
      "eval_macro_f1": 0.21667857809163207,
      "eval_runtime": 0.0762,
      "eval_samples_per_second": 9000.399,
      "eval_steps_per_second": 144.321,
      "step": 2523
    },
    {
      "epoch": 30.0,
      "grad_norm": 3.9078423976898193,
      "learning_rate": 1.6909439605586156e-05,
      "loss": 1.5928,
      "step": 2610
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.40816326530612246,
      "eval_loss": 1.579264521598816,
      "eval_macro_f1": 0.21831730879606145,
      "eval_runtime": 0.0775,
      "eval_samples_per_second": 8854.652,
      "eval_steps_per_second": 141.984,
      "step": 2610
    },
    {
      "epoch": 31.0,
      "grad_norm": 3.7723805904388428,
      "learning_rate": 1.6664689994890307e-05,
      "loss": 1.5824,
      "step": 2697
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.40816326530612246,
      "eval_loss": 1.5762993097305298,
      "eval_macro_f1": 0.21682052505544805,
      "eval_runtime": 0.0776,
      "eval_samples_per_second": 8835.265,
      "eval_steps_per_second": 141.673,
      "step": 2697
    },
    {
      "epoch": 32.0,
      "grad_norm": 4.051678657531738,
      "learning_rate": 1.641253665900002e-05,
      "loss": 1.5877,
      "step": 2784
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.41545189504373176,
      "eval_loss": 1.5732570886611938,
      "eval_macro_f1": 0.2262251950436546,
      "eval_runtime": 0.0769,
      "eval_samples_per_second": 8918.878,
      "eval_steps_per_second": 143.014,
      "step": 2784
    },
    {
      "epoch": 33.0,
      "grad_norm": 3.396827459335327,
      "learning_rate": 1.6153259712070225e-05,
      "loss": 1.5722,
      "step": 2871
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.4110787172011662,
      "eval_loss": 1.5706168413162231,
      "eval_macro_f1": 0.22060087456248262,
      "eval_runtime": 0.0769,
      "eval_samples_per_second": 8923.138,
      "eval_steps_per_second": 143.082,
      "step": 2871
    },
    {
      "epoch": 34.0,
      "grad_norm": 3.510072708129883,
      "learning_rate": 1.5887147181791e-05,
      "loss": 1.5649,
      "step": 2958
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.41690962099125367,
      "eval_loss": 1.5673753023147583,
      "eval_macro_f1": 0.2265284337566022,
      "eval_runtime": 0.0781,
      "eval_samples_per_second": 8778.335,
      "eval_steps_per_second": 140.76,
      "step": 2958
    },
    {
      "epoch": 35.0,
      "grad_norm": 3.531944513320923,
      "learning_rate": 1.5614494689421032e-05,
      "loss": 1.5662,
      "step": 3045
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.4227405247813411,
      "eval_loss": 1.5635616779327393,
      "eval_macro_f1": 0.23237846476317717,
      "eval_runtime": 0.0769,
      "eval_samples_per_second": 8921.948,
      "eval_steps_per_second": 143.063,
      "step": 3045
    },
    {
      "epoch": 36.0,
      "grad_norm": 3.724010944366455,
      "learning_rate": 1.533560512138543e-05,
      "loss": 1.5545,
      "step": 3132
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.42419825072886297,
      "eval_loss": 1.5617172718048096,
      "eval_macro_f1": 0.23396270153240778,
      "eval_runtime": 0.0766,
      "eval_samples_per_second": 8960.737,
      "eval_steps_per_second": 143.685,
      "step": 3132
    },
    {
      "epoch": 37.0,
      "grad_norm": 3.6395723819732666,
      "learning_rate": 1.5050788292802812e-05,
      "loss": 1.5416,
      "step": 3219
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.43440233236151604,
      "eval_loss": 1.5581672191619873,
      "eval_macro_f1": 0.24389742844346657,
      "eval_runtime": 0.0768,
      "eval_samples_per_second": 8935.719,
      "eval_steps_per_second": 143.284,
      "step": 3219
    },
    {
      "epoch": 38.0,
      "grad_norm": 4.1144866943359375,
      "learning_rate": 1.4760360603315362e-05,
      "loss": 1.5351,
      "step": 3306
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.4329446064139942,
      "eval_loss": 1.55453622341156,
      "eval_macro_f1": 0.23991444298311637,
      "eval_runtime": 0.0769,
      "eval_samples_per_second": 8923.913,
      "eval_steps_per_second": 143.095,
      "step": 3306
    },
    {
      "epoch": 39.0,
      "grad_norm": 3.656245708465576,
      "learning_rate": 1.4464644685604184e-05,
      "loss": 1.5424,
      "step": 3393
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.4329446064139942,
      "eval_loss": 1.5531222820281982,
      "eval_macro_f1": 0.24107844449857171,
      "eval_runtime": 0.0777,
      "eval_samples_per_second": 8833.123,
      "eval_steps_per_second": 141.639,
      "step": 3393
    },
    {
      "epoch": 40.0,
      "grad_norm": 3.530606746673584,
      "learning_rate": 1.41639690469805e-05,
      "loss": 1.5232,
      "step": 3480
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.4329446064139942,
      "eval_loss": 1.5503716468811035,
      "eval_macro_f1": 0.24171834592844124,
      "eval_runtime": 0.0767,
      "eval_samples_per_second": 8939.189,
      "eval_steps_per_second": 143.34,
      "step": 3480
    },
    {
      "epoch": 41.0,
      "grad_norm": 3.4572715759277344,
      "learning_rate": 1.3858667704450763e-05,
      "loss": 1.5277,
      "step": 3567
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.43440233236151604,
      "eval_loss": 1.5470139980316162,
      "eval_macro_f1": 0.24209898836089624,
      "eval_runtime": 0.0769,
      "eval_samples_per_second": 8921.395,
      "eval_steps_per_second": 143.054,
      "step": 3567
    },
    {
      "epoch": 42.0,
      "grad_norm": 4.217586517333984,
      "learning_rate": 1.3549079813661123e-05,
      "loss": 1.5112,
      "step": 3654
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.4446064139941691,
      "eval_loss": 1.5440438985824585,
      "eval_macro_f1": 0.25175856147050574,
      "eval_runtime": 0.0767,
      "eval_samples_per_second": 8948.113,
      "eval_steps_per_second": 143.483,
      "step": 3654
    }
  ],
  "logging_steps": 87,
  "max_steps": 8700,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}