C10X
/

Qwen2r

Safetensors

qwen2

Model card Files Files and versions

xet

Community

C10X commited on May 18, 2025

Commit

477bb2a

verified ·

1 Parent(s): a0ef9ad

Upload trainer_state.json with huggingface_hub

Browse files

Files changed (1) hide show

trainer_state.json +1023 -0

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1023 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.992969696969697,
+  "eval_steps": 50,
+  "global_step": 1158,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02585858585858586,
+      "grad_norm": 129761.5390625,
+      "learning_rate": 7.758620689655173e-06,
+      "loss": 5.1637,
+      "step": 10
+    },
+    {
+      "epoch": 0.05171717171717172,
+      "grad_norm": 85007.0390625,
+      "learning_rate": 1.6379310344827585e-05,
+      "loss": 4.8462,
+      "step": 20
+    },
+    {
+      "epoch": 0.07757575757575758,
+      "grad_norm": 77711.90625,
+      "learning_rate": 2.5e-05,
+      "loss": 4.6229,
+      "step": 30
+    },
+    {
+      "epoch": 0.10343434343434343,
+      "grad_norm": 75926.6015625,
+      "learning_rate": 3.3620689655172414e-05,
+      "loss": 4.4402,
+      "step": 40
+    },
+    {
+      "epoch": 0.1292929292929293,
+      "grad_norm": 81001.3046875,
+      "learning_rate": 4.224137931034483e-05,
+      "loss": 4.186,
+      "step": 50
+    },
+    {
+      "epoch": 0.1292929292929293,
+      "eval_loss": 8.234293937683105,
+      "eval_runtime": 21.2938,
+      "eval_samples_per_second": 46.962,
+      "eval_steps_per_second": 2.959,
+      "step": 50
+    },
+    {
+      "epoch": 0.15515151515151515,
+      "grad_norm": 77491.1875,
+      "learning_rate": 4.9999898041346155e-05,
+      "loss": 3.9984,
+      "step": 60
+    },
+    {
+      "epoch": 0.181010101010101,
+      "grad_norm": 70187.9375,
+      "learning_rate": 4.998766400914329e-05,
+      "loss": 3.7669,
+      "step": 70
+    },
+    {
+      "epoch": 0.20686868686868687,
+      "grad_norm": 78757.3671875,
+      "learning_rate": 4.995504967976098e-05,
+      "loss": 3.4933,
+      "step": 80
+    },
+    {
+      "epoch": 0.23272727272727273,
+      "grad_norm": 93011.2109375,
+      "learning_rate": 4.9902081653914056e-05,
+      "loss": 3.3346,
+      "step": 90
+    },
+    {
+      "epoch": 0.2585858585858586,
+      "grad_norm": 82705.953125,
+      "learning_rate": 4.982880313308417e-05,
+      "loss": 3.2104,
+      "step": 100
+    },
+    {
+      "epoch": 0.2585858585858586,
+      "eval_loss": 6.281063556671143,
+      "eval_runtime": 21.0455,
+      "eval_samples_per_second": 47.516,
+      "eval_steps_per_second": 2.994,
+      "step": 100
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 98789.734375,
+      "learning_rate": 4.973527388428399e-05,
+      "loss": 3.0765,
+      "step": 110
+    },
+    {
+      "epoch": 0.3103030303030303,
+      "grad_norm": 88273.296875,
+      "learning_rate": 4.962157019131037e-05,
+      "loss": 2.9833,
+      "step": 120
+    },
+    {
+      "epoch": 0.33616161616161616,
+      "grad_norm": 78808.640625,
+      "learning_rate": 4.948778479252625e-05,
+      "loss": 2.8664,
+      "step": 130
+    },
+    {
+      "epoch": 0.362020202020202,
+      "grad_norm": 68227.828125,
+      "learning_rate": 4.933402680522181e-05,
+      "loss": 2.7739,
+      "step": 140
+    },
+    {
+      "epoch": 0.3878787878787879,
+      "grad_norm": 70486.9453125,
+      "learning_rate": 4.916042163661697e-05,
+      "loss": 2.6577,
+      "step": 150
+    },
+    {
+      "epoch": 0.3878787878787879,
+      "eval_loss": 5.267953872680664,
+      "eval_runtime": 21.2432,
+      "eval_samples_per_second": 47.074,
+      "eval_steps_per_second": 2.966,
+      "step": 150
+    },
+    {
+      "epoch": 0.41373737373737374,
+      "grad_norm": 129737.7421875,
+      "learning_rate": 4.896711088157736e-05,
+      "loss": 2.5488,
+      "step": 160
+    },
+    {
+      "epoch": 0.4395959595959596,
+      "grad_norm": 92119.6328125,
+      "learning_rate": 4.875425220712757e-05,
+      "loss": 2.5209,
+      "step": 170
+    },
+    {
+      "epoch": 0.46545454545454545,
+      "grad_norm": 76282.8046875,
+      "learning_rate": 4.852201922385564e-05,
+      "loss": 2.496,
+      "step": 180
+    },
+    {
+      "epoch": 0.4913131313131313,
+      "grad_norm": 64090.921875,
+      "learning_rate": 4.827060134431379e-05,
+      "loss": 2.4329,
+      "step": 190
+    },
+    {
+      "epoch": 0.5171717171717172,
+      "grad_norm": 62604.421875,
+      "learning_rate": 4.800020362853082e-05,
+      "loss": 2.3479,
+      "step": 200
+    },
+    {
+      "epoch": 0.5171717171717172,
+      "eval_loss": 4.751099109649658,
+      "eval_runtime": 21.4328,
+      "eval_samples_per_second": 46.658,
+      "eval_steps_per_second": 2.939,
+      "step": 200
+    },
+    {
+      "epoch": 0.5430303030303031,
+      "grad_norm": 89043.59375,
+      "learning_rate": 4.7711046616762206e-05,
+      "loss": 2.331,
+      "step": 210
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 70265.078125,
+      "learning_rate": 4.7403366149614304e-05,
+      "loss": 2.2867,
+      "step": 220
+    },
+    {
+      "epoch": 0.5947474747474748,
+      "grad_norm": 66474.015625,
+      "learning_rate": 4.7077413175689365e-05,
+      "loss": 2.2422,
+      "step": 230
+    },
+    {
+      "epoch": 0.6206060606060606,
+      "grad_norm": 72337.0703125,
+      "learning_rate": 4.6733453546908277e-05,
+      "loss": 2.2279,
+      "step": 240
+    },
+    {
+      "epoch": 0.6464646464646465,
+      "grad_norm": 77678.4921875,
+      "learning_rate": 4.63717678016779e-05,
+      "loss": 2.1829,
+      "step": 250
+    },
+    {
+      "epoch": 0.6464646464646465,
+      "eval_loss": 4.369379043579102,
+      "eval_runtime": 21.3413,
+      "eval_samples_per_second": 46.857,
+      "eval_steps_per_second": 2.952,
+      "step": 250
+    },
+    {
+      "epoch": 0.6723232323232323,
+      "grad_norm": 105560.984375,
+      "learning_rate": 4.599265093607993e-05,
+      "loss": 2.1284,
+      "step": 260
+    },
+    {
+      "epoch": 0.6981818181818182,
+      "grad_norm": 94847.96875,
+      "learning_rate": 4.5596412163267846e-05,
+      "loss": 2.1122,
+      "step": 270
+    },
+    {
+      "epoch": 0.724040404040404,
+      "grad_norm": 80977.328125,
+      "learning_rate": 4.518337466126826e-05,
+      "loss": 2.1004,
+      "step": 280
+    },
+    {
+      "epoch": 0.74989898989899,
+      "grad_norm": 97450.6796875,
+      "learning_rate": 4.4753875309392266e-05,
+      "loss": 2.0487,
+      "step": 290
+    },
+    {
+      "epoch": 0.7757575757575758,
+      "grad_norm": 69245.8125,
+      "learning_rate": 4.4308264413471814e-05,
+      "loss": 2.0288,
+      "step": 300
+    },
+    {
+      "epoch": 0.7757575757575758,
+      "eval_loss": 4.115316867828369,
+      "eval_runtime": 21.4236,
+      "eval_samples_per_second": 46.678,
+      "eval_steps_per_second": 2.941,
+      "step": 300
+    },
+    {
+      "epoch": 0.8016161616161617,
+      "grad_norm": 78553.4296875,
+      "learning_rate": 4.384690542014529e-05,
+      "loss": 2.0385,
+      "step": 310
+    },
+    {
+      "epoch": 0.8274747474747475,
+      "grad_norm": 68862.0859375,
+      "learning_rate": 4.3370174620425216e-05,
+      "loss": 2.0088,
+      "step": 320
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 96176.8515625,
+      "learning_rate": 4.2878460842789905e-05,
+      "loss": 2.0057,
+      "step": 330
+    },
+    {
+      "epoch": 0.8791919191919192,
+      "grad_norm": 109879.5859375,
+      "learning_rate": 4.237216513604933e-05,
+      "loss": 1.978,
+      "step": 340
+    },
+    {
+      "epoch": 0.9050505050505051,
+      "grad_norm": 111969.0234375,
+      "learning_rate": 4.185170044224404e-05,
+      "loss": 1.969,
+      "step": 350
+    },
+    {
+      "epoch": 0.9050505050505051,
+      "eval_loss": 3.927480936050415,
+      "eval_runtime": 21.4891,
+      "eval_samples_per_second": 46.535,
+      "eval_steps_per_second": 2.932,
+      "step": 350
+    },
+    {
+      "epoch": 0.9309090909090909,
+      "grad_norm": 94754.984375,
+      "learning_rate": 4.131749125984362e-05,
+      "loss": 1.9188,
+      "step": 360
+    },
+    {
+      "epoch": 0.9567676767676768,
+      "grad_norm": 96219.0234375,
+      "learning_rate": 4.076997329751977e-05,
+      "loss": 1.9077,
+      "step": 370
+    },
+    {
+      "epoch": 0.9826262626262626,
+      "grad_norm": 84781.5234375,
+      "learning_rate": 4.0209593118775937e-05,
+      "loss": 1.8951,
+      "step": 380
+    },
+    {
+      "epoch": 1.0077575757575759,
+      "grad_norm": 91395.078125,
+      "learning_rate": 3.963680777772377e-05,
+      "loss": 1.8716,
+      "step": 390
+    },
+    {
+      "epoch": 1.0336161616161617,
+      "grad_norm": 106231.5078125,
+      "learning_rate": 3.905208444630327e-05,
+      "loss": 1.8927,
+      "step": 400
+    },
+    {
+      "epoch": 1.0336161616161617,
+      "eval_loss": 3.7736313343048096,
+      "eval_runtime": 21.5204,
+      "eval_samples_per_second": 46.468,
+      "eval_steps_per_second": 2.927,
+      "step": 400
+    },
+    {
+      "epoch": 1.0594747474747475,
+      "grad_norm": 106825.3359375,
+      "learning_rate": 3.845590003325058e-05,
+      "loss": 1.8803,
+      "step": 410
+    },
+    {
+      "epoch": 1.0853333333333333,
+      "grad_norm": 80191.515625,
+      "learning_rate": 3.7848740795124436e-05,
+      "loss": 1.8041,
+      "step": 420
+    },
+    {
+      "epoch": 1.1111919191919193,
+      "grad_norm": 113625.0234375,
+      "learning_rate": 3.7231101939708305e-05,
+      "loss": 1.8161,
+      "step": 430
+    },
+    {
+      "epoch": 1.137050505050505,
+      "grad_norm": 91820.0546875,
+      "learning_rate": 3.660348722211186e-05,
+      "loss": 1.7924,
+      "step": 440
+    },
+    {
+      "epoch": 1.162909090909091,
+      "grad_norm": 108857.2578125,
+      "learning_rate": 3.596640853390103e-05,
+      "loss": 1.813,
+      "step": 450
+    },
+    {
+      "epoch": 1.162909090909091,
+      "eval_loss": 3.652933359146118,
+      "eval_runtime": 21.5614,
+      "eval_samples_per_second": 46.379,
+      "eval_steps_per_second": 2.922,
+      "step": 450
+    },
+    {
+      "epoch": 1.1887676767676767,
+      "grad_norm": 107753.078125,
+      "learning_rate": 3.532038548559193e-05,
+      "loss": 1.7731,
+      "step": 460
+    },
+    {
+      "epoch": 1.2146262626262627,
+      "grad_norm": 99259.5,
+      "learning_rate": 3.4665944982849086e-05,
+      "loss": 1.7662,
+      "step": 470
+    },
+    {
+      "epoch": 1.2404848484848485,
+      "grad_norm": 96071.25,
+      "learning_rate": 3.400362079673357e-05,
+      "loss": 1.8034,
+      "step": 480
+    },
+    {
+      "epoch": 1.2663434343434343,
+      "grad_norm": 100736.2890625,
+      "learning_rate": 3.33339531283517e-05,
+      "loss": 1.7841,
+      "step": 490
+    },
+    {
+      "epoch": 1.2922020202020201,
+      "grad_norm": 93535.171875,
+      "learning_rate": 3.26574881682593e-05,
+      "loss": 1.7428,
+      "step": 500
+    },
+    {
+      "epoch": 1.2922020202020201,
+      "eval_loss": 3.5527358055114746,
+      "eval_runtime": 21.3139,
+      "eval_samples_per_second": 46.918,
+      "eval_steps_per_second": 2.956,
+      "step": 500
+    },
+    {
+      "epoch": 1.3180606060606062,
+      "grad_norm": 78968.21875,
+      "learning_rate": 3.1974777650980735e-05,
+      "loss": 1.7202,
+      "step": 510
+    },
+    {
+      "epoch": 1.343919191919192,
+      "grad_norm": 115748.171875,
+      "learning_rate": 3.1286378405006465e-05,
+      "loss": 1.7063,
+      "step": 520
+    },
+    {
+      "epoch": 1.3697777777777778,
+      "grad_norm": 90799.15625,
+      "learning_rate": 3.059285189863564e-05,
+      "loss": 1.7286,
+      "step": 530
+    },
+    {
+      "epoch": 1.3956363636363636,
+      "grad_norm": 108626.28125,
+      "learning_rate": 2.9894763782034542e-05,
+      "loss": 1.709,
+      "step": 540
+    },
+    {
+      "epoch": 1.4214949494949494,
+      "grad_norm": 102933.5234375,
+      "learning_rate": 2.9192683425884164e-05,
+      "loss": 1.7114,
+      "step": 550
+    },
+    {
+      "epoch": 1.4214949494949494,
+      "eval_loss": 3.471935510635376,
+      "eval_runtime": 21.2904,
+      "eval_samples_per_second": 46.97,
+      "eval_steps_per_second": 2.959,
+      "step": 550
+    },
+    {
+      "epoch": 1.4473535353535354,
+      "grad_norm": 93085.421875,
+      "learning_rate": 2.8487183456993378e-05,
+      "loss": 1.6962,
+      "step": 560
+    },
+    {
+      "epoch": 1.4732121212121212,
+      "grad_norm": 79838.0859375,
+      "learning_rate": 2.7778839291256232e-05,
+      "loss": 1.6844,
+      "step": 570
+    },
+    {
+      "epoch": 1.499070707070707,
+      "grad_norm": 91634.3984375,
+      "learning_rate": 2.706822866433451e-05,
+      "loss": 1.6929,
+      "step": 580
+    },
+    {
+      "epoch": 1.524929292929293,
+      "grad_norm": 91946.4375,
+      "learning_rate": 2.6355931160448272e-05,
+      "loss": 1.6786,
+      "step": 590
+    },
+    {
+      "epoch": 1.5507878787878788,
+      "grad_norm": 69164.7265625,
+      "learning_rate": 2.564252773965861e-05,
+      "loss": 1.6562,
+      "step": 600
+    },
+    {
+      "epoch": 1.5507878787878788,
+      "eval_loss": 3.403024911880493,
+      "eval_runtime": 22.0604,
+      "eval_samples_per_second": 45.33,
+      "eval_steps_per_second": 2.856,
+      "step": 600
+    },
+    {
+      "epoch": 1.5766464646464646,
+      "grad_norm": 91655.7109375,
+      "learning_rate": 2.4928600264028312e-05,
+      "loss": 1.676,
+      "step": 610
+    },
+    {
+      "epoch": 1.6025050505050507,
+      "grad_norm": 88343.1875,
+      "learning_rate": 2.4214731023046793e-05,
+      "loss": 1.6749,
+      "step": 620
+    },
+    {
+      "epoch": 1.6283636363636362,
+      "grad_norm": 92792.515625,
+      "learning_rate": 2.3501502258706492e-05,
+      "loss": 1.6358,
+      "step": 630
+    },
+    {
+      "epoch": 1.6542222222222223,
+      "grad_norm": 89480.8671875,
+      "learning_rate": 2.2789495690617857e-05,
+      "loss": 1.6461,
+      "step": 640
+    },
+    {
+      "epoch": 1.680080808080808,
+      "grad_norm": 88156.109375,
+      "learning_rate": 2.2079292041550607e-05,
+      "loss": 1.6462,
+      "step": 650
+    },
+    {
+      "epoch": 1.680080808080808,
+      "eval_loss": 3.3437397480010986,
+      "eval_runtime": 21.5027,
+      "eval_samples_per_second": 46.506,
+      "eval_steps_per_second": 2.93,
+      "step": 650
+    },
+    {
+      "epoch": 1.7059393939393939,
+      "grad_norm": 113831.8671875,
+      "learning_rate": 2.1371470563787788e-05,
+      "loss": 1.6563,
+      "step": 660
+    },
+    {
+      "epoch": 1.73179797979798,
+      "grad_norm": 90395.5,
+      "learning_rate": 2.06666085666794e-05,
+      "loss": 1.6484,
+      "step": 670
+    },
+    {
+      "epoch": 1.7576565656565657,
+      "grad_norm": 102168.75,
+      "learning_rate": 1.9965280945780552e-05,
+      "loss": 1.6427,
+      "step": 680
+    },
+    {
+      "epoch": 1.7835151515151515,
+      "grad_norm": 107093.0625,
+      "learning_rate": 1.9268059713958437e-05,
+      "loss": 1.6518,
+      "step": 690
+    },
+    {
+      "epoch": 1.8093737373737375,
+      "grad_norm": 91756.90625,
+      "learning_rate": 1.857551353485039e-05,
+      "loss": 1.6305,
+      "step": 700
+    },
+    {
+      "epoch": 1.8093737373737375,
+      "eval_loss": 3.2984097003936768,
+      "eval_runtime": 21.4916,
+      "eval_samples_per_second": 46.53,
+      "eval_steps_per_second": 2.931,
+      "step": 700
+    },
+    {
+      "epoch": 1.835232323232323,
+      "grad_norm": 91322.09375,
+      "learning_rate": 1.788820725905373e-05,
+      "loss": 1.6342,
+      "step": 710
+    },
+    {
+      "epoch": 1.8610909090909091,
+      "grad_norm": 99315.203125,
+      "learning_rate": 1.7206701463425446e-05,
+      "loss": 1.6008,
+      "step": 720
+    },
+    {
+      "epoch": 1.886949494949495,
+      "grad_norm": 89938.4921875,
+      "learning_rate": 1.6531551993867717e-05,
+      "loss": 1.6294,
+      "step": 730
+    },
+    {
+      "epoch": 1.9128080808080807,
+      "grad_norm": 91629.78125,
+      "learning_rate": 1.5863309511971998e-05,
+      "loss": 1.5608,
+      "step": 740
+    },
+    {
+      "epoch": 1.9386666666666668,
+      "grad_norm": 91213.9296875,
+      "learning_rate": 1.5202519045891558e-05,
+      "loss": 1.627,
+      "step": 750
+    },
+    {
+      "epoch": 1.9386666666666668,
+      "eval_loss": 3.259477138519287,
+      "eval_runtime": 21.4965,
+      "eval_samples_per_second": 46.519,
+      "eval_steps_per_second": 2.931,
+      "step": 750
+    },
+    {
+      "epoch": 1.9645252525252526,
+      "grad_norm": 86313.796875,
+      "learning_rate": 1.4549719545808632e-05,
+      "loss": 1.5955,
+      "step": 760
+    },
+    {
+      "epoch": 1.9903838383838384,
+      "grad_norm": 80786.09375,
+      "learning_rate": 1.3905443444359025e-05,
+      "loss": 1.5658,
+      "step": 770
+    },
+    {
+      "epoch": 2.0155151515151517,
+      "grad_norm": 87623.234375,
+      "learning_rate": 1.3270216222372323e-05,
+      "loss": 1.5961,
+      "step": 780
+    },
+    {
+      "epoch": 2.0413737373737373,
+      "grad_norm": 81999.125,
+      "learning_rate": 1.2644555980282219e-05,
+      "loss": 1.5716,
+      "step": 790
+    },
+    {
+      "epoch": 2.0672323232323233,
+      "grad_norm": 78692.296875,
+      "learning_rate": 1.2028973015556413e-05,
+      "loss": 1.5748,
+      "step": 800
+    },
+    {
+      "epoch": 2.0672323232323233,
+      "eval_loss": 3.231915235519409,
+      "eval_runtime": 21.4941,
+      "eval_samples_per_second": 46.524,
+      "eval_steps_per_second": 2.931,
+      "step": 800
+    },
+    {
+      "epoch": 2.093090909090909,
+      "grad_norm": 85943.3359375,
+      "learning_rate": 1.142396940649062e-05,
+      "loss": 1.5775,
+      "step": 810
+    },
+    {
+      "epoch": 2.118949494949495,
+      "grad_norm": 89760.4765625,
+      "learning_rate": 1.0830038602706346e-05,
+      "loss": 1.5867,
+      "step": 820
+    },
+    {
+      "epoch": 2.144808080808081,
+      "grad_norm": 88100.2109375,
+      "learning_rate": 1.0247665022686262e-05,
+      "loss": 1.5792,
+      "step": 830
+    },
+    {
+      "epoch": 2.1706666666666665,
+      "grad_norm": 83300.453125,
+      "learning_rate": 9.677323658675594e-06,
+      "loss": 1.5703,
+      "step": 840
+    },
+    {
+      "epoch": 2.1965252525252525,
+      "grad_norm": 92031.609375,
+      "learning_rate": 9.11947968927157e-06,
+      "loss": 1.5711,
+      "step": 850
+    },
+    {
+      "epoch": 2.1965252525252525,
+      "eval_loss": 3.204101085662842,
+      "eval_runtime": 21.5224,
+      "eval_samples_per_second": 46.463,
+      "eval_steps_per_second": 2.927,
+      "step": 850
+    },
+    {
+      "epoch": 2.2223838383838386,
+      "grad_norm": 86591.40625,
+      "learning_rate": 8.574588100017159e-06,
+      "loss": 1.5752,
+      "step": 860
+    },
+    {
+      "epoch": 2.248242424242424,
+      "grad_norm": 101210.9609375,
+      "learning_rate": 8.043093312308248e-06,
+      "loss": 1.5828,
+      "step": 870
+    },
+    {
+      "epoch": 2.27410101010101,
+      "grad_norm": 88097.3984375,
+      "learning_rate": 7.525428820917288e-06,
+      "loss": 1.5628,
+      "step": 880
+    },
+    {
+      "epoch": 2.2999595959595958,
+      "grad_norm": 80520.515625,
+      "learning_rate": 7.022016840428614e-06,
+      "loss": 1.5892,
+      "step": 890
+    },
+    {
+      "epoch": 2.325818181818182,
+      "grad_norm": 71811.4921875,
+      "learning_rate": 6.533267960874282e-06,
+      "loss": 1.5501,
+      "step": 900
+    },
+    {
+      "epoch": 2.325818181818182,
+      "eval_loss": 3.186400890350342,
+      "eval_runtime": 21.3699,
+      "eval_samples_per_second": 46.795,
+      "eval_steps_per_second": 2.948,
+      "step": 900
+    },
+    {
+      "epoch": 2.351676767676768,
+      "grad_norm": 81277.7578125,
+      "learning_rate": 6.059580812850868e-06,
+      "loss": 1.5404,
+      "step": 910
+    },
+    {
+      "epoch": 2.3775353535353534,
+      "grad_norm": 72905.59375,
+      "learning_rate": 5.601341742390706e-06,
+      "loss": 1.5642,
+      "step": 920
+    },
+    {
+      "epoch": 2.4033939393939394,
+      "grad_norm": 74492.1484375,
+      "learning_rate": 5.158924495852454e-06,
+      "loss": 1.5425,
+      "step": 930
+    },
+    {
+      "epoch": 2.4292525252525254,
+      "grad_norm": 88411.46875,
+      "learning_rate": 4.732689915088262e-06,
+      "loss": 1.5386,
+      "step": 940
+    },
+    {
+      "epoch": 2.455111111111111,
+      "grad_norm": 85327.9765625,
+      "learning_rate": 4.322985643135952e-06,
+      "loss": 1.5771,
+      "step": 950
+    },
+    {
+      "epoch": 2.455111111111111,
+      "eval_loss": 3.1719841957092285,
+      "eval_runtime": 21.5946,
+      "eval_samples_per_second": 46.308,
+      "eval_steps_per_second": 2.917,
+      "step": 950
+    },
+    {
+      "epoch": 2.480969696969697,
+      "grad_norm": 91103.5390625,
+      "learning_rate": 3.9301458406763746e-06,
+      "loss": 1.5707,
+      "step": 960
+    },
+    {
+      "epoch": 2.506828282828283,
+      "grad_norm": 81763.5546875,
+      "learning_rate": 3.5544909134871545e-06,
+      "loss": 1.5226,
+      "step": 970
+    },
+    {
+      "epoch": 2.5326868686868687,
+      "grad_norm": 72524.65625,
+      "learning_rate": 3.1963272511151555e-06,
+      "loss": 1.5312,
+      "step": 980
+    },
+    {
+      "epoch": 2.5585454545454547,
+      "grad_norm": 71866.671875,
+      "learning_rate": 2.855946976980775e-06,
+      "loss": 1.5427,
+      "step": 990
+    },
+    {
+      "epoch": 2.5844040404040403,
+      "grad_norm": 65724.171875,
+      "learning_rate": 2.533627710117889e-06,
+      "loss": 1.5305,
+      "step": 1000
+    },
+    {
+      "epoch": 2.5844040404040403,
+      "eval_loss": 3.1618518829345703,
+      "eval_runtime": 21.5264,
+      "eval_samples_per_second": 46.455,
+      "eval_steps_per_second": 2.927,
+      "step": 1000
+    },
+    {
+      "epoch": 2.6102626262626263,
+      "grad_norm": 72455.2890625,
+      "learning_rate": 2.229632338743773e-06,
+      "loss": 1.5533,
+      "step": 1010
+    },
+    {
+      "epoch": 2.6361212121212123,
+      "grad_norm": 74930.046875,
+      "learning_rate": 1.9442088058437113e-06,
+      "loss": 1.5636,
+      "step": 1020
+    },
+    {
+      "epoch": 2.661979797979798,
+      "grad_norm": 71263.109375,
+      "learning_rate": 1.6775899069451512e-06,
+      "loss": 1.5899,
+      "step": 1030
+    },
+    {
+      "epoch": 2.687838383838384,
+      "grad_norm": 64114.171875,
+      "learning_rate": 1.4299931002463047e-06,
+      "loss": 1.5348,
+      "step": 1040
+    },
+    {
+      "epoch": 2.7136969696969695,
+      "grad_norm": 67584.8671875,
+      "learning_rate": 1.2016203292541578e-06,
+      "loss": 1.5518,
+      "step": 1050
+    },
+    {
+      "epoch": 2.7136969696969695,
+      "eval_loss": 3.1565101146698,
+      "eval_runtime": 21.4913,
+      "eval_samples_per_second": 46.53,
+      "eval_steps_per_second": 2.931,
+      "step": 1050
+    },
+    {
+      "epoch": 2.7395555555555555,
+      "grad_norm": 65095.58984375,
+      "learning_rate": 9.926578580764234e-07,
+      "loss": 1.5439,
+      "step": 1060
+    },
+    {
+      "epoch": 2.7654141414141415,
+      "grad_norm": 55857.4296875,
+      "learning_rate": 8.032761195018723e-07,
+      "loss": 1.5378,
+      "step": 1070
+    },
+    {
+      "epoch": 2.791272727272727,
+      "grad_norm": 59888.99609375,
+      "learning_rate": 6.336295759929028e-07,
+      "loss": 1.5323,
+      "step": 1080
+    },
+    {
+      "epoch": 2.817131313131313,
+      "grad_norm": 58884.90234375,
+      "learning_rate": 4.83856593703752e-07,
+      "loss": 1.5375,
+      "step": 1090
+    },
+    {
+      "epoch": 2.8429898989898987,
+      "grad_norm": 54516.77734375,
+      "learning_rate": 3.540793296270578e-07,
+      "loss": 1.5388,
+      "step": 1100
+    },
+    {
+      "epoch": 2.8429898989898987,
+      "eval_loss": 3.153146505355835,
+      "eval_runtime": 21.5113,
+      "eval_samples_per_second": 46.487,
+      "eval_steps_per_second": 2.929,
+      "step": 1100
+    },
+    {
+      "epoch": 2.8688484848484848,
+      "grad_norm": 52652.86328125,
+      "learning_rate": 2.4440363196087945e-07,
+      "loss": 1.5775,
+      "step": 1110
+    },
+    {
+      "epoch": 2.894707070707071,
+      "grad_norm": 54156.91796875,
+      "learning_rate": 1.5491895377737764e-07,
+      "loss": 1.5358,
+      "step": 1120
+    },
+    {
+      "epoch": 2.920565656565657,
+      "grad_norm": 46885.69921875,
+      "learning_rate": 8.569828006361469e-08,
+      "loss": 1.5392,
+      "step": 1130
+    },
+    {
+      "epoch": 2.9464242424242424,
+      "grad_norm": 50899.3359375,
+      "learning_rate": 3.6798068193946714e-08,
+      "loss": 1.5469,
+      "step": 1140
+    },
+    {
+      "epoch": 2.9722828282828284,
+      "grad_norm": 53669.515625,
+      "learning_rate": 8.25820188258275e-09,
+      "loss": 1.5226,
+      "step": 1150
+    },
+    {
+      "epoch": 2.9722828282828284,
+      "eval_loss": 3.152524948120117,
+      "eval_runtime": 21.5012,
+      "eval_samples_per_second": 46.509,
+      "eval_steps_per_second": 2.93,
+      "step": 1150
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1158,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.35914399232e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}