InnerLoopARMTForCausalLM_run_30 / trainer_state.json

Training checkpoint at step 6000

121a14d verified about 1 month ago

50.9 kB

	{
	"best_global_step": 5900,
	"best_metric": 2.4210917949676514,
	"best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-5000",
	"epoch": 0.12,
	"eval_steps": 100,
	"global_step": 6000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005,
	"grad_norm": 2.624103276270124,
	"learning_rate": 4.8e-08,
	"loss": 4.0893,
	"step": 25
	},
	{
	"epoch": 0.001,
	"grad_norm": 1.3629568986234561,
	"learning_rate": 9.8e-08,
	"loss": 3.9543,
	"step": 50
	},
	{
	"epoch": 0.0015,
	"grad_norm": 0.8050128701430977,
	"learning_rate": 1.4800000000000003e-07,
	"loss": 3.6763,
	"step": 75
	},
	{
	"epoch": 0.002,
	"grad_norm": 0.3690286383727022,
	"learning_rate": 1.9800000000000003e-07,
	"loss": 3.327,
	"step": 100
	},
	{
	"epoch": 0.002,
	"eval_loss": 3.100055694580078,
	"eval_runtime": 32.7706,
	"eval_samples_per_second": 3.57,
	"eval_steps_per_second": 1.8,
	"step": 100
	},
	{
	"epoch": 0.0025,
	"grad_norm": 0.24011694167100578,
	"learning_rate": 2.48e-07,
	"loss": 3.1322,
	"step": 125
	},
	{
	"epoch": 0.003,
	"grad_norm": 0.149511940963387,
	"learning_rate": 2.9800000000000005e-07,
	"loss": 2.9672,
	"step": 150
	},
	{
	"epoch": 0.0035,
	"grad_norm": 0.10071711520195754,
	"learning_rate": 3.48e-07,
	"loss": 2.8684,
	"step": 175
	},
	{
	"epoch": 0.004,
	"grad_norm": 0.09695377414070089,
	"learning_rate": 3.9800000000000004e-07,
	"loss": 2.8244,
	"step": 200
	},
	{
	"epoch": 0.004,
	"eval_loss": 2.7518060207366943,
	"eval_runtime": 32.9203,
	"eval_samples_per_second": 3.554,
	"eval_steps_per_second": 1.792,
	"step": 200
	},
	{
	"epoch": 0.0045,
	"grad_norm": 0.06541174981920718,
	"learning_rate": 4.4800000000000004e-07,
	"loss": 2.7736,
	"step": 225
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.061297886999798934,
	"learning_rate": 4.98e-07,
	"loss": 2.7392,
	"step": 250
	},
	{
	"epoch": 0.0055,
	"grad_norm": 0.07881073149840945,
	"learning_rate": 5.480000000000001e-07,
	"loss": 2.7194,
	"step": 275
	},
	{
	"epoch": 0.006,
	"grad_norm": 0.05125386617161651,
	"learning_rate": 5.98e-07,
	"loss": 2.6982,
	"step": 300
	},
	{
	"epoch": 0.006,
	"eval_loss": 2.6622018814086914,
	"eval_runtime": 32.9076,
	"eval_samples_per_second": 3.555,
	"eval_steps_per_second": 1.793,
	"step": 300
	},
	{
	"epoch": 0.0065,
	"grad_norm": 0.04659366450077996,
	"learning_rate": 6.48e-07,
	"loss": 2.6725,
	"step": 325
	},
	{
	"epoch": 0.007,
	"grad_norm": 0.04588097652548341,
	"learning_rate": 6.98e-07,
	"loss": 2.6592,
	"step": 350
	},
	{
	"epoch": 0.0075,
	"grad_norm": 0.058421958212028904,
	"learning_rate": 7.480000000000001e-07,
	"loss": 2.6481,
	"step": 375
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.04289575736155661,
	"learning_rate": 7.98e-07,
	"loss": 2.6257,
	"step": 400
	},
	{
	"epoch": 0.008,
	"eval_loss": 2.6052613258361816,
	"eval_runtime": 32.8227,
	"eval_samples_per_second": 3.565,
	"eval_steps_per_second": 1.798,
	"step": 400
	},
	{
	"epoch": 0.0085,
	"grad_norm": 0.041602666338794385,
	"learning_rate": 8.480000000000001e-07,
	"loss": 2.6089,
	"step": 425
	},
	{
	"epoch": 0.009,
	"grad_norm": 0.040090024026539266,
	"learning_rate": 8.980000000000001e-07,
	"loss": 2.5985,
	"step": 450
	},
	{
	"epoch": 0.0095,
	"grad_norm": 0.05346463020318845,
	"learning_rate": 9.480000000000001e-07,
	"loss": 2.5858,
	"step": 475
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.03240197247016216,
	"learning_rate": 9.98e-07,
	"loss": 2.5773,
	"step": 500
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.5677218437194824,
	"eval_runtime": 32.9146,
	"eval_samples_per_second": 3.555,
	"eval_steps_per_second": 1.793,
	"step": 500
	},
	{
	"epoch": 0.0105,
	"grad_norm": 0.030627609315729644,
	"learning_rate": 1.0480000000000002e-06,
	"loss": 2.5695,
	"step": 525
	},
	{
	"epoch": 0.011,
	"grad_norm": 0.03146801435404312,
	"learning_rate": 1.0980000000000001e-06,
	"loss": 2.558,
	"step": 550
	},
	{
	"epoch": 0.0115,
	"grad_norm": 0.028453864143727626,
	"learning_rate": 1.148e-06,
	"loss": 2.5645,
	"step": 575
	},
	{
	"epoch": 0.012,
	"grad_norm": 0.03026805511159676,
	"learning_rate": 1.1980000000000002e-06,
	"loss": 2.5645,
	"step": 600
	},
	{
	"epoch": 0.012,
	"eval_loss": 2.546586275100708,
	"eval_runtime": 32.8424,
	"eval_samples_per_second": 3.562,
	"eval_steps_per_second": 1.796,
	"step": 600
	},
	{
	"epoch": 0.0125,
	"grad_norm": 0.032033771539522,
	"learning_rate": 1.248e-06,
	"loss": 2.5424,
	"step": 625
	},
	{
	"epoch": 0.013,
	"grad_norm": 0.0281966122475446,
	"learning_rate": 1.2980000000000001e-06,
	"loss": 2.5409,
	"step": 650
	},
	{
	"epoch": 0.0135,
	"grad_norm": 0.02887428243284281,
	"learning_rate": 1.348e-06,
	"loss": 2.543,
	"step": 675
	},
	{
	"epoch": 0.014,
	"grad_norm": 0.027672621753278132,
	"learning_rate": 1.3980000000000002e-06,
	"loss": 2.5385,
	"step": 700
	},
	{
	"epoch": 0.014,
	"eval_loss": 2.530237913131714,
	"eval_runtime": 32.7994,
	"eval_samples_per_second": 3.567,
	"eval_steps_per_second": 1.799,
	"step": 700
	},
	{
	"epoch": 0.0145,
	"grad_norm": 0.030815191380069624,
	"learning_rate": 1.4480000000000002e-06,
	"loss": 2.5302,
	"step": 725
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.0336387385604783,
	"learning_rate": 1.498e-06,
	"loss": 2.531,
	"step": 750
	},
	{
	"epoch": 0.0155,
	"grad_norm": 0.02858543320323233,
	"learning_rate": 1.548e-06,
	"loss": 2.5184,
	"step": 775
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.028120393653995705,
	"learning_rate": 1.5980000000000002e-06,
	"loss": 2.5101,
	"step": 800
	},
	{
	"epoch": 0.016,
	"eval_loss": 2.5182888507843018,
	"eval_runtime": 33.2135,
	"eval_samples_per_second": 3.523,
	"eval_steps_per_second": 1.776,
	"step": 800
	},
	{
	"epoch": 0.0165,
	"grad_norm": 0.03014167593156162,
	"learning_rate": 1.6480000000000001e-06,
	"loss": 2.5232,
	"step": 825
	},
	{
	"epoch": 0.017,
	"grad_norm": 0.028528349033195077,
	"learning_rate": 1.6980000000000003e-06,
	"loss": 2.5162,
	"step": 850
	},
	{
	"epoch": 0.0175,
	"grad_norm": 0.031230193601244804,
	"learning_rate": 1.7480000000000002e-06,
	"loss": 2.4995,
	"step": 875
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.03555060954716827,
	"learning_rate": 1.798e-06,
	"loss": 2.5064,
	"step": 900
	},
	{
	"epoch": 0.018,
	"eval_loss": 2.5070879459381104,
	"eval_runtime": 33.3807,
	"eval_samples_per_second": 3.505,
	"eval_steps_per_second": 1.767,
	"step": 900
	},
	{
	"epoch": 0.0185,
	"grad_norm": 0.03561871969060444,
	"learning_rate": 1.8480000000000001e-06,
	"loss": 2.5004,
	"step": 925
	},
	{
	"epoch": 0.019,
	"grad_norm": 0.03094584673111385,
	"learning_rate": 1.898e-06,
	"loss": 2.4959,
	"step": 950
	},
	{
	"epoch": 0.0195,
	"grad_norm": 0.035545021685136444,
	"learning_rate": 1.9480000000000002e-06,
	"loss": 2.4982,
	"step": 975
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.0370422613473599,
	"learning_rate": 1.998e-06,
	"loss": 2.4927,
	"step": 1000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.4966063499450684,
	"eval_runtime": 33.3038,
	"eval_samples_per_second": 3.513,
	"eval_steps_per_second": 1.772,
	"step": 1000
	},
	{
	"epoch": 0.0205,
	"grad_norm": 0.04199895036530391,
	"learning_rate": 2.048e-06,
	"loss": 2.4847,
	"step": 1025
	},
	{
	"epoch": 0.021,
	"grad_norm": 0.0384304039845165,
	"learning_rate": 2.098e-06,
	"loss": 2.4916,
	"step": 1050
	},
	{
	"epoch": 0.0215,
	"grad_norm": 0.03291684378446945,
	"learning_rate": 2.148e-06,
	"loss": 2.4891,
	"step": 1075
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.03376054787167217,
	"learning_rate": 2.198e-06,
	"loss": 2.4896,
	"step": 1100
	},
	{
	"epoch": 0.022,
	"eval_loss": 2.488358974456787,
	"eval_runtime": 33.2437,
	"eval_samples_per_second": 3.519,
	"eval_steps_per_second": 1.775,
	"step": 1100
	},
	{
	"epoch": 0.0225,
	"grad_norm": 0.04001450258151374,
	"learning_rate": 2.2480000000000003e-06,
	"loss": 2.4855,
	"step": 1125
	},
	{
	"epoch": 0.023,
	"grad_norm": 0.036190398257348835,
	"learning_rate": 2.2980000000000003e-06,
	"loss": 2.4834,
	"step": 1150
	},
	{
	"epoch": 0.0235,
	"grad_norm": 0.03806535632489679,
	"learning_rate": 2.3480000000000002e-06,
	"loss": 2.48,
	"step": 1175
	},
	{
	"epoch": 0.024,
	"grad_norm": 0.039255476981030824,
	"learning_rate": 2.398e-06,
	"loss": 2.4853,
	"step": 1200
	},
	{
	"epoch": 0.024,
	"eval_loss": 2.481823205947876,
	"eval_runtime": 33.3121,
	"eval_samples_per_second": 3.512,
	"eval_steps_per_second": 1.771,
	"step": 1200
	},
	{
	"epoch": 0.0245,
	"grad_norm": 0.037361446323077335,
	"learning_rate": 2.448e-06,
	"loss": 2.4776,
	"step": 1225
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.03410866644624654,
	"learning_rate": 2.498e-06,
	"loss": 2.4672,
	"step": 1250
	},
	{
	"epoch": 0.0255,
	"grad_norm": 0.03501276078614437,
	"learning_rate": 2.5480000000000004e-06,
	"loss": 2.4633,
	"step": 1275
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.035383520468643466,
	"learning_rate": 2.598e-06,
	"loss": 2.4647,
	"step": 1300
	},
	{
	"epoch": 0.026,
	"eval_loss": 2.476562976837158,
	"eval_runtime": 33.4013,
	"eval_samples_per_second": 3.503,
	"eval_steps_per_second": 1.766,
	"step": 1300
	},
	{
	"epoch": 0.0265,
	"grad_norm": 0.03467179176189109,
	"learning_rate": 2.648e-06,
	"loss": 2.476,
	"step": 1325
	},
	{
	"epoch": 0.027,
	"grad_norm": 0.03925271631713796,
	"learning_rate": 2.6980000000000003e-06,
	"loss": 2.4675,
	"step": 1350
	},
	{
	"epoch": 0.0275,
	"grad_norm": 0.03419652940921129,
	"learning_rate": 2.748e-06,
	"loss": 2.4708,
	"step": 1375
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.03764216373530557,
	"learning_rate": 2.798e-06,
	"loss": 2.4709,
	"step": 1400
	},
	{
	"epoch": 0.028,
	"eval_loss": 2.471618175506592,
	"eval_runtime": 33.0936,
	"eval_samples_per_second": 3.535,
	"eval_steps_per_second": 1.783,
	"step": 1400
	},
	{
	"epoch": 0.0285,
	"grad_norm": 0.03802047455035515,
	"learning_rate": 2.848e-06,
	"loss": 2.4608,
	"step": 1425
	},
	{
	"epoch": 0.029,
	"grad_norm": 0.03323072329115027,
	"learning_rate": 2.8980000000000005e-06,
	"loss": 2.4695,
	"step": 1450
	},
	{
	"epoch": 0.0295,
	"grad_norm": 0.03693054288365918,
	"learning_rate": 2.9480000000000004e-06,
	"loss": 2.4635,
	"step": 1475
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.06509796100945928,
	"learning_rate": 2.9980000000000003e-06,
	"loss": 2.467,
	"step": 1500
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.467376232147217,
	"eval_runtime": 33.1827,
	"eval_samples_per_second": 3.526,
	"eval_steps_per_second": 1.778,
	"step": 1500
	},
	{
	"epoch": 0.0305,
	"grad_norm": 0.030120041993102375,
	"learning_rate": 3.0480000000000003e-06,
	"loss": 2.463,
	"step": 1525
	},
	{
	"epoch": 0.031,
	"grad_norm": 0.039881744916892024,
	"learning_rate": 3.0980000000000007e-06,
	"loss": 2.4533,
	"step": 1550
	},
	{
	"epoch": 0.0315,
	"grad_norm": 0.029950518864288997,
	"learning_rate": 3.1480000000000006e-06,
	"loss": 2.4585,
	"step": 1575
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.07753499473514511,
	"learning_rate": 3.198e-06,
	"loss": 2.4502,
	"step": 1600
	},
	{
	"epoch": 0.032,
	"eval_loss": 2.4625656604766846,
	"eval_runtime": 33.2433,
	"eval_samples_per_second": 3.52,
	"eval_steps_per_second": 1.775,
	"step": 1600
	},
	{
	"epoch": 0.0325,
	"grad_norm": 0.048526204949902306,
	"learning_rate": 3.248e-06,
	"loss": 2.45,
	"step": 1625
	},
	{
	"epoch": 0.033,
	"grad_norm": 0.0378506235382453,
	"learning_rate": 3.298e-06,
	"loss": 2.4488,
	"step": 1650
	},
	{
	"epoch": 0.0335,
	"grad_norm": 0.03228564469275673,
	"learning_rate": 3.348e-06,
	"loss": 2.4568,
	"step": 1675
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.03417826301349761,
	"learning_rate": 3.3980000000000003e-06,
	"loss": 2.4514,
	"step": 1700
	},
	{
	"epoch": 0.034,
	"eval_loss": 2.459094762802124,
	"eval_runtime": 33.1684,
	"eval_samples_per_second": 3.527,
	"eval_steps_per_second": 1.779,
	"step": 1700
	},
	{
	"epoch": 0.0345,
	"grad_norm": 0.03119990821359214,
	"learning_rate": 3.4480000000000003e-06,
	"loss": 2.4447,
	"step": 1725
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.032737257559355144,
	"learning_rate": 3.4980000000000002e-06,
	"loss": 2.4531,
	"step": 1750
	},
	{
	"epoch": 0.0355,
	"grad_norm": 0.03341768726028273,
	"learning_rate": 3.548e-06,
	"loss": 2.4476,
	"step": 1775
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.03225090122428514,
	"learning_rate": 3.5980000000000005e-06,
	"loss": 2.4403,
	"step": 1800
	},
	{
	"epoch": 0.036,
	"eval_loss": 2.455217123031616,
	"eval_runtime": 32.9783,
	"eval_samples_per_second": 3.548,
	"eval_steps_per_second": 1.789,
	"step": 1800
	},
	{
	"epoch": 0.0365,
	"grad_norm": 0.030979620558740147,
	"learning_rate": 3.6480000000000005e-06,
	"loss": 2.4379,
	"step": 1825
	},
	{
	"epoch": 0.037,
	"grad_norm": 0.04044689712503281,
	"learning_rate": 3.6980000000000004e-06,
	"loss": 2.455,
	"step": 1850
	},
	{
	"epoch": 0.0375,
	"grad_norm": 0.034557037951751954,
	"learning_rate": 3.7480000000000004e-06,
	"loss": 2.4517,
	"step": 1875
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.02821125825480679,
	"learning_rate": 3.7980000000000007e-06,
	"loss": 2.4429,
	"step": 1900
	},
	{
	"epoch": 0.038,
	"eval_loss": 2.4529292583465576,
	"eval_runtime": 33.4058,
	"eval_samples_per_second": 3.502,
	"eval_steps_per_second": 1.766,
	"step": 1900
	},
	{
	"epoch": 0.0385,
	"grad_norm": 0.029890640830031213,
	"learning_rate": 3.848e-06,
	"loss": 2.4437,
	"step": 1925
	},
	{
	"epoch": 0.039,
	"grad_norm": 0.03265759623511245,
	"learning_rate": 3.898e-06,
	"loss": 2.438,
	"step": 1950
	},
	{
	"epoch": 0.0395,
	"grad_norm": 0.10385356338699042,
	"learning_rate": 3.948e-06,
	"loss": 2.4442,
	"step": 1975
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.03233294644174686,
	"learning_rate": 3.9980000000000005e-06,
	"loss": 2.4451,
	"step": 2000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.450512647628784,
	"eval_runtime": 33.274,
	"eval_samples_per_second": 3.516,
	"eval_steps_per_second": 1.773,
	"step": 2000
	},
	{
	"epoch": 0.0405,
	"grad_norm": 0.034945541932647324,
	"learning_rate": 4.048e-06,
	"loss": 2.4357,
	"step": 2025
	},
	{
	"epoch": 0.041,
	"grad_norm": 0.029322959861707003,
	"learning_rate": 4.098e-06,
	"loss": 2.4373,
	"step": 2050
	},
	{
	"epoch": 0.0415,
	"grad_norm": 0.027365033479394632,
	"learning_rate": 4.148000000000001e-06,
	"loss": 2.442,
	"step": 2075
	},
	{
	"epoch": 0.042,
	"grad_norm": 0.042214130565513416,
	"learning_rate": 4.198e-06,
	"loss": 2.4362,
	"step": 2100
	},
	{
	"epoch": 0.042,
	"eval_loss": 2.448322296142578,
	"eval_runtime": 33.466,
	"eval_samples_per_second": 3.496,
	"eval_steps_per_second": 1.763,
	"step": 2100
	},
	{
	"epoch": 0.0425,
	"grad_norm": 0.028874346576168566,
	"learning_rate": 4.248000000000001e-06,
	"loss": 2.4428,
	"step": 2125
	},
	{
	"epoch": 0.043,
	"grad_norm": 0.029771861998040296,
	"learning_rate": 4.298e-06,
	"loss": 2.4298,
	"step": 2150
	},
	{
	"epoch": 0.0435,
	"grad_norm": 0.029668415484575914,
	"learning_rate": 4.3480000000000006e-06,
	"loss": 2.4352,
	"step": 2175
	},
	{
	"epoch": 0.044,
	"grad_norm": 0.02564927582570633,
	"learning_rate": 4.398000000000001e-06,
	"loss": 2.4349,
	"step": 2200
	},
	{
	"epoch": 0.044,
	"eval_loss": 2.4465889930725098,
	"eval_runtime": 33.3555,
	"eval_samples_per_second": 3.508,
	"eval_steps_per_second": 1.769,
	"step": 2200
	},
	{
	"epoch": 0.0445,
	"grad_norm": 0.024797235968250814,
	"learning_rate": 4.4480000000000004e-06,
	"loss": 2.4409,
	"step": 2225
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.02813189377877088,
	"learning_rate": 4.498e-06,
	"loss": 2.4367,
	"step": 2250
	},
	{
	"epoch": 0.0455,
	"grad_norm": 0.02750903211389184,
	"learning_rate": 4.548e-06,
	"loss": 2.4326,
	"step": 2275
	},
	{
	"epoch": 0.046,
	"grad_norm": 0.027737559952553607,
	"learning_rate": 4.598e-06,
	"loss": 2.4375,
	"step": 2300
	},
	{
	"epoch": 0.046,
	"eval_loss": 2.4448626041412354,
	"eval_runtime": 33.2658,
	"eval_samples_per_second": 3.517,
	"eval_steps_per_second": 1.774,
	"step": 2300
	},
	{
	"epoch": 0.0465,
	"grad_norm": 0.02630663299301831,
	"learning_rate": 4.648e-06,
	"loss": 2.4392,
	"step": 2325
	},
	{
	"epoch": 0.047,
	"grad_norm": 0.027929449055597393,
	"learning_rate": 4.698000000000001e-06,
	"loss": 2.4256,
	"step": 2350
	},
	{
	"epoch": 0.0475,
	"grad_norm": 0.0283193243102273,
	"learning_rate": 4.748e-06,
	"loss": 2.429,
	"step": 2375
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.029295313451333963,
	"learning_rate": 4.7980000000000005e-06,
	"loss": 2.4393,
	"step": 2400
	},
	{
	"epoch": 0.048,
	"eval_loss": 2.4432175159454346,
	"eval_runtime": 33.3067,
	"eval_samples_per_second": 3.513,
	"eval_steps_per_second": 1.771,
	"step": 2400
	},
	{
	"epoch": 0.0485,
	"grad_norm": 0.025382897552394503,
	"learning_rate": 4.848000000000001e-06,
	"loss": 2.4322,
	"step": 2425
	},
	{
	"epoch": 0.049,
	"grad_norm": 0.02450548193909556,
	"learning_rate": 4.898e-06,
	"loss": 2.4314,
	"step": 2450
	},
	{
	"epoch": 0.0495,
	"grad_norm": 0.033065483070063684,
	"learning_rate": 4.948000000000001e-06,
	"loss": 2.4338,
	"step": 2475
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.027543894857825314,
	"learning_rate": 4.998e-06,
	"loss": 2.4333,
	"step": 2500
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.441807985305786,
	"eval_runtime": 33.0379,
	"eval_samples_per_second": 3.541,
	"eval_steps_per_second": 1.786,
	"step": 2500
	},
	{
	"epoch": 0.0505,
	"grad_norm": 0.027354239436717945,
	"learning_rate": 5.048000000000001e-06,
	"loss": 2.439,
	"step": 2525
	},
	{
	"epoch": 0.051,
	"grad_norm": 0.022458884368301627,
	"learning_rate": 5.098000000000001e-06,
	"loss": 2.427,
	"step": 2550
	},
	{
	"epoch": 0.0515,
	"grad_norm": 0.033350881745701555,
	"learning_rate": 5.1480000000000005e-06,
	"loss": 2.4275,
	"step": 2575
	},
	{
	"epoch": 0.052,
	"grad_norm": 0.025032545530163004,
	"learning_rate": 5.198000000000001e-06,
	"loss": 2.4275,
	"step": 2600
	},
	{
	"epoch": 0.052,
	"eval_loss": 2.440882444381714,
	"eval_runtime": 33.1835,
	"eval_samples_per_second": 3.526,
	"eval_steps_per_second": 1.778,
	"step": 2600
	},
	{
	"epoch": 0.0525,
	"grad_norm": 0.026294170044068685,
	"learning_rate": 5.248000000000001e-06,
	"loss": 2.4312,
	"step": 2625
	},
	{
	"epoch": 0.053,
	"grad_norm": 0.03301155351988982,
	"learning_rate": 5.298000000000001e-06,
	"loss": 2.4203,
	"step": 2650
	},
	{
	"epoch": 0.0535,
	"grad_norm": 0.02389586194961339,
	"learning_rate": 5.348000000000001e-06,
	"loss": 2.4332,
	"step": 2675
	},
	{
	"epoch": 0.054,
	"grad_norm": 0.056862279743176244,
	"learning_rate": 5.398e-06,
	"loss": 2.4313,
	"step": 2700
	},
	{
	"epoch": 0.054,
	"eval_loss": 2.4402644634246826,
	"eval_runtime": 33.2071,
	"eval_samples_per_second": 3.523,
	"eval_steps_per_second": 1.777,
	"step": 2700
	},
	{
	"epoch": 0.0545,
	"grad_norm": 0.025636671246445756,
	"learning_rate": 5.448e-06,
	"loss": 2.4311,
	"step": 2725
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.022083605910153424,
	"learning_rate": 5.498e-06,
	"loss": 2.4357,
	"step": 2750
	},
	{
	"epoch": 0.0555,
	"grad_norm": 0.024223735712298522,
	"learning_rate": 5.548e-06,
	"loss": 2.4294,
	"step": 2775
	},
	{
	"epoch": 0.056,
	"grad_norm": 0.029847698463432104,
	"learning_rate": 5.5980000000000004e-06,
	"loss": 2.4344,
	"step": 2800
	},
	{
	"epoch": 0.056,
	"eval_loss": 2.4389007091522217,
	"eval_runtime": 33.2705,
	"eval_samples_per_second": 3.517,
	"eval_steps_per_second": 1.773,
	"step": 2800
	},
	{
	"epoch": 0.0565,
	"grad_norm": 0.032144633236930065,
	"learning_rate": 5.648e-06,
	"loss": 2.4282,
	"step": 2825
	},
	{
	"epoch": 0.057,
	"grad_norm": 0.02355863809037046,
	"learning_rate": 5.698e-06,
	"loss": 2.4322,
	"step": 2850
	},
	{
	"epoch": 0.0575,
	"grad_norm": 0.023728744427970416,
	"learning_rate": 5.748e-06,
	"loss": 2.4286,
	"step": 2875
	},
	{
	"epoch": 0.058,
	"grad_norm": 0.025539915034515293,
	"learning_rate": 5.798e-06,
	"loss": 2.4287,
	"step": 2900
	},
	{
	"epoch": 0.058,
	"eval_loss": 2.4376914501190186,
	"eval_runtime": 33.3179,
	"eval_samples_per_second": 3.512,
	"eval_steps_per_second": 1.771,
	"step": 2900
	},
	{
	"epoch": 0.0585,
	"grad_norm": 0.023457547558388747,
	"learning_rate": 5.848000000000001e-06,
	"loss": 2.4289,
	"step": 2925
	},
	{
	"epoch": 0.059,
	"grad_norm": 0.025297710201421797,
	"learning_rate": 5.898e-06,
	"loss": 2.4274,
	"step": 2950
	},
	{
	"epoch": 0.0595,
	"grad_norm": 0.024155176530161276,
	"learning_rate": 5.9480000000000005e-06,
	"loss": 2.4169,
	"step": 2975
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.023954841726960448,
	"learning_rate": 5.998000000000001e-06,
	"loss": 2.4244,
	"step": 3000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.436969041824341,
	"eval_runtime": 33.2713,
	"eval_samples_per_second": 3.517,
	"eval_steps_per_second": 1.773,
	"step": 3000
	},
	{
	"epoch": 0.0605,
	"grad_norm": 0.025507916252978883,
	"learning_rate": 6.048e-06,
	"loss": 2.4192,
	"step": 3025
	},
	{
	"epoch": 0.061,
	"grad_norm": 0.02126046028834697,
	"learning_rate": 6.098000000000001e-06,
	"loss": 2.4233,
	"step": 3050
	},
	{
	"epoch": 0.0615,
	"grad_norm": 0.026235681014214807,
	"learning_rate": 6.148e-06,
	"loss": 2.4215,
	"step": 3075
	},
	{
	"epoch": 0.062,
	"grad_norm": 0.026243691288249413,
	"learning_rate": 6.198000000000001e-06,
	"loss": 2.4134,
	"step": 3100
	},
	{
	"epoch": 0.062,
	"eval_loss": 2.435988664627075,
	"eval_runtime": 33.0276,
	"eval_samples_per_second": 3.542,
	"eval_steps_per_second": 1.786,
	"step": 3100
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.02496599291141367,
	"learning_rate": 6.248000000000001e-06,
	"loss": 2.4241,
	"step": 3125
	},
	{
	"epoch": 0.063,
	"grad_norm": 0.0236951365360608,
	"learning_rate": 6.2980000000000005e-06,
	"loss": 2.4252,
	"step": 3150
	},
	{
	"epoch": 0.0635,
	"grad_norm": 0.022752035914773892,
	"learning_rate": 6.348000000000001e-06,
	"loss": 2.4244,
	"step": 3175
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.021656953860252137,
	"learning_rate": 6.398000000000001e-06,
	"loss": 2.4227,
	"step": 3200
	},
	{
	"epoch": 0.064,
	"eval_loss": 2.43520450592041,
	"eval_runtime": 33.136,
	"eval_samples_per_second": 3.531,
	"eval_steps_per_second": 1.781,
	"step": 3200
	},
	{
	"epoch": 0.0645,
	"grad_norm": 0.021188520683488872,
	"learning_rate": 6.448000000000001e-06,
	"loss": 2.4248,
	"step": 3225
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.02274972468402099,
	"learning_rate": 6.498000000000001e-06,
	"loss": 2.4215,
	"step": 3250
	},
	{
	"epoch": 0.0655,
	"grad_norm": 0.024046700552500286,
	"learning_rate": 6.548000000000001e-06,
	"loss": 2.4169,
	"step": 3275
	},
	{
	"epoch": 0.066,
	"grad_norm": 0.022071385618052216,
	"learning_rate": 6.598000000000001e-06,
	"loss": 2.4199,
	"step": 3300
	},
	{
	"epoch": 0.066,
	"eval_loss": 2.4344840049743652,
	"eval_runtime": 33.1729,
	"eval_samples_per_second": 3.527,
	"eval_steps_per_second": 1.779,
	"step": 3300
	},
	{
	"epoch": 0.0665,
	"grad_norm": 0.02931021842271797,
	"learning_rate": 6.648e-06,
	"loss": 2.4253,
	"step": 3325
	},
	{
	"epoch": 0.067,
	"grad_norm": 0.021754527434557868,
	"learning_rate": 6.698e-06,
	"loss": 2.4281,
	"step": 3350
	},
	{
	"epoch": 0.0675,
	"grad_norm": 0.022651522972508432,
	"learning_rate": 6.7480000000000004e-06,
	"loss": 2.4208,
	"step": 3375
	},
	{
	"epoch": 0.068,
	"grad_norm": 0.022676405563792287,
	"learning_rate": 6.798e-06,
	"loss": 2.4222,
	"step": 3400
	},
	{
	"epoch": 0.068,
	"eval_loss": 2.43371844291687,
	"eval_runtime": 33.1293,
	"eval_samples_per_second": 3.532,
	"eval_steps_per_second": 1.781,
	"step": 3400
	},
	{
	"epoch": 0.0685,
	"grad_norm": 0.021100680573628707,
	"learning_rate": 6.848e-06,
	"loss": 2.4243,
	"step": 3425
	},
	{
	"epoch": 0.069,
	"grad_norm": 0.02101417038408147,
	"learning_rate": 6.898e-06,
	"loss": 2.4242,
	"step": 3450
	},
	{
	"epoch": 0.0695,
	"grad_norm": 0.022432735157488455,
	"learning_rate": 6.948e-06,
	"loss": 2.4224,
	"step": 3475
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.02164716008760555,
	"learning_rate": 6.998000000000001e-06,
	"loss": 2.4202,
	"step": 3500
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.433281898498535,
	"eval_runtime": 33.0783,
	"eval_samples_per_second": 3.537,
	"eval_steps_per_second": 1.784,
	"step": 3500
	},
	{
	"epoch": 0.0705,
	"grad_norm": 0.022412840176404082,
	"learning_rate": 7.048e-06,
	"loss": 2.4184,
	"step": 3525
	},
	{
	"epoch": 0.071,
	"grad_norm": 0.025300113537910857,
	"learning_rate": 7.0980000000000005e-06,
	"loss": 2.421,
	"step": 3550
	},
	{
	"epoch": 0.0715,
	"grad_norm": 0.022085711512698558,
	"learning_rate": 7.148000000000001e-06,
	"loss": 2.415,
	"step": 3575
	},
	{
	"epoch": 0.072,
	"grad_norm": 0.021041258769866313,
	"learning_rate": 7.198e-06,
	"loss": 2.4157,
	"step": 3600
	},
	{
	"epoch": 0.072,
	"eval_loss": 2.4324123859405518,
	"eval_runtime": 34.1633,
	"eval_samples_per_second": 3.425,
	"eval_steps_per_second": 1.727,
	"step": 3600
	},
	{
	"epoch": 0.0725,
	"grad_norm": 0.021694681795354324,
	"learning_rate": 7.248000000000001e-06,
	"loss": 2.4152,
	"step": 3625
	},
	{
	"epoch": 0.073,
	"grad_norm": 0.03056130171104773,
	"learning_rate": 7.298e-06,
	"loss": 2.4151,
	"step": 3650
	},
	{
	"epoch": 0.0735,
	"grad_norm": 0.02112814663770162,
	"learning_rate": 7.348000000000001e-06,
	"loss": 2.4163,
	"step": 3675
	},
	{
	"epoch": 0.074,
	"grad_norm": 0.024883267721069864,
	"learning_rate": 7.398000000000001e-06,
	"loss": 2.4258,
	"step": 3700
	},
	{
	"epoch": 0.074,
	"eval_loss": 2.4319984912872314,
	"eval_runtime": 33.2699,
	"eval_samples_per_second": 3.517,
	"eval_steps_per_second": 1.773,
	"step": 3700
	},
	{
	"epoch": 0.0745,
	"grad_norm": 0.02062910451612879,
	"learning_rate": 7.4480000000000005e-06,
	"loss": 2.4263,
	"step": 3725
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.021068085012478772,
	"learning_rate": 7.498000000000001e-06,
	"loss": 2.4216,
	"step": 3750
	},
	{
	"epoch": 0.0755,
	"grad_norm": 0.020665118516629687,
	"learning_rate": 7.548000000000001e-06,
	"loss": 2.4285,
	"step": 3775
	},
	{
	"epoch": 0.076,
	"grad_norm": 0.02425992757924128,
	"learning_rate": 7.598000000000001e-06,
	"loss": 2.4174,
	"step": 3800
	},
	{
	"epoch": 0.076,
	"eval_loss": 2.4310436248779297,
	"eval_runtime": 35.0728,
	"eval_samples_per_second": 3.336,
	"eval_steps_per_second": 1.682,
	"step": 3800
	},
	{
	"epoch": 0.0765,
	"grad_norm": 0.021337004595007786,
	"learning_rate": 7.648e-06,
	"loss": 2.4303,
	"step": 3825
	},
	{
	"epoch": 0.077,
	"grad_norm": 0.020168500131750186,
	"learning_rate": 7.698000000000002e-06,
	"loss": 2.4298,
	"step": 3850
	},
	{
	"epoch": 0.0775,
	"grad_norm": 0.020089032493824672,
	"learning_rate": 7.748000000000001e-06,
	"loss": 2.4151,
	"step": 3875
	},
	{
	"epoch": 0.078,
	"grad_norm": 0.02462630071931115,
	"learning_rate": 7.798e-06,
	"loss": 2.4235,
	"step": 3900
	},
	{
	"epoch": 0.078,
	"eval_loss": 2.431330442428589,
	"eval_runtime": 33.093,
	"eval_samples_per_second": 3.535,
	"eval_steps_per_second": 1.783,
	"step": 3900
	},
	{
	"epoch": 0.0785,
	"grad_norm": 0.0226705620922379,
	"learning_rate": 7.848000000000002e-06,
	"loss": 2.4185,
	"step": 3925
	},
	{
	"epoch": 0.079,
	"grad_norm": 0.022075041269811142,
	"learning_rate": 7.898e-06,
	"loss": 2.4344,
	"step": 3950
	},
	{
	"epoch": 0.0795,
	"grad_norm": 0.03932607113814955,
	"learning_rate": 7.948e-06,
	"loss": 2.4228,
	"step": 3975
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.020604342831921824,
	"learning_rate": 7.998e-06,
	"loss": 2.4289,
	"step": 4000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.430954933166504,
	"eval_runtime": 33.1216,
	"eval_samples_per_second": 3.532,
	"eval_steps_per_second": 1.781,
	"step": 4000
	},
	{
	"epoch": 0.0805,
	"grad_norm": 0.021865944897834468,
	"learning_rate": 8.048e-06,
	"loss": 2.4283,
	"step": 4025
	},
	{
	"epoch": 0.081,
	"grad_norm": 0.020393010409248808,
	"learning_rate": 8.098000000000001e-06,
	"loss": 2.4142,
	"step": 4050
	},
	{
	"epoch": 0.0815,
	"grad_norm": 0.02279155824698799,
	"learning_rate": 8.148e-06,
	"loss": 2.4208,
	"step": 4075
	},
	{
	"epoch": 0.082,
	"grad_norm": 0.021110562493101104,
	"learning_rate": 8.198e-06,
	"loss": 2.4093,
	"step": 4100
	},
	{
	"epoch": 0.082,
	"eval_loss": 2.4299628734588623,
	"eval_runtime": 33.2215,
	"eval_samples_per_second": 3.522,
	"eval_steps_per_second": 1.776,
	"step": 4100
	},
	{
	"epoch": 0.0825,
	"grad_norm": 0.019752507861163327,
	"learning_rate": 8.248e-06,
	"loss": 2.4073,
	"step": 4125
	},
	{
	"epoch": 0.083,
	"grad_norm": 0.019897433088879975,
	"learning_rate": 8.298000000000001e-06,
	"loss": 2.4129,
	"step": 4150
	},
	{
	"epoch": 0.0835,
	"grad_norm": 0.02275241957806373,
	"learning_rate": 8.348e-06,
	"loss": 2.4243,
	"step": 4175
	},
	{
	"epoch": 0.084,
	"grad_norm": 0.02009113389579191,
	"learning_rate": 8.398e-06,
	"loss": 2.4138,
	"step": 4200
	},
	{
	"epoch": 0.084,
	"eval_loss": 2.4301230907440186,
	"eval_runtime": 33.0641,
	"eval_samples_per_second": 3.539,
	"eval_steps_per_second": 1.784,
	"step": 4200
	},
	{
	"epoch": 0.0845,
	"grad_norm": 0.021259070586902896,
	"learning_rate": 8.448000000000001e-06,
	"loss": 2.4212,
	"step": 4225
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.021461643865178466,
	"learning_rate": 8.498e-06,
	"loss": 2.4242,
	"step": 4250
	},
	{
	"epoch": 0.0855,
	"grad_norm": 0.02129278617109427,
	"learning_rate": 8.548e-06,
	"loss": 2.4153,
	"step": 4275
	},
	{
	"epoch": 0.086,
	"grad_norm": 0.019884381961586706,
	"learning_rate": 8.598000000000001e-06,
	"loss": 2.4107,
	"step": 4300
	},
	{
	"epoch": 0.086,
	"eval_loss": 2.429638385772705,
	"eval_runtime": 33.1452,
	"eval_samples_per_second": 3.53,
	"eval_steps_per_second": 1.78,
	"step": 4300
	},
	{
	"epoch": 0.0865,
	"grad_norm": 0.02127578557225418,
	"learning_rate": 8.648000000000001e-06,
	"loss": 2.4202,
	"step": 4325
	},
	{
	"epoch": 0.087,
	"grad_norm": 0.021749788475476855,
	"learning_rate": 8.698e-06,
	"loss": 2.4274,
	"step": 4350
	},
	{
	"epoch": 0.0875,
	"grad_norm": 0.021521494708913836,
	"learning_rate": 8.748000000000002e-06,
	"loss": 2.4189,
	"step": 4375
	},
	{
	"epoch": 0.088,
	"grad_norm": 0.021276426458537334,
	"learning_rate": 8.798000000000001e-06,
	"loss": 2.4152,
	"step": 4400
	},
	{
	"epoch": 0.088,
	"eval_loss": 2.4292917251586914,
	"eval_runtime": 33.1057,
	"eval_samples_per_second": 3.534,
	"eval_steps_per_second": 1.782,
	"step": 4400
	},
	{
	"epoch": 0.0885,
	"grad_norm": 0.019843371943772815,
	"learning_rate": 8.848e-06,
	"loss": 2.421,
	"step": 4425
	},
	{
	"epoch": 0.089,
	"grad_norm": 0.02031045171970109,
	"learning_rate": 8.898000000000002e-06,
	"loss": 2.4201,
	"step": 4450
	},
	{
	"epoch": 0.0895,
	"grad_norm": 0.018642717079241176,
	"learning_rate": 8.948000000000001e-06,
	"loss": 2.4171,
	"step": 4475
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.021016901396559935,
	"learning_rate": 8.998000000000001e-06,
	"loss": 2.4257,
	"step": 4500
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.4288113117218018,
	"eval_runtime": 33.1217,
	"eval_samples_per_second": 3.532,
	"eval_steps_per_second": 1.781,
	"step": 4500
	},
	{
	"epoch": 0.0905,
	"grad_norm": 0.021595090834222327,
	"learning_rate": 9.048e-06,
	"loss": 2.4209,
	"step": 4525
	},
	{
	"epoch": 0.091,
	"grad_norm": 0.020500341653961213,
	"learning_rate": 9.098000000000002e-06,
	"loss": 2.4093,
	"step": 4550
	},
	{
	"epoch": 0.0915,
	"grad_norm": 0.021134665935359346,
	"learning_rate": 9.148e-06,
	"loss": 2.4238,
	"step": 4575
	},
	{
	"epoch": 0.092,
	"grad_norm": 0.018064298488706988,
	"learning_rate": 9.198e-06,
	"loss": 2.4163,
	"step": 4600
	},
	{
	"epoch": 0.092,
	"eval_loss": 2.428257465362549,
	"eval_runtime": 33.451,
	"eval_samples_per_second": 3.498,
	"eval_steps_per_second": 1.764,
	"step": 4600
	},
	{
	"epoch": 0.0925,
	"grad_norm": 0.019704962175624032,
	"learning_rate": 9.248e-06,
	"loss": 2.4082,
	"step": 4625
	},
	{
	"epoch": 0.093,
	"grad_norm": 0.019712333508134283,
	"learning_rate": 9.298e-06,
	"loss": 2.4089,
	"step": 4650
	},
	{
	"epoch": 0.0935,
	"grad_norm": 0.021269463834833153,
	"learning_rate": 9.348000000000001e-06,
	"loss": 2.408,
	"step": 4675
	},
	{
	"epoch": 0.094,
	"grad_norm": 0.021278662940784676,
	"learning_rate": 9.398e-06,
	"loss": 2.4189,
	"step": 4700
	},
	{
	"epoch": 0.094,
	"eval_loss": 2.4279165267944336,
	"eval_runtime": 33.1606,
	"eval_samples_per_second": 3.528,
	"eval_steps_per_second": 1.779,
	"step": 4700
	},
	{
	"epoch": 0.0945,
	"grad_norm": 0.018504564797986272,
	"learning_rate": 9.448e-06,
	"loss": 2.4254,
	"step": 4725
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.01917099113509997,
	"learning_rate": 9.498000000000001e-06,
	"loss": 2.411,
	"step": 4750
	},
	{
	"epoch": 0.0955,
	"grad_norm": 0.019097394482211122,
	"learning_rate": 9.548e-06,
	"loss": 2.4209,
	"step": 4775
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.020220692469392707,
	"learning_rate": 9.598e-06,
	"loss": 2.4066,
	"step": 4800
	},
	{
	"epoch": 0.096,
	"eval_loss": 2.4273650646209717,
	"eval_runtime": 33.1079,
	"eval_samples_per_second": 3.534,
	"eval_steps_per_second": 1.782,
	"step": 4800
	},
	{
	"epoch": 0.0965,
	"grad_norm": 0.019607148490934756,
	"learning_rate": 9.648000000000001e-06,
	"loss": 2.4132,
	"step": 4825
	},
	{
	"epoch": 0.097,
	"grad_norm": 0.019388710503851023,
	"learning_rate": 9.698000000000001e-06,
	"loss": 2.4096,
	"step": 4850
	},
	{
	"epoch": 0.0975,
	"grad_norm": 0.019593746411763164,
	"learning_rate": 9.748e-06,
	"loss": 2.4064,
	"step": 4875
	},
	{
	"epoch": 0.098,
	"grad_norm": 0.018761734791343965,
	"learning_rate": 9.798e-06,
	"loss": 2.4033,
	"step": 4900
	},
	{
	"epoch": 0.098,
	"eval_loss": 2.4270286560058594,
	"eval_runtime": 33.0269,
	"eval_samples_per_second": 3.543,
	"eval_steps_per_second": 1.786,
	"step": 4900
	},
	{
	"epoch": 0.0985,
	"grad_norm": 0.018964507342139367,
	"learning_rate": 9.848000000000001e-06,
	"loss": 2.4211,
	"step": 4925
	},
	{
	"epoch": 0.099,
	"grad_norm": 0.01858861943184826,
	"learning_rate": 9.898e-06,
	"loss": 2.4032,
	"step": 4950
	},
	{
	"epoch": 0.0995,
	"grad_norm": 0.01821023564956819,
	"learning_rate": 9.948e-06,
	"loss": 2.4031,
	"step": 4975
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.018839474555921314,
	"learning_rate": 9.998000000000002e-06,
	"loss": 2.4112,
	"step": 5000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.426590919494629,
	"eval_runtime": 33.0133,
	"eval_samples_per_second": 3.544,
	"eval_steps_per_second": 1.787,
	"step": 5000
	},
	{
	"epoch": 0.1005,
	"grad_norm": 0.0187590945164155,
	"learning_rate": 9.994666666666668e-06,
	"loss": 2.4164,
	"step": 5025
	},
	{
	"epoch": 0.101,
	"grad_norm": 0.018683158146542603,
	"learning_rate": 9.989111111111111e-06,
	"loss": 2.4082,
	"step": 5050
	},
	{
	"epoch": 0.1015,
	"grad_norm": 0.017610949419625762,
	"learning_rate": 9.983555555555556e-06,
	"loss": 2.4124,
	"step": 5075
	},
	{
	"epoch": 0.102,
	"grad_norm": 0.01862298073358942,
	"learning_rate": 9.978000000000002e-06,
	"loss": 2.409,
	"step": 5100
	},
	{
	"epoch": 0.102,
	"eval_loss": 2.425841808319092,
	"eval_runtime": 33.063,
	"eval_samples_per_second": 3.539,
	"eval_steps_per_second": 1.784,
	"step": 5100
	},
	{
	"epoch": 0.1025,
	"grad_norm": 0.025407800531065724,
	"learning_rate": 9.972444444444445e-06,
	"loss": 2.4051,
	"step": 5125
	},
	{
	"epoch": 0.103,
	"grad_norm": 0.01838713779514561,
	"learning_rate": 9.966888888888889e-06,
	"loss": 2.4105,
	"step": 5150
	},
	{
	"epoch": 0.1035,
	"grad_norm": 0.018921321521659856,
	"learning_rate": 9.961333333333334e-06,
	"loss": 2.4191,
	"step": 5175
	},
	{
	"epoch": 0.104,
	"grad_norm": 0.01824666535901335,
	"learning_rate": 9.95577777777778e-06,
	"loss": 2.4115,
	"step": 5200
	},
	{
	"epoch": 0.104,
	"eval_loss": 2.4254310131073,
	"eval_runtime": 33.141,
	"eval_samples_per_second": 3.53,
	"eval_steps_per_second": 1.78,
	"step": 5200
	},
	{
	"epoch": 0.1045,
	"grad_norm": 0.018794067362196056,
	"learning_rate": 9.950222222222223e-06,
	"loss": 2.4062,
	"step": 5225
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.01825837669653065,
	"learning_rate": 9.944666666666668e-06,
	"loss": 2.4154,
	"step": 5250
	},
	{
	"epoch": 0.1055,
	"grad_norm": 0.01843310767671649,
	"learning_rate": 9.939111111111112e-06,
	"loss": 2.4201,
	"step": 5275
	},
	{
	"epoch": 0.106,
	"grad_norm": 0.018304681522005508,
	"learning_rate": 9.933555555555557e-06,
	"loss": 2.4089,
	"step": 5300
	},
	{
	"epoch": 0.106,
	"eval_loss": 2.424731492996216,
	"eval_runtime": 33.0325,
	"eval_samples_per_second": 3.542,
	"eval_steps_per_second": 1.786,
	"step": 5300
	},
	{
	"epoch": 0.1065,
	"grad_norm": 0.01846362790517963,
	"learning_rate": 9.928e-06,
	"loss": 2.4118,
	"step": 5325
	},
	{
	"epoch": 0.107,
	"grad_norm": 0.01872825463357926,
	"learning_rate": 9.922444444444446e-06,
	"loss": 2.4045,
	"step": 5350
	},
	{
	"epoch": 0.1075,
	"grad_norm": 0.017781011104963246,
	"learning_rate": 9.91688888888889e-06,
	"loss": 2.4145,
	"step": 5375
	},
	{
	"epoch": 0.108,
	"grad_norm": 0.018840752543683545,
	"learning_rate": 9.911333333333335e-06,
	"loss": 2.416,
	"step": 5400
	},
	{
	"epoch": 0.108,
	"eval_loss": 2.423886775970459,
	"eval_runtime": 33.1239,
	"eval_samples_per_second": 3.532,
	"eval_steps_per_second": 1.781,
	"step": 5400
	},
	{
	"epoch": 0.1085,
	"grad_norm": 0.019278786947294697,
	"learning_rate": 9.905777777777778e-06,
	"loss": 2.4117,
	"step": 5425
	},
	{
	"epoch": 0.109,
	"grad_norm": 0.018430470806705172,
	"learning_rate": 9.900222222222223e-06,
	"loss": 2.4114,
	"step": 5450
	},
	{
	"epoch": 0.1095,
	"grad_norm": 0.018464088455141334,
	"learning_rate": 9.894666666666669e-06,
	"loss": 2.4185,
	"step": 5475
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.01866239126789079,
	"learning_rate": 9.889111111111112e-06,
	"loss": 2.4099,
	"step": 5500
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.423039197921753,
	"eval_runtime": 35.4471,
	"eval_samples_per_second": 3.301,
	"eval_steps_per_second": 1.664,
	"step": 5500
	},
	{
	"epoch": 0.1105,
	"grad_norm": 0.01827370320895024,
	"learning_rate": 9.883555555555556e-06,
	"loss": 2.4078,
	"step": 5525
	},
	{
	"epoch": 0.111,
	"grad_norm": 0.01863057836209491,
	"learning_rate": 9.878000000000001e-06,
	"loss": 2.4044,
	"step": 5550
	},
	{
	"epoch": 0.1115,
	"grad_norm": 0.018262835671926946,
	"learning_rate": 9.872444444444446e-06,
	"loss": 2.4123,
	"step": 5575
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.017655227692766756,
	"learning_rate": 9.86688888888889e-06,
	"loss": 2.4118,
	"step": 5600
	},
	{
	"epoch": 0.112,
	"eval_loss": 2.4225943088531494,
	"eval_runtime": 33.2709,
	"eval_samples_per_second": 3.517,
	"eval_steps_per_second": 1.773,
	"step": 5600
	},
	{
	"epoch": 0.1125,
	"grad_norm": 0.01812962067528887,
	"learning_rate": 9.861333333333333e-06,
	"loss": 2.4017,
	"step": 5625
	},
	{
	"epoch": 0.113,
	"grad_norm": 0.018265397582930686,
	"learning_rate": 9.855777777777779e-06,
	"loss": 2.4166,
	"step": 5650
	},
	{
	"epoch": 0.1135,
	"grad_norm": 0.018207114017877214,
	"learning_rate": 9.850222222222224e-06,
	"loss": 2.413,
	"step": 5675
	},
	{
	"epoch": 0.114,
	"grad_norm": 0.01952225079171619,
	"learning_rate": 9.844666666666667e-06,
	"loss": 2.4022,
	"step": 5700
	},
	{
	"epoch": 0.114,
	"eval_loss": 2.42179274559021,
	"eval_runtime": 33.0648,
	"eval_samples_per_second": 3.539,
	"eval_steps_per_second": 1.784,
	"step": 5700
	},
	{
	"epoch": 0.1145,
	"grad_norm": 0.01780836124763766,
	"learning_rate": 9.839111111111111e-06,
	"loss": 2.4128,
	"step": 5725
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.018290904429709265,
	"learning_rate": 9.833555555555556e-06,
	"loss": 2.4119,
	"step": 5750
	},
	{
	"epoch": 0.1155,
	"grad_norm": 0.019359740861514655,
	"learning_rate": 9.828000000000001e-06,
	"loss": 2.4019,
	"step": 5775
	},
	{
	"epoch": 0.116,
	"grad_norm": 0.018278231474623628,
	"learning_rate": 9.822444444444445e-06,
	"loss": 2.4072,
	"step": 5800
	},
	{
	"epoch": 0.116,
	"eval_loss": 2.4214675426483154,
	"eval_runtime": 33.0642,
	"eval_samples_per_second": 3.539,
	"eval_steps_per_second": 1.784,
	"step": 5800
	},
	{
	"epoch": 0.1165,
	"grad_norm": 0.017493007146383306,
	"learning_rate": 9.81688888888889e-06,
	"loss": 2.4134,
	"step": 5825
	},
	{
	"epoch": 0.117,
	"grad_norm": 0.018399348008473985,
	"learning_rate": 9.811333333333334e-06,
	"loss": 2.4082,
	"step": 5850
	},
	{
	"epoch": 0.1175,
	"grad_norm": 0.0186494867742927,
	"learning_rate": 9.805777777777779e-06,
	"loss": 2.4131,
	"step": 5875
	},
	{
	"epoch": 0.118,
	"grad_norm": 0.017842605036949514,
	"learning_rate": 9.800222222222223e-06,
	"loss": 2.4134,
	"step": 5900
	},
	{
	"epoch": 0.118,
	"eval_loss": 2.4210917949676514,
	"eval_runtime": 33.1318,
	"eval_samples_per_second": 3.531,
	"eval_steps_per_second": 1.781,
	"step": 5900
	},
	{
	"epoch": 0.1185,
	"grad_norm": 0.01835138877842204,
	"learning_rate": 9.794666666666668e-06,
	"loss": 2.4017,
	"step": 5925
	},
	{
	"epoch": 0.119,
	"grad_norm": 0.018202303746487493,
	"learning_rate": 9.789111111111111e-06,
	"loss": 2.4103,
	"step": 5950
	},
	{
	"epoch": 0.1195,
	"grad_norm": 0.0176777777086958,
	"learning_rate": 9.783555555555557e-06,
	"loss": 2.4023,
	"step": 5975
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.019351209333625233,
	"learning_rate": 9.778e-06,
	"loss": 2.4053,
	"step": 6000
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.421157121658325,
	"eval_runtime": 33.0891,
	"eval_samples_per_second": 3.536,
	"eval_steps_per_second": 1.783,
	"step": 6000
	}
	],
	"logging_steps": 25,
	"max_steps": 50000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.6711811550821745e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}