run_20 / trainer_state.json

Training checkpoint at step 9000

ecf2aaf verified 3 months ago

75.8 kB

	{
	"best_global_step": 4300,
	"best_metric": 2.432278633117676,
	"best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-4000",
	"epoch": 0.18,
	"eval_steps": 100,
	"global_step": 9000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005,
	"grad_norm": 39.75564521032967,
	"learning_rate": 4.8e-08,
	"loss": 3.6517,
	"step": 25
	},
	{
	"epoch": 0.001,
	"grad_norm": 28.937531835097435,
	"learning_rate": 9.8e-08,
	"loss": 3.5931,
	"step": 50
	},
	{
	"epoch": 0.0015,
	"grad_norm": 21.922720332659644,
	"learning_rate": 1.4800000000000003e-07,
	"loss": 3.3397,
	"step": 75
	},
	{
	"epoch": 0.002,
	"grad_norm": 8.739610199908325,
	"learning_rate": 1.9800000000000003e-07,
	"loss": 3.1289,
	"step": 100
	},
	{
	"epoch": 0.002,
	"eval_loss": 2.9243295192718506,
	"eval_runtime": 264.3302,
	"eval_samples_per_second": 3.11,
	"eval_steps_per_second": 1.555,
	"step": 100
	},
	{
	"epoch": 0.0025,
	"grad_norm": 4.433912600039677,
	"learning_rate": 2.48e-07,
	"loss": 2.8957,
	"step": 125
	},
	{
	"epoch": 0.003,
	"grad_norm": 3.2874790066620303,
	"learning_rate": 2.9800000000000005e-07,
	"loss": 2.763,
	"step": 150
	},
	{
	"epoch": 0.0035,
	"grad_norm": 1.5203472215469231,
	"learning_rate": 3.48e-07,
	"loss": 2.676,
	"step": 175
	},
	{
	"epoch": 0.004,
	"grad_norm": 1.1945541683905954,
	"learning_rate": 3.9800000000000004e-07,
	"loss": 2.635,
	"step": 200
	},
	{
	"epoch": 0.004,
	"eval_loss": 2.6094932556152344,
	"eval_runtime": 265.7702,
	"eval_samples_per_second": 3.093,
	"eval_steps_per_second": 1.546,
	"step": 200
	},
	{
	"epoch": 0.0045,
	"grad_norm": 1.0852713304633745,
	"learning_rate": 4.4800000000000004e-07,
	"loss": 2.6016,
	"step": 225
	},
	{
	"epoch": 0.005,
	"grad_norm": 1.0733940346699529,
	"learning_rate": 4.98e-07,
	"loss": 2.5797,
	"step": 250
	},
	{
	"epoch": 0.0055,
	"grad_norm": 0.9273949035031271,
	"learning_rate": 5.480000000000001e-07,
	"loss": 2.5607,
	"step": 275
	},
	{
	"epoch": 0.006,
	"grad_norm": 0.9289300678591714,
	"learning_rate": 5.98e-07,
	"loss": 2.552,
	"step": 300
	},
	{
	"epoch": 0.006,
	"eval_loss": 2.541522264480591,
	"eval_runtime": 266.7478,
	"eval_samples_per_second": 3.082,
	"eval_steps_per_second": 1.541,
	"step": 300
	},
	{
	"epoch": 0.0065,
	"grad_norm": 1.1328584507449984,
	"learning_rate": 6.48e-07,
	"loss": 2.5402,
	"step": 325
	},
	{
	"epoch": 0.007,
	"grad_norm": 0.8593307029257858,
	"learning_rate": 6.98e-07,
	"loss": 2.5286,
	"step": 350
	},
	{
	"epoch": 0.0075,
	"grad_norm": 0.895615604067586,
	"learning_rate": 7.480000000000001e-07,
	"loss": 2.5311,
	"step": 375
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.912306580242149,
	"learning_rate": 7.98e-07,
	"loss": 2.5037,
	"step": 400
	},
	{
	"epoch": 0.008,
	"eval_loss": 2.514389991760254,
	"eval_runtime": 266.4899,
	"eval_samples_per_second": 3.085,
	"eval_steps_per_second": 1.542,
	"step": 400
	},
	{
	"epoch": 0.0085,
	"grad_norm": 1.1866535514670034,
	"learning_rate": 8.480000000000001e-07,
	"loss": 2.5011,
	"step": 425
	},
	{
	"epoch": 0.009,
	"grad_norm": 1.211342504193914,
	"learning_rate": 8.980000000000001e-07,
	"loss": 2.503,
	"step": 450
	},
	{
	"epoch": 0.0095,
	"grad_norm": 1.113763817383069,
	"learning_rate": 9.480000000000001e-07,
	"loss": 2.4999,
	"step": 475
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.2585585589647226,
	"learning_rate": 9.98e-07,
	"loss": 2.4872,
	"step": 500
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.497868061065674,
	"eval_runtime": 265.7962,
	"eval_samples_per_second": 3.093,
	"eval_steps_per_second": 1.546,
	"step": 500
	},
	{
	"epoch": 0.0105,
	"grad_norm": 1.2585825718084245,
	"learning_rate": 1.0480000000000002e-06,
	"loss": 2.4852,
	"step": 525
	},
	{
	"epoch": 0.011,
	"grad_norm": 1.4101257437846046,
	"learning_rate": 1.0980000000000001e-06,
	"loss": 2.4892,
	"step": 550
	},
	{
	"epoch": 0.0115,
	"grad_norm": 1.1975234150707363,
	"learning_rate": 1.148e-06,
	"loss": 2.4861,
	"step": 575
	},
	{
	"epoch": 0.012,
	"grad_norm": 1.3662769225582332,
	"learning_rate": 1.1980000000000002e-06,
	"loss": 2.4882,
	"step": 600
	},
	{
	"epoch": 0.012,
	"eval_loss": 2.4879231452941895,
	"eval_runtime": 267.0005,
	"eval_samples_per_second": 3.079,
	"eval_steps_per_second": 1.539,
	"step": 600
	},
	{
	"epoch": 0.0125,
	"grad_norm": 1.3086724275194024,
	"learning_rate": 1.248e-06,
	"loss": 2.4745,
	"step": 625
	},
	{
	"epoch": 0.013,
	"grad_norm": 1.317023206802888,
	"learning_rate": 1.2980000000000001e-06,
	"loss": 2.4727,
	"step": 650
	},
	{
	"epoch": 0.0135,
	"grad_norm": 1.5284967544483212,
	"learning_rate": 1.348e-06,
	"loss": 2.469,
	"step": 675
	},
	{
	"epoch": 0.014,
	"grad_norm": 1.1047595217316941,
	"learning_rate": 1.3980000000000002e-06,
	"loss": 2.4695,
	"step": 700
	},
	{
	"epoch": 0.014,
	"eval_loss": 2.480103015899658,
	"eval_runtime": 263.5022,
	"eval_samples_per_second": 3.12,
	"eval_steps_per_second": 1.56,
	"step": 700
	},
	{
	"epoch": 0.0145,
	"grad_norm": 1.2077328209863791,
	"learning_rate": 1.4480000000000002e-06,
	"loss": 2.4654,
	"step": 725
	},
	{
	"epoch": 0.015,
	"grad_norm": 1.209220841771836,
	"learning_rate": 1.498e-06,
	"loss": 2.4663,
	"step": 750
	},
	{
	"epoch": 0.0155,
	"grad_norm": 1.3063169829879686,
	"learning_rate": 1.548e-06,
	"loss": 2.4704,
	"step": 775
	},
	{
	"epoch": 0.016,
	"grad_norm": 1.3180183352683195,
	"learning_rate": 1.5980000000000002e-06,
	"loss": 2.4583,
	"step": 800
	},
	{
	"epoch": 0.016,
	"eval_loss": 2.473590850830078,
	"eval_runtime": 305.9875,
	"eval_samples_per_second": 2.686,
	"eval_steps_per_second": 1.343,
	"step": 800
	},
	{
	"epoch": 0.0165,
	"grad_norm": 1.1674852380778837,
	"learning_rate": 1.6480000000000001e-06,
	"loss": 2.467,
	"step": 825
	},
	{
	"epoch": 0.017,
	"grad_norm": 1.2497656349941002,
	"learning_rate": 1.6980000000000003e-06,
	"loss": 2.4612,
	"step": 850
	},
	{
	"epoch": 0.0175,
	"grad_norm": 1.3358614980967494,
	"learning_rate": 1.7480000000000002e-06,
	"loss": 2.4636,
	"step": 875
	},
	{
	"epoch": 0.018,
	"grad_norm": 1.252489857653356,
	"learning_rate": 1.798e-06,
	"loss": 2.454,
	"step": 900
	},
	{
	"epoch": 0.018,
	"eval_loss": 2.4681763648986816,
	"eval_runtime": 264.702,
	"eval_samples_per_second": 3.105,
	"eval_steps_per_second": 1.553,
	"step": 900
	},
	{
	"epoch": 0.0185,
	"grad_norm": 1.2815437998994337,
	"learning_rate": 1.8480000000000001e-06,
	"loss": 2.4571,
	"step": 925
	},
	{
	"epoch": 0.019,
	"grad_norm": 1.0902475329451575,
	"learning_rate": 1.898e-06,
	"loss": 2.451,
	"step": 950
	},
	{
	"epoch": 0.0195,
	"grad_norm": 1.1502696024965324,
	"learning_rate": 1.9480000000000002e-06,
	"loss": 2.4527,
	"step": 975
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.2336661855806117,
	"learning_rate": 1.998e-06,
	"loss": 2.4496,
	"step": 1000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.463880777359009,
	"eval_runtime": 275.7426,
	"eval_samples_per_second": 2.981,
	"eval_steps_per_second": 1.491,
	"step": 1000
	},
	{
	"epoch": 0.0205,
	"grad_norm": 1.2680742209094296,
	"learning_rate": 2.048e-06,
	"loss": 2.4494,
	"step": 1025
	},
	{
	"epoch": 0.021,
	"grad_norm": 1.0341778808278126,
	"learning_rate": 2.098e-06,
	"loss": 2.4467,
	"step": 1050
	},
	{
	"epoch": 0.0215,
	"grad_norm": 0.9860490736001175,
	"learning_rate": 2.148e-06,
	"loss": 2.4473,
	"step": 1075
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.9419267295275278,
	"learning_rate": 2.198e-06,
	"loss": 2.443,
	"step": 1100
	},
	{
	"epoch": 0.022,
	"eval_loss": 2.4598941802978516,
	"eval_runtime": 265.0502,
	"eval_samples_per_second": 3.101,
	"eval_steps_per_second": 1.551,
	"step": 1100
	},
	{
	"epoch": 0.0225,
	"grad_norm": 1.3280720471027394,
	"learning_rate": 2.2480000000000003e-06,
	"loss": 2.4515,
	"step": 1125
	},
	{
	"epoch": 0.023,
	"grad_norm": 1.053570785582915,
	"learning_rate": 2.2980000000000003e-06,
	"loss": 2.4396,
	"step": 1150
	},
	{
	"epoch": 0.0235,
	"grad_norm": 0.9108119839585552,
	"learning_rate": 2.3480000000000002e-06,
	"loss": 2.4442,
	"step": 1175
	},
	{
	"epoch": 0.024,
	"grad_norm": 1.0062346367900277,
	"learning_rate": 2.398e-06,
	"loss": 2.4443,
	"step": 1200
	},
	{
	"epoch": 0.024,
	"eval_loss": 2.456455945968628,
	"eval_runtime": 264.5888,
	"eval_samples_per_second": 3.107,
	"eval_steps_per_second": 1.553,
	"step": 1200
	},
	{
	"epoch": 0.0245,
	"grad_norm": 1.0264127705426926,
	"learning_rate": 2.448e-06,
	"loss": 2.4351,
	"step": 1225
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.8015249588347212,
	"learning_rate": 2.498e-06,
	"loss": 2.4406,
	"step": 1250
	},
	{
	"epoch": 0.0255,
	"grad_norm": 1.1105649485540114,
	"learning_rate": 2.5480000000000004e-06,
	"loss": 2.4377,
	"step": 1275
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.9701758426012801,
	"learning_rate": 2.598e-06,
	"loss": 2.4341,
	"step": 1300
	},
	{
	"epoch": 0.026,
	"eval_loss": 2.453026056289673,
	"eval_runtime": 264.7653,
	"eval_samples_per_second": 3.105,
	"eval_steps_per_second": 1.552,
	"step": 1300
	},
	{
	"epoch": 0.0265,
	"grad_norm": 0.9587254891845429,
	"learning_rate": 2.648e-06,
	"loss": 2.4303,
	"step": 1325
	},
	{
	"epoch": 0.027,
	"grad_norm": 0.8135883960763247,
	"learning_rate": 2.6980000000000003e-06,
	"loss": 2.4363,
	"step": 1350
	},
	{
	"epoch": 0.0275,
	"grad_norm": 0.9192860127847176,
	"learning_rate": 2.748e-06,
	"loss": 2.4257,
	"step": 1375
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.947465928893444,
	"learning_rate": 2.798e-06,
	"loss": 2.4353,
	"step": 1400
	},
	{
	"epoch": 0.028,
	"eval_loss": 2.450345993041992,
	"eval_runtime": 265.6266,
	"eval_samples_per_second": 3.095,
	"eval_steps_per_second": 1.547,
	"step": 1400
	},
	{
	"epoch": 0.0285,
	"grad_norm": 0.9270137901066681,
	"learning_rate": 2.848e-06,
	"loss": 2.4347,
	"step": 1425
	},
	{
	"epoch": 0.029,
	"grad_norm": 0.8839980710491563,
	"learning_rate": 2.8980000000000005e-06,
	"loss": 2.4213,
	"step": 1450
	},
	{
	"epoch": 0.0295,
	"grad_norm": 0.913196005454606,
	"learning_rate": 2.9480000000000004e-06,
	"loss": 2.4232,
	"step": 1475
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.8139623858623861,
	"learning_rate": 2.9980000000000003e-06,
	"loss": 2.4254,
	"step": 1500
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.447662830352783,
	"eval_runtime": 263.4353,
	"eval_samples_per_second": 3.12,
	"eval_steps_per_second": 1.56,
	"step": 1500
	},
	{
	"epoch": 0.0305,
	"grad_norm": 0.8422198221554755,
	"learning_rate": 3.0480000000000003e-06,
	"loss": 2.4196,
	"step": 1525
	},
	{
	"epoch": 0.031,
	"grad_norm": 0.8542957579365906,
	"learning_rate": 3.0980000000000007e-06,
	"loss": 2.4294,
	"step": 1550
	},
	{
	"epoch": 0.0315,
	"grad_norm": 1.149263137594797,
	"learning_rate": 3.1480000000000006e-06,
	"loss": 2.4265,
	"step": 1575
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.811470126240392,
	"learning_rate": 3.198e-06,
	"loss": 2.4105,
	"step": 1600
	},
	{
	"epoch": 0.032,
	"eval_loss": 2.4456679821014404,
	"eval_runtime": 264.056,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.556,
	"step": 1600
	},
	{
	"epoch": 0.0325,
	"grad_norm": 2.3928975221881434,
	"learning_rate": 3.248e-06,
	"loss": 2.4208,
	"step": 1625
	},
	{
	"epoch": 0.033,
	"grad_norm": 0.8031315125360012,
	"learning_rate": 3.298e-06,
	"loss": 2.4224,
	"step": 1650
	},
	{
	"epoch": 0.0335,
	"grad_norm": 0.835567276692195,
	"learning_rate": 3.348e-06,
	"loss": 2.4188,
	"step": 1675
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.8894325175719718,
	"learning_rate": 3.3980000000000003e-06,
	"loss": 2.4206,
	"step": 1700
	},
	{
	"epoch": 0.034,
	"eval_loss": 2.4437851905822754,
	"eval_runtime": 264.6455,
	"eval_samples_per_second": 3.106,
	"eval_steps_per_second": 1.553,
	"step": 1700
	},
	{
	"epoch": 0.0345,
	"grad_norm": 0.802724390649243,
	"learning_rate": 3.4480000000000003e-06,
	"loss": 2.4241,
	"step": 1725
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.8206312612014312,
	"learning_rate": 3.4980000000000002e-06,
	"loss": 2.4157,
	"step": 1750
	},
	{
	"epoch": 0.0355,
	"grad_norm": 0.8653789917535344,
	"learning_rate": 3.548e-06,
	"loss": 2.412,
	"step": 1775
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.7816319078215015,
	"learning_rate": 3.5980000000000005e-06,
	"loss": 2.4179,
	"step": 1800
	},
	{
	"epoch": 0.036,
	"eval_loss": 2.4423036575317383,
	"eval_runtime": 264.5578,
	"eval_samples_per_second": 3.107,
	"eval_steps_per_second": 1.554,
	"step": 1800
	},
	{
	"epoch": 0.0365,
	"grad_norm": 0.707594544466941,
	"learning_rate": 3.6480000000000005e-06,
	"loss": 2.416,
	"step": 1825
	},
	{
	"epoch": 0.037,
	"grad_norm": 0.7481066913011816,
	"learning_rate": 3.6980000000000004e-06,
	"loss": 2.4242,
	"step": 1850
	},
	{
	"epoch": 0.0375,
	"grad_norm": 0.7612014979445353,
	"learning_rate": 3.7480000000000004e-06,
	"loss": 2.4173,
	"step": 1875
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.772750918048857,
	"learning_rate": 3.7980000000000007e-06,
	"loss": 2.4134,
	"step": 1900
	},
	{
	"epoch": 0.038,
	"eval_loss": 2.440969228744507,
	"eval_runtime": 274.3624,
	"eval_samples_per_second": 2.996,
	"eval_steps_per_second": 1.498,
	"step": 1900
	},
	{
	"epoch": 0.0385,
	"grad_norm": 0.7927966042188935,
	"learning_rate": 3.848e-06,
	"loss": 2.4131,
	"step": 1925
	},
	{
	"epoch": 0.039,
	"grad_norm": 0.7664274167276341,
	"learning_rate": 3.898e-06,
	"loss": 2.4133,
	"step": 1950
	},
	{
	"epoch": 0.0395,
	"grad_norm": 0.7038638213491795,
	"learning_rate": 3.948e-06,
	"loss": 2.4135,
	"step": 1975
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.7231696877425319,
	"learning_rate": 3.9980000000000005e-06,
	"loss": 2.4169,
	"step": 2000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.439641237258911,
	"eval_runtime": 282.4449,
	"eval_samples_per_second": 2.91,
	"eval_steps_per_second": 1.455,
	"step": 2000
	},
	{
	"epoch": 0.0405,
	"grad_norm": 0.7184393791203537,
	"learning_rate": 4.048e-06,
	"loss": 2.4071,
	"step": 2025
	},
	{
	"epoch": 0.041,
	"grad_norm": 0.7366813467336683,
	"learning_rate": 4.098e-06,
	"loss": 2.4113,
	"step": 2050
	},
	{
	"epoch": 0.0415,
	"grad_norm": 0.7081408763220511,
	"learning_rate": 4.148000000000001e-06,
	"loss": 2.4168,
	"step": 2075
	},
	{
	"epoch": 0.042,
	"grad_norm": 0.6912835983850483,
	"learning_rate": 4.198e-06,
	"loss": 2.4105,
	"step": 2100
	},
	{
	"epoch": 0.042,
	"eval_loss": 2.438904047012329,
	"eval_runtime": 277.7481,
	"eval_samples_per_second": 2.96,
	"eval_steps_per_second": 1.48,
	"step": 2100
	},
	{
	"epoch": 0.0425,
	"grad_norm": 0.7745538733736145,
	"learning_rate": 4.248000000000001e-06,
	"loss": 2.4131,
	"step": 2125
	},
	{
	"epoch": 0.043,
	"grad_norm": 0.6897576190091962,
	"learning_rate": 4.298e-06,
	"loss": 2.4084,
	"step": 2150
	},
	{
	"epoch": 0.0435,
	"grad_norm": 0.7020994032566351,
	"learning_rate": 4.3480000000000006e-06,
	"loss": 2.4125,
	"step": 2175
	},
	{
	"epoch": 0.044,
	"grad_norm": 0.6668651869738377,
	"learning_rate": 4.398000000000001e-06,
	"loss": 2.4034,
	"step": 2200
	},
	{
	"epoch": 0.044,
	"eval_loss": 2.4380908012390137,
	"eval_runtime": 268.2252,
	"eval_samples_per_second": 3.065,
	"eval_steps_per_second": 1.532,
	"step": 2200
	},
	{
	"epoch": 0.0445,
	"grad_norm": 0.6547759047620061,
	"learning_rate": 4.4480000000000004e-06,
	"loss": 2.4099,
	"step": 2225
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.6865815945777785,
	"learning_rate": 4.498e-06,
	"loss": 2.412,
	"step": 2250
	},
	{
	"epoch": 0.0455,
	"grad_norm": 0.6878267781655092,
	"learning_rate": 4.548e-06,
	"loss": 2.4137,
	"step": 2275
	},
	{
	"epoch": 0.046,
	"grad_norm": 0.8314813616644483,
	"learning_rate": 4.598e-06,
	"loss": 2.4097,
	"step": 2300
	},
	{
	"epoch": 0.046,
	"eval_loss": 2.4374496936798096,
	"eval_runtime": 263.1701,
	"eval_samples_per_second": 3.123,
	"eval_steps_per_second": 1.562,
	"step": 2300
	},
	{
	"epoch": 0.0465,
	"grad_norm": 0.6723966792931375,
	"learning_rate": 4.648e-06,
	"loss": 2.4051,
	"step": 2325
	},
	{
	"epoch": 0.047,
	"grad_norm": 0.7003756914046538,
	"learning_rate": 4.698000000000001e-06,
	"loss": 2.4032,
	"step": 2350
	},
	{
	"epoch": 0.0475,
	"grad_norm": 0.6747085415631567,
	"learning_rate": 4.748e-06,
	"loss": 2.4096,
	"step": 2375
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.6571218540079207,
	"learning_rate": 4.7980000000000005e-06,
	"loss": 2.4165,
	"step": 2400
	},
	{
	"epoch": 0.048,
	"eval_loss": 2.4365923404693604,
	"eval_runtime": 264.2268,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.555,
	"step": 2400
	},
	{
	"epoch": 0.0485,
	"grad_norm": 0.7464314980483315,
	"learning_rate": 4.848000000000001e-06,
	"loss": 2.4098,
	"step": 2425
	},
	{
	"epoch": 0.049,
	"grad_norm": 0.6267266619200393,
	"learning_rate": 4.898e-06,
	"loss": 2.4019,
	"step": 2450
	},
	{
	"epoch": 0.0495,
	"grad_norm": 0.6650772680412506,
	"learning_rate": 4.948000000000001e-06,
	"loss": 2.405,
	"step": 2475
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.7197173899674899,
	"learning_rate": 4.998e-06,
	"loss": 2.4095,
	"step": 2500
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.4358348846435547,
	"eval_runtime": 266.7682,
	"eval_samples_per_second": 3.081,
	"eval_steps_per_second": 1.541,
	"step": 2500
	},
	{
	"epoch": 0.0505,
	"grad_norm": 0.6249572472256157,
	"learning_rate": 5.048000000000001e-06,
	"loss": 2.4058,
	"step": 2525
	},
	{
	"epoch": 0.051,
	"grad_norm": 0.7429228032719255,
	"learning_rate": 5.098000000000001e-06,
	"loss": 2.4084,
	"step": 2550
	},
	{
	"epoch": 0.0515,
	"grad_norm": 0.6320325962693778,
	"learning_rate": 5.1480000000000005e-06,
	"loss": 2.4015,
	"step": 2575
	},
	{
	"epoch": 0.052,
	"grad_norm": 0.672581755106835,
	"learning_rate": 5.198000000000001e-06,
	"loss": 2.4051,
	"step": 2600
	},
	{
	"epoch": 0.052,
	"eval_loss": 2.4351842403411865,
	"eval_runtime": 264.9149,
	"eval_samples_per_second": 3.103,
	"eval_steps_per_second": 1.551,
	"step": 2600
	},
	{
	"epoch": 0.0525,
	"grad_norm": 0.7086480776921088,
	"learning_rate": 5.248000000000001e-06,
	"loss": 2.3988,
	"step": 2625
	},
	{
	"epoch": 0.053,
	"grad_norm": 0.6774201154936552,
	"learning_rate": 5.298000000000001e-06,
	"loss": 2.394,
	"step": 2650
	},
	{
	"epoch": 0.0535,
	"grad_norm": 0.6661104910300973,
	"learning_rate": 5.348000000000001e-06,
	"loss": 2.4034,
	"step": 2675
	},
	{
	"epoch": 0.054,
	"grad_norm": 0.6224421593448741,
	"learning_rate": 5.398e-06,
	"loss": 2.3939,
	"step": 2700
	},
	{
	"epoch": 0.054,
	"eval_loss": 2.434826374053955,
	"eval_runtime": 264.1641,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 2700
	},
	{
	"epoch": 0.0545,
	"grad_norm": 0.6944661408419767,
	"learning_rate": 5.448e-06,
	"loss": 2.4064,
	"step": 2725
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.6597297955298902,
	"learning_rate": 5.498e-06,
	"loss": 2.4051,
	"step": 2750
	},
	{
	"epoch": 0.0555,
	"grad_norm": 0.6526109506522182,
	"learning_rate": 5.548e-06,
	"loss": 2.4124,
	"step": 2775
	},
	{
	"epoch": 0.056,
	"grad_norm": 0.6528041780055424,
	"learning_rate": 5.5980000000000004e-06,
	"loss": 2.3979,
	"step": 2800
	},
	{
	"epoch": 0.056,
	"eval_loss": 2.4344167709350586,
	"eval_runtime": 264.2924,
	"eval_samples_per_second": 3.11,
	"eval_steps_per_second": 1.555,
	"step": 2800
	},
	{
	"epoch": 0.0565,
	"grad_norm": 0.7067565611523313,
	"learning_rate": 5.648e-06,
	"loss": 2.398,
	"step": 2825
	},
	{
	"epoch": 0.057,
	"grad_norm": 0.6416666495903947,
	"learning_rate": 5.698e-06,
	"loss": 2.3991,
	"step": 2850
	},
	{
	"epoch": 0.0575,
	"grad_norm": 0.6605105424774851,
	"learning_rate": 5.748e-06,
	"loss": 2.3962,
	"step": 2875
	},
	{
	"epoch": 0.058,
	"grad_norm": 0.6308761264530915,
	"learning_rate": 5.798e-06,
	"loss": 2.4058,
	"step": 2900
	},
	{
	"epoch": 0.058,
	"eval_loss": 2.434436082839966,
	"eval_runtime": 265.0112,
	"eval_samples_per_second": 3.102,
	"eval_steps_per_second": 1.551,
	"step": 2900
	},
	{
	"epoch": 0.0585,
	"grad_norm": 0.6363649329289001,
	"learning_rate": 5.848000000000001e-06,
	"loss": 2.3943,
	"step": 2925
	},
	{
	"epoch": 0.059,
	"grad_norm": 0.6147983139117156,
	"learning_rate": 5.898e-06,
	"loss": 2.3982,
	"step": 2950
	},
	{
	"epoch": 0.0595,
	"grad_norm": 0.611354772141602,
	"learning_rate": 5.9480000000000005e-06,
	"loss": 2.3921,
	"step": 2975
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.6269054680170398,
	"learning_rate": 5.998000000000001e-06,
	"loss": 2.392,
	"step": 3000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.433990955352783,
	"eval_runtime": 264.2169,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 3000
	},
	{
	"epoch": 0.0605,
	"grad_norm": 0.6248207448228328,
	"learning_rate": 6.048e-06,
	"loss": 2.3858,
	"step": 3025
	},
	{
	"epoch": 0.061,
	"grad_norm": 0.6275258656299642,
	"learning_rate": 6.098000000000001e-06,
	"loss": 2.4015,
	"step": 3050
	},
	{
	"epoch": 0.0615,
	"grad_norm": 1.0457401571274152,
	"learning_rate": 6.148e-06,
	"loss": 2.3909,
	"step": 3075
	},
	{
	"epoch": 0.062,
	"grad_norm": 0.6551230863319748,
	"learning_rate": 6.198000000000001e-06,
	"loss": 2.3983,
	"step": 3100
	},
	{
	"epoch": 0.062,
	"eval_loss": 2.433279275894165,
	"eval_runtime": 264.1521,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 3100
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.6306746226297937,
	"learning_rate": 6.248000000000001e-06,
	"loss": 2.397,
	"step": 3125
	},
	{
	"epoch": 0.063,
	"grad_norm": 0.6299802316587856,
	"learning_rate": 6.2980000000000005e-06,
	"loss": 2.4018,
	"step": 3150
	},
	{
	"epoch": 0.0635,
	"grad_norm": 0.6265424590222634,
	"learning_rate": 6.348000000000001e-06,
	"loss": 2.4065,
	"step": 3175
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.6717273211615455,
	"learning_rate": 6.398000000000001e-06,
	"loss": 2.3906,
	"step": 3200
	},
	{
	"epoch": 0.064,
	"eval_loss": 2.4333276748657227,
	"eval_runtime": 263.9592,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 3200
	},
	{
	"epoch": 0.0645,
	"grad_norm": 0.6159924635031793,
	"learning_rate": 6.448000000000001e-06,
	"loss": 2.3947,
	"step": 3225
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.6124462043712093,
	"learning_rate": 6.498000000000001e-06,
	"loss": 2.3963,
	"step": 3250
	},
	{
	"epoch": 0.0655,
	"grad_norm": 0.6144378183602921,
	"learning_rate": 6.548000000000001e-06,
	"loss": 2.402,
	"step": 3275
	},
	{
	"epoch": 0.066,
	"grad_norm": 0.6295732934678283,
	"learning_rate": 6.598000000000001e-06,
	"loss": 2.3877,
	"step": 3300
	},
	{
	"epoch": 0.066,
	"eval_loss": 2.4331116676330566,
	"eval_runtime": 263.4524,
	"eval_samples_per_second": 3.12,
	"eval_steps_per_second": 1.56,
	"step": 3300
	},
	{
	"epoch": 0.0665,
	"grad_norm": 0.5938287129149346,
	"learning_rate": 6.648e-06,
	"loss": 2.389,
	"step": 3325
	},
	{
	"epoch": 0.067,
	"grad_norm": 0.6194783667871923,
	"learning_rate": 6.698e-06,
	"loss": 2.39,
	"step": 3350
	},
	{
	"epoch": 0.0675,
	"grad_norm": 0.60927231594853,
	"learning_rate": 6.7480000000000004e-06,
	"loss": 2.3968,
	"step": 3375
	},
	{
	"epoch": 0.068,
	"grad_norm": 0.6386175333576501,
	"learning_rate": 6.798e-06,
	"loss": 2.3861,
	"step": 3400
	},
	{
	"epoch": 0.068,
	"eval_loss": 2.4328911304473877,
	"eval_runtime": 264.2923,
	"eval_samples_per_second": 3.11,
	"eval_steps_per_second": 1.555,
	"step": 3400
	},
	{
	"epoch": 0.0685,
	"grad_norm": 0.6092295027577579,
	"learning_rate": 6.848e-06,
	"loss": 2.3827,
	"step": 3425
	},
	{
	"epoch": 0.069,
	"grad_norm": 0.5914846449422462,
	"learning_rate": 6.898e-06,
	"loss": 2.3894,
	"step": 3450
	},
	{
	"epoch": 0.0695,
	"grad_norm": 0.5927461214526666,
	"learning_rate": 6.948e-06,
	"loss": 2.3858,
	"step": 3475
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.5992194088197265,
	"learning_rate": 6.998000000000001e-06,
	"loss": 2.3941,
	"step": 3500
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.432774543762207,
	"eval_runtime": 263.8546,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.558,
	"step": 3500
	},
	{
	"epoch": 0.0705,
	"grad_norm": 0.6119297158568089,
	"learning_rate": 7.048e-06,
	"loss": 2.3897,
	"step": 3525
	},
	{
	"epoch": 0.071,
	"grad_norm": 0.6040666217758901,
	"learning_rate": 7.0980000000000005e-06,
	"loss": 2.3966,
	"step": 3550
	},
	{
	"epoch": 0.0715,
	"grad_norm": 0.6142925813030266,
	"learning_rate": 7.148000000000001e-06,
	"loss": 2.3953,
	"step": 3575
	},
	{
	"epoch": 0.072,
	"grad_norm": 0.5857079248330344,
	"learning_rate": 7.198e-06,
	"loss": 2.3854,
	"step": 3600
	},
	{
	"epoch": 0.072,
	"eval_loss": 2.432868719100952,
	"eval_runtime": 264.1849,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 3600
	},
	{
	"epoch": 0.0725,
	"grad_norm": 0.6075613052530382,
	"learning_rate": 7.248000000000001e-06,
	"loss": 2.3798,
	"step": 3625
	},
	{
	"epoch": 0.073,
	"grad_norm": 0.6146043204282547,
	"learning_rate": 7.298e-06,
	"loss": 2.3894,
	"step": 3650
	},
	{
	"epoch": 0.0735,
	"grad_norm": 0.613284002341936,
	"learning_rate": 7.348000000000001e-06,
	"loss": 2.3897,
	"step": 3675
	},
	{
	"epoch": 0.074,
	"grad_norm": 0.6694404263159593,
	"learning_rate": 7.398000000000001e-06,
	"loss": 2.3925,
	"step": 3700
	},
	{
	"epoch": 0.074,
	"eval_loss": 2.4324021339416504,
	"eval_runtime": 263.3107,
	"eval_samples_per_second": 3.122,
	"eval_steps_per_second": 1.561,
	"step": 3700
	},
	{
	"epoch": 0.0745,
	"grad_norm": 0.5756401973694445,
	"learning_rate": 7.4480000000000005e-06,
	"loss": 2.3894,
	"step": 3725
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.5945783703417461,
	"learning_rate": 7.498000000000001e-06,
	"loss": 2.3928,
	"step": 3750
	},
	{
	"epoch": 0.0755,
	"grad_norm": 0.5935750222986942,
	"learning_rate": 7.548000000000001e-06,
	"loss": 2.3774,
	"step": 3775
	},
	{
	"epoch": 0.076,
	"grad_norm": 0.5938734543073783,
	"learning_rate": 7.598000000000001e-06,
	"loss": 2.3776,
	"step": 3800
	},
	{
	"epoch": 0.076,
	"eval_loss": 2.432751178741455,
	"eval_runtime": 263.8929,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.557,
	"step": 3800
	},
	{
	"epoch": 0.0765,
	"grad_norm": 0.595820899700728,
	"learning_rate": 7.648e-06,
	"loss": 2.3804,
	"step": 3825
	},
	{
	"epoch": 0.077,
	"grad_norm": 0.6079304106413467,
	"learning_rate": 7.698000000000002e-06,
	"loss": 2.3917,
	"step": 3850
	},
	{
	"epoch": 0.0775,
	"grad_norm": 0.6083448146618482,
	"learning_rate": 7.748000000000001e-06,
	"loss": 2.3842,
	"step": 3875
	},
	{
	"epoch": 0.078,
	"grad_norm": 0.6128893415605828,
	"learning_rate": 7.798e-06,
	"loss": 2.3806,
	"step": 3900
	},
	{
	"epoch": 0.078,
	"eval_loss": 2.4325239658355713,
	"eval_runtime": 263.6693,
	"eval_samples_per_second": 3.118,
	"eval_steps_per_second": 1.559,
	"step": 3900
	},
	{
	"epoch": 0.0785,
	"grad_norm": 0.6079041195191952,
	"learning_rate": 7.848000000000002e-06,
	"loss": 2.3801,
	"step": 3925
	},
	{
	"epoch": 0.079,
	"grad_norm": 0.6075689821557235,
	"learning_rate": 7.898e-06,
	"loss": 2.3797,
	"step": 3950
	},
	{
	"epoch": 0.0795,
	"grad_norm": 0.5882326737716994,
	"learning_rate": 7.948e-06,
	"loss": 2.3905,
	"step": 3975
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.5828476462223788,
	"learning_rate": 7.998e-06,
	"loss": 2.3806,
	"step": 4000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.4323527812957764,
	"eval_runtime": 263.9786,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 4000
	},
	{
	"epoch": 0.0805,
	"grad_norm": 0.5907927035367586,
	"learning_rate": 8.048e-06,
	"loss": 2.3739,
	"step": 4025
	},
	{
	"epoch": 0.081,
	"grad_norm": 0.608189189988593,
	"learning_rate": 8.098000000000001e-06,
	"loss": 2.3837,
	"step": 4050
	},
	{
	"epoch": 0.0815,
	"grad_norm": 0.5933025642280234,
	"learning_rate": 8.148e-06,
	"loss": 2.3814,
	"step": 4075
	},
	{
	"epoch": 0.082,
	"grad_norm": 0.5898305070270532,
	"learning_rate": 8.198e-06,
	"loss": 2.3854,
	"step": 4100
	},
	{
	"epoch": 0.082,
	"eval_loss": 2.432577610015869,
	"eval_runtime": 264.0972,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 4100
	},
	{
	"epoch": 0.0825,
	"grad_norm": 0.5673002921483621,
	"learning_rate": 8.248e-06,
	"loss": 2.3827,
	"step": 4125
	},
	{
	"epoch": 0.083,
	"grad_norm": 0.5859186364996516,
	"learning_rate": 8.298000000000001e-06,
	"loss": 2.3859,
	"step": 4150
	},
	{
	"epoch": 0.0835,
	"grad_norm": 0.5852893491639726,
	"learning_rate": 8.348e-06,
	"loss": 2.3711,
	"step": 4175
	},
	{
	"epoch": 0.084,
	"grad_norm": 0.5704807601233864,
	"learning_rate": 8.398e-06,
	"loss": 2.3682,
	"step": 4200
	},
	{
	"epoch": 0.084,
	"eval_loss": 2.4325780868530273,
	"eval_runtime": 264.0677,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.556,
	"step": 4200
	},
	{
	"epoch": 0.0845,
	"grad_norm": 0.565873049775094,
	"learning_rate": 8.448000000000001e-06,
	"loss": 2.3894,
	"step": 4225
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.6594348238393681,
	"learning_rate": 8.498e-06,
	"loss": 2.3736,
	"step": 4250
	},
	{
	"epoch": 0.0855,
	"grad_norm": 0.6114416993962639,
	"learning_rate": 8.548e-06,
	"loss": 2.3768,
	"step": 4275
	},
	{
	"epoch": 0.086,
	"grad_norm": 0.613007148558132,
	"learning_rate": 8.598000000000001e-06,
	"loss": 2.3841,
	"step": 4300
	},
	{
	"epoch": 0.086,
	"eval_loss": 2.432278633117676,
	"eval_runtime": 264.5455,
	"eval_samples_per_second": 3.107,
	"eval_steps_per_second": 1.554,
	"step": 4300
	},
	{
	"epoch": 0.0865,
	"grad_norm": 0.6316113111159283,
	"learning_rate": 8.648000000000001e-06,
	"loss": 2.3853,
	"step": 4325
	},
	{
	"epoch": 0.087,
	"grad_norm": 0.578758909498954,
	"learning_rate": 8.698e-06,
	"loss": 2.3838,
	"step": 4350
	},
	{
	"epoch": 0.0875,
	"grad_norm": 0.5663796780744771,
	"learning_rate": 8.748000000000002e-06,
	"loss": 2.3744,
	"step": 4375
	},
	{
	"epoch": 0.088,
	"grad_norm": 0.5996723194508057,
	"learning_rate": 8.798000000000001e-06,
	"loss": 2.3741,
	"step": 4400
	},
	{
	"epoch": 0.088,
	"eval_loss": 2.4327504634857178,
	"eval_runtime": 264.3839,
	"eval_samples_per_second": 3.109,
	"eval_steps_per_second": 1.555,
	"step": 4400
	},
	{
	"epoch": 0.0885,
	"grad_norm": 0.5903185672805589,
	"learning_rate": 8.848e-06,
	"loss": 2.3789,
	"step": 4425
	},
	{
	"epoch": 0.089,
	"grad_norm": 0.5683354037993711,
	"learning_rate": 8.898000000000002e-06,
	"loss": 2.3739,
	"step": 4450
	},
	{
	"epoch": 0.0895,
	"grad_norm": 0.5992802333814672,
	"learning_rate": 8.948000000000001e-06,
	"loss": 2.3805,
	"step": 4475
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.5951158771681028,
	"learning_rate": 8.998000000000001e-06,
	"loss": 2.3702,
	"step": 4500
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.432904005050659,
	"eval_runtime": 264.0927,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.556,
	"step": 4500
	},
	{
	"epoch": 0.0905,
	"grad_norm": 0.628437176595306,
	"learning_rate": 9.048e-06,
	"loss": 2.3705,
	"step": 4525
	},
	{
	"epoch": 0.091,
	"grad_norm": 0.5852194468933433,
	"learning_rate": 9.098000000000002e-06,
	"loss": 2.3726,
	"step": 4550
	},
	{
	"epoch": 0.0915,
	"grad_norm": 0.5832814461503186,
	"learning_rate": 9.148e-06,
	"loss": 2.3709,
	"step": 4575
	},
	{
	"epoch": 0.092,
	"grad_norm": 0.6235298544634128,
	"learning_rate": 9.198e-06,
	"loss": 2.3823,
	"step": 4600
	},
	{
	"epoch": 0.092,
	"eval_loss": 2.433288335800171,
	"eval_runtime": 264.0394,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.557,
	"step": 4600
	},
	{
	"epoch": 0.0925,
	"grad_norm": 0.6097464410099737,
	"learning_rate": 9.248e-06,
	"loss": 2.3715,
	"step": 4625
	},
	{
	"epoch": 0.093,
	"grad_norm": 0.5830918527201829,
	"learning_rate": 9.298e-06,
	"loss": 2.3694,
	"step": 4650
	},
	{
	"epoch": 0.0935,
	"grad_norm": 0.6195865573807103,
	"learning_rate": 9.348000000000001e-06,
	"loss": 2.3711,
	"step": 4675
	},
	{
	"epoch": 0.094,
	"grad_norm": 0.5922485886549429,
	"learning_rate": 9.398e-06,
	"loss": 2.3764,
	"step": 4700
	},
	{
	"epoch": 0.094,
	"eval_loss": 2.4330477714538574,
	"eval_runtime": 263.7501,
	"eval_samples_per_second": 3.117,
	"eval_steps_per_second": 1.558,
	"step": 4700
	},
	{
	"epoch": 0.0945,
	"grad_norm": 0.5909566806378528,
	"learning_rate": 9.448e-06,
	"loss": 2.3799,
	"step": 4725
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.5872189964007283,
	"learning_rate": 9.498000000000001e-06,
	"loss": 2.3737,
	"step": 4750
	},
	{
	"epoch": 0.0955,
	"grad_norm": 0.6071714619656263,
	"learning_rate": 9.548e-06,
	"loss": 2.3789,
	"step": 4775
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.5631342344537085,
	"learning_rate": 9.598e-06,
	"loss": 2.3641,
	"step": 4800
	},
	{
	"epoch": 0.096,
	"eval_loss": 2.4332797527313232,
	"eval_runtime": 264.5164,
	"eval_samples_per_second": 3.108,
	"eval_steps_per_second": 1.554,
	"step": 4800
	},
	{
	"epoch": 0.0965,
	"grad_norm": 0.600707218384485,
	"learning_rate": 9.648000000000001e-06,
	"loss": 2.3715,
	"step": 4825
	},
	{
	"epoch": 0.097,
	"grad_norm": 0.5705494762785608,
	"learning_rate": 9.698000000000001e-06,
	"loss": 2.3741,
	"step": 4850
	},
	{
	"epoch": 0.0975,
	"grad_norm": 0.5891811727113021,
	"learning_rate": 9.748e-06,
	"loss": 2.3738,
	"step": 4875
	},
	{
	"epoch": 0.098,
	"grad_norm": 0.5947555260131183,
	"learning_rate": 9.798e-06,
	"loss": 2.365,
	"step": 4900
	},
	{
	"epoch": 0.098,
	"eval_loss": 2.433032751083374,
	"eval_runtime": 264.6355,
	"eval_samples_per_second": 3.106,
	"eval_steps_per_second": 1.553,
	"step": 4900
	},
	{
	"epoch": 0.0985,
	"grad_norm": 0.6055417663185935,
	"learning_rate": 9.848000000000001e-06,
	"loss": 2.3677,
	"step": 4925
	},
	{
	"epoch": 0.099,
	"grad_norm": 0.5803464068069174,
	"learning_rate": 9.898e-06,
	"loss": 2.3699,
	"step": 4950
	},
	{
	"epoch": 0.0995,
	"grad_norm": 0.5899201870269601,
	"learning_rate": 9.948e-06,
	"loss": 2.3685,
	"step": 4975
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.6226759838202708,
	"learning_rate": 9.998000000000002e-06,
	"loss": 2.3599,
	"step": 5000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.433412551879883,
	"eval_runtime": 279.6783,
	"eval_samples_per_second": 2.939,
	"eval_steps_per_second": 1.47,
	"step": 5000
	},
	{
	"epoch": 0.1005,
	"grad_norm": 0.6129345554278736,
	"learning_rate": 9.994666666666668e-06,
	"loss": 2.3651,
	"step": 5025
	},
	{
	"epoch": 0.101,
	"grad_norm": 0.5783687106202524,
	"learning_rate": 9.989111111111111e-06,
	"loss": 2.3635,
	"step": 5050
	},
	{
	"epoch": 0.1015,
	"grad_norm": 0.7886759246703615,
	"learning_rate": 9.983555555555556e-06,
	"loss": 2.3688,
	"step": 5075
	},
	{
	"epoch": 0.102,
	"grad_norm": 0.5496276670344779,
	"learning_rate": 9.978000000000002e-06,
	"loss": 2.3718,
	"step": 5100
	},
	{
	"epoch": 0.102,
	"eval_loss": 2.4336636066436768,
	"eval_runtime": 264.0531,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.557,
	"step": 5100
	},
	{
	"epoch": 0.1025,
	"grad_norm": 0.596488402670124,
	"learning_rate": 9.972444444444445e-06,
	"loss": 2.3654,
	"step": 5125
	},
	{
	"epoch": 0.103,
	"grad_norm": 0.5758952191659142,
	"learning_rate": 9.966888888888889e-06,
	"loss": 2.3662,
	"step": 5150
	},
	{
	"epoch": 0.1035,
	"grad_norm": 0.5714325894660194,
	"learning_rate": 9.961333333333334e-06,
	"loss": 2.3671,
	"step": 5175
	},
	{
	"epoch": 0.104,
	"grad_norm": 0.5826964477363549,
	"learning_rate": 9.95577777777778e-06,
	"loss": 2.3621,
	"step": 5200
	},
	{
	"epoch": 0.104,
	"eval_loss": 2.433170795440674,
	"eval_runtime": 263.4913,
	"eval_samples_per_second": 3.12,
	"eval_steps_per_second": 1.56,
	"step": 5200
	},
	{
	"epoch": 0.1045,
	"grad_norm": 0.5939017286545814,
	"learning_rate": 9.950222222222223e-06,
	"loss": 2.3704,
	"step": 5225
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.5916137818576529,
	"learning_rate": 9.944666666666668e-06,
	"loss": 2.3662,
	"step": 5250
	},
	{
	"epoch": 0.1055,
	"grad_norm": 0.6105360548349205,
	"learning_rate": 9.939111111111112e-06,
	"loss": 2.3646,
	"step": 5275
	},
	{
	"epoch": 0.106,
	"grad_norm": 0.5821955662592928,
	"learning_rate": 9.933555555555557e-06,
	"loss": 2.365,
	"step": 5300
	},
	{
	"epoch": 0.106,
	"eval_loss": 2.4327642917633057,
	"eval_runtime": 263.745,
	"eval_samples_per_second": 3.117,
	"eval_steps_per_second": 1.558,
	"step": 5300
	},
	{
	"epoch": 0.1065,
	"grad_norm": 0.5805717889494187,
	"learning_rate": 9.928e-06,
	"loss": 2.364,
	"step": 5325
	},
	{
	"epoch": 0.107,
	"grad_norm": 0.5876895049794754,
	"learning_rate": 9.922444444444446e-06,
	"loss": 2.362,
	"step": 5350
	},
	{
	"epoch": 0.1075,
	"grad_norm": 0.6258383766876349,
	"learning_rate": 9.91688888888889e-06,
	"loss": 2.3654,
	"step": 5375
	},
	{
	"epoch": 0.108,
	"grad_norm": 0.5963835367877209,
	"learning_rate": 9.911333333333335e-06,
	"loss": 2.3627,
	"step": 5400
	},
	{
	"epoch": 0.108,
	"eval_loss": 2.4326930046081543,
	"eval_runtime": 263.2366,
	"eval_samples_per_second": 3.123,
	"eval_steps_per_second": 1.561,
	"step": 5400
	},
	{
	"epoch": 0.1085,
	"grad_norm": 0.5827253994353866,
	"learning_rate": 9.905777777777778e-06,
	"loss": 2.3703,
	"step": 5425
	},
	{
	"epoch": 0.109,
	"grad_norm": 0.571031920084426,
	"learning_rate": 9.900222222222223e-06,
	"loss": 2.3671,
	"step": 5450
	},
	{
	"epoch": 0.1095,
	"grad_norm": 0.599548806743577,
	"learning_rate": 9.894666666666669e-06,
	"loss": 2.362,
	"step": 5475
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.5736311725646083,
	"learning_rate": 9.889111111111112e-06,
	"loss": 2.3622,
	"step": 5500
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.4330084323883057,
	"eval_runtime": 264.1044,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 5500
	},
	{
	"epoch": 0.1105,
	"grad_norm": 0.6098672058792028,
	"learning_rate": 9.883555555555556e-06,
	"loss": 2.3705,
	"step": 5525
	},
	{
	"epoch": 0.111,
	"grad_norm": 0.5761728375832208,
	"learning_rate": 9.878000000000001e-06,
	"loss": 2.3608,
	"step": 5550
	},
	{
	"epoch": 0.1115,
	"grad_norm": 0.5922504560114277,
	"learning_rate": 9.872444444444446e-06,
	"loss": 2.3542,
	"step": 5575
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.5668795024079605,
	"learning_rate": 9.86688888888889e-06,
	"loss": 2.3623,
	"step": 5600
	},
	{
	"epoch": 0.112,
	"eval_loss": 2.432955503463745,
	"eval_runtime": 263.8097,
	"eval_samples_per_second": 3.116,
	"eval_steps_per_second": 1.558,
	"step": 5600
	},
	{
	"epoch": 0.1125,
	"grad_norm": 0.5697809034851604,
	"learning_rate": 9.861333333333333e-06,
	"loss": 2.3541,
	"step": 5625
	},
	{
	"epoch": 0.113,
	"grad_norm": 0.5740407982821335,
	"learning_rate": 9.855777777777779e-06,
	"loss": 2.3594,
	"step": 5650
	},
	{
	"epoch": 0.1135,
	"grad_norm": 0.5697372211616294,
	"learning_rate": 9.850222222222224e-06,
	"loss": 2.3592,
	"step": 5675
	},
	{
	"epoch": 0.114,
	"grad_norm": 0.5845230307189324,
	"learning_rate": 9.844666666666667e-06,
	"loss": 2.3456,
	"step": 5700
	},
	{
	"epoch": 0.114,
	"eval_loss": 2.432389974594116,
	"eval_runtime": 263.8043,
	"eval_samples_per_second": 3.116,
	"eval_steps_per_second": 1.558,
	"step": 5700
	},
	{
	"epoch": 0.1145,
	"grad_norm": 0.5677067211464538,
	"learning_rate": 9.839111111111111e-06,
	"loss": 2.3581,
	"step": 5725
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.6024564908699644,
	"learning_rate": 9.833555555555556e-06,
	"loss": 2.359,
	"step": 5750
	},
	{
	"epoch": 0.1155,
	"grad_norm": 0.5789830837760237,
	"learning_rate": 9.828000000000001e-06,
	"loss": 2.36,
	"step": 5775
	},
	{
	"epoch": 0.116,
	"grad_norm": 0.5912805339254935,
	"learning_rate": 9.822444444444445e-06,
	"loss": 2.3588,
	"step": 5800
	},
	{
	"epoch": 0.116,
	"eval_loss": 2.432565689086914,
	"eval_runtime": 263.3515,
	"eval_samples_per_second": 3.121,
	"eval_steps_per_second": 1.561,
	"step": 5800
	},
	{
	"epoch": 0.1165,
	"grad_norm": 0.5647440650976697,
	"learning_rate": 9.81688888888889e-06,
	"loss": 2.3576,
	"step": 5825
	},
	{
	"epoch": 0.117,
	"grad_norm": 0.5673458673735715,
	"learning_rate": 9.811333333333334e-06,
	"loss": 2.3616,
	"step": 5850
	},
	{
	"epoch": 0.1175,
	"grad_norm": 0.6030082642745155,
	"learning_rate": 9.805777777777779e-06,
	"loss": 2.3556,
	"step": 5875
	},
	{
	"epoch": 0.118,
	"grad_norm": 0.5571893163840321,
	"learning_rate": 9.800222222222223e-06,
	"loss": 2.3557,
	"step": 5900
	},
	{
	"epoch": 0.118,
	"eval_loss": 2.4327075481414795,
	"eval_runtime": 263.2657,
	"eval_samples_per_second": 3.122,
	"eval_steps_per_second": 1.561,
	"step": 5900
	},
	{
	"epoch": 0.1185,
	"grad_norm": 0.5716010515949606,
	"learning_rate": 9.794666666666668e-06,
	"loss": 2.3616,
	"step": 5925
	},
	{
	"epoch": 0.119,
	"grad_norm": 0.6245053681878497,
	"learning_rate": 9.789111111111111e-06,
	"loss": 2.358,
	"step": 5950
	},
	{
	"epoch": 0.1195,
	"grad_norm": 0.5896528100704728,
	"learning_rate": 9.783555555555557e-06,
	"loss": 2.355,
	"step": 5975
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.5534590488643797,
	"learning_rate": 9.778e-06,
	"loss": 2.3567,
	"step": 6000
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.4327354431152344,
	"eval_runtime": 263.9156,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.557,
	"step": 6000
	},
	{
	"epoch": 0.1205,
	"grad_norm": 0.5779403883996491,
	"learning_rate": 9.772444444444445e-06,
	"loss": 2.3487,
	"step": 6025
	},
	{
	"epoch": 0.121,
	"grad_norm": 0.5693494880188505,
	"learning_rate": 9.76688888888889e-06,
	"loss": 2.3506,
	"step": 6050
	},
	{
	"epoch": 0.1215,
	"grad_norm": 0.5864069751838692,
	"learning_rate": 9.761333333333334e-06,
	"loss": 2.3498,
	"step": 6075
	},
	{
	"epoch": 0.122,
	"grad_norm": 0.5930208676954954,
	"learning_rate": 9.755777777777778e-06,
	"loss": 2.3508,
	"step": 6100
	},
	{
	"epoch": 0.122,
	"eval_loss": 2.432914972305298,
	"eval_runtime": 263.746,
	"eval_samples_per_second": 3.117,
	"eval_steps_per_second": 1.558,
	"step": 6100
	},
	{
	"epoch": 0.1225,
	"grad_norm": 0.5967532601446782,
	"learning_rate": 9.750222222222223e-06,
	"loss": 2.3584,
	"step": 6125
	},
	{
	"epoch": 0.123,
	"grad_norm": 0.5670429310236035,
	"learning_rate": 9.744666666666668e-06,
	"loss": 2.3584,
	"step": 6150
	},
	{
	"epoch": 0.1235,
	"grad_norm": 0.5744482242457726,
	"learning_rate": 9.739111111111112e-06,
	"loss": 2.351,
	"step": 6175
	},
	{
	"epoch": 0.124,
	"grad_norm": 0.6029007635970692,
	"learning_rate": 9.733555555555555e-06,
	"loss": 2.3494,
	"step": 6200
	},
	{
	"epoch": 0.124,
	"eval_loss": 2.432878255844116,
	"eval_runtime": 263.5842,
	"eval_samples_per_second": 3.119,
	"eval_steps_per_second": 1.559,
	"step": 6200
	},
	{
	"epoch": 0.1245,
	"grad_norm": 0.564399310279196,
	"learning_rate": 9.728e-06,
	"loss": 2.3595,
	"step": 6225
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.6065670221926927,
	"learning_rate": 9.722444444444446e-06,
	"loss": 2.3547,
	"step": 6250
	},
	{
	"epoch": 0.1255,
	"grad_norm": 0.5659801132085207,
	"learning_rate": 9.71688888888889e-06,
	"loss": 2.3511,
	"step": 6275
	},
	{
	"epoch": 0.126,
	"grad_norm": 0.5837628069797915,
	"learning_rate": 9.711333333333333e-06,
	"loss": 2.3575,
	"step": 6300
	},
	{
	"epoch": 0.126,
	"eval_loss": 2.4329097270965576,
	"eval_runtime": 264.6192,
	"eval_samples_per_second": 3.106,
	"eval_steps_per_second": 1.553,
	"step": 6300
	},
	{
	"epoch": 0.1265,
	"grad_norm": 0.5760319910919499,
	"learning_rate": 9.705777777777778e-06,
	"loss": 2.3488,
	"step": 6325
	},
	{
	"epoch": 0.127,
	"grad_norm": 0.5761318046315628,
	"learning_rate": 9.700222222222224e-06,
	"loss": 2.3435,
	"step": 6350
	},
	{
	"epoch": 0.1275,
	"grad_norm": 0.5609369346838009,
	"learning_rate": 9.694666666666667e-06,
	"loss": 2.347,
	"step": 6375
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.5954461846572633,
	"learning_rate": 9.68911111111111e-06,
	"loss": 2.3485,
	"step": 6400
	},
	{
	"epoch": 0.128,
	"eval_loss": 2.4333934783935547,
	"eval_runtime": 263.5903,
	"eval_samples_per_second": 3.118,
	"eval_steps_per_second": 1.559,
	"step": 6400
	},
	{
	"epoch": 0.1285,
	"grad_norm": 0.5524126786458765,
	"learning_rate": 9.683555555555556e-06,
	"loss": 2.3514,
	"step": 6425
	},
	{
	"epoch": 0.129,
	"grad_norm": 0.5590067107241867,
	"learning_rate": 9.678000000000001e-06,
	"loss": 2.3477,
	"step": 6450
	},
	{
	"epoch": 0.1295,
	"grad_norm": 0.5578028236930622,
	"learning_rate": 9.672444444444445e-06,
	"loss": 2.3434,
	"step": 6475
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.6002389478119885,
	"learning_rate": 9.66688888888889e-06,
	"loss": 2.3415,
	"step": 6500
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.433302164077759,
	"eval_runtime": 263.4334,
	"eval_samples_per_second": 3.12,
	"eval_steps_per_second": 1.56,
	"step": 6500
	},
	{
	"epoch": 0.1305,
	"grad_norm": 0.5868647352323021,
	"learning_rate": 9.661333333333334e-06,
	"loss": 2.3532,
	"step": 6525
	},
	{
	"epoch": 0.131,
	"grad_norm": 0.5525203092071236,
	"learning_rate": 9.655777777777779e-06,
	"loss": 2.3439,
	"step": 6550
	},
	{
	"epoch": 0.1315,
	"grad_norm": 0.642282300647443,
	"learning_rate": 9.650222222222222e-06,
	"loss": 2.333,
	"step": 6575
	},
	{
	"epoch": 0.132,
	"grad_norm": 0.5954691746571129,
	"learning_rate": 9.644666666666668e-06,
	"loss": 2.3371,
	"step": 6600
	},
	{
	"epoch": 0.132,
	"eval_loss": 2.4332070350646973,
	"eval_runtime": 263.9928,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 6600
	},
	{
	"epoch": 0.1325,
	"grad_norm": 0.5696322215994257,
	"learning_rate": 9.639111111111113e-06,
	"loss": 2.3568,
	"step": 6625
	},
	{
	"epoch": 0.133,
	"grad_norm": 0.569783318316734,
	"learning_rate": 9.633555555555556e-06,
	"loss": 2.3468,
	"step": 6650
	},
	{
	"epoch": 0.1335,
	"grad_norm": 0.5974477984803339,
	"learning_rate": 9.628e-06,
	"loss": 2.3369,
	"step": 6675
	},
	{
	"epoch": 0.134,
	"grad_norm": 0.5850514409957908,
	"learning_rate": 9.622444444444445e-06,
	"loss": 2.3328,
	"step": 6700
	},
	{
	"epoch": 0.134,
	"eval_loss": 2.4336042404174805,
	"eval_runtime": 264.1653,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 6700
	},
	{
	"epoch": 0.1345,
	"grad_norm": 0.5598567946533984,
	"learning_rate": 9.61688888888889e-06,
	"loss": 2.3505,
	"step": 6725
	},
	{
	"epoch": 0.135,
	"grad_norm": 0.564538169627995,
	"learning_rate": 9.611333333333334e-06,
	"loss": 2.3512,
	"step": 6750
	},
	{
	"epoch": 0.1355,
	"grad_norm": 0.555057205811747,
	"learning_rate": 9.605777777777778e-06,
	"loss": 2.3441,
	"step": 6775
	},
	{
	"epoch": 0.136,
	"grad_norm": 0.5928392878820046,
	"learning_rate": 9.600222222222223e-06,
	"loss": 2.342,
	"step": 6800
	},
	{
	"epoch": 0.136,
	"eval_loss": 2.4332380294799805,
	"eval_runtime": 263.6981,
	"eval_samples_per_second": 3.117,
	"eval_steps_per_second": 1.559,
	"step": 6800
	},
	{
	"epoch": 0.1365,
	"grad_norm": 0.580747535991996,
	"learning_rate": 9.594666666666668e-06,
	"loss": 2.3402,
	"step": 6825
	},
	{
	"epoch": 0.137,
	"grad_norm": 0.5361093856752921,
	"learning_rate": 9.589111111111112e-06,
	"loss": 2.3345,
	"step": 6850
	},
	{
	"epoch": 0.1375,
	"grad_norm": 0.5764684974648585,
	"learning_rate": 9.583555555555555e-06,
	"loss": 2.3434,
	"step": 6875
	},
	{
	"epoch": 0.138,
	"grad_norm": 0.5695437902803252,
	"learning_rate": 9.578e-06,
	"loss": 2.3345,
	"step": 6900
	},
	{
	"epoch": 0.138,
	"eval_loss": 2.4334897994995117,
	"eval_runtime": 263.9042,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.557,
	"step": 6900
	},
	{
	"epoch": 0.1385,
	"grad_norm": 0.5856816810807355,
	"learning_rate": 9.572444444444446e-06,
	"loss": 2.3344,
	"step": 6925
	},
	{
	"epoch": 0.139,
	"grad_norm": 0.5692161417871612,
	"learning_rate": 9.56688888888889e-06,
	"loss": 2.3492,
	"step": 6950
	},
	{
	"epoch": 0.1395,
	"grad_norm": 0.5782790626699041,
	"learning_rate": 9.561333333333333e-06,
	"loss": 2.3343,
	"step": 6975
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.5592348825440727,
	"learning_rate": 9.555777777777778e-06,
	"loss": 2.3361,
	"step": 7000
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.4338128566741943,
	"eval_runtime": 264.0278,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.557,
	"step": 7000
	},
	{
	"epoch": 0.1405,
	"grad_norm": 0.5810855929853301,
	"learning_rate": 9.550222222222223e-06,
	"loss": 2.3397,
	"step": 7025
	},
	{
	"epoch": 0.141,
	"grad_norm": 0.5672444444354668,
	"learning_rate": 9.544666666666667e-06,
	"loss": 2.3384,
	"step": 7050
	},
	{
	"epoch": 0.1415,
	"grad_norm": 0.649461804794621,
	"learning_rate": 9.539111111111112e-06,
	"loss": 2.3384,
	"step": 7075
	},
	{
	"epoch": 0.142,
	"grad_norm": 0.5697893925017475,
	"learning_rate": 9.533555555555556e-06,
	"loss": 2.3415,
	"step": 7100
	},
	{
	"epoch": 0.142,
	"eval_loss": 2.4329330921173096,
	"eval_runtime": 263.8408,
	"eval_samples_per_second": 3.116,
	"eval_steps_per_second": 1.558,
	"step": 7100
	},
	{
	"epoch": 0.1425,
	"grad_norm": 0.562192662676289,
	"learning_rate": 9.528000000000001e-06,
	"loss": 2.3381,
	"step": 7125
	},
	{
	"epoch": 0.143,
	"grad_norm": 0.5782927675061864,
	"learning_rate": 9.522444444444444e-06,
	"loss": 2.3316,
	"step": 7150
	},
	{
	"epoch": 0.1435,
	"grad_norm": 0.5470889439002048,
	"learning_rate": 9.51688888888889e-06,
	"loss": 2.3336,
	"step": 7175
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.5732687375919955,
	"learning_rate": 9.511333333333335e-06,
	"loss": 2.3302,
	"step": 7200
	},
	{
	"epoch": 0.144,
	"eval_loss": 2.4339091777801514,
	"eval_runtime": 265.4685,
	"eval_samples_per_second": 3.096,
	"eval_steps_per_second": 1.548,
	"step": 7200
	},
	{
	"epoch": 0.1445,
	"grad_norm": 0.5552677779418167,
	"learning_rate": 9.505777777777779e-06,
	"loss": 2.3382,
	"step": 7225
	},
	{
	"epoch": 0.145,
	"grad_norm": 0.5597695533114173,
	"learning_rate": 9.500222222222222e-06,
	"loss": 2.3281,
	"step": 7250
	},
	{
	"epoch": 0.1455,
	"grad_norm": 0.586047229250587,
	"learning_rate": 9.494666666666667e-06,
	"loss": 2.3365,
	"step": 7275
	},
	{
	"epoch": 0.146,
	"grad_norm": 0.5631697021330876,
	"learning_rate": 9.489111111111113e-06,
	"loss": 2.3434,
	"step": 7300
	},
	{
	"epoch": 0.146,
	"eval_loss": 2.4337289333343506,
	"eval_runtime": 264.0121,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.557,
	"step": 7300
	},
	{
	"epoch": 0.1465,
	"grad_norm": 0.5787283610065107,
	"learning_rate": 9.483555555555556e-06,
	"loss": 2.3385,
	"step": 7325
	},
	{
	"epoch": 0.147,
	"grad_norm": 0.5894250508009748,
	"learning_rate": 9.478e-06,
	"loss": 2.3289,
	"step": 7350
	},
	{
	"epoch": 0.1475,
	"grad_norm": 0.5698558287850775,
	"learning_rate": 9.472444444444445e-06,
	"loss": 2.3363,
	"step": 7375
	},
	{
	"epoch": 0.148,
	"grad_norm": 0.5704695535231787,
	"learning_rate": 9.46688888888889e-06,
	"loss": 2.3245,
	"step": 7400
	},
	{
	"epoch": 0.148,
	"eval_loss": 2.4338371753692627,
	"eval_runtime": 264.1068,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 1.556,
	"step": 7400
	},
	{
	"epoch": 0.1485,
	"grad_norm": 0.5452782996001769,
	"learning_rate": 9.461333333333334e-06,
	"loss": 2.3442,
	"step": 7425
	},
	{
	"epoch": 0.149,
	"grad_norm": 0.5741037001956839,
	"learning_rate": 9.455777777777777e-06,
	"loss": 2.3349,
	"step": 7450
	},
	{
	"epoch": 0.1495,
	"grad_norm": 0.5570524045425876,
	"learning_rate": 9.450222222222223e-06,
	"loss": 2.3324,
	"step": 7475
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.5701333037498688,
	"learning_rate": 9.444666666666668e-06,
	"loss": 2.3268,
	"step": 7500
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.4347753524780273,
	"eval_runtime": 264.1822,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 7500
	},
	{
	"epoch": 0.1505,
	"grad_norm": 0.5636194713998469,
	"learning_rate": 9.439111111111111e-06,
	"loss": 2.3324,
	"step": 7525
	},
	{
	"epoch": 0.151,
	"grad_norm": 0.5745462812172999,
	"learning_rate": 9.433555555555557e-06,
	"loss": 2.3438,
	"step": 7550
	},
	{
	"epoch": 0.1515,
	"grad_norm": 0.5658180287749817,
	"learning_rate": 9.428e-06,
	"loss": 2.3272,
	"step": 7575
	},
	{
	"epoch": 0.152,
	"grad_norm": 0.5590021944536283,
	"learning_rate": 9.422444444444445e-06,
	"loss": 2.3379,
	"step": 7600
	},
	{
	"epoch": 0.152,
	"eval_loss": 2.43342924118042,
	"eval_runtime": 264.6073,
	"eval_samples_per_second": 3.106,
	"eval_steps_per_second": 1.553,
	"step": 7600
	},
	{
	"epoch": 0.1525,
	"grad_norm": 0.5756847823781959,
	"learning_rate": 9.41688888888889e-06,
	"loss": 2.3291,
	"step": 7625
	},
	{
	"epoch": 0.153,
	"grad_norm": 0.5614727649452073,
	"learning_rate": 9.411333333333334e-06,
	"loss": 2.3164,
	"step": 7650
	},
	{
	"epoch": 0.1535,
	"grad_norm": 0.581410678990456,
	"learning_rate": 9.405777777777778e-06,
	"loss": 2.3205,
	"step": 7675
	},
	{
	"epoch": 0.154,
	"grad_norm": 0.6063515370764081,
	"learning_rate": 9.400222222222223e-06,
	"loss": 2.3331,
	"step": 7700
	},
	{
	"epoch": 0.154,
	"eval_loss": 2.435711622238159,
	"eval_runtime": 283.6724,
	"eval_samples_per_second": 2.898,
	"eval_steps_per_second": 1.449,
	"step": 7700
	},
	{
	"epoch": 0.1545,
	"grad_norm": 0.5535459156675728,
	"learning_rate": 9.394666666666668e-06,
	"loss": 2.3312,
	"step": 7725
	},
	{
	"epoch": 0.155,
	"grad_norm": 0.5550223235337549,
	"learning_rate": 9.389111111111112e-06,
	"loss": 2.3222,
	"step": 7750
	},
	{
	"epoch": 0.1555,
	"grad_norm": 0.5661396564004607,
	"learning_rate": 9.383555555555557e-06,
	"loss": 2.329,
	"step": 7775
	},
	{
	"epoch": 0.156,
	"grad_norm": 0.5754229466302317,
	"learning_rate": 9.378e-06,
	"loss": 2.3375,
	"step": 7800
	},
	{
	"epoch": 0.156,
	"eval_loss": 2.4339263439178467,
	"eval_runtime": 263.7245,
	"eval_samples_per_second": 3.117,
	"eval_steps_per_second": 1.558,
	"step": 7800
	},
	{
	"epoch": 0.1565,
	"grad_norm": 0.5922113870936093,
	"learning_rate": 9.372444444444446e-06,
	"loss": 2.3326,
	"step": 7825
	},
	{
	"epoch": 0.157,
	"grad_norm": 0.5802231546249389,
	"learning_rate": 9.36688888888889e-06,
	"loss": 2.3313,
	"step": 7850
	},
	{
	"epoch": 0.1575,
	"grad_norm": 0.5613750089293277,
	"learning_rate": 9.361333333333335e-06,
	"loss": 2.3306,
	"step": 7875
	},
	{
	"epoch": 0.158,
	"grad_norm": 0.5554952690049914,
	"learning_rate": 9.355777777777778e-06,
	"loss": 2.3307,
	"step": 7900
	},
	{
	"epoch": 0.158,
	"eval_loss": 2.435500144958496,
	"eval_runtime": 268.1064,
	"eval_samples_per_second": 3.066,
	"eval_steps_per_second": 1.533,
	"step": 7900
	},
	{
	"epoch": 0.1585,
	"grad_norm": 0.5699743157285643,
	"learning_rate": 9.350222222222224e-06,
	"loss": 2.3274,
	"step": 7925
	},
	{
	"epoch": 0.159,
	"grad_norm": 0.580771514541295,
	"learning_rate": 9.344666666666667e-06,
	"loss": 2.3238,
	"step": 7950
	},
	{
	"epoch": 0.1595,
	"grad_norm": 0.563419791930312,
	"learning_rate": 9.339111111111112e-06,
	"loss": 2.3384,
	"step": 7975
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.5793778749938447,
	"learning_rate": 9.333555555555558e-06,
	"loss": 2.3291,
	"step": 8000
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.4343531131744385,
	"eval_runtime": 263.9111,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.557,
	"step": 8000
	},
	{
	"epoch": 0.1605,
	"grad_norm": 0.5748501940226582,
	"learning_rate": 9.328000000000001e-06,
	"loss": 2.3272,
	"step": 8025
	},
	{
	"epoch": 0.161,
	"grad_norm": 0.5776520997935511,
	"learning_rate": 9.322444444444445e-06,
	"loss": 2.3232,
	"step": 8050
	},
	{
	"epoch": 0.1615,
	"grad_norm": 0.5841162716826148,
	"learning_rate": 9.31688888888889e-06,
	"loss": 2.3252,
	"step": 8075
	},
	{
	"epoch": 0.162,
	"grad_norm": 0.5582161918345583,
	"learning_rate": 9.311333333333335e-06,
	"loss": 2.3254,
	"step": 8100
	},
	{
	"epoch": 0.162,
	"eval_loss": 2.4345877170562744,
	"eval_runtime": 263.9792,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 8100
	},
	{
	"epoch": 0.1625,
	"grad_norm": 0.5744381110572562,
	"learning_rate": 9.305777777777779e-06,
	"loss": 2.325,
	"step": 8125
	},
	{
	"epoch": 0.163,
	"grad_norm": 0.5801402993634438,
	"learning_rate": 9.300222222222222e-06,
	"loss": 2.3203,
	"step": 8150
	},
	{
	"epoch": 0.1635,
	"grad_norm": 0.5644380448766211,
	"learning_rate": 9.294666666666668e-06,
	"loss": 2.3179,
	"step": 8175
	},
	{
	"epoch": 0.164,
	"grad_norm": 0.5747041663572834,
	"learning_rate": 9.289111111111113e-06,
	"loss": 2.3241,
	"step": 8200
	},
	{
	"epoch": 0.164,
	"eval_loss": 2.435701847076416,
	"eval_runtime": 263.9699,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 8200
	},
	{
	"epoch": 0.1645,
	"grad_norm": 0.5550631701119645,
	"learning_rate": 9.283555555555556e-06,
	"loss": 2.3176,
	"step": 8225
	},
	{
	"epoch": 0.165,
	"grad_norm": 0.5828828542252756,
	"learning_rate": 9.278e-06,
	"loss": 2.3213,
	"step": 8250
	},
	{
	"epoch": 0.1655,
	"grad_norm": 0.5610132600982978,
	"learning_rate": 9.272444444444445e-06,
	"loss": 2.3117,
	"step": 8275
	},
	{
	"epoch": 0.166,
	"grad_norm": 0.5777357931804634,
	"learning_rate": 9.26688888888889e-06,
	"loss": 2.3189,
	"step": 8300
	},
	{
	"epoch": 0.166,
	"eval_loss": 2.43573260307312,
	"eval_runtime": 264.2018,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 8300
	},
	{
	"epoch": 0.1665,
	"grad_norm": 0.5515402141694353,
	"learning_rate": 9.261333333333334e-06,
	"loss": 2.3267,
	"step": 8325
	},
	{
	"epoch": 0.167,
	"grad_norm": 0.588745393922677,
	"learning_rate": 9.25577777777778e-06,
	"loss": 2.3219,
	"step": 8350
	},
	{
	"epoch": 0.1675,
	"grad_norm": 0.5391388541771018,
	"learning_rate": 9.250222222222223e-06,
	"loss": 2.3181,
	"step": 8375
	},
	{
	"epoch": 0.168,
	"grad_norm": 0.5680296112961243,
	"learning_rate": 9.244666666666668e-06,
	"loss": 2.3231,
	"step": 8400
	},
	{
	"epoch": 0.168,
	"eval_loss": 2.435276985168457,
	"eval_runtime": 263.8428,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 1.558,
	"step": 8400
	},
	{
	"epoch": 0.1685,
	"grad_norm": 0.5655802530008279,
	"learning_rate": 9.239111111111112e-06,
	"loss": 2.3201,
	"step": 8425
	},
	{
	"epoch": 0.169,
	"grad_norm": 0.5917481613153034,
	"learning_rate": 9.233555555555557e-06,
	"loss": 2.3184,
	"step": 8450
	},
	{
	"epoch": 0.1695,
	"grad_norm": 0.5808853698441179,
	"learning_rate": 9.228e-06,
	"loss": 2.3151,
	"step": 8475
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.5868551530423814,
	"learning_rate": 9.222444444444446e-06,
	"loss": 2.3146,
	"step": 8500
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.435950994491577,
	"eval_runtime": 264.3586,
	"eval_samples_per_second": 3.109,
	"eval_steps_per_second": 1.555,
	"step": 8500
	},
	{
	"epoch": 0.1705,
	"grad_norm": 0.5638181149272796,
	"learning_rate": 9.21688888888889e-06,
	"loss": 2.3155,
	"step": 8525
	},
	{
	"epoch": 0.171,
	"grad_norm": 0.5740285526813199,
	"learning_rate": 9.211333333333334e-06,
	"loss": 2.319,
	"step": 8550
	},
	{
	"epoch": 0.1715,
	"grad_norm": 0.5695622395648989,
	"learning_rate": 9.20577777777778e-06,
	"loss": 2.3206,
	"step": 8575
	},
	{
	"epoch": 0.172,
	"grad_norm": 0.5747463636735414,
	"learning_rate": 9.200222222222223e-06,
	"loss": 2.3111,
	"step": 8600
	},
	{
	"epoch": 0.172,
	"eval_loss": 2.4367878437042236,
	"eval_runtime": 264.2061,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 8600
	},
	{
	"epoch": 0.1725,
	"grad_norm": 0.5777631704492084,
	"learning_rate": 9.194666666666667e-06,
	"loss": 2.3078,
	"step": 8625
	},
	{
	"epoch": 0.173,
	"grad_norm": 0.5746886517313039,
	"learning_rate": 9.189111111111112e-06,
	"loss": 2.3152,
	"step": 8650
	},
	{
	"epoch": 0.1735,
	"grad_norm": 0.564580351173264,
	"learning_rate": 9.183555555555557e-06,
	"loss": 2.316,
	"step": 8675
	},
	{
	"epoch": 0.174,
	"grad_norm": 0.6048784393681501,
	"learning_rate": 9.178000000000001e-06,
	"loss": 2.3251,
	"step": 8700
	},
	{
	"epoch": 0.174,
	"eval_loss": 2.435750722885132,
	"eval_runtime": 264.296,
	"eval_samples_per_second": 3.11,
	"eval_steps_per_second": 1.555,
	"step": 8700
	},
	{
	"epoch": 0.1745,
	"grad_norm": 0.5769443750882641,
	"learning_rate": 9.172444444444444e-06,
	"loss": 2.3186,
	"step": 8725
	},
	{
	"epoch": 0.175,
	"grad_norm": 0.5792202067037501,
	"learning_rate": 9.16688888888889e-06,
	"loss": 2.3106,
	"step": 8750
	},
	{
	"epoch": 0.1755,
	"grad_norm": 0.5819115394572557,
	"learning_rate": 9.161333333333335e-06,
	"loss": 2.3118,
	"step": 8775
	},
	{
	"epoch": 0.176,
	"grad_norm": 0.575657270210696,
	"learning_rate": 9.155777777777779e-06,
	"loss": 2.3106,
	"step": 8800
	},
	{
	"epoch": 0.176,
	"eval_loss": 2.436899185180664,
	"eval_runtime": 263.9579,
	"eval_samples_per_second": 3.114,
	"eval_steps_per_second": 1.557,
	"step": 8800
	},
	{
	"epoch": 0.1765,
	"grad_norm": 0.572118834452971,
	"learning_rate": 9.150222222222222e-06,
	"loss": 2.3139,
	"step": 8825
	},
	{
	"epoch": 0.177,
	"grad_norm": 0.5812618278818413,
	"learning_rate": 9.144666666666667e-06,
	"loss": 2.319,
	"step": 8850
	},
	{
	"epoch": 0.1775,
	"grad_norm": 0.5527533551295488,
	"learning_rate": 9.139111111111113e-06,
	"loss": 2.3152,
	"step": 8875
	},
	{
	"epoch": 0.178,
	"grad_norm": 0.5749551425231054,
	"learning_rate": 9.133555555555556e-06,
	"loss": 2.3065,
	"step": 8900
	},
	{
	"epoch": 0.178,
	"eval_loss": 2.4364571571350098,
	"eval_runtime": 264.0259,
	"eval_samples_per_second": 3.113,
	"eval_steps_per_second": 1.557,
	"step": 8900
	},
	{
	"epoch": 0.1785,
	"grad_norm": 0.5758182476998225,
	"learning_rate": 9.128e-06,
	"loss": 2.3104,
	"step": 8925
	},
	{
	"epoch": 0.179,
	"grad_norm": 0.5922756280220078,
	"learning_rate": 9.122444444444445e-06,
	"loss": 2.3158,
	"step": 8950
	},
	{
	"epoch": 0.1795,
	"grad_norm": 0.5943790910117238,
	"learning_rate": 9.11688888888889e-06,
	"loss": 2.3167,
	"step": 8975
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.580613992072982,
	"learning_rate": 9.111333333333334e-06,
	"loss": 2.3069,
	"step": 9000
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.436984062194824,
	"eval_runtime": 264.2235,
	"eval_samples_per_second": 3.111,
	"eval_steps_per_second": 1.556,
	"step": 9000
	}
	],
	"logging_steps": 25,
	"max_steps": 50000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.8648820684944835e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}