smallm_130 / last-checkpoint /trainer_state.json

Training in progress, step 39000, checkpoint

6dcd8b6 verified 8 months ago

180 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.8566756864731733,
	"eval_steps": 500,
	"global_step": 39000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001098302162145094,
	"grad_norm": 1.8242720365524292,
	"learning_rate": 1e-05,
	"loss": 10.2008,
	"num_input_tokens_seen": 52428800,
	"step": 50
	},
	{
	"epoch": 0.002196604324290188,
	"grad_norm": 1.7588739395141602,
	"learning_rate": 2e-05,
	"loss": 9.6579,
	"num_input_tokens_seen": 104857600,
	"step": 100
	},
	{
	"epoch": 0.003294906486435282,
	"grad_norm": 1.4990028142929077,
	"learning_rate": 3e-05,
	"loss": 8.9277,
	"num_input_tokens_seen": 157286400,
	"step": 150
	},
	{
	"epoch": 0.004393208648580376,
	"grad_norm": 0.9206030368804932,
	"learning_rate": 4e-05,
	"loss": 8.0739,
	"num_input_tokens_seen": 209715200,
	"step": 200
	},
	{
	"epoch": 0.00549151081072547,
	"grad_norm": 0.4887239933013916,
	"learning_rate": 5e-05,
	"loss": 7.406,
	"num_input_tokens_seen": 262144000,
	"step": 250
	},
	{
	"epoch": 0.006589812972870564,
	"grad_norm": 0.7044657468795776,
	"learning_rate": 6e-05,
	"loss": 6.9708,
	"num_input_tokens_seen": 314572800,
	"step": 300
	},
	{
	"epoch": 0.007688115135015658,
	"grad_norm": 0.9420009255409241,
	"learning_rate": 7.000000000000001e-05,
	"loss": 6.6177,
	"num_input_tokens_seen": 367001600,
	"step": 350
	},
	{
	"epoch": 0.008786417297160752,
	"grad_norm": 1.4098254442214966,
	"learning_rate": 8e-05,
	"loss": 6.3285,
	"num_input_tokens_seen": 419430400,
	"step": 400
	},
	{
	"epoch": 0.009884719459305845,
	"grad_norm": 0.5596774220466614,
	"learning_rate": 8.999999999999999e-05,
	"loss": 6.0918,
	"num_input_tokens_seen": 471859200,
	"step": 450
	},
	{
	"epoch": 0.01098302162145094,
	"grad_norm": 0.5934723615646362,
	"learning_rate": 0.0001,
	"loss": 5.8926,
	"num_input_tokens_seen": 524288000,
	"step": 500
	},
	{
	"epoch": 0.01098302162145094,
	"eval_loss": 5.72648286819458,
	"eval_runtime": 65.255,
	"eval_samples_per_second": 76.622,
	"eval_steps_per_second": 19.156,
	"num_input_tokens_seen": 524288000,
	"step": 500
	},
	{
	"epoch": 0.012081323783596033,
	"grad_norm": 0.6180132627487183,
	"learning_rate": 0.00011,
	"loss": 5.713,
	"num_input_tokens_seen": 576716800,
	"step": 550
	},
	{
	"epoch": 0.013179625945741128,
	"grad_norm": 0.7194430232048035,
	"learning_rate": 0.00012,
	"loss": 5.5604,
	"num_input_tokens_seen": 629145600,
	"step": 600
	},
	{
	"epoch": 0.014277928107886221,
	"grad_norm": 0.7763974070549011,
	"learning_rate": 0.00013000000000000002,
	"loss": 5.4212,
	"num_input_tokens_seen": 681574400,
	"step": 650
	},
	{
	"epoch": 0.015376230270031316,
	"grad_norm": 0.7948254942893982,
	"learning_rate": 0.00014000000000000001,
	"loss": 5.2875,
	"num_input_tokens_seen": 734003200,
	"step": 700
	},
	{
	"epoch": 0.01647453243217641,
	"grad_norm": 0.7185749411582947,
	"learning_rate": 0.00015,
	"loss": 5.1765,
	"num_input_tokens_seen": 786432000,
	"step": 750
	},
	{
	"epoch": 0.017572834594321504,
	"grad_norm": 0.673218846321106,
	"learning_rate": 0.00016,
	"loss": 5.0599,
	"num_input_tokens_seen": 838860800,
	"step": 800
	},
	{
	"epoch": 0.018671136756466596,
	"grad_norm": 0.6499584317207336,
	"learning_rate": 0.00017,
	"loss": 4.9475,
	"num_input_tokens_seen": 891289600,
	"step": 850
	},
	{
	"epoch": 0.01976943891861169,
	"grad_norm": 0.9044798016548157,
	"learning_rate": 0.00017999999999999998,
	"loss": 4.8334,
	"num_input_tokens_seen": 943718400,
	"step": 900
	},
	{
	"epoch": 0.020867741080756785,
	"grad_norm": 0.886431872844696,
	"learning_rate": 0.00019,
	"loss": 4.723,
	"num_input_tokens_seen": 996147200,
	"step": 950
	},
	{
	"epoch": 0.02196604324290188,
	"grad_norm": 0.6721145510673523,
	"learning_rate": 0.0002,
	"loss": 4.6106,
	"num_input_tokens_seen": 1048576000,
	"step": 1000
	},
	{
	"epoch": 0.02196604324290188,
	"eval_loss": 4.456684589385986,
	"eval_runtime": 66.2606,
	"eval_samples_per_second": 75.46,
	"eval_steps_per_second": 18.865,
	"num_input_tokens_seen": 1048576000,
	"step": 1000
	},
	{
	"epoch": 0.02306434540504697,
	"grad_norm": 0.6067565083503723,
	"learning_rate": 0.00021,
	"loss": 4.5355,
	"num_input_tokens_seen": 1101004800,
	"step": 1050
	},
	{
	"epoch": 0.024162647567192067,
	"grad_norm": 0.6668316721916199,
	"learning_rate": 0.00022,
	"loss": 4.4383,
	"num_input_tokens_seen": 1153433600,
	"step": 1100
	},
	{
	"epoch": 0.02526094972933716,
	"grad_norm": 0.3714616000652313,
	"learning_rate": 0.00023,
	"loss": 4.3538,
	"num_input_tokens_seen": 1205862400,
	"step": 1150
	},
	{
	"epoch": 0.026359251891482256,
	"grad_norm": 0.439012348651886,
	"learning_rate": 0.00024,
	"loss": 4.2848,
	"num_input_tokens_seen": 1258291200,
	"step": 1200
	},
	{
	"epoch": 0.027457554053627348,
	"grad_norm": 0.5026286840438843,
	"learning_rate": 0.00025,
	"loss": 4.2181,
	"num_input_tokens_seen": 1310720000,
	"step": 1250
	},
	{
	"epoch": 0.028555856215772443,
	"grad_norm": 0.4865541160106659,
	"learning_rate": 0.00026000000000000003,
	"loss": 4.1495,
	"num_input_tokens_seen": 1363148800,
	"step": 1300
	},
	{
	"epoch": 0.029654158377917537,
	"grad_norm": 0.5259677767753601,
	"learning_rate": 0.00027,
	"loss": 4.0873,
	"num_input_tokens_seen": 1415577600,
	"step": 1350
	},
	{
	"epoch": 0.030752460540062632,
	"grad_norm": 0.4151704013347626,
	"learning_rate": 0.00028000000000000003,
	"loss": 4.0369,
	"num_input_tokens_seen": 1468006400,
	"step": 1400
	},
	{
	"epoch": 0.03185076270220773,
	"grad_norm": 0.5806245803833008,
	"learning_rate": 0.00029,
	"loss": 3.9881,
	"num_input_tokens_seen": 1520435200,
	"step": 1450
	},
	{
	"epoch": 0.03294906486435282,
	"grad_norm": 0.46140730381011963,
	"learning_rate": 0.0003,
	"loss": 3.9311,
	"num_input_tokens_seen": 1572864000,
	"step": 1500
	},
	{
	"epoch": 0.03294906486435282,
	"eval_loss": 3.8112432956695557,
	"eval_runtime": 65.8947,
	"eval_samples_per_second": 75.879,
	"eval_steps_per_second": 18.97,
	"num_input_tokens_seen": 1572864000,
	"step": 1500
	},
	{
	"epoch": 0.03404736702649791,
	"grad_norm": 0.4219188392162323,
	"learning_rate": 0.00031,
	"loss": 3.8972,
	"num_input_tokens_seen": 1625292800,
	"step": 1550
	},
	{
	"epoch": 0.03514566918864301,
	"grad_norm": 0.3506027162075043,
	"learning_rate": 0.00032,
	"loss": 3.8596,
	"num_input_tokens_seen": 1677721600,
	"step": 1600
	},
	{
	"epoch": 0.0362439713507881,
	"grad_norm": 0.5210819840431213,
	"learning_rate": 0.00033,
	"loss": 3.8182,
	"num_input_tokens_seen": 1730150400,
	"step": 1650
	},
	{
	"epoch": 0.03734227351293319,
	"grad_norm": 0.5830159783363342,
	"learning_rate": 0.00034,
	"loss": 3.7766,
	"num_input_tokens_seen": 1782579200,
	"step": 1700
	},
	{
	"epoch": 0.03844057567507829,
	"grad_norm": 0.4602348804473877,
	"learning_rate": 0.00035,
	"loss": 3.7362,
	"num_input_tokens_seen": 1835008000,
	"step": 1750
	},
	{
	"epoch": 0.03953887783722338,
	"grad_norm": 0.40075036883354187,
	"learning_rate": 0.00035999999999999997,
	"loss": 3.7136,
	"num_input_tokens_seen": 1887436800,
	"step": 1800
	},
	{
	"epoch": 0.04063717999936848,
	"grad_norm": 0.3893415629863739,
	"learning_rate": 0.00037,
	"loss": 3.6809,
	"num_input_tokens_seen": 1939865600,
	"step": 1850
	},
	{
	"epoch": 0.04173548216151357,
	"grad_norm": 0.2921469211578369,
	"learning_rate": 0.00038,
	"loss": 3.6565,
	"num_input_tokens_seen": 1992294400,
	"step": 1900
	},
	{
	"epoch": 0.04283378432365866,
	"grad_norm": 0.49007460474967957,
	"learning_rate": 0.00039000000000000005,
	"loss": 3.6215,
	"num_input_tokens_seen": 2044723200,
	"step": 1950
	},
	{
	"epoch": 0.04393208648580376,
	"grad_norm": 0.2980474531650543,
	"learning_rate": 0.0004,
	"loss": 3.591,
	"num_input_tokens_seen": 2097152000,
	"step": 2000
	},
	{
	"epoch": 0.04393208648580376,
	"eval_loss": 3.4769670963287354,
	"eval_runtime": 62.8853,
	"eval_samples_per_second": 79.51,
	"eval_steps_per_second": 19.877,
	"num_input_tokens_seen": 2097152000,
	"step": 2000
	},
	{
	"epoch": 0.04503038864794885,
	"grad_norm": 0.33002936840057373,
	"learning_rate": 0.00041,
	"loss": 3.5684,
	"num_input_tokens_seen": 2149580800,
	"step": 2050
	},
	{
	"epoch": 0.04612869081009394,
	"grad_norm": 0.43806758522987366,
	"learning_rate": 0.00042,
	"loss": 3.5436,
	"num_input_tokens_seen": 2202009600,
	"step": 2100
	},
	{
	"epoch": 0.04722699297223904,
	"grad_norm": 0.32842758297920227,
	"learning_rate": 0.00043,
	"loss": 3.5191,
	"num_input_tokens_seen": 2254438400,
	"step": 2150
	},
	{
	"epoch": 0.04832529513438413,
	"grad_norm": 0.3068505525588989,
	"learning_rate": 0.00044,
	"loss": 3.5009,
	"num_input_tokens_seen": 2306867200,
	"step": 2200
	},
	{
	"epoch": 0.049423597296529224,
	"grad_norm": 0.2950410544872284,
	"learning_rate": 0.00045000000000000004,
	"loss": 3.4796,
	"num_input_tokens_seen": 2359296000,
	"step": 2250
	},
	{
	"epoch": 0.05052189945867432,
	"grad_norm": 0.29731425642967224,
	"learning_rate": 0.00046,
	"loss": 3.4583,
	"num_input_tokens_seen": 2411724800,
	"step": 2300
	},
	{
	"epoch": 0.051620201620819414,
	"grad_norm": 0.2702693045139313,
	"learning_rate": 0.00047,
	"loss": 3.4385,
	"num_input_tokens_seen": 2464153600,
	"step": 2350
	},
	{
	"epoch": 0.05271850378296451,
	"grad_norm": 0.2418452948331833,
	"learning_rate": 0.00048,
	"loss": 3.4244,
	"num_input_tokens_seen": 2516582400,
	"step": 2400
	},
	{
	"epoch": 0.053816805945109604,
	"grad_norm": 0.28668686747550964,
	"learning_rate": 0.00049,
	"loss": 3.3977,
	"num_input_tokens_seen": 2569011200,
	"step": 2450
	},
	{
	"epoch": 0.054915108107254695,
	"grad_norm": 0.3115544319152832,
	"learning_rate": 0.0005,
	"loss": 3.3881,
	"num_input_tokens_seen": 2621440000,
	"step": 2500
	},
	{
	"epoch": 0.054915108107254695,
	"eval_loss": 3.2789928913116455,
	"eval_runtime": 62.6749,
	"eval_samples_per_second": 79.777,
	"eval_steps_per_second": 19.944,
	"num_input_tokens_seen": 2621440000,
	"step": 2500
	},
	{
	"epoch": 0.056013410269399794,
	"grad_norm": 0.32340022921562195,
	"learning_rate": 0.00051,
	"loss": 3.3667,
	"num_input_tokens_seen": 2673868800,
	"step": 2550
	},
	{
	"epoch": 0.057111712431544885,
	"grad_norm": 0.2612442970275879,
	"learning_rate": 0.0005200000000000001,
	"loss": 3.3612,
	"num_input_tokens_seen": 2726297600,
	"step": 2600
	},
	{
	"epoch": 0.05821001459368998,
	"grad_norm": 0.29934820532798767,
	"learning_rate": 0.0005300000000000001,
	"loss": 3.3386,
	"num_input_tokens_seen": 2778726400,
	"step": 2650
	},
	{
	"epoch": 0.059308316755835075,
	"grad_norm": 0.2737022042274475,
	"learning_rate": 0.00054,
	"loss": 3.3274,
	"num_input_tokens_seen": 2831155200,
	"step": 2700
	},
	{
	"epoch": 0.060406618917980166,
	"grad_norm": 0.2101408988237381,
	"learning_rate": 0.00055,
	"loss": 3.3153,
	"num_input_tokens_seen": 2883584000,
	"step": 2750
	},
	{
	"epoch": 0.061504921080125265,
	"grad_norm": 0.3240911066532135,
	"learning_rate": 0.0005600000000000001,
	"loss": 3.2978,
	"num_input_tokens_seen": 2936012800,
	"step": 2800
	},
	{
	"epoch": 0.06260322324227036,
	"grad_norm": 0.20592735707759857,
	"learning_rate": 0.00057,
	"loss": 3.2984,
	"num_input_tokens_seen": 2988441600,
	"step": 2850
	},
	{
	"epoch": 0.06370152540441545,
	"grad_norm": 0.263443261384964,
	"learning_rate": 0.00058,
	"loss": 3.2706,
	"num_input_tokens_seen": 3040870400,
	"step": 2900
	},
	{
	"epoch": 0.06479982756656054,
	"grad_norm": 0.24249990284442902,
	"learning_rate": 0.00059,
	"loss": 3.2673,
	"num_input_tokens_seen": 3093299200,
	"step": 2950
	},
	{
	"epoch": 0.06589812972870564,
	"grad_norm": 0.25961214303970337,
	"learning_rate": 0.0006,
	"loss": 3.2512,
	"num_input_tokens_seen": 3145728000,
	"step": 3000
	},
	{
	"epoch": 0.06589812972870564,
	"eval_loss": 3.150442600250244,
	"eval_runtime": 65.9549,
	"eval_samples_per_second": 75.809,
	"eval_steps_per_second": 18.952,
	"num_input_tokens_seen": 3145728000,
	"step": 3000
	},
	{
	"epoch": 0.06699643189085074,
	"grad_norm": 0.21884848177433014,
	"learning_rate": 0.00061,
	"loss": 3.2437,
	"num_input_tokens_seen": 3198156800,
	"step": 3050
	},
	{
	"epoch": 0.06809473405299582,
	"grad_norm": 0.2534893751144409,
	"learning_rate": 0.00062,
	"loss": 3.2366,
	"num_input_tokens_seen": 3250585600,
	"step": 3100
	},
	{
	"epoch": 0.06919303621514092,
	"grad_norm": 0.2408875823020935,
	"learning_rate": 0.00063,
	"loss": 3.2264,
	"num_input_tokens_seen": 3303014400,
	"step": 3150
	},
	{
	"epoch": 0.07029133837728602,
	"grad_norm": 0.22240856289863586,
	"learning_rate": 0.00064,
	"loss": 3.2102,
	"num_input_tokens_seen": 3355443200,
	"step": 3200
	},
	{
	"epoch": 0.0713896405394311,
	"grad_norm": 0.21527299284934998,
	"learning_rate": 0.0006500000000000001,
	"loss": 3.1985,
	"num_input_tokens_seen": 3407872000,
	"step": 3250
	},
	{
	"epoch": 0.0724879427015762,
	"grad_norm": 0.26642242074012756,
	"learning_rate": 0.00066,
	"loss": 3.1923,
	"num_input_tokens_seen": 3460300800,
	"step": 3300
	},
	{
	"epoch": 0.0735862448637213,
	"grad_norm": 0.22164040803909302,
	"learning_rate": 0.00067,
	"loss": 3.1848,
	"num_input_tokens_seen": 3512729600,
	"step": 3350
	},
	{
	"epoch": 0.07468454702586638,
	"grad_norm": 0.21594341099262238,
	"learning_rate": 0.00068,
	"loss": 3.1764,
	"num_input_tokens_seen": 3565158400,
	"step": 3400
	},
	{
	"epoch": 0.07578284918801148,
	"grad_norm": 0.1921539604663849,
	"learning_rate": 0.00069,
	"loss": 3.1643,
	"num_input_tokens_seen": 3617587200,
	"step": 3450
	},
	{
	"epoch": 0.07688115135015658,
	"grad_norm": 0.2266080528497696,
	"learning_rate": 0.0007,
	"loss": 3.1647,
	"num_input_tokens_seen": 3670016000,
	"step": 3500
	},
	{
	"epoch": 0.07688115135015658,
	"eval_loss": 3.061373472213745,
	"eval_runtime": 63.388,
	"eval_samples_per_second": 78.879,
	"eval_steps_per_second": 19.72,
	"num_input_tokens_seen": 3670016000,
	"step": 3500
	},
	{
	"epoch": 0.07797945351230168,
	"grad_norm": 0.19900226593017578,
	"learning_rate": 0.00071,
	"loss": 3.1557,
	"num_input_tokens_seen": 3722444800,
	"step": 3550
	},
	{
	"epoch": 0.07907775567444676,
	"grad_norm": 0.20299012959003448,
	"learning_rate": 0.0007199999999999999,
	"loss": 3.1503,
	"num_input_tokens_seen": 3774873600,
	"step": 3600
	},
	{
	"epoch": 0.08017605783659186,
	"grad_norm": 0.232399120926857,
	"learning_rate": 0.00073,
	"loss": 3.1387,
	"num_input_tokens_seen": 3827302400,
	"step": 3650
	},
	{
	"epoch": 0.08127435999873696,
	"grad_norm": 0.2127719670534134,
	"learning_rate": 0.00074,
	"loss": 3.1388,
	"num_input_tokens_seen": 3879731200,
	"step": 3700
	},
	{
	"epoch": 0.08237266216088204,
	"grad_norm": 0.22336533665657043,
	"learning_rate": 0.00075,
	"loss": 3.1247,
	"num_input_tokens_seen": 3932160000,
	"step": 3750
	},
	{
	"epoch": 0.08347096432302714,
	"grad_norm": 0.18270662426948547,
	"learning_rate": 0.00076,
	"loss": 3.1192,
	"num_input_tokens_seen": 3984588800,
	"step": 3800
	},
	{
	"epoch": 0.08456926648517224,
	"grad_norm": 0.16843897104263306,
	"learning_rate": 0.0007700000000000001,
	"loss": 3.1153,
	"num_input_tokens_seen": 4037017600,
	"step": 3850
	},
	{
	"epoch": 0.08566756864731732,
	"grad_norm": 0.19947747886180878,
	"learning_rate": 0.0007800000000000001,
	"loss": 3.1048,
	"num_input_tokens_seen": 4089446400,
	"step": 3900
	},
	{
	"epoch": 0.08676587080946242,
	"grad_norm": 0.17078733444213867,
	"learning_rate": 0.00079,
	"loss": 3.1014,
	"num_input_tokens_seen": 4141875200,
	"step": 3950
	},
	{
	"epoch": 0.08786417297160752,
	"grad_norm": 0.22091113030910492,
	"learning_rate": 0.0008,
	"loss": 3.0982,
	"num_input_tokens_seen": 4194304000,
	"step": 4000
	},
	{
	"epoch": 0.08786417297160752,
	"eval_loss": 2.9978296756744385,
	"eval_runtime": 65.6064,
	"eval_samples_per_second": 76.212,
	"eval_steps_per_second": 19.053,
	"num_input_tokens_seen": 4194304000,
	"step": 4000
	},
	{
	"epoch": 0.0889624751337526,
	"grad_norm": 0.1839856207370758,
	"learning_rate": 0.0008100000000000001,
	"loss": 3.0862,
	"num_input_tokens_seen": 4246732800,
	"step": 4050
	},
	{
	"epoch": 0.0900607772958977,
	"grad_norm": 0.17331145703792572,
	"learning_rate": 0.00082,
	"loss": 3.087,
	"num_input_tokens_seen": 4299161600,
	"step": 4100
	},
	{
	"epoch": 0.0911590794580428,
	"grad_norm": 0.18384258449077606,
	"learning_rate": 0.00083,
	"loss": 3.076,
	"num_input_tokens_seen": 4351590400,
	"step": 4150
	},
	{
	"epoch": 0.09225738162018789,
	"grad_norm": 0.17061170935630798,
	"learning_rate": 0.00084,
	"loss": 3.0693,
	"num_input_tokens_seen": 4404019200,
	"step": 4200
	},
	{
	"epoch": 0.09335568378233298,
	"grad_norm": 0.18157647550106049,
	"learning_rate": 0.00085,
	"loss": 3.0698,
	"num_input_tokens_seen": 4456448000,
	"step": 4250
	},
	{
	"epoch": 0.09445398594447808,
	"grad_norm": 0.15678547322750092,
	"learning_rate": 0.00086,
	"loss": 3.064,
	"num_input_tokens_seen": 4508876800,
	"step": 4300
	},
	{
	"epoch": 0.09555228810662317,
	"grad_norm": 0.19118325412273407,
	"learning_rate": 0.00087,
	"loss": 3.0541,
	"num_input_tokens_seen": 4561305600,
	"step": 4350
	},
	{
	"epoch": 0.09665059026876827,
	"grad_norm": 0.17620691657066345,
	"learning_rate": 0.00088,
	"loss": 3.0532,
	"num_input_tokens_seen": 4613734400,
	"step": 4400
	},
	{
	"epoch": 0.09774889243091336,
	"grad_norm": 0.17351101338863373,
	"learning_rate": 0.0008900000000000001,
	"loss": 3.0549,
	"num_input_tokens_seen": 4666163200,
	"step": 4450
	},
	{
	"epoch": 0.09884719459305845,
	"grad_norm": 0.15183581411838531,
	"learning_rate": 0.0009000000000000001,
	"loss": 3.0485,
	"num_input_tokens_seen": 4718592000,
	"step": 4500
	},
	{
	"epoch": 0.09884719459305845,
	"eval_loss": 2.9479379653930664,
	"eval_runtime": 66.5611,
	"eval_samples_per_second": 75.119,
	"eval_steps_per_second": 18.78,
	"num_input_tokens_seen": 4718592000,
	"step": 4500
	},
	{
	"epoch": 0.09994549675520355,
	"grad_norm": 0.1681961864233017,
	"learning_rate": 0.00091,
	"loss": 3.0395,
	"num_input_tokens_seen": 4771020800,
	"step": 4550
	},
	{
	"epoch": 0.10104379891734865,
	"grad_norm": 0.17382557690143585,
	"learning_rate": 0.00092,
	"loss": 3.0371,
	"num_input_tokens_seen": 4823449600,
	"step": 4600
	},
	{
	"epoch": 0.10214210107949374,
	"grad_norm": 0.14377906918525696,
	"learning_rate": 0.00093,
	"loss": 3.0377,
	"num_input_tokens_seen": 4875878400,
	"step": 4650
	},
	{
	"epoch": 0.10324040324163883,
	"grad_norm": 0.1590214967727661,
	"learning_rate": 0.00094,
	"loss": 3.0305,
	"num_input_tokens_seen": 4928307200,
	"step": 4700
	},
	{
	"epoch": 0.10433870540378393,
	"grad_norm": 0.15563353896141052,
	"learning_rate": 0.00095,
	"loss": 3.0254,
	"num_input_tokens_seen": 4980736000,
	"step": 4750
	},
	{
	"epoch": 0.10543700756592903,
	"grad_norm": 0.16002103686332703,
	"learning_rate": 0.00096,
	"loss": 3.0222,
	"num_input_tokens_seen": 5033164800,
	"step": 4800
	},
	{
	"epoch": 0.10653530972807411,
	"grad_norm": 0.1406039148569107,
	"learning_rate": 0.0009699999999999999,
	"loss": 3.0185,
	"num_input_tokens_seen": 5085593600,
	"step": 4850
	},
	{
	"epoch": 0.10763361189021921,
	"grad_norm": 0.14609627425670624,
	"learning_rate": 0.00098,
	"loss": 3.0177,
	"num_input_tokens_seen": 5138022400,
	"step": 4900
	},
	{
	"epoch": 0.1087319140523643,
	"grad_norm": 0.16061657667160034,
	"learning_rate": 0.00099,
	"loss": 3.0137,
	"num_input_tokens_seen": 5190451200,
	"step": 4950
	},
	{
	"epoch": 0.10983021621450939,
	"grad_norm": 0.18423974514007568,
	"learning_rate": 0.001,
	"loss": 3.016,
	"num_input_tokens_seen": 5242880000,
	"step": 5000
	},
	{
	"epoch": 0.10983021621450939,
	"eval_loss": 2.9132862091064453,
	"eval_runtime": 65.7163,
	"eval_samples_per_second": 76.085,
	"eval_steps_per_second": 19.021,
	"num_input_tokens_seen": 5242880000,
	"step": 5000
	},
	{
	"epoch": 0.11092851837665449,
	"grad_norm": 0.15302155911922455,
	"learning_rate": 0.001,
	"loss": 3.0037,
	"num_input_tokens_seen": 5295308800,
	"step": 5050
	},
	{
	"epoch": 0.11202682053879959,
	"grad_norm": 0.1474563181400299,
	"learning_rate": 0.001,
	"loss": 3.0063,
	"num_input_tokens_seen": 5347737600,
	"step": 5100
	},
	{
	"epoch": 0.11312512270094467,
	"grad_norm": 0.14318443834781647,
	"learning_rate": 0.001,
	"loss": 3.0011,
	"num_input_tokens_seen": 5400166400,
	"step": 5150
	},
	{
	"epoch": 0.11422342486308977,
	"grad_norm": 0.1521013379096985,
	"learning_rate": 0.001,
	"loss": 2.9946,
	"num_input_tokens_seen": 5452595200,
	"step": 5200
	},
	{
	"epoch": 0.11532172702523487,
	"grad_norm": 0.14434175193309784,
	"learning_rate": 0.001,
	"loss": 2.9909,
	"num_input_tokens_seen": 5505024000,
	"step": 5250
	},
	{
	"epoch": 0.11642002918737995,
	"grad_norm": 0.16284991800785065,
	"learning_rate": 0.001,
	"loss": 2.9846,
	"num_input_tokens_seen": 5557452800,
	"step": 5300
	},
	{
	"epoch": 0.11751833134952505,
	"grad_norm": 0.15281164646148682,
	"learning_rate": 0.001,
	"loss": 2.9843,
	"num_input_tokens_seen": 5609881600,
	"step": 5350
	},
	{
	"epoch": 0.11861663351167015,
	"grad_norm": 0.1227719634771347,
	"learning_rate": 0.001,
	"loss": 2.9778,
	"num_input_tokens_seen": 5662310400,
	"step": 5400
	},
	{
	"epoch": 0.11971493567381523,
	"grad_norm": 0.1346055269241333,
	"learning_rate": 0.001,
	"loss": 2.9745,
	"num_input_tokens_seen": 5714739200,
	"step": 5450
	},
	{
	"epoch": 0.12081323783596033,
	"grad_norm": 0.15828204154968262,
	"learning_rate": 0.001,
	"loss": 2.9723,
	"num_input_tokens_seen": 5767168000,
	"step": 5500
	},
	{
	"epoch": 0.12081323783596033,
	"eval_loss": 2.8801000118255615,
	"eval_runtime": 65.3935,
	"eval_samples_per_second": 76.46,
	"eval_steps_per_second": 19.115,
	"num_input_tokens_seen": 5767168000,
	"step": 5500
	},
	{
	"epoch": 0.12191153999810543,
	"grad_norm": 0.1391400694847107,
	"learning_rate": 0.001,
	"loss": 2.9609,
	"num_input_tokens_seen": 5819596800,
	"step": 5550
	},
	{
	"epoch": 0.12300984216025053,
	"grad_norm": 0.14347107708454132,
	"learning_rate": 0.001,
	"loss": 2.9697,
	"num_input_tokens_seen": 5872025600,
	"step": 5600
	},
	{
	"epoch": 0.12410814432239561,
	"grad_norm": 0.13779127597808838,
	"learning_rate": 0.001,
	"loss": 2.9609,
	"num_input_tokens_seen": 5924454400,
	"step": 5650
	},
	{
	"epoch": 0.1252064464845407,
	"grad_norm": 0.13017955422401428,
	"learning_rate": 0.001,
	"loss": 2.9545,
	"num_input_tokens_seen": 5976883200,
	"step": 5700
	},
	{
	"epoch": 0.1263047486466858,
	"grad_norm": 0.12697578966617584,
	"learning_rate": 0.001,
	"loss": 2.9563,
	"num_input_tokens_seen": 6029312000,
	"step": 5750
	},
	{
	"epoch": 0.1274030508088309,
	"grad_norm": 0.15175020694732666,
	"learning_rate": 0.001,
	"loss": 2.9502,
	"num_input_tokens_seen": 6081740800,
	"step": 5800
	},
	{
	"epoch": 0.12850135297097598,
	"grad_norm": 0.1209852397441864,
	"learning_rate": 0.001,
	"loss": 2.9516,
	"num_input_tokens_seen": 6134169600,
	"step": 5850
	},
	{
	"epoch": 0.12959965513312108,
	"grad_norm": 0.16521666944026947,
	"learning_rate": 0.001,
	"loss": 2.9528,
	"num_input_tokens_seen": 6186598400,
	"step": 5900
	},
	{
	"epoch": 0.13069795729526618,
	"grad_norm": 0.12271756678819656,
	"learning_rate": 0.001,
	"loss": 2.9382,
	"num_input_tokens_seen": 6239027200,
	"step": 5950
	},
	{
	"epoch": 0.13179625945741127,
	"grad_norm": 0.1376461535692215,
	"learning_rate": 0.001,
	"loss": 2.9464,
	"num_input_tokens_seen": 6291456000,
	"step": 6000
	},
	{
	"epoch": 0.13179625945741127,
	"eval_loss": 2.84769606590271,
	"eval_runtime": 65.8814,
	"eval_samples_per_second": 75.894,
	"eval_steps_per_second": 18.973,
	"num_input_tokens_seen": 6291456000,
	"step": 6000
	},
	{
	"epoch": 0.13289456161955637,
	"grad_norm": 0.11629872024059296,
	"learning_rate": 0.001,
	"loss": 2.9406,
	"num_input_tokens_seen": 6343884800,
	"step": 6050
	},
	{
	"epoch": 0.13399286378170147,
	"grad_norm": 0.13740529119968414,
	"learning_rate": 0.001,
	"loss": 2.9343,
	"num_input_tokens_seen": 6396313600,
	"step": 6100
	},
	{
	"epoch": 0.13509116594384657,
	"grad_norm": 0.11548039317131042,
	"learning_rate": 0.001,
	"loss": 2.9374,
	"num_input_tokens_seen": 6448742400,
	"step": 6150
	},
	{
	"epoch": 0.13618946810599164,
	"grad_norm": 0.11710146814584732,
	"learning_rate": 0.001,
	"loss": 2.9376,
	"num_input_tokens_seen": 6501171200,
	"step": 6200
	},
	{
	"epoch": 0.13728777026813674,
	"grad_norm": 0.11223472654819489,
	"learning_rate": 0.001,
	"loss": 2.9284,
	"num_input_tokens_seen": 6553600000,
	"step": 6250
	},
	{
	"epoch": 0.13838607243028184,
	"grad_norm": 0.12880656123161316,
	"learning_rate": 0.001,
	"loss": 2.9303,
	"num_input_tokens_seen": 6606028800,
	"step": 6300
	},
	{
	"epoch": 0.13948437459242694,
	"grad_norm": 0.11898139119148254,
	"learning_rate": 0.001,
	"loss": 2.9246,
	"num_input_tokens_seen": 6658457600,
	"step": 6350
	},
	{
	"epoch": 0.14058267675457203,
	"grad_norm": 0.11154898256063461,
	"learning_rate": 0.001,
	"loss": 2.9254,
	"num_input_tokens_seen": 6710886400,
	"step": 6400
	},
	{
	"epoch": 0.14168097891671713,
	"grad_norm": 0.12669232487678528,
	"learning_rate": 0.001,
	"loss": 2.9162,
	"num_input_tokens_seen": 6763315200,
	"step": 6450
	},
	{
	"epoch": 0.1427792810788622,
	"grad_norm": 0.12259842455387115,
	"learning_rate": 0.001,
	"loss": 2.9179,
	"num_input_tokens_seen": 6815744000,
	"step": 6500
	},
	{
	"epoch": 0.1427792810788622,
	"eval_loss": 2.8220207691192627,
	"eval_runtime": 65.2868,
	"eval_samples_per_second": 76.585,
	"eval_steps_per_second": 19.146,
	"num_input_tokens_seen": 6815744000,
	"step": 6500
	},
	{
	"epoch": 0.1438775832410073,
	"grad_norm": 0.13403092324733734,
	"learning_rate": 0.001,
	"loss": 2.9102,
	"num_input_tokens_seen": 6868172800,
	"step": 6550
	},
	{
	"epoch": 0.1449758854031524,
	"grad_norm": 0.13063696026802063,
	"learning_rate": 0.001,
	"loss": 2.9112,
	"num_input_tokens_seen": 6920601600,
	"step": 6600
	},
	{
	"epoch": 0.1460741875652975,
	"grad_norm": 0.11871635168790817,
	"learning_rate": 0.001,
	"loss": 2.9085,
	"num_input_tokens_seen": 6973030400,
	"step": 6650
	},
	{
	"epoch": 0.1471724897274426,
	"grad_norm": 0.11007633060216904,
	"learning_rate": 0.001,
	"loss": 2.9098,
	"num_input_tokens_seen": 7025459200,
	"step": 6700
	},
	{
	"epoch": 0.1482707918895877,
	"grad_norm": 0.10521857440471649,
	"learning_rate": 0.001,
	"loss": 2.9086,
	"num_input_tokens_seen": 7077888000,
	"step": 6750
	},
	{
	"epoch": 0.14936909405173276,
	"grad_norm": 0.11179310083389282,
	"learning_rate": 0.001,
	"loss": 2.9066,
	"num_input_tokens_seen": 7130316800,
	"step": 6800
	},
	{
	"epoch": 0.15046739621387786,
	"grad_norm": 0.1192353144288063,
	"learning_rate": 0.001,
	"loss": 2.9135,
	"num_input_tokens_seen": 7182745600,
	"step": 6850
	},
	{
	"epoch": 0.15156569837602296,
	"grad_norm": 0.11084350198507309,
	"learning_rate": 0.001,
	"loss": 2.9054,
	"num_input_tokens_seen": 7235174400,
	"step": 6900
	},
	{
	"epoch": 0.15266400053816806,
	"grad_norm": 0.11826325207948685,
	"learning_rate": 0.001,
	"loss": 2.9054,
	"num_input_tokens_seen": 7287603200,
	"step": 6950
	},
	{
	"epoch": 0.15376230270031316,
	"grad_norm": 0.12597590684890747,
	"learning_rate": 0.001,
	"loss": 2.8945,
	"num_input_tokens_seen": 7340032000,
	"step": 7000
	},
	{
	"epoch": 0.15376230270031316,
	"eval_loss": 2.802734851837158,
	"eval_runtime": 65.3332,
	"eval_samples_per_second": 76.531,
	"eval_steps_per_second": 19.133,
	"num_input_tokens_seen": 7340032000,
	"step": 7000
	},
	{
	"epoch": 0.15486060486245826,
	"grad_norm": 0.11222469806671143,
	"learning_rate": 0.001,
	"loss": 2.8997,
	"num_input_tokens_seen": 7392460800,
	"step": 7050
	},
	{
	"epoch": 0.15595890702460335,
	"grad_norm": 0.11488104611635208,
	"learning_rate": 0.001,
	"loss": 2.8965,
	"num_input_tokens_seen": 7444889600,
	"step": 7100
	},
	{
	"epoch": 0.15705720918674843,
	"grad_norm": 0.1285555213689804,
	"learning_rate": 0.001,
	"loss": 2.8909,
	"num_input_tokens_seen": 7497318400,
	"step": 7150
	},
	{
	"epoch": 0.15815551134889352,
	"grad_norm": 0.12659265100955963,
	"learning_rate": 0.001,
	"loss": 2.8833,
	"num_input_tokens_seen": 7549747200,
	"step": 7200
	},
	{
	"epoch": 0.15925381351103862,
	"grad_norm": 0.10823842883110046,
	"learning_rate": 0.001,
	"loss": 2.9031,
	"num_input_tokens_seen": 7602176000,
	"step": 7250
	},
	{
	"epoch": 0.16035211567318372,
	"grad_norm": 0.12597811222076416,
	"learning_rate": 0.001,
	"loss": 2.8831,
	"num_input_tokens_seen": 7654604800,
	"step": 7300
	},
	{
	"epoch": 0.16145041783532882,
	"grad_norm": 0.1285410374403,
	"learning_rate": 0.001,
	"loss": 2.8931,
	"num_input_tokens_seen": 7707033600,
	"step": 7350
	},
	{
	"epoch": 0.16254871999747392,
	"grad_norm": 0.11170299351215363,
	"learning_rate": 0.001,
	"loss": 2.8861,
	"num_input_tokens_seen": 7759462400,
	"step": 7400
	},
	{
	"epoch": 0.163647022159619,
	"grad_norm": 0.11146055907011032,
	"learning_rate": 0.001,
	"loss": 2.8756,
	"num_input_tokens_seen": 7811891200,
	"step": 7450
	},
	{
	"epoch": 0.1647453243217641,
	"grad_norm": 0.10750412940979004,
	"learning_rate": 0.001,
	"loss": 2.8808,
	"num_input_tokens_seen": 7864320000,
	"step": 7500
	},
	{
	"epoch": 0.1647453243217641,
	"eval_loss": 2.785506248474121,
	"eval_runtime": 65.0661,
	"eval_samples_per_second": 76.845,
	"eval_steps_per_second": 19.211,
	"num_input_tokens_seen": 7864320000,
	"step": 7500
	},
	{
	"epoch": 0.16584362648390918,
	"grad_norm": 0.11221355944871902,
	"learning_rate": 0.001,
	"loss": 2.8834,
	"num_input_tokens_seen": 7916748800,
	"step": 7550
	},
	{
	"epoch": 0.16694192864605428,
	"grad_norm": 0.1089220717549324,
	"learning_rate": 0.001,
	"loss": 2.8796,
	"num_input_tokens_seen": 7969177600,
	"step": 7600
	},
	{
	"epoch": 0.16804023080819938,
	"grad_norm": 0.11125486344099045,
	"learning_rate": 0.001,
	"loss": 2.8836,
	"num_input_tokens_seen": 8021606400,
	"step": 7650
	},
	{
	"epoch": 0.16913853297034448,
	"grad_norm": 0.12804660201072693,
	"learning_rate": 0.001,
	"loss": 2.8754,
	"num_input_tokens_seen": 8074035200,
	"step": 7700
	},
	{
	"epoch": 0.17023683513248955,
	"grad_norm": 0.11395713686943054,
	"learning_rate": 0.001,
	"loss": 2.8736,
	"num_input_tokens_seen": 8126464000,
	"step": 7750
	},
	{
	"epoch": 0.17133513729463465,
	"grad_norm": 0.1095738559961319,
	"learning_rate": 0.001,
	"loss": 2.8743,
	"num_input_tokens_seen": 8178892800,
	"step": 7800
	},
	{
	"epoch": 0.17243343945677975,
	"grad_norm": 0.10545111447572708,
	"learning_rate": 0.001,
	"loss": 2.8718,
	"num_input_tokens_seen": 8231321600,
	"step": 7850
	},
	{
	"epoch": 0.17353174161892485,
	"grad_norm": 0.13135021924972534,
	"learning_rate": 0.001,
	"loss": 2.8648,
	"num_input_tokens_seen": 8283750400,
	"step": 7900
	},
	{
	"epoch": 0.17463004378106994,
	"grad_norm": 0.12348899990320206,
	"learning_rate": 0.001,
	"loss": 2.8628,
	"num_input_tokens_seen": 8336179200,
	"step": 7950
	},
	{
	"epoch": 0.17572834594321504,
	"grad_norm": 0.10604492574930191,
	"learning_rate": 0.001,
	"loss": 2.8676,
	"num_input_tokens_seen": 8388608000,
	"step": 8000
	},
	{
	"epoch": 0.17572834594321504,
	"eval_loss": 2.7698919773101807,
	"eval_runtime": 65.5096,
	"eval_samples_per_second": 76.325,
	"eval_steps_per_second": 19.081,
	"num_input_tokens_seen": 8388608000,
	"step": 8000
	},
	{
	"epoch": 0.17682664810536014,
	"grad_norm": 0.12299258261919022,
	"learning_rate": 0.001,
	"loss": 2.8626,
	"num_input_tokens_seen": 8441036800,
	"step": 8050
	},
	{
	"epoch": 0.1779249502675052,
	"grad_norm": 0.11638012528419495,
	"learning_rate": 0.001,
	"loss": 2.864,
	"num_input_tokens_seen": 8493465600,
	"step": 8100
	},
	{
	"epoch": 0.1790232524296503,
	"grad_norm": 0.10978250205516815,
	"learning_rate": 0.001,
	"loss": 2.8589,
	"num_input_tokens_seen": 8545894400,
	"step": 8150
	},
	{
	"epoch": 0.1801215545917954,
	"grad_norm": 0.11229872703552246,
	"learning_rate": 0.001,
	"loss": 2.8671,
	"num_input_tokens_seen": 8598323200,
	"step": 8200
	},
	{
	"epoch": 0.1812198567539405,
	"grad_norm": 0.13177119195461273,
	"learning_rate": 0.001,
	"loss": 2.8524,
	"num_input_tokens_seen": 8650752000,
	"step": 8250
	},
	{
	"epoch": 0.1823181589160856,
	"grad_norm": 0.11021032929420471,
	"learning_rate": 0.001,
	"loss": 2.8552,
	"num_input_tokens_seen": 8703180800,
	"step": 8300
	},
	{
	"epoch": 0.1834164610782307,
	"grad_norm": 0.11381058394908905,
	"learning_rate": 0.001,
	"loss": 2.8529,
	"num_input_tokens_seen": 8755609600,
	"step": 8350
	},
	{
	"epoch": 0.18451476324037577,
	"grad_norm": 0.10889217257499695,
	"learning_rate": 0.001,
	"loss": 2.8581,
	"num_input_tokens_seen": 8808038400,
	"step": 8400
	},
	{
	"epoch": 0.18561306540252087,
	"grad_norm": 0.13519708812236786,
	"learning_rate": 0.001,
	"loss": 2.8518,
	"num_input_tokens_seen": 8860467200,
	"step": 8450
	},
	{
	"epoch": 0.18671136756466597,
	"grad_norm": 0.1265636533498764,
	"learning_rate": 0.001,
	"loss": 2.8452,
	"num_input_tokens_seen": 8912896000,
	"step": 8500
	},
	{
	"epoch": 0.18671136756466597,
	"eval_loss": 2.754452705383301,
	"eval_runtime": 65.4439,
	"eval_samples_per_second": 76.401,
	"eval_steps_per_second": 19.1,
	"num_input_tokens_seen": 8912896000,
	"step": 8500
	},
	{
	"epoch": 0.18780966972681107,
	"grad_norm": 0.12250006198883057,
	"learning_rate": 0.001,
	"loss": 2.8506,
	"num_input_tokens_seen": 8965324800,
	"step": 8550
	},
	{
	"epoch": 0.18890797188895617,
	"grad_norm": 0.1371607929468155,
	"learning_rate": 0.001,
	"loss": 2.8472,
	"num_input_tokens_seen": 9017753600,
	"step": 8600
	},
	{
	"epoch": 0.19000627405110126,
	"grad_norm": 0.11844755709171295,
	"learning_rate": 0.001,
	"loss": 2.8492,
	"num_input_tokens_seen": 9070182400,
	"step": 8650
	},
	{
	"epoch": 0.19110457621324634,
	"grad_norm": 0.38294216990470886,
	"learning_rate": 0.001,
	"loss": 6.3226,
	"num_input_tokens_seen": 9122611200,
	"step": 8700
	},
	{
	"epoch": 0.19220287837539143,
	"grad_norm": 0.44077590107917786,
	"learning_rate": 0.001,
	"loss": 6.7001,
	"num_input_tokens_seen": 9175040000,
	"step": 8750
	},
	{
	"epoch": 0.19330118053753653,
	"grad_norm": 0.4238772392272949,
	"learning_rate": 0.001,
	"loss": 5.8714,
	"num_input_tokens_seen": 9227468800,
	"step": 8800
	},
	{
	"epoch": 0.19439948269968163,
	"grad_norm": 0.2830688953399658,
	"learning_rate": 0.001,
	"loss": 4.8951,
	"num_input_tokens_seen": 9279897600,
	"step": 8850
	},
	{
	"epoch": 0.19549778486182673,
	"grad_norm": 0.2485039383172989,
	"learning_rate": 0.001,
	"loss": 3.928,
	"num_input_tokens_seen": 9332326400,
	"step": 8900
	},
	{
	"epoch": 0.19659608702397183,
	"grad_norm": 0.20515842735767365,
	"learning_rate": 0.001,
	"loss": 3.4277,
	"num_input_tokens_seen": 9384755200,
	"step": 8950
	},
	{
	"epoch": 0.1976943891861169,
	"grad_norm": 0.13605651259422302,
	"learning_rate": 0.001,
	"loss": 3.2263,
	"num_input_tokens_seen": 9437184000,
	"step": 9000
	},
	{
	"epoch": 0.1976943891861169,
	"eval_loss": 3.014314889907837,
	"eval_runtime": 65.8851,
	"eval_samples_per_second": 75.89,
	"eval_steps_per_second": 18.972,
	"num_input_tokens_seen": 9437184000,
	"step": 9000
	},
	{
	"epoch": 0.198792691348262,
	"grad_norm": 0.17666102945804596,
	"learning_rate": 0.001,
	"loss": 3.0728,
	"num_input_tokens_seen": 9489612800,
	"step": 9050
	},
	{
	"epoch": 0.1998909935104071,
	"grad_norm": 0.202484592795372,
	"learning_rate": 0.001,
	"loss": 2.9818,
	"num_input_tokens_seen": 9542041600,
	"step": 9100
	},
	{
	"epoch": 0.2009892956725522,
	"grad_norm": 0.15095236897468567,
	"learning_rate": 0.001,
	"loss": 2.9423,
	"num_input_tokens_seen": 9594470400,
	"step": 9150
	},
	{
	"epoch": 0.2020875978346973,
	"grad_norm": 0.13089850544929504,
	"learning_rate": 0.001,
	"loss": 2.9227,
	"num_input_tokens_seen": 9646899200,
	"step": 9200
	},
	{
	"epoch": 0.2031858999968424,
	"grad_norm": 0.14022304117679596,
	"learning_rate": 0.001,
	"loss": 2.8988,
	"num_input_tokens_seen": 9699328000,
	"step": 9250
	},
	{
	"epoch": 0.2042842021589875,
	"grad_norm": 0.13116785883903503,
	"learning_rate": 0.001,
	"loss": 2.8716,
	"num_input_tokens_seen": 9751756800,
	"step": 9300
	},
	{
	"epoch": 0.20538250432113256,
	"grad_norm": 0.1395471841096878,
	"learning_rate": 0.001,
	"loss": 2.8727,
	"num_input_tokens_seen": 9804185600,
	"step": 9350
	},
	{
	"epoch": 0.20648080648327766,
	"grad_norm": 0.1271878033876419,
	"learning_rate": 0.001,
	"loss": 2.864,
	"num_input_tokens_seen": 9856614400,
	"step": 9400
	},
	{
	"epoch": 0.20757910864542276,
	"grad_norm": 0.14148685336112976,
	"learning_rate": 0.001,
	"loss": 2.8604,
	"num_input_tokens_seen": 9909043200,
	"step": 9450
	},
	{
	"epoch": 0.20867741080756785,
	"grad_norm": 0.1292584091424942,
	"learning_rate": 0.001,
	"loss": 2.8547,
	"num_input_tokens_seen": 9961472000,
	"step": 9500
	},
	{
	"epoch": 0.20867741080756785,
	"eval_loss": 2.756131649017334,
	"eval_runtime": 65.0495,
	"eval_samples_per_second": 76.865,
	"eval_steps_per_second": 19.216,
	"num_input_tokens_seen": 9961472000,
	"step": 9500
	},
	{
	"epoch": 0.20977571296971295,
	"grad_norm": 0.10929372161626816,
	"learning_rate": 0.001,
	"loss": 2.8467,
	"num_input_tokens_seen": 10013900800,
	"step": 9550
	},
	{
	"epoch": 0.21087401513185805,
	"grad_norm": 0.1180899515748024,
	"learning_rate": 0.001,
	"loss": 2.8501,
	"num_input_tokens_seen": 10066329600,
	"step": 9600
	},
	{
	"epoch": 0.21197231729400312,
	"grad_norm": 0.12041448056697845,
	"learning_rate": 0.001,
	"loss": 2.8438,
	"num_input_tokens_seen": 10118758400,
	"step": 9650
	},
	{
	"epoch": 0.21307061945614822,
	"grad_norm": 0.13195224106311798,
	"learning_rate": 0.001,
	"loss": 2.8341,
	"num_input_tokens_seen": 10171187200,
	"step": 9700
	},
	{
	"epoch": 0.21416892161829332,
	"grad_norm": 0.11887054890394211,
	"learning_rate": 0.001,
	"loss": 2.8349,
	"num_input_tokens_seen": 10223616000,
	"step": 9750
	},
	{
	"epoch": 0.21526722378043842,
	"grad_norm": 0.1044996827840805,
	"learning_rate": 0.001,
	"loss": 2.8428,
	"num_input_tokens_seen": 10276044800,
	"step": 9800
	},
	{
	"epoch": 0.21636552594258351,
	"grad_norm": 0.11951665580272675,
	"learning_rate": 0.001,
	"loss": 2.8323,
	"num_input_tokens_seen": 10328473600,
	"step": 9850
	},
	{
	"epoch": 0.2174638281047286,
	"grad_norm": 0.11673793941736221,
	"learning_rate": 0.001,
	"loss": 2.8271,
	"num_input_tokens_seen": 10380902400,
	"step": 9900
	},
	{
	"epoch": 0.21856213026687368,
	"grad_norm": 0.1178969219326973,
	"learning_rate": 0.001,
	"loss": 2.8328,
	"num_input_tokens_seen": 10433331200,
	"step": 9950
	},
	{
	"epoch": 0.21966043242901878,
	"grad_norm": 0.11995361745357513,
	"learning_rate": 0.001,
	"loss": 2.8182,
	"num_input_tokens_seen": 10485760000,
	"step": 10000
	},
	{
	"epoch": 0.21966043242901878,
	"eval_loss": 2.732673168182373,
	"eval_runtime": 66.3377,
	"eval_samples_per_second": 75.372,
	"eval_steps_per_second": 18.843,
	"num_input_tokens_seen": 10485760000,
	"step": 10000
	},
	{
	"epoch": 0.22075873459116388,
	"grad_norm": 0.13463908433914185,
	"learning_rate": 0.001,
	"loss": 2.8242,
	"num_input_tokens_seen": 10538188800,
	"step": 10050
	},
	{
	"epoch": 0.22185703675330898,
	"grad_norm": 0.11778156459331512,
	"learning_rate": 0.001,
	"loss": 2.8234,
	"num_input_tokens_seen": 10590617600,
	"step": 10100
	},
	{
	"epoch": 0.22295533891545408,
	"grad_norm": 0.11393869668245316,
	"learning_rate": 0.001,
	"loss": 2.8204,
	"num_input_tokens_seen": 10643046400,
	"step": 10150
	},
	{
	"epoch": 0.22405364107759917,
	"grad_norm": 0.12454303354024887,
	"learning_rate": 0.001,
	"loss": 2.8185,
	"num_input_tokens_seen": 10695475200,
	"step": 10200
	},
	{
	"epoch": 0.22515194323974427,
	"grad_norm": 0.1148439347743988,
	"learning_rate": 0.001,
	"loss": 2.8219,
	"num_input_tokens_seen": 10747904000,
	"step": 10250
	},
	{
	"epoch": 0.22625024540188934,
	"grad_norm": 0.13888292014598846,
	"learning_rate": 0.001,
	"loss": 2.8157,
	"num_input_tokens_seen": 10800332800,
	"step": 10300
	},
	{
	"epoch": 0.22734854756403444,
	"grad_norm": 0.12242749333381653,
	"learning_rate": 0.001,
	"loss": 2.8165,
	"num_input_tokens_seen": 10852761600,
	"step": 10350
	},
	{
	"epoch": 0.22844684972617954,
	"grad_norm": 0.13651017844676971,
	"learning_rate": 0.001,
	"loss": 2.8165,
	"num_input_tokens_seen": 10905190400,
	"step": 10400
	},
	{
	"epoch": 0.22954515188832464,
	"grad_norm": 0.12349703162908554,
	"learning_rate": 0.001,
	"loss": 2.8126,
	"num_input_tokens_seen": 10957619200,
	"step": 10450
	},
	{
	"epoch": 0.23064345405046974,
	"grad_norm": 0.13448943197727203,
	"learning_rate": 0.001,
	"loss": 2.8162,
	"num_input_tokens_seen": 11010048000,
	"step": 10500
	},
	{
	"epoch": 0.23064345405046974,
	"eval_loss": 2.720102071762085,
	"eval_runtime": 65.0663,
	"eval_samples_per_second": 76.845,
	"eval_steps_per_second": 19.211,
	"num_input_tokens_seen": 11010048000,
	"step": 10500
	},
	{
	"epoch": 0.23174175621261484,
	"grad_norm": 0.1171165183186531,
	"learning_rate": 0.001,
	"loss": 2.817,
	"num_input_tokens_seen": 11062476800,
	"step": 10550
	},
	{
	"epoch": 0.2328400583747599,
	"grad_norm": 0.1417781263589859,
	"learning_rate": 0.001,
	"loss": 2.8159,
	"num_input_tokens_seen": 11114905600,
	"step": 10600
	},
	{
	"epoch": 0.233938360536905,
	"grad_norm": 0.13051685690879822,
	"learning_rate": 0.001,
	"loss": 2.8062,
	"num_input_tokens_seen": 11167334400,
	"step": 10650
	},
	{
	"epoch": 0.2350366626990501,
	"grad_norm": 0.12536808848381042,
	"learning_rate": 0.001,
	"loss": 2.8166,
	"num_input_tokens_seen": 11219763200,
	"step": 10700
	},
	{
	"epoch": 0.2361349648611952,
	"grad_norm": 0.11859289556741714,
	"learning_rate": 0.001,
	"loss": 2.8075,
	"num_input_tokens_seen": 11272192000,
	"step": 10750
	},
	{
	"epoch": 0.2372332670233403,
	"grad_norm": 0.14844287931919098,
	"learning_rate": 0.001,
	"loss": 2.8139,
	"num_input_tokens_seen": 11324620800,
	"step": 10800
	},
	{
	"epoch": 0.2383315691854854,
	"grad_norm": 0.12877844274044037,
	"learning_rate": 0.001,
	"loss": 2.8031,
	"num_input_tokens_seen": 11377049600,
	"step": 10850
	},
	{
	"epoch": 0.23942987134763047,
	"grad_norm": 0.13911722600460052,
	"learning_rate": 0.001,
	"loss": 2.7992,
	"num_input_tokens_seen": 11429478400,
	"step": 10900
	},
	{
	"epoch": 0.24052817350977557,
	"grad_norm": 0.156200110912323,
	"learning_rate": 0.001,
	"loss": 2.8059,
	"num_input_tokens_seen": 11481907200,
	"step": 10950
	},
	{
	"epoch": 0.24162647567192067,
	"grad_norm": 0.12990960478782654,
	"learning_rate": 0.001,
	"loss": 2.7984,
	"num_input_tokens_seen": 11534336000,
	"step": 11000
	},
	{
	"epoch": 0.24162647567192067,
	"eval_loss": 2.7103493213653564,
	"eval_runtime": 65.6611,
	"eval_samples_per_second": 76.149,
	"eval_steps_per_second": 19.037,
	"num_input_tokens_seen": 11534336000,
	"step": 11000
	},
	{
	"epoch": 0.24272477783406576,
	"grad_norm": 0.1190350204706192,
	"learning_rate": 0.001,
	"loss": 2.7994,
	"num_input_tokens_seen": 11586764800,
	"step": 11050
	},
	{
	"epoch": 0.24382307999621086,
	"grad_norm": 0.12825961410999298,
	"learning_rate": 0.001,
	"loss": 2.7992,
	"num_input_tokens_seen": 11639193600,
	"step": 11100
	},
	{
	"epoch": 0.24492138215835596,
	"grad_norm": 0.12561525404453278,
	"learning_rate": 0.001,
	"loss": 2.8009,
	"num_input_tokens_seen": 11691622400,
	"step": 11150
	},
	{
	"epoch": 0.24601968432050106,
	"grad_norm": 0.12596049904823303,
	"learning_rate": 0.001,
	"loss": 2.8002,
	"num_input_tokens_seen": 11744051200,
	"step": 11200
	},
	{
	"epoch": 0.24711798648264613,
	"grad_norm": 0.1415141373872757,
	"learning_rate": 0.001,
	"loss": 2.8004,
	"num_input_tokens_seen": 11796480000,
	"step": 11250
	},
	{
	"epoch": 0.24821628864479123,
	"grad_norm": 0.1359766125679016,
	"learning_rate": 0.001,
	"loss": 2.7988,
	"num_input_tokens_seen": 11848908800,
	"step": 11300
	},
	{
	"epoch": 0.24931459080693633,
	"grad_norm": 0.13459013402462006,
	"learning_rate": 0.001,
	"loss": 2.7991,
	"num_input_tokens_seen": 11901337600,
	"step": 11350
	},
	{
	"epoch": 0.2504128929690814,
	"grad_norm": 0.1344253420829773,
	"learning_rate": 0.001,
	"loss": 2.805,
	"num_input_tokens_seen": 11953766400,
	"step": 11400
	},
	{
	"epoch": 0.2515111951312265,
	"grad_norm": 0.13629016280174255,
	"learning_rate": 0.001,
	"loss": 2.7954,
	"num_input_tokens_seen": 12006195200,
	"step": 11450
	},
	{
	"epoch": 0.2526094972933716,
	"grad_norm": 0.12940892577171326,
	"learning_rate": 0.001,
	"loss": 2.8009,
	"num_input_tokens_seen": 12058624000,
	"step": 11500
	},
	{
	"epoch": 0.2526094972933716,
	"eval_loss": 2.7012581825256348,
	"eval_runtime": 65.7039,
	"eval_samples_per_second": 76.099,
	"eval_steps_per_second": 19.025,
	"num_input_tokens_seen": 12058624000,
	"step": 11500
	},
	{
	"epoch": 0.2537077994555167,
	"grad_norm": 0.15021966397762299,
	"learning_rate": 0.001,
	"loss": 2.7963,
	"num_input_tokens_seen": 12111052800,
	"step": 11550
	},
	{
	"epoch": 0.2548061016176618,
	"grad_norm": 0.12381847202777863,
	"learning_rate": 0.001,
	"loss": 2.7954,
	"num_input_tokens_seen": 12163481600,
	"step": 11600
	},
	{
	"epoch": 0.2559044037798069,
	"grad_norm": 0.14849607646465302,
	"learning_rate": 0.001,
	"loss": 2.7837,
	"num_input_tokens_seen": 12215910400,
	"step": 11650
	},
	{
	"epoch": 0.25700270594195196,
	"grad_norm": 0.1286240816116333,
	"learning_rate": 0.001,
	"loss": 2.7999,
	"num_input_tokens_seen": 12268339200,
	"step": 11700
	},
	{
	"epoch": 0.2581010081040971,
	"grad_norm": 0.11861539632081985,
	"learning_rate": 0.001,
	"loss": 2.7979,
	"num_input_tokens_seen": 12320768000,
	"step": 11750
	},
	{
	"epoch": 0.25919931026624216,
	"grad_norm": 0.11512617021799088,
	"learning_rate": 0.001,
	"loss": 2.7926,
	"num_input_tokens_seen": 12373196800,
	"step": 11800
	},
	{
	"epoch": 0.2602976124283873,
	"grad_norm": 0.13469178974628448,
	"learning_rate": 0.001,
	"loss": 2.7881,
	"num_input_tokens_seen": 12425625600,
	"step": 11850
	},
	{
	"epoch": 0.26139591459053235,
	"grad_norm": 0.15504290163516998,
	"learning_rate": 0.001,
	"loss": 2.7917,
	"num_input_tokens_seen": 12478054400,
	"step": 11900
	},
	{
	"epoch": 0.2624942167526775,
	"grad_norm": 0.1363905370235443,
	"learning_rate": 0.001,
	"loss": 2.7869,
	"num_input_tokens_seen": 12530483200,
	"step": 11950
	},
	{
	"epoch": 0.26359251891482255,
	"grad_norm": 0.11095720529556274,
	"learning_rate": 0.001,
	"loss": 2.7883,
	"num_input_tokens_seen": 12582912000,
	"step": 12000
	},
	{
	"epoch": 0.26359251891482255,
	"eval_loss": 2.6911227703094482,
	"eval_runtime": 65.4928,
	"eval_samples_per_second": 76.344,
	"eval_steps_per_second": 19.086,
	"num_input_tokens_seen": 12582912000,
	"step": 12000
	},
	{
	"epoch": 0.2646908210769676,
	"grad_norm": 0.1443321257829666,
	"learning_rate": 0.001,
	"loss": 2.7866,
	"num_input_tokens_seen": 12635340800,
	"step": 12050
	},
	{
	"epoch": 0.26578912323911275,
	"grad_norm": 0.12249191850423813,
	"learning_rate": 0.001,
	"loss": 2.8,
	"num_input_tokens_seen": 12687769600,
	"step": 12100
	},
	{
	"epoch": 0.2668874254012578,
	"grad_norm": 0.1505623608827591,
	"learning_rate": 0.001,
	"loss": 2.7934,
	"num_input_tokens_seen": 12740198400,
	"step": 12150
	},
	{
	"epoch": 0.26798572756340294,
	"grad_norm": 0.17367833852767944,
	"learning_rate": 0.001,
	"loss": 2.7905,
	"num_input_tokens_seen": 12792627200,
	"step": 12200
	},
	{
	"epoch": 0.269084029725548,
	"grad_norm": 0.12189670652151108,
	"learning_rate": 0.001,
	"loss": 2.7878,
	"num_input_tokens_seen": 12845056000,
	"step": 12250
	},
	{
	"epoch": 0.27018233188769314,
	"grad_norm": 0.12834201753139496,
	"learning_rate": 0.001,
	"loss": 2.7822,
	"num_input_tokens_seen": 12897484800,
	"step": 12300
	},
	{
	"epoch": 0.2712806340498382,
	"grad_norm": 0.1277332305908203,
	"learning_rate": 0.001,
	"loss": 2.7846,
	"num_input_tokens_seen": 12949913600,
	"step": 12350
	},
	{
	"epoch": 0.2723789362119833,
	"grad_norm": 0.14190761744976044,
	"learning_rate": 0.001,
	"loss": 2.7845,
	"num_input_tokens_seen": 13002342400,
	"step": 12400
	},
	{
	"epoch": 0.2734772383741284,
	"grad_norm": 0.14843693375587463,
	"learning_rate": 0.001,
	"loss": 2.7847,
	"num_input_tokens_seen": 13054771200,
	"step": 12450
	},
	{
	"epoch": 0.2745755405362735,
	"grad_norm": 0.14427120983600616,
	"learning_rate": 0.001,
	"loss": 2.78,
	"num_input_tokens_seen": 13107200000,
	"step": 12500
	},
	{
	"epoch": 0.2745755405362735,
	"eval_loss": 2.6847124099731445,
	"eval_runtime": 65.0448,
	"eval_samples_per_second": 76.87,
	"eval_steps_per_second": 19.218,
	"num_input_tokens_seen": 13107200000,
	"step": 12500
	},
	{
	"epoch": 0.2756738426984186,
	"grad_norm": 0.14408434927463531,
	"learning_rate": 0.001,
	"loss": 2.7794,
	"num_input_tokens_seen": 13159628800,
	"step": 12550
	},
	{
	"epoch": 0.2767721448605637,
	"grad_norm": 0.1557396501302719,
	"learning_rate": 0.001,
	"loss": 2.7754,
	"num_input_tokens_seen": 13212057600,
	"step": 12600
	},
	{
	"epoch": 0.27787044702270874,
	"grad_norm": 0.11494632810354233,
	"learning_rate": 0.001,
	"loss": 2.7839,
	"num_input_tokens_seen": 13264486400,
	"step": 12650
	},
	{
	"epoch": 0.27896874918485387,
	"grad_norm": 0.12402207404375076,
	"learning_rate": 0.001,
	"loss": 2.7773,
	"num_input_tokens_seen": 13316915200,
	"step": 12700
	},
	{
	"epoch": 0.28006705134699894,
	"grad_norm": 0.1308801770210266,
	"learning_rate": 0.001,
	"loss": 2.7864,
	"num_input_tokens_seen": 13369344000,
	"step": 12750
	},
	{
	"epoch": 0.28116535350914407,
	"grad_norm": 0.13596223294734955,
	"learning_rate": 0.001,
	"loss": 2.7763,
	"num_input_tokens_seen": 13421772800,
	"step": 12800
	},
	{
	"epoch": 0.28226365567128914,
	"grad_norm": 0.13256165385246277,
	"learning_rate": 0.001,
	"loss": 2.7762,
	"num_input_tokens_seen": 13474201600,
	"step": 12850
	},
	{
	"epoch": 0.28336195783343426,
	"grad_norm": 0.12955094873905182,
	"learning_rate": 0.001,
	"loss": 2.7823,
	"num_input_tokens_seen": 13526630400,
	"step": 12900
	},
	{
	"epoch": 0.28446025999557933,
	"grad_norm": 0.13506431877613068,
	"learning_rate": 0.001,
	"loss": 2.774,
	"num_input_tokens_seen": 13579059200,
	"step": 12950
	},
	{
	"epoch": 0.2855585621577244,
	"grad_norm": 0.14323291182518005,
	"learning_rate": 0.001,
	"loss": 2.7755,
	"num_input_tokens_seen": 13631488000,
	"step": 13000
	},
	{
	"epoch": 0.2855585621577244,
	"eval_loss": 2.6779518127441406,
	"eval_runtime": 66.0334,
	"eval_samples_per_second": 75.719,
	"eval_steps_per_second": 18.93,
	"num_input_tokens_seen": 13631488000,
	"step": 13000
	},
	{
	"epoch": 0.28665686431986953,
	"grad_norm": 0.13635839521884918,
	"learning_rate": 0.001,
	"loss": 2.7705,
	"num_input_tokens_seen": 13683916800,
	"step": 13050
	},
	{
	"epoch": 0.2877551664820146,
	"grad_norm": 0.1449163854122162,
	"learning_rate": 0.001,
	"loss": 2.775,
	"num_input_tokens_seen": 13736345600,
	"step": 13100
	},
	{
	"epoch": 0.2888534686441597,
	"grad_norm": 0.1385536640882492,
	"learning_rate": 0.001,
	"loss": 2.7705,
	"num_input_tokens_seen": 13788774400,
	"step": 13150
	},
	{
	"epoch": 0.2899517708063048,
	"grad_norm": 0.14647842943668365,
	"learning_rate": 0.001,
	"loss": 2.7709,
	"num_input_tokens_seen": 13841203200,
	"step": 13200
	},
	{
	"epoch": 0.2910500729684499,
	"grad_norm": 0.14193060994148254,
	"learning_rate": 0.001,
	"loss": 2.7753,
	"num_input_tokens_seen": 13893632000,
	"step": 13250
	},
	{
	"epoch": 0.292148375130595,
	"grad_norm": 0.15065765380859375,
	"learning_rate": 0.001,
	"loss": 2.7725,
	"num_input_tokens_seen": 13946060800,
	"step": 13300
	},
	{
	"epoch": 0.29324667729274007,
	"grad_norm": 0.1726570725440979,
	"learning_rate": 0.001,
	"loss": 2.7677,
	"num_input_tokens_seen": 13998489600,
	"step": 13350
	},
	{
	"epoch": 0.2943449794548852,
	"grad_norm": 0.13577735424041748,
	"learning_rate": 0.001,
	"loss": 2.7661,
	"num_input_tokens_seen": 14050918400,
	"step": 13400
	},
	{
	"epoch": 0.29544328161703026,
	"grad_norm": 0.1286347657442093,
	"learning_rate": 0.001,
	"loss": 2.7642,
	"num_input_tokens_seen": 14103347200,
	"step": 13450
	},
	{
	"epoch": 0.2965415837791754,
	"grad_norm": 0.12374001741409302,
	"learning_rate": 0.001,
	"loss": 2.7651,
	"num_input_tokens_seen": 14155776000,
	"step": 13500
	},
	{
	"epoch": 0.2965415837791754,
	"eval_loss": 2.6711983680725098,
	"eval_runtime": 65.6737,
	"eval_samples_per_second": 76.134,
	"eval_steps_per_second": 19.033,
	"num_input_tokens_seen": 14155776000,
	"step": 13500
	},
	{
	"epoch": 0.29763988594132046,
	"grad_norm": 0.1733749508857727,
	"learning_rate": 0.001,
	"loss": 2.765,
	"num_input_tokens_seen": 14208204800,
	"step": 13550
	},
	{
	"epoch": 0.29873818810346553,
	"grad_norm": 0.1459003984928131,
	"learning_rate": 0.001,
	"loss": 2.7683,
	"num_input_tokens_seen": 14260633600,
	"step": 13600
	},
	{
	"epoch": 0.29983649026561066,
	"grad_norm": 0.1527784913778305,
	"learning_rate": 0.001,
	"loss": 2.7678,
	"num_input_tokens_seen": 14313062400,
	"step": 13650
	},
	{
	"epoch": 0.3009347924277557,
	"grad_norm": 0.1344996690750122,
	"learning_rate": 0.001,
	"loss": 2.7613,
	"num_input_tokens_seen": 14365491200,
	"step": 13700
	},
	{
	"epoch": 0.30203309458990085,
	"grad_norm": 0.1291748583316803,
	"learning_rate": 0.001,
	"loss": 2.7682,
	"num_input_tokens_seen": 14417920000,
	"step": 13750
	},
	{
	"epoch": 0.3031313967520459,
	"grad_norm": 0.1352360099554062,
	"learning_rate": 0.001,
	"loss": 2.764,
	"num_input_tokens_seen": 14470348800,
	"step": 13800
	},
	{
	"epoch": 0.30422969891419105,
	"grad_norm": 0.13686618208885193,
	"learning_rate": 0.001,
	"loss": 2.7638,
	"num_input_tokens_seen": 14522777600,
	"step": 13850
	},
	{
	"epoch": 0.3053280010763361,
	"grad_norm": 0.15377116203308105,
	"learning_rate": 0.001,
	"loss": 2.7639,
	"num_input_tokens_seen": 14575206400,
	"step": 13900
	},
	{
	"epoch": 0.3064263032384812,
	"grad_norm": 0.13904446363449097,
	"learning_rate": 0.001,
	"loss": 2.7666,
	"num_input_tokens_seen": 14627635200,
	"step": 13950
	},
	{
	"epoch": 0.3075246054006263,
	"grad_norm": 0.12402611970901489,
	"learning_rate": 0.001,
	"loss": 2.759,
	"num_input_tokens_seen": 14680064000,
	"step": 14000
	},
	{
	"epoch": 0.3075246054006263,
	"eval_loss": 2.6654388904571533,
	"eval_runtime": 65.2775,
	"eval_samples_per_second": 76.596,
	"eval_steps_per_second": 19.149,
	"num_input_tokens_seen": 14680064000,
	"step": 14000
	},
	{
	"epoch": 0.3086229075627714,
	"grad_norm": 0.13326038420200348,
	"learning_rate": 0.001,
	"loss": 2.7622,
	"num_input_tokens_seen": 14732492800,
	"step": 14050
	},
	{
	"epoch": 0.3097212097249165,
	"grad_norm": 0.14305976033210754,
	"learning_rate": 0.001,
	"loss": 2.7597,
	"num_input_tokens_seen": 14784921600,
	"step": 14100
	},
	{
	"epoch": 0.3108195118870616,
	"grad_norm": 0.1182415783405304,
	"learning_rate": 0.001,
	"loss": 2.758,
	"num_input_tokens_seen": 14837350400,
	"step": 14150
	},
	{
	"epoch": 0.3119178140492067,
	"grad_norm": 0.12919387221336365,
	"learning_rate": 0.001,
	"loss": 2.759,
	"num_input_tokens_seen": 14889779200,
	"step": 14200
	},
	{
	"epoch": 0.3130161162113518,
	"grad_norm": 0.1420537382364273,
	"learning_rate": 0.001,
	"loss": 2.7519,
	"num_input_tokens_seen": 14942208000,
	"step": 14250
	},
	{
	"epoch": 0.31411441837349685,
	"grad_norm": 0.14349806308746338,
	"learning_rate": 0.001,
	"loss": 2.7653,
	"num_input_tokens_seen": 14994636800,
	"step": 14300
	},
	{
	"epoch": 0.315212720535642,
	"grad_norm": 0.16453324258327484,
	"learning_rate": 0.001,
	"loss": 2.7642,
	"num_input_tokens_seen": 15047065600,
	"step": 14350
	},
	{
	"epoch": 0.31631102269778705,
	"grad_norm": 0.11806487292051315,
	"learning_rate": 0.001,
	"loss": 2.7605,
	"num_input_tokens_seen": 15099494400,
	"step": 14400
	},
	{
	"epoch": 0.3174093248599322,
	"grad_norm": 0.12850746512413025,
	"learning_rate": 0.001,
	"loss": 2.7539,
	"num_input_tokens_seen": 15151923200,
	"step": 14450
	},
	{
	"epoch": 0.31850762702207724,
	"grad_norm": 0.1480904221534729,
	"learning_rate": 0.001,
	"loss": 2.7574,
	"num_input_tokens_seen": 15204352000,
	"step": 14500
	},
	{
	"epoch": 0.31850762702207724,
	"eval_loss": 2.6607398986816406,
	"eval_runtime": 65.6281,
	"eval_samples_per_second": 76.187,
	"eval_steps_per_second": 19.047,
	"num_input_tokens_seen": 15204352000,
	"step": 14500
	},
	{
	"epoch": 0.3196059291842223,
	"grad_norm": 0.13606210052967072,
	"learning_rate": 0.001,
	"loss": 2.763,
	"num_input_tokens_seen": 15256780800,
	"step": 14550
	},
	{
	"epoch": 0.32070423134636744,
	"grad_norm": 0.12546846270561218,
	"learning_rate": 0.001,
	"loss": 2.7556,
	"num_input_tokens_seen": 15309209600,
	"step": 14600
	},
	{
	"epoch": 0.3218025335085125,
	"grad_norm": 0.1267230361700058,
	"learning_rate": 0.001,
	"loss": 2.7617,
	"num_input_tokens_seen": 15361638400,
	"step": 14650
	},
	{
	"epoch": 0.32290083567065764,
	"grad_norm": 0.13812699913978577,
	"learning_rate": 0.001,
	"loss": 2.7533,
	"num_input_tokens_seen": 15414067200,
	"step": 14700
	},
	{
	"epoch": 0.3239991378328027,
	"grad_norm": 0.12577973306179047,
	"learning_rate": 0.001,
	"loss": 2.7519,
	"num_input_tokens_seen": 15466496000,
	"step": 14750
	},
	{
	"epoch": 0.32509743999494783,
	"grad_norm": 0.14296036958694458,
	"learning_rate": 0.001,
	"loss": 2.7479,
	"num_input_tokens_seen": 15518924800,
	"step": 14800
	},
	{
	"epoch": 0.3261957421570929,
	"grad_norm": 0.12737593054771423,
	"learning_rate": 0.001,
	"loss": 2.7546,
	"num_input_tokens_seen": 15571353600,
	"step": 14850
	},
	{
	"epoch": 0.327294044319238,
	"grad_norm": 0.1349722445011139,
	"learning_rate": 0.001,
	"loss": 2.7477,
	"num_input_tokens_seen": 15623782400,
	"step": 14900
	},
	{
	"epoch": 0.3283923464813831,
	"grad_norm": 0.12827487289905548,
	"learning_rate": 0.001,
	"loss": 2.7492,
	"num_input_tokens_seen": 15676211200,
	"step": 14950
	},
	{
	"epoch": 0.3294906486435282,
	"grad_norm": 0.13282813131809235,
	"learning_rate": 0.001,
	"loss": 2.7466,
	"num_input_tokens_seen": 15728640000,
	"step": 15000
	},
	{
	"epoch": 0.3294906486435282,
	"eval_loss": 2.6524744033813477,
	"eval_runtime": 65.8996,
	"eval_samples_per_second": 75.873,
	"eval_steps_per_second": 18.968,
	"num_input_tokens_seen": 15728640000,
	"step": 15000
	},
	{
	"epoch": 0.3305889508056733,
	"grad_norm": 0.11965218186378479,
	"learning_rate": 0.001,
	"loss": 2.7443,
	"num_input_tokens_seen": 15781068800,
	"step": 15050
	},
	{
	"epoch": 0.33168725296781837,
	"grad_norm": 0.14668309688568115,
	"learning_rate": 0.001,
	"loss": 2.7496,
	"num_input_tokens_seen": 15833497600,
	"step": 15100
	},
	{
	"epoch": 0.3327855551299635,
	"grad_norm": 0.12492749840021133,
	"learning_rate": 0.001,
	"loss": 2.7485,
	"num_input_tokens_seen": 15885926400,
	"step": 15150
	},
	{
	"epoch": 0.33388385729210857,
	"grad_norm": 0.1333470493555069,
	"learning_rate": 0.001,
	"loss": 2.7511,
	"num_input_tokens_seen": 15938355200,
	"step": 15200
	},
	{
	"epoch": 0.33498215945425364,
	"grad_norm": 0.14136457443237305,
	"learning_rate": 0.001,
	"loss": 2.74,
	"num_input_tokens_seen": 15990784000,
	"step": 15250
	},
	{
	"epoch": 0.33608046161639876,
	"grad_norm": 0.14975622296333313,
	"learning_rate": 0.001,
	"loss": 2.7543,
	"num_input_tokens_seen": 16043212800,
	"step": 15300
	},
	{
	"epoch": 0.33717876377854383,
	"grad_norm": 0.1193549856543541,
	"learning_rate": 0.001,
	"loss": 2.7497,
	"num_input_tokens_seen": 16095641600,
	"step": 15350
	},
	{
	"epoch": 0.33827706594068896,
	"grad_norm": 0.1429223120212555,
	"learning_rate": 0.001,
	"loss": 2.7463,
	"num_input_tokens_seen": 16148070400,
	"step": 15400
	},
	{
	"epoch": 0.33937536810283403,
	"grad_norm": 0.16827304661273956,
	"learning_rate": 0.001,
	"loss": 2.7415,
	"num_input_tokens_seen": 16200499200,
	"step": 15450
	},
	{
	"epoch": 0.3404736702649791,
	"grad_norm": 0.13952937722206116,
	"learning_rate": 0.001,
	"loss": 2.7388,
	"num_input_tokens_seen": 16252928000,
	"step": 15500
	},
	{
	"epoch": 0.3404736702649791,
	"eval_loss": 2.6472089290618896,
	"eval_runtime": 65.4943,
	"eval_samples_per_second": 76.343,
	"eval_steps_per_second": 19.086,
	"num_input_tokens_seen": 16252928000,
	"step": 15500
	},
	{
	"epoch": 0.3415719724271242,
	"grad_norm": 0.13359376788139343,
	"learning_rate": 0.001,
	"loss": 2.7522,
	"num_input_tokens_seen": 16305356800,
	"step": 15550
	},
	{
	"epoch": 0.3426702745892693,
	"grad_norm": 0.13101224601268768,
	"learning_rate": 0.001,
	"loss": 2.7483,
	"num_input_tokens_seen": 16357785600,
	"step": 15600
	},
	{
	"epoch": 0.3437685767514144,
	"grad_norm": 0.14006133377552032,
	"learning_rate": 0.001,
	"loss": 2.7439,
	"num_input_tokens_seen": 16410214400,
	"step": 15650
	},
	{
	"epoch": 0.3448668789135595,
	"grad_norm": 0.15062059462070465,
	"learning_rate": 0.001,
	"loss": 2.7454,
	"num_input_tokens_seen": 16462643200,
	"step": 15700
	},
	{
	"epoch": 0.3459651810757046,
	"grad_norm": 0.13822610676288605,
	"learning_rate": 0.001,
	"loss": 2.74,
	"num_input_tokens_seen": 16515072000,
	"step": 15750
	},
	{
	"epoch": 0.3470634832378497,
	"grad_norm": 0.1368207335472107,
	"learning_rate": 0.001,
	"loss": 2.745,
	"num_input_tokens_seen": 16567500800,
	"step": 15800
	},
	{
	"epoch": 0.34816178539999476,
	"grad_norm": 0.14573991298675537,
	"learning_rate": 0.001,
	"loss": 2.742,
	"num_input_tokens_seen": 16619929600,
	"step": 15850
	},
	{
	"epoch": 0.3492600875621399,
	"grad_norm": 12.025542259216309,
	"learning_rate": 0.001,
	"loss": 3.3278,
	"num_input_tokens_seen": 16672358400,
	"step": 15900
	},
	{
	"epoch": 0.35035838972428496,
	"grad_norm": 0.15699023008346558,
	"learning_rate": 0.001,
	"loss": 4.04,
	"num_input_tokens_seen": 16724787200,
	"step": 15950
	},
	{
	"epoch": 0.3514566918864301,
	"grad_norm": 0.13041897118091583,
	"learning_rate": 0.001,
	"loss": 2.8233,
	"num_input_tokens_seen": 16777216000,
	"step": 16000
	},
	{
	"epoch": 0.3514566918864301,
	"eval_loss": 2.689638614654541,
	"eval_runtime": 66.0949,
	"eval_samples_per_second": 75.649,
	"eval_steps_per_second": 18.912,
	"num_input_tokens_seen": 16777216000,
	"step": 16000
	},
	{
	"epoch": 0.35255499404857515,
	"grad_norm": 0.1446143537759781,
	"learning_rate": 0.001,
	"loss": 2.7837,
	"num_input_tokens_seen": 16829644800,
	"step": 16050
	},
	{
	"epoch": 0.3536532962107203,
	"grad_norm": 0.12466421723365784,
	"learning_rate": 0.001,
	"loss": 2.7808,
	"num_input_tokens_seen": 16882073600,
	"step": 16100
	},
	{
	"epoch": 0.35475159837286535,
	"grad_norm": 0.13154324889183044,
	"learning_rate": 0.001,
	"loss": 2.7608,
	"num_input_tokens_seen": 16934502400,
	"step": 16150
	},
	{
	"epoch": 0.3558499005350104,
	"grad_norm": 0.12929347157478333,
	"learning_rate": 0.001,
	"loss": 2.7599,
	"num_input_tokens_seen": 16986931200,
	"step": 16200
	},
	{
	"epoch": 0.35694820269715555,
	"grad_norm": 0.12805528938770294,
	"learning_rate": 0.001,
	"loss": 2.7562,
	"num_input_tokens_seen": 17039360000,
	"step": 16250
	},
	{
	"epoch": 0.3580465048593006,
	"grad_norm": 0.12885579466819763,
	"learning_rate": 0.001,
	"loss": 2.7498,
	"num_input_tokens_seen": 17091788800,
	"step": 16300
	},
	{
	"epoch": 0.35914480702144574,
	"grad_norm": 0.14422497153282166,
	"learning_rate": 0.001,
	"loss": 2.7518,
	"num_input_tokens_seen": 17144217600,
	"step": 16350
	},
	{
	"epoch": 0.3602431091835908,
	"grad_norm": 0.13284224271774292,
	"learning_rate": 0.001,
	"loss": 2.7453,
	"num_input_tokens_seen": 17196646400,
	"step": 16400
	},
	{
	"epoch": 0.3613414113457359,
	"grad_norm": 0.1408185362815857,
	"learning_rate": 0.001,
	"loss": 2.7422,
	"num_input_tokens_seen": 17249075200,
	"step": 16450
	},
	{
	"epoch": 0.362439713507881,
	"grad_norm": 0.1295713484287262,
	"learning_rate": 0.001,
	"loss": 2.7394,
	"num_input_tokens_seen": 17301504000,
	"step": 16500
	},
	{
	"epoch": 0.362439713507881,
	"eval_loss": 2.6431446075439453,
	"eval_runtime": 65.9239,
	"eval_samples_per_second": 75.845,
	"eval_steps_per_second": 18.961,
	"num_input_tokens_seen": 17301504000,
	"step": 16500
	},
	{
	"epoch": 0.3635380156700261,
	"grad_norm": 0.1245918869972229,
	"learning_rate": 0.001,
	"loss": 2.7434,
	"num_input_tokens_seen": 17353932800,
	"step": 16550
	},
	{
	"epoch": 0.3646363178321712,
	"grad_norm": 0.15865615010261536,
	"learning_rate": 0.001,
	"loss": 2.7378,
	"num_input_tokens_seen": 17406361600,
	"step": 16600
	},
	{
	"epoch": 0.3657346199943163,
	"grad_norm": 0.1391313523054123,
	"learning_rate": 0.001,
	"loss": 2.7415,
	"num_input_tokens_seen": 17458790400,
	"step": 16650
	},
	{
	"epoch": 0.3668329221564614,
	"grad_norm": 0.13604389131069183,
	"learning_rate": 0.001,
	"loss": 2.7394,
	"num_input_tokens_seen": 17511219200,
	"step": 16700
	},
	{
	"epoch": 0.3679312243186065,
	"grad_norm": 0.14926299452781677,
	"learning_rate": 0.001,
	"loss": 2.732,
	"num_input_tokens_seen": 17563648000,
	"step": 16750
	},
	{
	"epoch": 0.36902952648075155,
	"grad_norm": 0.12619628012180328,
	"learning_rate": 0.001,
	"loss": 2.7275,
	"num_input_tokens_seen": 17616076800,
	"step": 16800
	},
	{
	"epoch": 0.3701278286428967,
	"grad_norm": 0.1268402636051178,
	"learning_rate": 0.001,
	"loss": 2.7309,
	"num_input_tokens_seen": 17668505600,
	"step": 16850
	},
	{
	"epoch": 0.37122613080504174,
	"grad_norm": 0.1379624754190445,
	"learning_rate": 0.001,
	"loss": 2.7266,
	"num_input_tokens_seen": 17720934400,
	"step": 16900
	},
	{
	"epoch": 0.37232443296718687,
	"grad_norm": 0.1443478763103485,
	"learning_rate": 0.001,
	"loss": 2.7321,
	"num_input_tokens_seen": 17773363200,
	"step": 16950
	},
	{
	"epoch": 0.37342273512933194,
	"grad_norm": 0.15214091539382935,
	"learning_rate": 0.001,
	"loss": 2.7284,
	"num_input_tokens_seen": 17825792000,
	"step": 17000
	},
	{
	"epoch": 0.37342273512933194,
	"eval_loss": 2.63478946685791,
	"eval_runtime": 65.141,
	"eval_samples_per_second": 76.757,
	"eval_steps_per_second": 19.189,
	"num_input_tokens_seen": 17825792000,
	"step": 17000
	},
	{
	"epoch": 0.374521037291477,
	"grad_norm": 0.1361106038093567,
	"learning_rate": 0.001,
	"loss": 2.7342,
	"num_input_tokens_seen": 17878220800,
	"step": 17050
	},
	{
	"epoch": 0.37561933945362214,
	"grad_norm": 0.13839572668075562,
	"learning_rate": 0.001,
	"loss": 2.7259,
	"num_input_tokens_seen": 17930649600,
	"step": 17100
	},
	{
	"epoch": 0.3767176416157672,
	"grad_norm": 0.13055244088172913,
	"learning_rate": 0.001,
	"loss": 2.7306,
	"num_input_tokens_seen": 17983078400,
	"step": 17150
	},
	{
	"epoch": 0.37781594377791233,
	"grad_norm": 0.1444411724805832,
	"learning_rate": 0.001,
	"loss": 2.7315,
	"num_input_tokens_seen": 18035507200,
	"step": 17200
	},
	{
	"epoch": 0.3789142459400574,
	"grad_norm": 0.151028573513031,
	"learning_rate": 0.001,
	"loss": 2.7211,
	"num_input_tokens_seen": 18087936000,
	"step": 17250
	},
	{
	"epoch": 0.38001254810220253,
	"grad_norm": 0.15638011693954468,
	"learning_rate": 0.001,
	"loss": 2.7269,
	"num_input_tokens_seen": 18140364800,
	"step": 17300
	},
	{
	"epoch": 0.3811108502643476,
	"grad_norm": 0.1508658230304718,
	"learning_rate": 0.001,
	"loss": 2.7263,
	"num_input_tokens_seen": 18192793600,
	"step": 17350
	},
	{
	"epoch": 0.38220915242649267,
	"grad_norm": 0.13167701661586761,
	"learning_rate": 0.001,
	"loss": 2.7296,
	"num_input_tokens_seen": 18245222400,
	"step": 17400
	},
	{
	"epoch": 0.3833074545886378,
	"grad_norm": 0.14609253406524658,
	"learning_rate": 0.001,
	"loss": 2.7249,
	"num_input_tokens_seen": 18297651200,
	"step": 17450
	},
	{
	"epoch": 0.38440575675078287,
	"grad_norm": 0.13172782957553864,
	"learning_rate": 0.001,
	"loss": 2.7252,
	"num_input_tokens_seen": 18350080000,
	"step": 17500
	},
	{
	"epoch": 0.38440575675078287,
	"eval_loss": 2.630176544189453,
	"eval_runtime": 66.0667,
	"eval_samples_per_second": 75.681,
	"eval_steps_per_second": 18.92,
	"num_input_tokens_seen": 18350080000,
	"step": 17500
	},
	{
	"epoch": 0.385504058912928,
	"grad_norm": 0.149306520819664,
	"learning_rate": 0.001,
	"loss": 2.7245,
	"num_input_tokens_seen": 18402508800,
	"step": 17550
	},
	{
	"epoch": 0.38660236107507306,
	"grad_norm": 0.14191772043704987,
	"learning_rate": 0.001,
	"loss": 2.7204,
	"num_input_tokens_seen": 18454937600,
	"step": 17600
	},
	{
	"epoch": 0.3877006632372182,
	"grad_norm": 0.13731072843074799,
	"learning_rate": 0.001,
	"loss": 2.7243,
	"num_input_tokens_seen": 18507366400,
	"step": 17650
	},
	{
	"epoch": 0.38879896539936326,
	"grad_norm": 0.1466369777917862,
	"learning_rate": 0.001,
	"loss": 2.7262,
	"num_input_tokens_seen": 18559795200,
	"step": 17700
	},
	{
	"epoch": 0.38989726756150833,
	"grad_norm": 0.13290658593177795,
	"learning_rate": 0.001,
	"loss": 2.7314,
	"num_input_tokens_seen": 18612224000,
	"step": 17750
	},
	{
	"epoch": 0.39099556972365346,
	"grad_norm": 0.13785040378570557,
	"learning_rate": 0.001,
	"loss": 2.7252,
	"num_input_tokens_seen": 18664652800,
	"step": 17800
	},
	{
	"epoch": 0.39209387188579853,
	"grad_norm": 0.13384000957012177,
	"learning_rate": 0.001,
	"loss": 2.7321,
	"num_input_tokens_seen": 18717081600,
	"step": 17850
	},
	{
	"epoch": 0.39319217404794365,
	"grad_norm": 0.14927875995635986,
	"learning_rate": 0.001,
	"loss": 2.7236,
	"num_input_tokens_seen": 18769510400,
	"step": 17900
	},
	{
	"epoch": 0.3942904762100887,
	"grad_norm": 0.13494938611984253,
	"learning_rate": 0.001,
	"loss": 2.7234,
	"num_input_tokens_seen": 18821939200,
	"step": 17950
	},
	{
	"epoch": 0.3953887783722338,
	"grad_norm": 0.15054813027381897,
	"learning_rate": 0.001,
	"loss": 2.7236,
	"num_input_tokens_seen": 18874368000,
	"step": 18000
	},
	{
	"epoch": 0.3953887783722338,
	"eval_loss": 2.62626051902771,
	"eval_runtime": 65.3965,
	"eval_samples_per_second": 76.457,
	"eval_steps_per_second": 19.114,
	"num_input_tokens_seen": 18874368000,
	"step": 18000
	},
	{
	"epoch": 0.3964870805343789,
	"grad_norm": 0.1353403478860855,
	"learning_rate": 0.001,
	"loss": 2.724,
	"num_input_tokens_seen": 18926796800,
	"step": 18050
	},
	{
	"epoch": 0.397585382696524,
	"grad_norm": 0.15004459023475647,
	"learning_rate": 0.001,
	"loss": 2.717,
	"num_input_tokens_seen": 18979225600,
	"step": 18100
	},
	{
	"epoch": 0.3986836848586691,
	"grad_norm": 0.1293007880449295,
	"learning_rate": 0.001,
	"loss": 2.7187,
	"num_input_tokens_seen": 19031654400,
	"step": 18150
	},
	{
	"epoch": 0.3997819870208142,
	"grad_norm": 0.16373878717422485,
	"learning_rate": 0.001,
	"loss": 2.7217,
	"num_input_tokens_seen": 19084083200,
	"step": 18200
	},
	{
	"epoch": 0.4008802891829593,
	"grad_norm": 0.1529611349105835,
	"learning_rate": 0.001,
	"loss": 2.722,
	"num_input_tokens_seen": 19136512000,
	"step": 18250
	},
	{
	"epoch": 0.4019785913451044,
	"grad_norm": 0.14109951257705688,
	"learning_rate": 0.001,
	"loss": 2.7232,
	"num_input_tokens_seen": 19188940800,
	"step": 18300
	},
	{
	"epoch": 0.40307689350724946,
	"grad_norm": 0.13841493427753448,
	"learning_rate": 0.001,
	"loss": 2.7195,
	"num_input_tokens_seen": 19241369600,
	"step": 18350
	},
	{
	"epoch": 0.4041751956693946,
	"grad_norm": 0.13508476316928864,
	"learning_rate": 0.001,
	"loss": 2.7166,
	"num_input_tokens_seen": 19293798400,
	"step": 18400
	},
	{
	"epoch": 0.40527349783153965,
	"grad_norm": 0.1372646540403366,
	"learning_rate": 0.001,
	"loss": 2.7212,
	"num_input_tokens_seen": 19346227200,
	"step": 18450
	},
	{
	"epoch": 0.4063717999936848,
	"grad_norm": 0.1485033482313156,
	"learning_rate": 0.001,
	"loss": 2.7186,
	"num_input_tokens_seen": 19398656000,
	"step": 18500
	},
	{
	"epoch": 0.4063717999936848,
	"eval_loss": 2.622330904006958,
	"eval_runtime": 66.3601,
	"eval_samples_per_second": 75.346,
	"eval_steps_per_second": 18.837,
	"num_input_tokens_seen": 19398656000,
	"step": 18500
	},
	{
	"epoch": 0.40747010215582985,
	"grad_norm": 0.1484711617231369,
	"learning_rate": 0.001,
	"loss": 2.7235,
	"num_input_tokens_seen": 19451084800,
	"step": 18550
	},
	{
	"epoch": 0.408568404317975,
	"grad_norm": 0.141770601272583,
	"learning_rate": 0.001,
	"loss": 2.7225,
	"num_input_tokens_seen": 19503513600,
	"step": 18600
	},
	{
	"epoch": 0.40966670648012005,
	"grad_norm": 0.1213323250412941,
	"learning_rate": 0.001,
	"loss": 2.7212,
	"num_input_tokens_seen": 19555942400,
	"step": 18650
	},
	{
	"epoch": 0.4107650086422651,
	"grad_norm": 0.14149373769760132,
	"learning_rate": 0.001,
	"loss": 2.7181,
	"num_input_tokens_seen": 19608371200,
	"step": 18700
	},
	{
	"epoch": 0.41186331080441024,
	"grad_norm": 0.13964049518108368,
	"learning_rate": 0.001,
	"loss": 2.7147,
	"num_input_tokens_seen": 19660800000,
	"step": 18750
	},
	{
	"epoch": 0.4129616129665553,
	"grad_norm": 0.1384592205286026,
	"learning_rate": 0.001,
	"loss": 2.7141,
	"num_input_tokens_seen": 19713228800,
	"step": 18800
	},
	{
	"epoch": 0.41405991512870044,
	"grad_norm": 0.15027381479740143,
	"learning_rate": 0.001,
	"loss": 2.7185,
	"num_input_tokens_seen": 19765657600,
	"step": 18850
	},
	{
	"epoch": 0.4151582172908455,
	"grad_norm": 0.15221597254276276,
	"learning_rate": 0.001,
	"loss": 2.7206,
	"num_input_tokens_seen": 19818086400,
	"step": 18900
	},
	{
	"epoch": 0.4162565194529906,
	"grad_norm": 0.1272735893726349,
	"learning_rate": 0.001,
	"loss": 2.7183,
	"num_input_tokens_seen": 19870515200,
	"step": 18950
	},
	{
	"epoch": 0.4173548216151357,
	"grad_norm": 0.1258268654346466,
	"learning_rate": 0.001,
	"loss": 2.7117,
	"num_input_tokens_seen": 19922944000,
	"step": 19000
	},
	{
	"epoch": 0.4173548216151357,
	"eval_loss": 2.619187116622925,
	"eval_runtime": 65.7537,
	"eval_samples_per_second": 76.041,
	"eval_steps_per_second": 19.01,
	"num_input_tokens_seen": 19922944000,
	"step": 19000
	},
	{
	"epoch": 0.4184531237772808,
	"grad_norm": 0.12389284372329712,
	"learning_rate": 0.001,
	"loss": 2.7222,
	"num_input_tokens_seen": 19975372800,
	"step": 19050
	},
	{
	"epoch": 0.4195514259394259,
	"grad_norm": 0.14157339930534363,
	"learning_rate": 0.001,
	"loss": 2.7178,
	"num_input_tokens_seen": 20027801600,
	"step": 19100
	},
	{
	"epoch": 0.420649728101571,
	"grad_norm": 0.1490466445684433,
	"learning_rate": 0.001,
	"loss": 2.7185,
	"num_input_tokens_seen": 20080230400,
	"step": 19150
	},
	{
	"epoch": 0.4217480302637161,
	"grad_norm": 0.14112494885921478,
	"learning_rate": 0.001,
	"loss": 2.7166,
	"num_input_tokens_seen": 20132659200,
	"step": 19200
	},
	{
	"epoch": 0.42284633242586117,
	"grad_norm": 0.13986504077911377,
	"learning_rate": 0.001,
	"loss": 2.7201,
	"num_input_tokens_seen": 20185088000,
	"step": 19250
	},
	{
	"epoch": 0.42394463458800624,
	"grad_norm": 0.14087803661823273,
	"learning_rate": 0.001,
	"loss": 2.7175,
	"num_input_tokens_seen": 20237516800,
	"step": 19300
	},
	{
	"epoch": 0.42504293675015137,
	"grad_norm": 0.165438711643219,
	"learning_rate": 0.001,
	"loss": 2.7155,
	"num_input_tokens_seen": 20289945600,
	"step": 19350
	},
	{
	"epoch": 0.42614123891229644,
	"grad_norm": 0.132109135389328,
	"learning_rate": 0.001,
	"loss": 2.7116,
	"num_input_tokens_seen": 20342374400,
	"step": 19400
	},
	{
	"epoch": 0.42723954107444156,
	"grad_norm": 0.1372772753238678,
	"learning_rate": 0.001,
	"loss": 2.7137,
	"num_input_tokens_seen": 20394803200,
	"step": 19450
	},
	{
	"epoch": 0.42833784323658664,
	"grad_norm": 0.1470147669315338,
	"learning_rate": 0.001,
	"loss": 2.7081,
	"num_input_tokens_seen": 20447232000,
	"step": 19500
	},
	{
	"epoch": 0.42833784323658664,
	"eval_loss": 2.615947961807251,
	"eval_runtime": 65.588,
	"eval_samples_per_second": 76.233,
	"eval_steps_per_second": 19.058,
	"num_input_tokens_seen": 20447232000,
	"step": 19500
	},
	{
	"epoch": 0.42943614539873176,
	"grad_norm": 0.15671676397323608,
	"learning_rate": 0.001,
	"loss": 2.7176,
	"num_input_tokens_seen": 20499660800,
	"step": 19550
	},
	{
	"epoch": 0.43053444756087683,
	"grad_norm": 0.13104794919490814,
	"learning_rate": 0.001,
	"loss": 2.7108,
	"num_input_tokens_seen": 20552089600,
	"step": 19600
	},
	{
	"epoch": 0.4316327497230219,
	"grad_norm": 0.14532406628131866,
	"learning_rate": 0.001,
	"loss": 2.7087,
	"num_input_tokens_seen": 20604518400,
	"step": 19650
	},
	{
	"epoch": 0.43273105188516703,
	"grad_norm": 0.16199354827404022,
	"learning_rate": 0.001,
	"loss": 2.7178,
	"num_input_tokens_seen": 20656947200,
	"step": 19700
	},
	{
	"epoch": 0.4338293540473121,
	"grad_norm": 0.13537316024303436,
	"learning_rate": 0.001,
	"loss": 2.7124,
	"num_input_tokens_seen": 20709376000,
	"step": 19750
	},
	{
	"epoch": 0.4349276562094572,
	"grad_norm": 0.15098537504673004,
	"learning_rate": 0.001,
	"loss": 2.7119,
	"num_input_tokens_seen": 20761804800,
	"step": 19800
	},
	{
	"epoch": 0.4360259583716023,
	"grad_norm": 0.21563659608364105,
	"learning_rate": 0.001,
	"loss": 2.7118,
	"num_input_tokens_seen": 20814233600,
	"step": 19850
	},
	{
	"epoch": 0.43712426053374737,
	"grad_norm": 0.15981121361255646,
	"learning_rate": 0.001,
	"loss": 2.7043,
	"num_input_tokens_seen": 20866662400,
	"step": 19900
	},
	{
	"epoch": 0.4382225626958925,
	"grad_norm": 0.15192069113254547,
	"learning_rate": 0.001,
	"loss": 2.7137,
	"num_input_tokens_seen": 20919091200,
	"step": 19950
	},
	{
	"epoch": 0.43932086485803756,
	"grad_norm": 0.14211437106132507,
	"learning_rate": 0.001,
	"loss": 2.7128,
	"num_input_tokens_seen": 20971520000,
	"step": 20000
	},
	{
	"epoch": 0.43932086485803756,
	"eval_loss": 2.611689567565918,
	"eval_runtime": 66.3456,
	"eval_samples_per_second": 75.363,
	"eval_steps_per_second": 18.841,
	"num_input_tokens_seen": 20971520000,
	"step": 20000
	},
	{
	"epoch": 0.4404191670201827,
	"grad_norm": 0.14489957690238953,
	"learning_rate": 0.001,
	"loss": 2.7139,
	"num_input_tokens_seen": 21023948800,
	"step": 20050
	},
	{
	"epoch": 0.44151746918232776,
	"grad_norm": 0.13994646072387695,
	"learning_rate": 0.001,
	"loss": 2.7091,
	"num_input_tokens_seen": 21076377600,
	"step": 20100
	},
	{
	"epoch": 0.4426157713444729,
	"grad_norm": 0.17211903631687164,
	"learning_rate": 0.001,
	"loss": 2.7176,
	"num_input_tokens_seen": 21128806400,
	"step": 20150
	},
	{
	"epoch": 0.44371407350661796,
	"grad_norm": 0.16364862024784088,
	"learning_rate": 0.001,
	"loss": 2.7181,
	"num_input_tokens_seen": 21181235200,
	"step": 20200
	},
	{
	"epoch": 0.444812375668763,
	"grad_norm": 0.14166216552257538,
	"learning_rate": 0.001,
	"loss": 2.7127,
	"num_input_tokens_seen": 21233664000,
	"step": 20250
	},
	{
	"epoch": 0.44591067783090815,
	"grad_norm": 0.12995755672454834,
	"learning_rate": 0.001,
	"loss": 2.7085,
	"num_input_tokens_seen": 21286092800,
	"step": 20300
	},
	{
	"epoch": 0.4470089799930532,
	"grad_norm": 0.15717202425003052,
	"learning_rate": 0.001,
	"loss": 2.7071,
	"num_input_tokens_seen": 21338521600,
	"step": 20350
	},
	{
	"epoch": 0.44810728215519835,
	"grad_norm": 0.13354860246181488,
	"learning_rate": 0.001,
	"loss": 2.7094,
	"num_input_tokens_seen": 21390950400,
	"step": 20400
	},
	{
	"epoch": 0.4492055843173434,
	"grad_norm": 0.16004188358783722,
	"learning_rate": 0.001,
	"loss": 2.7109,
	"num_input_tokens_seen": 21443379200,
	"step": 20450
	},
	{
	"epoch": 0.45030388647948855,
	"grad_norm": 0.148077592253685,
	"learning_rate": 0.001,
	"loss": 2.7058,
	"num_input_tokens_seen": 21495808000,
	"step": 20500
	},
	{
	"epoch": 0.45030388647948855,
	"eval_loss": 2.6089115142822266,
	"eval_runtime": 65.5589,
	"eval_samples_per_second": 76.267,
	"eval_steps_per_second": 19.067,
	"num_input_tokens_seen": 21495808000,
	"step": 20500
	},
	{
	"epoch": 0.4514021886416336,
	"grad_norm": 0.16992634534835815,
	"learning_rate": 0.001,
	"loss": 2.7026,
	"num_input_tokens_seen": 21548236800,
	"step": 20550
	},
	{
	"epoch": 0.4525004908037787,
	"grad_norm": 0.14876551926136017,
	"learning_rate": 0.001,
	"loss": 2.7105,
	"num_input_tokens_seen": 21600665600,
	"step": 20600
	},
	{
	"epoch": 0.4535987929659238,
	"grad_norm": 0.16025613248348236,
	"learning_rate": 0.001,
	"loss": 2.707,
	"num_input_tokens_seen": 21653094400,
	"step": 20650
	},
	{
	"epoch": 0.4546970951280689,
	"grad_norm": 0.14609012007713318,
	"learning_rate": 0.001,
	"loss": 2.7086,
	"num_input_tokens_seen": 21705523200,
	"step": 20700
	},
	{
	"epoch": 0.455795397290214,
	"grad_norm": 0.14725832641124725,
	"learning_rate": 0.001,
	"loss": 2.7075,
	"num_input_tokens_seen": 21757952000,
	"step": 20750
	},
	{
	"epoch": 0.4568936994523591,
	"grad_norm": 0.1736454963684082,
	"learning_rate": 0.001,
	"loss": 2.7033,
	"num_input_tokens_seen": 21810380800,
	"step": 20800
	},
	{
	"epoch": 0.45799200161450415,
	"grad_norm": 0.14904257655143738,
	"learning_rate": 0.001,
	"loss": 2.7012,
	"num_input_tokens_seen": 21862809600,
	"step": 20850
	},
	{
	"epoch": 0.4590903037766493,
	"grad_norm": 0.14407765865325928,
	"learning_rate": 0.001,
	"loss": 2.7055,
	"num_input_tokens_seen": 21915238400,
	"step": 20900
	},
	{
	"epoch": 0.46018860593879435,
	"grad_norm": 0.13943473994731903,
	"learning_rate": 0.001,
	"loss": 2.6999,
	"num_input_tokens_seen": 21967667200,
	"step": 20950
	},
	{
	"epoch": 0.4612869081009395,
	"grad_norm": 0.1592896729707718,
	"learning_rate": 0.001,
	"loss": 2.7072,
	"num_input_tokens_seen": 22020096000,
	"step": 21000
	},
	{
	"epoch": 0.4612869081009395,
	"eval_loss": 2.605719566345215,
	"eval_runtime": 65.6879,
	"eval_samples_per_second": 76.117,
	"eval_steps_per_second": 19.029,
	"num_input_tokens_seen": 22020096000,
	"step": 21000
	},
	{
	"epoch": 0.46238521026308455,
	"grad_norm": 0.1428702473640442,
	"learning_rate": 0.001,
	"loss": 2.7042,
	"num_input_tokens_seen": 22072524800,
	"step": 21050
	},
	{
	"epoch": 0.46348351242522967,
	"grad_norm": 0.13529072701931,
	"learning_rate": 0.001,
	"loss": 2.7093,
	"num_input_tokens_seen": 22124953600,
	"step": 21100
	},
	{
	"epoch": 0.46458181458737474,
	"grad_norm": 0.17529748380184174,
	"learning_rate": 0.001,
	"loss": 2.713,
	"num_input_tokens_seen": 22177382400,
	"step": 21150
	},
	{
	"epoch": 0.4656801167495198,
	"grad_norm": 0.1479254513978958,
	"learning_rate": 0.001,
	"loss": 2.6984,
	"num_input_tokens_seen": 22229811200,
	"step": 21200
	},
	{
	"epoch": 0.46677841891166494,
	"grad_norm": 0.15110637247562408,
	"learning_rate": 0.001,
	"loss": 2.7128,
	"num_input_tokens_seen": 22282240000,
	"step": 21250
	},
	{
	"epoch": 0.46787672107381,
	"grad_norm": 0.13746944069862366,
	"learning_rate": 0.001,
	"loss": 2.7036,
	"num_input_tokens_seen": 22334668800,
	"step": 21300
	},
	{
	"epoch": 0.46897502323595514,
	"grad_norm": 0.17940136790275574,
	"learning_rate": 0.001,
	"loss": 2.7048,
	"num_input_tokens_seen": 22387097600,
	"step": 21350
	},
	{
	"epoch": 0.4700733253981002,
	"grad_norm": 0.14203256368637085,
	"learning_rate": 0.001,
	"loss": 2.6997,
	"num_input_tokens_seen": 22439526400,
	"step": 21400
	},
	{
	"epoch": 0.47117162756024533,
	"grad_norm": 0.14260704815387726,
	"learning_rate": 0.001,
	"loss": 2.7092,
	"num_input_tokens_seen": 22491955200,
	"step": 21450
	},
	{
	"epoch": 0.4722699297223904,
	"grad_norm": 0.16455897688865662,
	"learning_rate": 0.001,
	"loss": 2.6969,
	"num_input_tokens_seen": 22544384000,
	"step": 21500
	},
	{
	"epoch": 0.4722699297223904,
	"eval_loss": 2.60367751121521,
	"eval_runtime": 65.4304,
	"eval_samples_per_second": 76.417,
	"eval_steps_per_second": 19.104,
	"num_input_tokens_seen": 22544384000,
	"step": 21500
	},
	{
	"epoch": 0.4733682318845355,
	"grad_norm": 0.1529170274734497,
	"learning_rate": 0.001,
	"loss": 2.7003,
	"num_input_tokens_seen": 22596812800,
	"step": 21550
	},
	{
	"epoch": 0.4744665340466806,
	"grad_norm": 0.1921636164188385,
	"learning_rate": 0.001,
	"loss": 2.7014,
	"num_input_tokens_seen": 22649241600,
	"step": 21600
	},
	{
	"epoch": 0.47556483620882567,
	"grad_norm": 0.16029173135757446,
	"learning_rate": 0.001,
	"loss": 2.7028,
	"num_input_tokens_seen": 22701670400,
	"step": 21650
	},
	{
	"epoch": 0.4766631383709708,
	"grad_norm": 0.14740578830242157,
	"learning_rate": 0.001,
	"loss": 2.7019,
	"num_input_tokens_seen": 22754099200,
	"step": 21700
	},
	{
	"epoch": 0.47776144053311587,
	"grad_norm": 0.1734548658132553,
	"learning_rate": 0.001,
	"loss": 2.6985,
	"num_input_tokens_seen": 22806528000,
	"step": 21750
	},
	{
	"epoch": 0.47885974269526094,
	"grad_norm": 0.15502890944480896,
	"learning_rate": 0.001,
	"loss": 2.6973,
	"num_input_tokens_seen": 22858956800,
	"step": 21800
	},
	{
	"epoch": 0.47995804485740606,
	"grad_norm": 0.16783900558948517,
	"learning_rate": 0.001,
	"loss": 2.7003,
	"num_input_tokens_seen": 22911385600,
	"step": 21850
	},
	{
	"epoch": 0.48105634701955113,
	"grad_norm": 0.14911381900310516,
	"learning_rate": 0.001,
	"loss": 2.6992,
	"num_input_tokens_seen": 22963814400,
	"step": 21900
	},
	{
	"epoch": 0.48215464918169626,
	"grad_norm": 0.15027394890785217,
	"learning_rate": 0.001,
	"loss": 2.6957,
	"num_input_tokens_seen": 23016243200,
	"step": 21950
	},
	{
	"epoch": 0.48325295134384133,
	"grad_norm": 0.1261301189661026,
	"learning_rate": 0.001,
	"loss": 2.7064,
	"num_input_tokens_seen": 23068672000,
	"step": 22000
	},
	{
	"epoch": 0.48325295134384133,
	"eval_loss": 2.6012015342712402,
	"eval_runtime": 64.9701,
	"eval_samples_per_second": 76.958,
	"eval_steps_per_second": 19.24,
	"num_input_tokens_seen": 23068672000,
	"step": 22000
	},
	{
	"epoch": 0.48435125350598646,
	"grad_norm": 0.15728288888931274,
	"learning_rate": 0.001,
	"loss": 2.703,
	"num_input_tokens_seen": 23121100800,
	"step": 22050
	},
	{
	"epoch": 0.4854495556681315,
	"grad_norm": 0.13599443435668945,
	"learning_rate": 0.001,
	"loss": 2.6984,
	"num_input_tokens_seen": 23173529600,
	"step": 22100
	},
	{
	"epoch": 0.4865478578302766,
	"grad_norm": 0.25702551007270813,
	"learning_rate": 0.001,
	"loss": 2.9388,
	"num_input_tokens_seen": 23225958400,
	"step": 22150
	},
	{
	"epoch": 0.4876461599924217,
	"grad_norm": 0.12942279875278473,
	"learning_rate": 0.001,
	"loss": 2.7568,
	"num_input_tokens_seen": 23278383360,
	"step": 22200
	},
	{
	"epoch": 0.4887444621545668,
	"grad_norm": 0.12908817827701569,
	"learning_rate": 0.001,
	"loss": 2.7195,
	"num_input_tokens_seen": 23330812160,
	"step": 22250
	},
	{
	"epoch": 0.4898427643167119,
	"grad_norm": 0.1351587176322937,
	"learning_rate": 0.001,
	"loss": 2.7155,
	"num_input_tokens_seen": 23383240960,
	"step": 22300
	},
	{
	"epoch": 0.490941066478857,
	"grad_norm": 0.1245250552892685,
	"learning_rate": 0.001,
	"loss": 2.7074,
	"num_input_tokens_seen": 23435669760,
	"step": 22350
	},
	{
	"epoch": 0.4920393686410021,
	"grad_norm": 0.13818837702274323,
	"learning_rate": 0.001,
	"loss": 2.7064,
	"num_input_tokens_seen": 23488098560,
	"step": 22400
	},
	{
	"epoch": 0.4931376708031472,
	"grad_norm": 0.15505041182041168,
	"learning_rate": 0.001,
	"loss": 2.7044,
	"num_input_tokens_seen": 23540527360,
	"step": 22450
	},
	{
	"epoch": 0.49423597296529226,
	"grad_norm": 0.14414137601852417,
	"learning_rate": 0.001,
	"loss": 2.7046,
	"num_input_tokens_seen": 23592956160,
	"step": 22500
	},
	{
	"epoch": 0.49423597296529226,
	"eval_loss": 2.60188627243042,
	"eval_runtime": 67.3268,
	"eval_samples_per_second": 74.265,
	"eval_steps_per_second": 18.566,
	"num_input_tokens_seen": 23592956160,
	"step": 22500
	},
	{
	"epoch": 0.4953342751274374,
	"grad_norm": 0.14763414859771729,
	"learning_rate": 0.001,
	"loss": 2.695,
	"num_input_tokens_seen": 23645384960,
	"step": 22550
	},
	{
	"epoch": 0.49643257728958246,
	"grad_norm": 0.14800110459327698,
	"learning_rate": 0.001,
	"loss": 2.6939,
	"num_input_tokens_seen": 23697813760,
	"step": 22600
	},
	{
	"epoch": 0.4975308794517276,
	"grad_norm": 0.13590902090072632,
	"learning_rate": 0.001,
	"loss": 2.6967,
	"num_input_tokens_seen": 23750242560,
	"step": 22650
	},
	{
	"epoch": 0.49862918161387265,
	"grad_norm": 0.1315733939409256,
	"learning_rate": 0.001,
	"loss": 2.6909,
	"num_input_tokens_seen": 23802671360,
	"step": 22700
	},
	{
	"epoch": 0.4997274837760177,
	"grad_norm": 0.13714700937271118,
	"learning_rate": 0.001,
	"loss": 2.6957,
	"num_input_tokens_seen": 23855100160,
	"step": 22750
	},
	{
	"epoch": 0.5008257859381628,
	"grad_norm": 0.1412438154220581,
	"learning_rate": 0.001,
	"loss": 2.6977,
	"num_input_tokens_seen": 23907528960,
	"step": 22800
	},
	{
	"epoch": 0.501924088100308,
	"grad_norm": 0.15368172526359558,
	"learning_rate": 0.001,
	"loss": 2.6977,
	"num_input_tokens_seen": 23959957760,
	"step": 22850
	},
	{
	"epoch": 0.503022390262453,
	"grad_norm": 0.14018824696540833,
	"learning_rate": 0.001,
	"loss": 2.6992,
	"num_input_tokens_seen": 24012386560,
	"step": 22900
	},
	{
	"epoch": 0.5041206924245981,
	"grad_norm": 0.1284814178943634,
	"learning_rate": 0.001,
	"loss": 2.6962,
	"num_input_tokens_seen": 24064815360,
	"step": 22950
	},
	{
	"epoch": 0.5052189945867432,
	"grad_norm": 0.15145835280418396,
	"learning_rate": 0.001,
	"loss": 2.692,
	"num_input_tokens_seen": 24117244160,
	"step": 23000
	},
	{
	"epoch": 0.5052189945867432,
	"eval_loss": 2.5970778465270996,
	"eval_runtime": 66.1666,
	"eval_samples_per_second": 75.567,
	"eval_steps_per_second": 18.892,
	"num_input_tokens_seen": 24117244160,
	"step": 23000
	},
	{
	"epoch": 0.5063172967488883,
	"grad_norm": 0.15117652714252472,
	"learning_rate": 0.001,
	"loss": 2.696,
	"num_input_tokens_seen": 24169672960,
	"step": 23050
	},
	{
	"epoch": 0.5074155989110334,
	"grad_norm": 0.15605470538139343,
	"learning_rate": 0.001,
	"loss": 2.6918,
	"num_input_tokens_seen": 24222101760,
	"step": 23100
	},
	{
	"epoch": 0.5085139010731785,
	"grad_norm": 0.17503651976585388,
	"learning_rate": 0.001,
	"loss": 2.688,
	"num_input_tokens_seen": 24274530560,
	"step": 23150
	},
	{
	"epoch": 0.5096122032353236,
	"grad_norm": 0.1622135490179062,
	"learning_rate": 0.001,
	"loss": 2.6949,
	"num_input_tokens_seen": 24326959360,
	"step": 23200
	},
	{
	"epoch": 0.5107105053974687,
	"grad_norm": 0.1331271231174469,
	"learning_rate": 0.001,
	"loss": 2.6876,
	"num_input_tokens_seen": 24379388160,
	"step": 23250
	},
	{
	"epoch": 0.5118088075596138,
	"grad_norm": 0.14365510642528534,
	"learning_rate": 0.001,
	"loss": 2.7027,
	"num_input_tokens_seen": 24431816960,
	"step": 23300
	},
	{
	"epoch": 0.5129071097217589,
	"grad_norm": 0.13621902465820312,
	"learning_rate": 0.001,
	"loss": 2.6946,
	"num_input_tokens_seen": 24484245760,
	"step": 23350
	},
	{
	"epoch": 0.5140054118839039,
	"grad_norm": 0.12506547570228577,
	"learning_rate": 0.001,
	"loss": 2.6864,
	"num_input_tokens_seen": 24536674560,
	"step": 23400
	},
	{
	"epoch": 0.515103714046049,
	"grad_norm": 0.12824128568172455,
	"learning_rate": 0.001,
	"loss": 2.6871,
	"num_input_tokens_seen": 24589103360,
	"step": 23450
	},
	{
	"epoch": 0.5162020162081942,
	"grad_norm": 0.14310036599636078,
	"learning_rate": 0.001,
	"loss": 2.6936,
	"num_input_tokens_seen": 24641532160,
	"step": 23500
	},
	{
	"epoch": 0.5162020162081942,
	"eval_loss": 2.592362880706787,
	"eval_runtime": 66.663,
	"eval_samples_per_second": 75.004,
	"eval_steps_per_second": 18.751,
	"num_input_tokens_seen": 24641532160,
	"step": 23500
	},
	{
	"epoch": 0.5173003183703393,
	"grad_norm": 0.1362077295780182,
	"learning_rate": 0.001,
	"loss": 2.6924,
	"num_input_tokens_seen": 24693960960,
	"step": 23550
	},
	{
	"epoch": 0.5183986205324843,
	"grad_norm": 0.13662473857402802,
	"learning_rate": 0.001,
	"loss": 2.6972,
	"num_input_tokens_seen": 24746389760,
	"step": 23600
	},
	{
	"epoch": 0.5194969226946294,
	"grad_norm": 0.12603560090065002,
	"learning_rate": 0.001,
	"loss": 2.6908,
	"num_input_tokens_seen": 24798818560,
	"step": 23650
	},
	{
	"epoch": 0.5205952248567746,
	"grad_norm": 0.16597150266170502,
	"learning_rate": 0.001,
	"loss": 2.6882,
	"num_input_tokens_seen": 24851247360,
	"step": 23700
	},
	{
	"epoch": 0.5216935270189196,
	"grad_norm": 0.13665246963500977,
	"learning_rate": 0.001,
	"loss": 2.6958,
	"num_input_tokens_seen": 24903676160,
	"step": 23750
	},
	{
	"epoch": 0.5227918291810647,
	"grad_norm": 0.14349523186683655,
	"learning_rate": 0.001,
	"loss": 2.6874,
	"num_input_tokens_seen": 24956104960,
	"step": 23800
	},
	{
	"epoch": 0.5238901313432098,
	"grad_norm": 0.15857954323291779,
	"learning_rate": 0.001,
	"loss": 2.6882,
	"num_input_tokens_seen": 25008533760,
	"step": 23850
	},
	{
	"epoch": 0.524988433505355,
	"grad_norm": 0.15056300163269043,
	"learning_rate": 0.001,
	"loss": 2.694,
	"num_input_tokens_seen": 25060962560,
	"step": 23900
	},
	{
	"epoch": 0.5260867356675,
	"grad_norm": 0.12861080467700958,
	"learning_rate": 0.001,
	"loss": 2.6899,
	"num_input_tokens_seen": 25113391360,
	"step": 23950
	},
	{
	"epoch": 0.5271850378296451,
	"grad_norm": 0.14443258941173553,
	"learning_rate": 0.001,
	"loss": 2.6929,
	"num_input_tokens_seen": 25165820160,
	"step": 24000
	},
	{
	"epoch": 0.5271850378296451,
	"eval_loss": 2.5910630226135254,
	"eval_runtime": 66.9014,
	"eval_samples_per_second": 74.737,
	"eval_steps_per_second": 18.684,
	"num_input_tokens_seen": 25165820160,
	"step": 24000
	},
	{
	"epoch": 0.5282833399917902,
	"grad_norm": 0.14083649218082428,
	"learning_rate": 0.001,
	"loss": 2.6851,
	"num_input_tokens_seen": 25218248960,
	"step": 24050
	},
	{
	"epoch": 0.5293816421539352,
	"grad_norm": 0.13934968411922455,
	"learning_rate": 0.001,
	"loss": 2.6863,
	"num_input_tokens_seen": 25270677760,
	"step": 24100
	},
	{
	"epoch": 0.5304799443160804,
	"grad_norm": 0.15416787564754486,
	"learning_rate": 0.001,
	"loss": 2.6894,
	"num_input_tokens_seen": 25323106560,
	"step": 24150
	},
	{
	"epoch": 0.5315782464782255,
	"grad_norm": 0.17290246486663818,
	"learning_rate": 0.001,
	"loss": 2.6907,
	"num_input_tokens_seen": 25375535360,
	"step": 24200
	},
	{
	"epoch": 0.5326765486403706,
	"grad_norm": 0.14260552823543549,
	"learning_rate": 0.001,
	"loss": 2.6832,
	"num_input_tokens_seen": 25427964160,
	"step": 24250
	},
	{
	"epoch": 0.5337748508025156,
	"grad_norm": 0.14795690774917603,
	"learning_rate": 0.001,
	"loss": 2.6895,
	"num_input_tokens_seen": 25480392960,
	"step": 24300
	},
	{
	"epoch": 0.5348731529646608,
	"grad_norm": 0.15009699761867523,
	"learning_rate": 0.001,
	"loss": 2.6819,
	"num_input_tokens_seen": 25532821760,
	"step": 24350
	},
	{
	"epoch": 0.5359714551268059,
	"grad_norm": 0.15425953269004822,
	"learning_rate": 0.001,
	"loss": 2.6874,
	"num_input_tokens_seen": 25585250560,
	"step": 24400
	},
	{
	"epoch": 0.5370697572889509,
	"grad_norm": 0.14639410376548767,
	"learning_rate": 0.001,
	"loss": 2.6878,
	"num_input_tokens_seen": 25637679360,
	"step": 24450
	},
	{
	"epoch": 0.538168059451096,
	"grad_norm": 0.14785613119602203,
	"learning_rate": 0.001,
	"loss": 2.6841,
	"num_input_tokens_seen": 25690108160,
	"step": 24500
	},
	{
	"epoch": 0.538168059451096,
	"eval_loss": 2.5875706672668457,
	"eval_runtime": 66.9296,
	"eval_samples_per_second": 74.705,
	"eval_steps_per_second": 18.676,
	"num_input_tokens_seen": 25690108160,
	"step": 24500
	},
	{
	"epoch": 0.5392663616132412,
	"grad_norm": 0.14224180579185486,
	"learning_rate": 0.001,
	"loss": 2.6876,
	"num_input_tokens_seen": 25742536960,
	"step": 24550
	},
	{
	"epoch": 0.5403646637753863,
	"grad_norm": 0.14881493151187897,
	"learning_rate": 0.001,
	"loss": 2.6827,
	"num_input_tokens_seen": 25794965760,
	"step": 24600
	},
	{
	"epoch": 0.5414629659375313,
	"grad_norm": 0.17951786518096924,
	"learning_rate": 0.001,
	"loss": 2.688,
	"num_input_tokens_seen": 25847394560,
	"step": 24650
	},
	{
	"epoch": 0.5425612680996764,
	"grad_norm": 0.1400926560163498,
	"learning_rate": 0.001,
	"loss": 2.6945,
	"num_input_tokens_seen": 25899823360,
	"step": 24700
	},
	{
	"epoch": 0.5436595702618215,
	"grad_norm": 0.1421627402305603,
	"learning_rate": 0.001,
	"loss": 2.6852,
	"num_input_tokens_seen": 25952252160,
	"step": 24750
	},
	{
	"epoch": 0.5447578724239666,
	"grad_norm": 0.1617737114429474,
	"learning_rate": 0.001,
	"loss": 2.686,
	"num_input_tokens_seen": 26004680960,
	"step": 24800
	},
	{
	"epoch": 0.5458561745861117,
	"grad_norm": 0.1523471176624298,
	"learning_rate": 0.001,
	"loss": 2.6945,
	"num_input_tokens_seen": 26057109760,
	"step": 24850
	},
	{
	"epoch": 0.5469544767482568,
	"grad_norm": 0.13078247010707855,
	"learning_rate": 0.001,
	"loss": 2.6829,
	"num_input_tokens_seen": 26109538560,
	"step": 24900
	},
	{
	"epoch": 0.5480527789104018,
	"grad_norm": 0.14831651747226715,
	"learning_rate": 0.001,
	"loss": 2.6898,
	"num_input_tokens_seen": 26161967360,
	"step": 24950
	},
	{
	"epoch": 0.549151081072547,
	"grad_norm": 0.1782410740852356,
	"learning_rate": 0.001,
	"loss": 2.6871,
	"num_input_tokens_seen": 26214396160,
	"step": 25000
	},
	{
	"epoch": 0.549151081072547,
	"eval_loss": 2.5877788066864014,
	"eval_runtime": 67.2223,
	"eval_samples_per_second": 74.38,
	"eval_steps_per_second": 18.595,
	"num_input_tokens_seen": 26214396160,
	"step": 25000
	},
	{
	"epoch": 0.5502493832346921,
	"grad_norm": 0.16484692692756653,
	"learning_rate": 0.001,
	"loss": 2.6843,
	"num_input_tokens_seen": 26266824960,
	"step": 25050
	},
	{
	"epoch": 0.5513476853968372,
	"grad_norm": 0.1583317369222641,
	"learning_rate": 0.001,
	"loss": 2.6825,
	"num_input_tokens_seen": 26319253760,
	"step": 25100
	},
	{
	"epoch": 0.5524459875589822,
	"grad_norm": 0.1569424867630005,
	"learning_rate": 0.001,
	"loss": 2.6787,
	"num_input_tokens_seen": 26371682560,
	"step": 25150
	},
	{
	"epoch": 0.5535442897211273,
	"grad_norm": 0.13633306324481964,
	"learning_rate": 0.001,
	"loss": 2.6872,
	"num_input_tokens_seen": 26424111360,
	"step": 25200
	},
	{
	"epoch": 0.5546425918832725,
	"grad_norm": 0.1480533927679062,
	"learning_rate": 0.001,
	"loss": 2.6842,
	"num_input_tokens_seen": 26476540160,
	"step": 25250
	},
	{
	"epoch": 0.5557408940454175,
	"grad_norm": 0.1267666518688202,
	"learning_rate": 0.001,
	"loss": 2.6839,
	"num_input_tokens_seen": 26528968960,
	"step": 25300
	},
	{
	"epoch": 0.5568391962075626,
	"grad_norm": 0.13951599597930908,
	"learning_rate": 0.001,
	"loss": 2.6799,
	"num_input_tokens_seen": 26581397760,
	"step": 25350
	},
	{
	"epoch": 0.5579374983697077,
	"grad_norm": 0.15044580399990082,
	"learning_rate": 0.001,
	"loss": 2.6846,
	"num_input_tokens_seen": 26633826560,
	"step": 25400
	},
	{
	"epoch": 0.5590358005318529,
	"grad_norm": 0.12891829013824463,
	"learning_rate": 0.001,
	"loss": 2.682,
	"num_input_tokens_seen": 26686255360,
	"step": 25450
	},
	{
	"epoch": 0.5601341026939979,
	"grad_norm": 0.12812241911888123,
	"learning_rate": 0.001,
	"loss": 2.684,
	"num_input_tokens_seen": 26738684160,
	"step": 25500
	},
	{
	"epoch": 0.5601341026939979,
	"eval_loss": 2.5832085609436035,
	"eval_runtime": 66.9038,
	"eval_samples_per_second": 74.734,
	"eval_steps_per_second": 18.684,
	"num_input_tokens_seen": 26738684160,
	"step": 25500
	},
	{
	"epoch": 0.561232404856143,
	"grad_norm": 0.14243654906749725,
	"learning_rate": 0.001,
	"loss": 2.6883,
	"num_input_tokens_seen": 26791112960,
	"step": 25550
	},
	{
	"epoch": 0.5623307070182881,
	"grad_norm": 0.14436320960521698,
	"learning_rate": 0.001,
	"loss": 2.6835,
	"num_input_tokens_seen": 26843541760,
	"step": 25600
	},
	{
	"epoch": 0.5634290091804331,
	"grad_norm": 0.1516960710287094,
	"learning_rate": 0.001,
	"loss": 2.6752,
	"num_input_tokens_seen": 26895970560,
	"step": 25650
	},
	{
	"epoch": 0.5645273113425783,
	"grad_norm": 0.14002515375614166,
	"learning_rate": 0.001,
	"loss": 2.6817,
	"num_input_tokens_seen": 26948399360,
	"step": 25700
	},
	{
	"epoch": 0.5656256135047234,
	"grad_norm": 0.1379036009311676,
	"learning_rate": 0.001,
	"loss": 2.6904,
	"num_input_tokens_seen": 27000828160,
	"step": 25750
	},
	{
	"epoch": 0.5667239156668685,
	"grad_norm": 0.16127964854240417,
	"learning_rate": 0.001,
	"loss": 2.6813,
	"num_input_tokens_seen": 27053256960,
	"step": 25800
	},
	{
	"epoch": 0.5678222178290135,
	"grad_norm": 0.15714125335216522,
	"learning_rate": 0.001,
	"loss": 2.6851,
	"num_input_tokens_seen": 27105685760,
	"step": 25850
	},
	{
	"epoch": 0.5689205199911587,
	"grad_norm": 0.15288160741329193,
	"learning_rate": 0.001,
	"loss": 2.6832,
	"num_input_tokens_seen": 27158114560,
	"step": 25900
	},
	{
	"epoch": 0.5700188221533038,
	"grad_norm": 0.1398363709449768,
	"learning_rate": 0.001,
	"loss": 2.6814,
	"num_input_tokens_seen": 27210543360,
	"step": 25950
	},
	{
	"epoch": 0.5711171243154488,
	"grad_norm": 0.15253235399723053,
	"learning_rate": 0.001,
	"loss": 2.6755,
	"num_input_tokens_seen": 27262972160,
	"step": 26000
	},
	{
	"epoch": 0.5711171243154488,
	"eval_loss": 2.5809168815612793,
	"eval_runtime": 66.151,
	"eval_samples_per_second": 75.585,
	"eval_steps_per_second": 18.896,
	"num_input_tokens_seen": 27262972160,
	"step": 26000
	},
	{
	"epoch": 0.5722154264775939,
	"grad_norm": 0.1538383513689041,
	"learning_rate": 0.001,
	"loss": 2.6783,
	"num_input_tokens_seen": 27315400960,
	"step": 26050
	},
	{
	"epoch": 0.5733137286397391,
	"grad_norm": 0.15545998513698578,
	"learning_rate": 0.001,
	"loss": 2.6798,
	"num_input_tokens_seen": 27367829760,
	"step": 26100
	},
	{
	"epoch": 0.5744120308018842,
	"grad_norm": 0.15456970036029816,
	"learning_rate": 0.001,
	"loss": 2.6836,
	"num_input_tokens_seen": 27420258560,
	"step": 26150
	},
	{
	"epoch": 0.5755103329640292,
	"grad_norm": 0.1353277862071991,
	"learning_rate": 0.001,
	"loss": 2.6777,
	"num_input_tokens_seen": 27472687360,
	"step": 26200
	},
	{
	"epoch": 0.5766086351261743,
	"grad_norm": 0.15124258399009705,
	"learning_rate": 0.001,
	"loss": 2.681,
	"num_input_tokens_seen": 27525116160,
	"step": 26250
	},
	{
	"epoch": 0.5777069372883195,
	"grad_norm": 0.14200901985168457,
	"learning_rate": 0.001,
	"loss": 2.6827,
	"num_input_tokens_seen": 27577544960,
	"step": 26300
	},
	{
	"epoch": 0.5788052394504645,
	"grad_norm": 0.15356388688087463,
	"learning_rate": 0.001,
	"loss": 2.6802,
	"num_input_tokens_seen": 27629973760,
	"step": 26350
	},
	{
	"epoch": 0.5799035416126096,
	"grad_norm": 0.17395390570163727,
	"learning_rate": 0.001,
	"loss": 2.6921,
	"num_input_tokens_seen": 27682402560,
	"step": 26400
	},
	{
	"epoch": 0.5810018437747547,
	"grad_norm": 0.1507692188024521,
	"learning_rate": 0.001,
	"loss": 2.6811,
	"num_input_tokens_seen": 27734831360,
	"step": 26450
	},
	{
	"epoch": 0.5821001459368998,
	"grad_norm": 0.14512786269187927,
	"learning_rate": 0.001,
	"loss": 2.6798,
	"num_input_tokens_seen": 27787260160,
	"step": 26500
	},
	{
	"epoch": 0.5821001459368998,
	"eval_loss": 2.5802626609802246,
	"eval_runtime": 67.1032,
	"eval_samples_per_second": 74.512,
	"eval_steps_per_second": 18.628,
	"num_input_tokens_seen": 27787260160,
	"step": 26500
	},
	{
	"epoch": 0.5831984480990449,
	"grad_norm": 0.15365912020206451,
	"learning_rate": 0.001,
	"loss": 2.6813,
	"num_input_tokens_seen": 27839688960,
	"step": 26550
	},
	{
	"epoch": 0.58429675026119,
	"grad_norm": 0.14015646278858185,
	"learning_rate": 0.001,
	"loss": 2.6774,
	"num_input_tokens_seen": 27892117760,
	"step": 26600
	},
	{
	"epoch": 0.5853950524233351,
	"grad_norm": 0.1529797911643982,
	"learning_rate": 0.001,
	"loss": 2.6751,
	"num_input_tokens_seen": 27944546560,
	"step": 26650
	},
	{
	"epoch": 0.5864933545854801,
	"grad_norm": 0.16909636557102203,
	"learning_rate": 0.001,
	"loss": 2.6795,
	"num_input_tokens_seen": 27996975360,
	"step": 26700
	},
	{
	"epoch": 0.5875916567476253,
	"grad_norm": 0.14130276441574097,
	"learning_rate": 0.001,
	"loss": 2.6809,
	"num_input_tokens_seen": 28049404160,
	"step": 26750
	},
	{
	"epoch": 0.5886899589097704,
	"grad_norm": 0.15182790160179138,
	"learning_rate": 0.001,
	"loss": 2.685,
	"num_input_tokens_seen": 28101832960,
	"step": 26800
	},
	{
	"epoch": 0.5897882610719154,
	"grad_norm": 0.12757331132888794,
	"learning_rate": 0.001,
	"loss": 2.6766,
	"num_input_tokens_seen": 28154261760,
	"step": 26850
	},
	{
	"epoch": 0.5908865632340605,
	"grad_norm": 0.1527504026889801,
	"learning_rate": 0.001,
	"loss": 2.6767,
	"num_input_tokens_seen": 28206690560,
	"step": 26900
	},
	{
	"epoch": 0.5919848653962057,
	"grad_norm": 0.18337304890155792,
	"learning_rate": 0.001,
	"loss": 2.6752,
	"num_input_tokens_seen": 28259119360,
	"step": 26950
	},
	{
	"epoch": 0.5930831675583508,
	"grad_norm": 0.1472473442554474,
	"learning_rate": 0.001,
	"loss": 2.6717,
	"num_input_tokens_seen": 28311548160,
	"step": 27000
	},
	{
	"epoch": 0.5930831675583508,
	"eval_loss": 2.5781941413879395,
	"eval_runtime": 66.2194,
	"eval_samples_per_second": 75.507,
	"eval_steps_per_second": 18.877,
	"num_input_tokens_seen": 28311548160,
	"step": 27000
	},
	{
	"epoch": 0.5941814697204958,
	"grad_norm": 0.15350718796253204,
	"learning_rate": 0.001,
	"loss": 2.6787,
	"num_input_tokens_seen": 28363976960,
	"step": 27050
	},
	{
	"epoch": 0.5952797718826409,
	"grad_norm": 0.1393333077430725,
	"learning_rate": 0.001,
	"loss": 2.6759,
	"num_input_tokens_seen": 28416405760,
	"step": 27100
	},
	{
	"epoch": 0.596378074044786,
	"grad_norm": 0.1485709846019745,
	"learning_rate": 0.001,
	"loss": 2.6772,
	"num_input_tokens_seen": 28468834560,
	"step": 27150
	},
	{
	"epoch": 0.5974763762069311,
	"grad_norm": 0.13909003138542175,
	"learning_rate": 0.001,
	"loss": 2.6729,
	"num_input_tokens_seen": 28521263360,
	"step": 27200
	},
	{
	"epoch": 0.5985746783690762,
	"grad_norm": 0.15117496252059937,
	"learning_rate": 0.001,
	"loss": 2.6704,
	"num_input_tokens_seen": 28573692160,
	"step": 27250
	},
	{
	"epoch": 0.5996729805312213,
	"grad_norm": 0.14054876565933228,
	"learning_rate": 0.001,
	"loss": 2.6748,
	"num_input_tokens_seen": 28626120960,
	"step": 27300
	},
	{
	"epoch": 0.6007712826933664,
	"grad_norm": 0.15437620878219604,
	"learning_rate": 0.001,
	"loss": 2.6778,
	"num_input_tokens_seen": 28678549760,
	"step": 27350
	},
	{
	"epoch": 0.6018695848555115,
	"grad_norm": 0.15858007967472076,
	"learning_rate": 0.001,
	"loss": 2.6763,
	"num_input_tokens_seen": 28730978560,
	"step": 27400
	},
	{
	"epoch": 0.6029678870176566,
	"grad_norm": 0.14459487795829773,
	"learning_rate": 0.001,
	"loss": 2.6726,
	"num_input_tokens_seen": 28783407360,
	"step": 27450
	},
	{
	"epoch": 0.6040661891798017,
	"grad_norm": 0.17691345512866974,
	"learning_rate": 0.001,
	"loss": 2.678,
	"num_input_tokens_seen": 28835836160,
	"step": 27500
	},
	{
	"epoch": 0.6040661891798017,
	"eval_loss": 2.576051950454712,
	"eval_runtime": 66.9387,
	"eval_samples_per_second": 74.695,
	"eval_steps_per_second": 18.674,
	"num_input_tokens_seen": 28835836160,
	"step": 27500
	},
	{
	"epoch": 0.6051644913419467,
	"grad_norm": 0.16200922429561615,
	"learning_rate": 0.001,
	"loss": 2.6763,
	"num_input_tokens_seen": 28888264960,
	"step": 27550
	},
	{
	"epoch": 0.6062627935040918,
	"grad_norm": 0.14567038416862488,
	"learning_rate": 0.001,
	"loss": 2.6795,
	"num_input_tokens_seen": 28940693760,
	"step": 27600
	},
	{
	"epoch": 0.607361095666237,
	"grad_norm": 0.16075611114501953,
	"learning_rate": 0.001,
	"loss": 2.6746,
	"num_input_tokens_seen": 28993122560,
	"step": 27650
	},
	{
	"epoch": 0.6084593978283821,
	"grad_norm": 0.1386987417936325,
	"learning_rate": 0.001,
	"loss": 2.6771,
	"num_input_tokens_seen": 29045551360,
	"step": 27700
	},
	{
	"epoch": 0.6095576999905271,
	"grad_norm": 0.14672614634037018,
	"learning_rate": 0.001,
	"loss": 2.6792,
	"num_input_tokens_seen": 29097980160,
	"step": 27750
	},
	{
	"epoch": 0.6106560021526722,
	"grad_norm": 0.22614523768424988,
	"learning_rate": 0.001,
	"loss": 2.6728,
	"num_input_tokens_seen": 29150408960,
	"step": 27800
	},
	{
	"epoch": 0.6117543043148174,
	"grad_norm": 0.15554341673851013,
	"learning_rate": 0.001,
	"loss": 2.676,
	"num_input_tokens_seen": 29202837760,
	"step": 27850
	},
	{
	"epoch": 0.6128526064769624,
	"grad_norm": 0.17181837558746338,
	"learning_rate": 0.001,
	"loss": 2.6811,
	"num_input_tokens_seen": 29255266560,
	"step": 27900
	},
	{
	"epoch": 0.6139509086391075,
	"grad_norm": 0.15763437747955322,
	"learning_rate": 0.001,
	"loss": 2.6797,
	"num_input_tokens_seen": 29307695360,
	"step": 27950
	},
	{
	"epoch": 0.6150492108012526,
	"grad_norm": 0.14721135795116425,
	"learning_rate": 0.001,
	"loss": 2.6762,
	"num_input_tokens_seen": 29360124160,
	"step": 28000
	},
	{
	"epoch": 0.6150492108012526,
	"eval_loss": 2.5763511657714844,
	"eval_runtime": 66.3236,
	"eval_samples_per_second": 75.388,
	"eval_steps_per_second": 18.847,
	"num_input_tokens_seen": 29360124160,
	"step": 28000
	},
	{
	"epoch": 0.6161475129633978,
	"grad_norm": 0.13857993483543396,
	"learning_rate": 0.001,
	"loss": 2.677,
	"num_input_tokens_seen": 29412552960,
	"step": 28050
	},
	{
	"epoch": 0.6172458151255428,
	"grad_norm": 0.14276473224163055,
	"learning_rate": 0.001,
	"loss": 2.6669,
	"num_input_tokens_seen": 29464981760,
	"step": 28100
	},
	{
	"epoch": 0.6183441172876879,
	"grad_norm": 0.1536131203174591,
	"learning_rate": 0.001,
	"loss": 2.6757,
	"num_input_tokens_seen": 29517410560,
	"step": 28150
	},
	{
	"epoch": 0.619442419449833,
	"grad_norm": 0.15733414888381958,
	"learning_rate": 0.001,
	"loss": 2.6735,
	"num_input_tokens_seen": 29569839360,
	"step": 28200
	},
	{
	"epoch": 0.620540721611978,
	"grad_norm": 0.14553523063659668,
	"learning_rate": 0.001,
	"loss": 2.6683,
	"num_input_tokens_seen": 29622268160,
	"step": 28250
	},
	{
	"epoch": 0.6216390237741232,
	"grad_norm": 0.15685459971427917,
	"learning_rate": 0.001,
	"loss": 2.6692,
	"num_input_tokens_seen": 29674696960,
	"step": 28300
	},
	{
	"epoch": 0.6227373259362683,
	"grad_norm": 0.16553767025470734,
	"learning_rate": 0.001,
	"loss": 2.6778,
	"num_input_tokens_seen": 29727125760,
	"step": 28350
	},
	{
	"epoch": 0.6238356280984134,
	"grad_norm": 0.1619853973388672,
	"learning_rate": 0.001,
	"loss": 2.6807,
	"num_input_tokens_seen": 29779554560,
	"step": 28400
	},
	{
	"epoch": 0.6249339302605584,
	"grad_norm": 0.12794817984104156,
	"learning_rate": 0.001,
	"loss": 2.6776,
	"num_input_tokens_seen": 29831983360,
	"step": 28450
	},
	{
	"epoch": 0.6260322324227036,
	"grad_norm": 0.17001128196716309,
	"learning_rate": 0.001,
	"loss": 2.6797,
	"num_input_tokens_seen": 29884412160,
	"step": 28500
	},
	{
	"epoch": 0.6260322324227036,
	"eval_loss": 2.5728061199188232,
	"eval_runtime": 66.7752,
	"eval_samples_per_second": 74.878,
	"eval_steps_per_second": 18.72,
	"num_input_tokens_seen": 29884412160,
	"step": 28500
	},
	{
	"epoch": 0.6271305345848487,
	"grad_norm": 0.12936875224113464,
	"learning_rate": 0.001,
	"loss": 2.6677,
	"num_input_tokens_seen": 29936840960,
	"step": 28550
	},
	{
	"epoch": 0.6282288367469937,
	"grad_norm": 0.14839358627796173,
	"learning_rate": 0.001,
	"loss": 2.6681,
	"num_input_tokens_seen": 29989269760,
	"step": 28600
	},
	{
	"epoch": 0.6293271389091388,
	"grad_norm": 0.1526126265525818,
	"learning_rate": 0.001,
	"loss": 2.6711,
	"num_input_tokens_seen": 30041698560,
	"step": 28650
	},
	{
	"epoch": 0.630425441071284,
	"grad_norm": 11.806962013244629,
	"learning_rate": 0.001,
	"loss": 2.7543,
	"num_input_tokens_seen": 30094127360,
	"step": 28700
	},
	{
	"epoch": 0.631523743233429,
	"grad_norm": 0.13446328043937683,
	"learning_rate": 0.001,
	"loss": 2.9466,
	"num_input_tokens_seen": 30146556160,
	"step": 28750
	},
	{
	"epoch": 0.6326220453955741,
	"grad_norm": 0.1319582760334015,
	"learning_rate": 0.001,
	"loss": 2.7002,
	"num_input_tokens_seen": 30198984960,
	"step": 28800
	},
	{
	"epoch": 0.6337203475577192,
	"grad_norm": 0.13955356180667877,
	"learning_rate": 0.001,
	"loss": 2.6814,
	"num_input_tokens_seen": 30251413760,
	"step": 28850
	},
	{
	"epoch": 0.6348186497198643,
	"grad_norm": 0.1295064240694046,
	"learning_rate": 0.001,
	"loss": 2.676,
	"num_input_tokens_seen": 30303842560,
	"step": 28900
	},
	{
	"epoch": 0.6359169518820094,
	"grad_norm": 0.1440495401620865,
	"learning_rate": 0.001,
	"loss": 2.6778,
	"num_input_tokens_seen": 30356271360,
	"step": 28950
	},
	{
	"epoch": 0.6370152540441545,
	"grad_norm": 0.13806115090847015,
	"learning_rate": 0.001,
	"loss": 2.6712,
	"num_input_tokens_seen": 30408700160,
	"step": 29000
	},
	{
	"epoch": 0.6370152540441545,
	"eval_loss": 2.576237440109253,
	"eval_runtime": 66.9761,
	"eval_samples_per_second": 74.653,
	"eval_steps_per_second": 18.663,
	"num_input_tokens_seen": 30408700160,
	"step": 29000
	},
	{
	"epoch": 0.6381135562062996,
	"grad_norm": 0.13853897154331207,
	"learning_rate": 0.001,
	"loss": 2.6719,
	"num_input_tokens_seen": 30461128960,
	"step": 29050
	},
	{
	"epoch": 0.6392118583684446,
	"grad_norm": 0.14228977262973785,
	"learning_rate": 0.001,
	"loss": 2.6788,
	"num_input_tokens_seen": 30513557760,
	"step": 29100
	},
	{
	"epoch": 0.6403101605305898,
	"grad_norm": 0.13464143872261047,
	"learning_rate": 0.001,
	"loss": 2.6743,
	"num_input_tokens_seen": 30565986560,
	"step": 29150
	},
	{
	"epoch": 0.6414084626927349,
	"grad_norm": 0.15960821509361267,
	"learning_rate": 0.001,
	"loss": 2.6729,
	"num_input_tokens_seen": 30618415360,
	"step": 29200
	},
	{
	"epoch": 0.64250676485488,
	"grad_norm": 0.13830585777759552,
	"learning_rate": 0.001,
	"loss": 2.6723,
	"num_input_tokens_seen": 30670844160,
	"step": 29250
	},
	{
	"epoch": 0.643605067017025,
	"grad_norm": 0.14440728724002838,
	"learning_rate": 0.001,
	"loss": 2.664,
	"num_input_tokens_seen": 30723272960,
	"step": 29300
	},
	{
	"epoch": 0.6447033691791701,
	"grad_norm": 0.14259463548660278,
	"learning_rate": 0.001,
	"loss": 2.6675,
	"num_input_tokens_seen": 30775701760,
	"step": 29350
	},
	{
	"epoch": 0.6458016713413153,
	"grad_norm": 0.1462564468383789,
	"learning_rate": 0.001,
	"loss": 2.6671,
	"num_input_tokens_seen": 30828130560,
	"step": 29400
	},
	{
	"epoch": 0.6468999735034603,
	"grad_norm": 0.1443469077348709,
	"learning_rate": 0.001,
	"loss": 2.6667,
	"num_input_tokens_seen": 30880559360,
	"step": 29450
	},
	{
	"epoch": 0.6479982756656054,
	"grad_norm": 0.143255814909935,
	"learning_rate": 0.001,
	"loss": 2.6652,
	"num_input_tokens_seen": 30932988160,
	"step": 29500
	},
	{
	"epoch": 0.6479982756656054,
	"eval_loss": 2.569544792175293,
	"eval_runtime": 66.8674,
	"eval_samples_per_second": 74.775,
	"eval_steps_per_second": 18.694,
	"num_input_tokens_seen": 30932988160,
	"step": 29500
	},
	{
	"epoch": 0.6490965778277505,
	"grad_norm": 0.15149758756160736,
	"learning_rate": 0.001,
	"loss": 2.6681,
	"num_input_tokens_seen": 30985416960,
	"step": 29550
	},
	{
	"epoch": 0.6501948799898957,
	"grad_norm": 0.15703468024730682,
	"learning_rate": 0.001,
	"loss": 2.6681,
	"num_input_tokens_seen": 31037845760,
	"step": 29600
	},
	{
	"epoch": 0.6512931821520407,
	"grad_norm": 0.14332515001296997,
	"learning_rate": 0.001,
	"loss": 2.6622,
	"num_input_tokens_seen": 31090274560,
	"step": 29650
	},
	{
	"epoch": 0.6523914843141858,
	"grad_norm": 0.13763870298862457,
	"learning_rate": 0.001,
	"loss": 2.6724,
	"num_input_tokens_seen": 31142703360,
	"step": 29700
	},
	{
	"epoch": 0.6534897864763309,
	"grad_norm": 0.11858976632356644,
	"learning_rate": 0.001,
	"loss": 2.6743,
	"num_input_tokens_seen": 31195132160,
	"step": 29750
	},
	{
	"epoch": 0.654588088638476,
	"grad_norm": 0.15627937018871307,
	"learning_rate": 0.001,
	"loss": 2.6653,
	"num_input_tokens_seen": 31247560960,
	"step": 29800
	},
	{
	"epoch": 0.6556863908006211,
	"grad_norm": 0.15052759647369385,
	"learning_rate": 0.001,
	"loss": 2.6684,
	"num_input_tokens_seen": 31299989760,
	"step": 29850
	},
	{
	"epoch": 0.6567846929627662,
	"grad_norm": 0.1648450791835785,
	"learning_rate": 0.001,
	"loss": 2.6783,
	"num_input_tokens_seen": 31352418560,
	"step": 29900
	},
	{
	"epoch": 0.6578829951249113,
	"grad_norm": 0.13318586349487305,
	"learning_rate": 0.001,
	"loss": 2.6712,
	"num_input_tokens_seen": 31404847360,
	"step": 29950
	},
	{
	"epoch": 0.6589812972870563,
	"grad_norm": 0.1517287641763687,
	"learning_rate": 0.001,
	"loss": 2.6688,
	"num_input_tokens_seen": 31457276160,
	"step": 30000
	},
	{
	"epoch": 0.6589812972870563,
	"eval_loss": 2.5676708221435547,
	"eval_runtime": 66.0876,
	"eval_samples_per_second": 75.657,
	"eval_steps_per_second": 18.914,
	"num_input_tokens_seen": 31457276160,
	"step": 30000
	},
	{
	"epoch": 0.6600795994492015,
	"grad_norm": 0.14465224742889404,
	"learning_rate": 0.001,
	"loss": 2.6657,
	"num_input_tokens_seen": 31509704960,
	"step": 30050
	},
	{
	"epoch": 0.6611779016113466,
	"grad_norm": 0.16096332669258118,
	"learning_rate": 0.001,
	"loss": 2.6612,
	"num_input_tokens_seen": 31562133760,
	"step": 30100
	},
	{
	"epoch": 0.6622762037734916,
	"grad_norm": 0.1434296816587448,
	"learning_rate": 0.001,
	"loss": 2.6695,
	"num_input_tokens_seen": 31614562560,
	"step": 30150
	},
	{
	"epoch": 0.6633745059356367,
	"grad_norm": 0.13844367861747742,
	"learning_rate": 0.001,
	"loss": 2.6649,
	"num_input_tokens_seen": 31666991360,
	"step": 30200
	},
	{
	"epoch": 0.6644728080977819,
	"grad_norm": 0.1579446643590927,
	"learning_rate": 0.001,
	"loss": 2.6701,
	"num_input_tokens_seen": 31719420160,
	"step": 30250
	},
	{
	"epoch": 0.665571110259927,
	"grad_norm": 0.1585385501384735,
	"learning_rate": 0.001,
	"loss": 2.665,
	"num_input_tokens_seen": 31771848960,
	"step": 30300
	},
	{
	"epoch": 0.666669412422072,
	"grad_norm": 0.18768636882305145,
	"learning_rate": 0.001,
	"loss": 2.6708,
	"num_input_tokens_seen": 31824277760,
	"step": 30350
	},
	{
	"epoch": 0.6677677145842171,
	"grad_norm": 0.13027966022491455,
	"learning_rate": 0.001,
	"loss": 2.6657,
	"num_input_tokens_seen": 31876706560,
	"step": 30400
	},
	{
	"epoch": 0.6688660167463623,
	"grad_norm": 0.13473722338676453,
	"learning_rate": 0.001,
	"loss": 2.6658,
	"num_input_tokens_seen": 31929135360,
	"step": 30450
	},
	{
	"epoch": 0.6699643189085073,
	"grad_norm": 0.14617317914962769,
	"learning_rate": 0.001,
	"loss": 2.664,
	"num_input_tokens_seen": 31981564160,
	"step": 30500
	},
	{
	"epoch": 0.6699643189085073,
	"eval_loss": 2.5658769607543945,
	"eval_runtime": 67.5011,
	"eval_samples_per_second": 74.073,
	"eval_steps_per_second": 18.518,
	"num_input_tokens_seen": 31981564160,
	"step": 30500
	},
	{
	"epoch": 0.6710626210706524,
	"grad_norm": 0.14581717550754547,
	"learning_rate": 0.001,
	"loss": 2.6654,
	"num_input_tokens_seen": 32033992960,
	"step": 30550
	},
	{
	"epoch": 0.6721609232327975,
	"grad_norm": 0.12281567603349686,
	"learning_rate": 0.001,
	"loss": 2.6649,
	"num_input_tokens_seen": 32086421760,
	"step": 30600
	},
	{
	"epoch": 0.6732592253949425,
	"grad_norm": 0.14368072152137756,
	"learning_rate": 0.001,
	"loss": 2.6605,
	"num_input_tokens_seen": 32138850560,
	"step": 30650
	},
	{
	"epoch": 0.6743575275570877,
	"grad_norm": 0.14596907794475555,
	"learning_rate": 0.001,
	"loss": 2.6651,
	"num_input_tokens_seen": 32191279360,
	"step": 30700
	},
	{
	"epoch": 0.6754558297192328,
	"grad_norm": 0.15414392948150635,
	"learning_rate": 0.001,
	"loss": 2.6696,
	"num_input_tokens_seen": 32243708160,
	"step": 30750
	},
	{
	"epoch": 0.6765541318813779,
	"grad_norm": 0.14875884354114532,
	"learning_rate": 0.001,
	"loss": 2.6662,
	"num_input_tokens_seen": 32296136960,
	"step": 30800
	},
	{
	"epoch": 0.6776524340435229,
	"grad_norm": 0.13774773478507996,
	"learning_rate": 0.001,
	"loss": 2.6649,
	"num_input_tokens_seen": 32348565760,
	"step": 30850
	},
	{
	"epoch": 0.6787507362056681,
	"grad_norm": 0.1647578626871109,
	"learning_rate": 0.001,
	"loss": 2.6693,
	"num_input_tokens_seen": 32400994560,
	"step": 30900
	},
	{
	"epoch": 0.6798490383678132,
	"grad_norm": 0.1620490700006485,
	"learning_rate": 0.001,
	"loss": 2.6726,
	"num_input_tokens_seen": 32453423360,
	"step": 30950
	},
	{
	"epoch": 0.6809473405299582,
	"grad_norm": 0.14238062500953674,
	"learning_rate": 0.001,
	"loss": 2.6681,
	"num_input_tokens_seen": 32505852160,
	"step": 31000
	},
	{
	"epoch": 0.6809473405299582,
	"eval_loss": 2.5645763874053955,
	"eval_runtime": 65.7725,
	"eval_samples_per_second": 76.02,
	"eval_steps_per_second": 19.005,
	"num_input_tokens_seen": 32505852160,
	"step": 31000
	},
	{
	"epoch": 0.6820456426921033,
	"grad_norm": 0.143716499209404,
	"learning_rate": 0.001,
	"loss": 2.6591,
	"num_input_tokens_seen": 32558280960,
	"step": 31050
	},
	{
	"epoch": 0.6831439448542485,
	"grad_norm": 0.16048283874988556,
	"learning_rate": 0.001,
	"loss": 2.659,
	"num_input_tokens_seen": 32610709760,
	"step": 31100
	},
	{
	"epoch": 0.6842422470163936,
	"grad_norm": 0.15203309059143066,
	"learning_rate": 0.001,
	"loss": 2.6703,
	"num_input_tokens_seen": 32663138560,
	"step": 31150
	},
	{
	"epoch": 0.6853405491785386,
	"grad_norm": 0.14977113902568817,
	"learning_rate": 0.001,
	"loss": 2.6657,
	"num_input_tokens_seen": 32715567360,
	"step": 31200
	},
	{
	"epoch": 0.6864388513406837,
	"grad_norm": 0.15292279422283173,
	"learning_rate": 0.001,
	"loss": 2.6629,
	"num_input_tokens_seen": 32767996160,
	"step": 31250
	},
	{
	"epoch": 0.6875371535028288,
	"grad_norm": 0.13721971213817596,
	"learning_rate": 0.001,
	"loss": 2.6641,
	"num_input_tokens_seen": 32820424960,
	"step": 31300
	},
	{
	"epoch": 0.6886354556649739,
	"grad_norm": 0.15564891695976257,
	"learning_rate": 0.001,
	"loss": 2.6673,
	"num_input_tokens_seen": 32872853760,
	"step": 31350
	},
	{
	"epoch": 0.689733757827119,
	"grad_norm": 0.15267717838287354,
	"learning_rate": 0.001,
	"loss": 2.6624,
	"num_input_tokens_seen": 32925282560,
	"step": 31400
	},
	{
	"epoch": 0.6908320599892641,
	"grad_norm": 0.15039384365081787,
	"learning_rate": 0.001,
	"loss": 2.6615,
	"num_input_tokens_seen": 32977711360,
	"step": 31450
	},
	{
	"epoch": 0.6919303621514092,
	"grad_norm": 0.14114901423454285,
	"learning_rate": 0.001,
	"loss": 2.6663,
	"num_input_tokens_seen": 33030140160,
	"step": 31500
	},
	{
	"epoch": 0.6919303621514092,
	"eval_loss": 2.5618767738342285,
	"eval_runtime": 66.9611,
	"eval_samples_per_second": 74.67,
	"eval_steps_per_second": 18.668,
	"num_input_tokens_seen": 33030140160,
	"step": 31500
	},
	{
	"epoch": 0.6930286643135543,
	"grad_norm": 0.1415725201368332,
	"learning_rate": 0.001,
	"loss": 2.6606,
	"num_input_tokens_seen": 33082568960,
	"step": 31550
	},
	{
	"epoch": 0.6941269664756994,
	"grad_norm": 0.14324156939983368,
	"learning_rate": 0.001,
	"loss": 2.6616,
	"num_input_tokens_seen": 33134997760,
	"step": 31600
	},
	{
	"epoch": 0.6952252686378445,
	"grad_norm": 0.1544431746006012,
	"learning_rate": 0.001,
	"loss": 2.6567,
	"num_input_tokens_seen": 33187426560,
	"step": 31650
	},
	{
	"epoch": 0.6963235707999895,
	"grad_norm": 0.14641186594963074,
	"learning_rate": 0.001,
	"loss": 2.6605,
	"num_input_tokens_seen": 33239855360,
	"step": 31700
	},
	{
	"epoch": 0.6974218729621346,
	"grad_norm": 0.13757406175136566,
	"learning_rate": 0.001,
	"loss": 2.673,
	"num_input_tokens_seen": 33292284160,
	"step": 31750
	},
	{
	"epoch": 0.6985201751242798,
	"grad_norm": 0.14516425132751465,
	"learning_rate": 0.001,
	"loss": 2.6781,
	"num_input_tokens_seen": 33344712960,
	"step": 31800
	},
	{
	"epoch": 0.6996184772864249,
	"grad_norm": 0.15246887505054474,
	"learning_rate": 0.001,
	"loss": 2.6683,
	"num_input_tokens_seen": 33397141760,
	"step": 31850
	},
	{
	"epoch": 0.7007167794485699,
	"grad_norm": 0.1413787305355072,
	"learning_rate": 0.001,
	"loss": 2.6591,
	"num_input_tokens_seen": 33449570560,
	"step": 31900
	},
	{
	"epoch": 0.701815081610715,
	"grad_norm": 0.16077399253845215,
	"learning_rate": 0.001,
	"loss": 2.6628,
	"num_input_tokens_seen": 33501999360,
	"step": 31950
	},
	{
	"epoch": 0.7029133837728602,
	"grad_norm": 0.1555839478969574,
	"learning_rate": 0.001,
	"loss": 2.6631,
	"num_input_tokens_seen": 33554428160,
	"step": 32000
	},
	{
	"epoch": 0.7029133837728602,
	"eval_loss": 2.561042547225952,
	"eval_runtime": 66.7879,
	"eval_samples_per_second": 74.864,
	"eval_steps_per_second": 18.716,
	"num_input_tokens_seen": 33554428160,
	"step": 32000
	},
	{
	"epoch": 0.7040116859350052,
	"grad_norm": 0.15333816409111023,
	"learning_rate": 0.001,
	"loss": 2.6605,
	"num_input_tokens_seen": 33606856960,
	"step": 32050
	},
	{
	"epoch": 0.7051099880971503,
	"grad_norm": 0.14965052902698517,
	"learning_rate": 0.001,
	"loss": 2.6551,
	"num_input_tokens_seen": 33659285760,
	"step": 32100
	},
	{
	"epoch": 0.7062082902592954,
	"grad_norm": 0.1994074285030365,
	"learning_rate": 0.001,
	"loss": 2.6652,
	"num_input_tokens_seen": 33711714560,
	"step": 32150
	},
	{
	"epoch": 0.7073065924214406,
	"grad_norm": 0.3089894652366638,
	"learning_rate": 0.001,
	"loss": 2.6814,
	"num_input_tokens_seen": 33764143360,
	"step": 32200
	},
	{
	"epoch": 0.7084048945835856,
	"grad_norm": 0.14903652667999268,
	"learning_rate": 0.001,
	"loss": 2.6834,
	"num_input_tokens_seen": 33816572160,
	"step": 32250
	},
	{
	"epoch": 0.7095031967457307,
	"grad_norm": 0.17594854533672333,
	"learning_rate": 0.001,
	"loss": 2.6618,
	"num_input_tokens_seen": 33869000960,
	"step": 32300
	},
	{
	"epoch": 0.7106014989078758,
	"grad_norm": 0.15634667873382568,
	"learning_rate": 0.001,
	"loss": 2.6663,
	"num_input_tokens_seen": 33921429760,
	"step": 32350
	},
	{
	"epoch": 0.7116998010700208,
	"grad_norm": 0.13893702626228333,
	"learning_rate": 0.001,
	"loss": 2.67,
	"num_input_tokens_seen": 33973858560,
	"step": 32400
	},
	{
	"epoch": 0.712798103232166,
	"grad_norm": 0.16974663734436035,
	"learning_rate": 0.001,
	"loss": 2.6686,
	"num_input_tokens_seen": 34026287360,
	"step": 32450
	},
	{
	"epoch": 0.7138964053943111,
	"grad_norm": 0.15336968004703522,
	"learning_rate": 0.001,
	"loss": 2.6703,
	"num_input_tokens_seen": 34078716160,
	"step": 32500
	},
	{
	"epoch": 0.7138964053943111,
	"eval_loss": 2.5648574829101562,
	"eval_runtime": 66.0796,
	"eval_samples_per_second": 75.666,
	"eval_steps_per_second": 18.917,
	"num_input_tokens_seen": 34078716160,
	"step": 32500
	},
	{
	"epoch": 0.7149947075564561,
	"grad_norm": 1.428727626800537,
	"learning_rate": 0.001,
	"loss": 2.8433,
	"num_input_tokens_seen": 34131144960,
	"step": 32550
	},
	{
	"epoch": 0.7160930097186012,
	"grad_norm": 0.1666879504919052,
	"learning_rate": 0.001,
	"loss": 2.7236,
	"num_input_tokens_seen": 34183573760,
	"step": 32600
	},
	{
	"epoch": 0.7171913118807464,
	"grad_norm": 0.16038021445274353,
	"learning_rate": 0.001,
	"loss": 2.6876,
	"num_input_tokens_seen": 34236002560,
	"step": 32650
	},
	{
	"epoch": 0.7182896140428915,
	"grad_norm": 0.1514110267162323,
	"learning_rate": 0.001,
	"loss": 2.6717,
	"num_input_tokens_seen": 34288431360,
	"step": 32700
	},
	{
	"epoch": 0.7193879162050365,
	"grad_norm": 0.13304661214351654,
	"learning_rate": 0.001,
	"loss": 2.6664,
	"num_input_tokens_seen": 34340860160,
	"step": 32750
	},
	{
	"epoch": 0.7204862183671816,
	"grad_norm": 0.15957415103912354,
	"learning_rate": 0.001,
	"loss": 2.6683,
	"num_input_tokens_seen": 34393288960,
	"step": 32800
	},
	{
	"epoch": 0.7215845205293268,
	"grad_norm": 0.14532499015331268,
	"learning_rate": 0.001,
	"loss": 2.6632,
	"num_input_tokens_seen": 34445717760,
	"step": 32850
	},
	{
	"epoch": 0.7226828226914718,
	"grad_norm": 0.1402454972267151,
	"learning_rate": 0.001,
	"loss": 2.6631,
	"num_input_tokens_seen": 34498146560,
	"step": 32900
	},
	{
	"epoch": 0.7237811248536169,
	"grad_norm": 0.17248420417308807,
	"learning_rate": 0.001,
	"loss": 2.6743,
	"num_input_tokens_seen": 34550575360,
	"step": 32950
	},
	{
	"epoch": 0.724879427015762,
	"grad_norm": 0.1455400288105011,
	"learning_rate": 0.001,
	"loss": 2.6598,
	"num_input_tokens_seen": 34603004160,
	"step": 33000
	},
	{
	"epoch": 0.724879427015762,
	"eval_loss": 2.5639312267303467,
	"eval_runtime": 66.9575,
	"eval_samples_per_second": 74.674,
	"eval_steps_per_second": 18.669,
	"num_input_tokens_seen": 34603004160,
	"step": 33000
	},
	{
	"epoch": 0.7259777291779071,
	"grad_norm": 0.14448963105678558,
	"learning_rate": 0.001,
	"loss": 2.6579,
	"num_input_tokens_seen": 34655432960,
	"step": 33050
	},
	{
	"epoch": 0.7270760313400522,
	"grad_norm": 0.15785731375217438,
	"learning_rate": 0.001,
	"loss": 2.6641,
	"num_input_tokens_seen": 34707861760,
	"step": 33100
	},
	{
	"epoch": 0.7281743335021973,
	"grad_norm": 0.14524365961551666,
	"learning_rate": 0.001,
	"loss": 2.6639,
	"num_input_tokens_seen": 34760290560,
	"step": 33150
	},
	{
	"epoch": 0.7292726356643424,
	"grad_norm": 0.17661139369010925,
	"learning_rate": 0.001,
	"loss": 2.666,
	"num_input_tokens_seen": 34812719360,
	"step": 33200
	},
	{
	"epoch": 0.7303709378264874,
	"grad_norm": 0.14052839577198029,
	"learning_rate": 0.001,
	"loss": 2.6638,
	"num_input_tokens_seen": 34865148160,
	"step": 33250
	},
	{
	"epoch": 0.7314692399886326,
	"grad_norm": 0.14182330667972565,
	"learning_rate": 0.001,
	"loss": 2.6618,
	"num_input_tokens_seen": 34917576960,
	"step": 33300
	},
	{
	"epoch": 0.7325675421507777,
	"grad_norm": 0.168069988489151,
	"learning_rate": 0.001,
	"loss": 2.6655,
	"num_input_tokens_seen": 34970005760,
	"step": 33350
	},
	{
	"epoch": 0.7336658443129228,
	"grad_norm": 0.1627034991979599,
	"learning_rate": 0.001,
	"loss": 2.6646,
	"num_input_tokens_seen": 35022434560,
	"step": 33400
	},
	{
	"epoch": 0.7347641464750678,
	"grad_norm": 0.1257403939962387,
	"learning_rate": 0.001,
	"loss": 2.6682,
	"num_input_tokens_seen": 35074863360,
	"step": 33450
	},
	{
	"epoch": 0.735862448637213,
	"grad_norm": 0.15367744863033295,
	"learning_rate": 0.001,
	"loss": 2.6693,
	"num_input_tokens_seen": 35127292160,
	"step": 33500
	},
	{
	"epoch": 0.735862448637213,
	"eval_loss": 2.5610554218292236,
	"eval_runtime": 67.0185,
	"eval_samples_per_second": 74.606,
	"eval_steps_per_second": 18.652,
	"num_input_tokens_seen": 35127292160,
	"step": 33500
	},
	{
	"epoch": 0.7369607507993581,
	"grad_norm": 0.16001376509666443,
	"learning_rate": 0.001,
	"loss": 2.6594,
	"num_input_tokens_seen": 35179720960,
	"step": 33550
	},
	{
	"epoch": 0.7380590529615031,
	"grad_norm": 0.14694422483444214,
	"learning_rate": 0.001,
	"loss": 2.6635,
	"num_input_tokens_seen": 35232149760,
	"step": 33600
	},
	{
	"epoch": 0.7391573551236482,
	"grad_norm": 0.15586304664611816,
	"learning_rate": 0.001,
	"loss": 2.6565,
	"num_input_tokens_seen": 35284578560,
	"step": 33650
	},
	{
	"epoch": 0.7402556572857933,
	"grad_norm": 0.16455145180225372,
	"learning_rate": 0.001,
	"loss": 2.6621,
	"num_input_tokens_seen": 35337007360,
	"step": 33700
	},
	{
	"epoch": 0.7413539594479385,
	"grad_norm": 0.13630282878875732,
	"learning_rate": 0.001,
	"loss": 2.6658,
	"num_input_tokens_seen": 35389436160,
	"step": 33750
	},
	{
	"epoch": 0.7424522616100835,
	"grad_norm": 0.15180189907550812,
	"learning_rate": 0.001,
	"loss": 2.6593,
	"num_input_tokens_seen": 35441864960,
	"step": 33800
	},
	{
	"epoch": 0.7435505637722286,
	"grad_norm": 0.16608890891075134,
	"learning_rate": 0.001,
	"loss": 2.6777,
	"num_input_tokens_seen": 35494293760,
	"step": 33850
	},
	{
	"epoch": 0.7446488659343737,
	"grad_norm": 0.31720519065856934,
	"learning_rate": 0.001,
	"loss": 2.6685,
	"num_input_tokens_seen": 35546722560,
	"step": 33900
	},
	{
	"epoch": 0.7457471680965188,
	"grad_norm": 0.24131393432617188,
	"learning_rate": 0.001,
	"loss": 2.6682,
	"num_input_tokens_seen": 35599151360,
	"step": 33950
	},
	{
	"epoch": 0.7468454702586639,
	"grad_norm": 0.1594172567129135,
	"learning_rate": 0.001,
	"loss": 2.6575,
	"num_input_tokens_seen": 35651580160,
	"step": 34000
	},
	{
	"epoch": 0.7468454702586639,
	"eval_loss": 2.5587804317474365,
	"eval_runtime": 66.6197,
	"eval_samples_per_second": 75.053,
	"eval_steps_per_second": 18.763,
	"num_input_tokens_seen": 35651580160,
	"step": 34000
	},
	{
	"epoch": 0.747943772420809,
	"grad_norm": 0.1586858183145523,
	"learning_rate": 0.001,
	"loss": 2.6654,
	"num_input_tokens_seen": 35704008960,
	"step": 34050
	},
	{
	"epoch": 0.749042074582954,
	"grad_norm": 0.1376073956489563,
	"learning_rate": 0.001,
	"loss": 2.6627,
	"num_input_tokens_seen": 35756437760,
	"step": 34100
	},
	{
	"epoch": 0.7501403767450991,
	"grad_norm": 0.13904818892478943,
	"learning_rate": 0.001,
	"loss": 2.6605,
	"num_input_tokens_seen": 35808866560,
	"step": 34150
	},
	{
	"epoch": 0.7512386789072443,
	"grad_norm": 0.14543947577476501,
	"learning_rate": 0.001,
	"loss": 2.6589,
	"num_input_tokens_seen": 35861295360,
	"step": 34200
	},
	{
	"epoch": 0.7523369810693894,
	"grad_norm": 0.14855198562145233,
	"learning_rate": 0.001,
	"loss": 2.6612,
	"num_input_tokens_seen": 35913724160,
	"step": 34250
	},
	{
	"epoch": 0.7534352832315344,
	"grad_norm": 0.14492908120155334,
	"learning_rate": 0.001,
	"loss": 2.6561,
	"num_input_tokens_seen": 35966152960,
	"step": 34300
	},
	{
	"epoch": 0.7545335853936795,
	"grad_norm": 0.1388978660106659,
	"learning_rate": 0.001,
	"loss": 2.6551,
	"num_input_tokens_seen": 36018581760,
	"step": 34350
	},
	{
	"epoch": 0.7556318875558247,
	"grad_norm": 0.14582422375679016,
	"learning_rate": 0.001,
	"loss": 2.6521,
	"num_input_tokens_seen": 36071010560,
	"step": 34400
	},
	{
	"epoch": 0.7567301897179697,
	"grad_norm": 0.17488695681095123,
	"learning_rate": 0.001,
	"loss": 2.6516,
	"num_input_tokens_seen": 36123439360,
	"step": 34450
	},
	{
	"epoch": 0.7578284918801148,
	"grad_norm": 0.12302416563034058,
	"learning_rate": 0.001,
	"loss": 2.6617,
	"num_input_tokens_seen": 36175868160,
	"step": 34500
	},
	{
	"epoch": 0.7578284918801148,
	"eval_loss": 2.5549991130828857,
	"eval_runtime": 67.5095,
	"eval_samples_per_second": 74.064,
	"eval_steps_per_second": 18.516,
	"num_input_tokens_seen": 36175868160,
	"step": 34500
	},
	{
	"epoch": 0.7589267940422599,
	"grad_norm": 0.14238396286964417,
	"learning_rate": 0.001,
	"loss": 2.6609,
	"num_input_tokens_seen": 36228296960,
	"step": 34550
	},
	{
	"epoch": 0.7600250962044051,
	"grad_norm": 0.17919403314590454,
	"learning_rate": 0.001,
	"loss": 2.6621,
	"num_input_tokens_seen": 36280725760,
	"step": 34600
	},
	{
	"epoch": 0.7611233983665501,
	"grad_norm": 0.13188666105270386,
	"learning_rate": 0.001,
	"loss": 2.6529,
	"num_input_tokens_seen": 36333154560,
	"step": 34650
	},
	{
	"epoch": 0.7622217005286952,
	"grad_norm": 0.16191646456718445,
	"learning_rate": 0.001,
	"loss": 2.6584,
	"num_input_tokens_seen": 36385583360,
	"step": 34700
	},
	{
	"epoch": 0.7633200026908403,
	"grad_norm": 0.14606165885925293,
	"learning_rate": 0.001,
	"loss": 2.6567,
	"num_input_tokens_seen": 36438012160,
	"step": 34750
	},
	{
	"epoch": 0.7644183048529853,
	"grad_norm": 0.1648443192243576,
	"learning_rate": 0.001,
	"loss": 2.6587,
	"num_input_tokens_seen": 36490440960,
	"step": 34800
	},
	{
	"epoch": 0.7655166070151305,
	"grad_norm": 0.19523674249649048,
	"learning_rate": 0.001,
	"loss": 2.6662,
	"num_input_tokens_seen": 36542869760,
	"step": 34850
	},
	{
	"epoch": 0.7666149091772756,
	"grad_norm": 0.1713179498910904,
	"learning_rate": 0.001,
	"loss": 2.6683,
	"num_input_tokens_seen": 36595298560,
	"step": 34900
	},
	{
	"epoch": 0.7677132113394207,
	"grad_norm": 0.14923711121082306,
	"learning_rate": 0.001,
	"loss": 2.6629,
	"num_input_tokens_seen": 36647727360,
	"step": 34950
	},
	{
	"epoch": 0.7688115135015657,
	"grad_norm": 0.13948023319244385,
	"learning_rate": 0.001,
	"loss": 2.6619,
	"num_input_tokens_seen": 36700156160,
	"step": 35000
	},
	{
	"epoch": 0.7688115135015657,
	"eval_loss": 2.5569379329681396,
	"eval_runtime": 67.9393,
	"eval_samples_per_second": 73.595,
	"eval_steps_per_second": 18.399,
	"num_input_tokens_seen": 36700156160,
	"step": 35000
	},
	{
	"epoch": 0.7699098156637109,
	"grad_norm": 0.14624406397342682,
	"learning_rate": 0.001,
	"loss": 2.657,
	"num_input_tokens_seen": 36752584960,
	"step": 35050
	},
	{
	"epoch": 0.771008117825856,
	"grad_norm": 0.16855786740779877,
	"learning_rate": 0.001,
	"loss": 2.6585,
	"num_input_tokens_seen": 36805013760,
	"step": 35100
	},
	{
	"epoch": 0.772106419988001,
	"grad_norm": 0.1439932882785797,
	"learning_rate": 0.001,
	"loss": 2.6653,
	"num_input_tokens_seen": 36857442560,
	"step": 35150
	},
	{
	"epoch": 0.7732047221501461,
	"grad_norm": 0.16299331188201904,
	"learning_rate": 0.001,
	"loss": 2.6621,
	"num_input_tokens_seen": 36909871360,
	"step": 35200
	},
	{
	"epoch": 0.7743030243122913,
	"grad_norm": 0.16961826384067535,
	"learning_rate": 0.001,
	"loss": 2.6545,
	"num_input_tokens_seen": 36962300160,
	"step": 35250
	},
	{
	"epoch": 0.7754013264744364,
	"grad_norm": 0.13337954878807068,
	"learning_rate": 0.001,
	"loss": 2.652,
	"num_input_tokens_seen": 37014728960,
	"step": 35300
	},
	{
	"epoch": 0.7764996286365814,
	"grad_norm": 0.1728074699640274,
	"learning_rate": 0.001,
	"loss": 2.6631,
	"num_input_tokens_seen": 37067157760,
	"step": 35350
	},
	{
	"epoch": 0.7775979307987265,
	"grad_norm": 0.16615192592144012,
	"learning_rate": 0.001,
	"loss": 2.6551,
	"num_input_tokens_seen": 37119586560,
	"step": 35400
	},
	{
	"epoch": 0.7786962329608716,
	"grad_norm": 0.1515650749206543,
	"learning_rate": 0.001,
	"loss": 2.6529,
	"num_input_tokens_seen": 37172015360,
	"step": 35450
	},
	{
	"epoch": 0.7797945351230167,
	"grad_norm": 0.1534053236246109,
	"learning_rate": 0.001,
	"loss": 2.6567,
	"num_input_tokens_seen": 37224444160,
	"step": 35500
	},
	{
	"epoch": 0.7797945351230167,
	"eval_loss": 2.55454683303833,
	"eval_runtime": 67.0727,
	"eval_samples_per_second": 74.546,
	"eval_steps_per_second": 18.637,
	"num_input_tokens_seen": 37224444160,
	"step": 35500
	},
	{
	"epoch": 0.7808928372851618,
	"grad_norm": 0.16377541422843933,
	"learning_rate": 0.001,
	"loss": 2.6552,
	"num_input_tokens_seen": 37276872960,
	"step": 35550
	},
	{
	"epoch": 0.7819911394473069,
	"grad_norm": 0.14807477593421936,
	"learning_rate": 0.001,
	"loss": 2.6563,
	"num_input_tokens_seen": 37329301760,
	"step": 35600
	},
	{
	"epoch": 0.783089441609452,
	"grad_norm": 0.13599660992622375,
	"learning_rate": 0.001,
	"loss": 2.6575,
	"num_input_tokens_seen": 37381730560,
	"step": 35650
	},
	{
	"epoch": 0.7841877437715971,
	"grad_norm": 0.16653482615947723,
	"learning_rate": 0.001,
	"loss": 2.6515,
	"num_input_tokens_seen": 37434159360,
	"step": 35700
	},
	{
	"epoch": 0.7852860459337422,
	"grad_norm": 0.15467293560504913,
	"learning_rate": 0.001,
	"loss": 2.6548,
	"num_input_tokens_seen": 37486588160,
	"step": 35750
	},
	{
	"epoch": 0.7863843480958873,
	"grad_norm": 0.4751467704772949,
	"learning_rate": 0.001,
	"loss": 2.6592,
	"num_input_tokens_seen": 37539016960,
	"step": 35800
	},
	{
	"epoch": 0.7874826502580323,
	"grad_norm": 0.15940867364406586,
	"learning_rate": 0.001,
	"loss": 2.6624,
	"num_input_tokens_seen": 37591445760,
	"step": 35850
	},
	{
	"epoch": 0.7885809524201775,
	"grad_norm": 0.137634739279747,
	"learning_rate": 0.001,
	"loss": 2.6559,
	"num_input_tokens_seen": 37643874560,
	"step": 35900
	},
	{
	"epoch": 0.7896792545823226,
	"grad_norm": 0.16022460162639618,
	"learning_rate": 0.001,
	"loss": 2.6555,
	"num_input_tokens_seen": 37696303360,
	"step": 35950
	},
	{
	"epoch": 0.7907775567444676,
	"grad_norm": 0.147109717130661,
	"learning_rate": 0.001,
	"loss": 2.663,
	"num_input_tokens_seen": 37748732160,
	"step": 36000
	},
	{
	"epoch": 0.7907775567444676,
	"eval_loss": 2.556107521057129,
	"eval_runtime": 67.1814,
	"eval_samples_per_second": 74.425,
	"eval_steps_per_second": 18.606,
	"num_input_tokens_seen": 37748732160,
	"step": 36000
	},
	{
	"epoch": 0.7918758589066127,
	"grad_norm": 0.16054154932498932,
	"learning_rate": 0.001,
	"loss": 2.6516,
	"num_input_tokens_seen": 37801160960,
	"step": 36050
	},
	{
	"epoch": 0.7929741610687578,
	"grad_norm": 0.15180550515651703,
	"learning_rate": 0.001,
	"loss": 2.6508,
	"num_input_tokens_seen": 37853589760,
	"step": 36100
	},
	{
	"epoch": 0.794072463230903,
	"grad_norm": 0.19564937055110931,
	"learning_rate": 0.001,
	"loss": 2.6532,
	"num_input_tokens_seen": 37906018560,
	"step": 36150
	},
	{
	"epoch": 0.795170765393048,
	"grad_norm": 0.15047501027584076,
	"learning_rate": 0.001,
	"loss": 2.6567,
	"num_input_tokens_seen": 37958447360,
	"step": 36200
	},
	{
	"epoch": 0.7962690675551931,
	"grad_norm": 0.1420314759016037,
	"learning_rate": 0.001,
	"loss": 2.6511,
	"num_input_tokens_seen": 38010876160,
	"step": 36250
	},
	{
	"epoch": 0.7973673697173382,
	"grad_norm": 0.14328153431415558,
	"learning_rate": 0.001,
	"loss": 2.6601,
	"num_input_tokens_seen": 38063304960,
	"step": 36300
	},
	{
	"epoch": 0.7984656718794833,
	"grad_norm": 0.15527622401714325,
	"learning_rate": 0.001,
	"loss": 2.6598,
	"num_input_tokens_seen": 38115733760,
	"step": 36350
	},
	{
	"epoch": 0.7995639740416284,
	"grad_norm": 0.15956974029541016,
	"learning_rate": 0.001,
	"loss": 2.6522,
	"num_input_tokens_seen": 38168162560,
	"step": 36400
	},
	{
	"epoch": 0.8006622762037735,
	"grad_norm": 0.15193034708499908,
	"learning_rate": 0.001,
	"loss": 2.6561,
	"num_input_tokens_seen": 38220591360,
	"step": 36450
	},
	{
	"epoch": 0.8017605783659186,
	"grad_norm": 0.1692439615726471,
	"learning_rate": 0.001,
	"loss": 2.653,
	"num_input_tokens_seen": 38273020160,
	"step": 36500
	},
	{
	"epoch": 0.8017605783659186,
	"eval_loss": 2.553743362426758,
	"eval_runtime": 66.3488,
	"eval_samples_per_second": 75.359,
	"eval_steps_per_second": 18.84,
	"num_input_tokens_seen": 38273020160,
	"step": 36500
	},
	{
	"epoch": 0.8028588805280636,
	"grad_norm": 0.473707377910614,
	"learning_rate": 0.001,
	"loss": 2.6604,
	"num_input_tokens_seen": 38325448960,
	"step": 36550
	},
	{
	"epoch": 0.8039571826902088,
	"grad_norm": 0.16226574778556824,
	"learning_rate": 0.001,
	"loss": 2.6615,
	"num_input_tokens_seen": 38377877760,
	"step": 36600
	},
	{
	"epoch": 0.8050554848523539,
	"grad_norm": 0.17274035513401031,
	"learning_rate": 0.001,
	"loss": 2.6616,
	"num_input_tokens_seen": 38430306560,
	"step": 36650
	},
	{
	"epoch": 0.8061537870144989,
	"grad_norm": 0.14171990752220154,
	"learning_rate": 0.001,
	"loss": 2.6628,
	"num_input_tokens_seen": 38482735360,
	"step": 36700
	},
	{
	"epoch": 0.807252089176644,
	"grad_norm": 0.3828020989894867,
	"learning_rate": 0.001,
	"loss": 2.6717,
	"num_input_tokens_seen": 38535164160,
	"step": 36750
	},
	{
	"epoch": 0.8083503913387892,
	"grad_norm": 0.20836575329303741,
	"learning_rate": 0.001,
	"loss": 2.685,
	"num_input_tokens_seen": 38587592960,
	"step": 36800
	},
	{
	"epoch": 0.8094486935009343,
	"grad_norm": 0.14613227546215057,
	"learning_rate": 0.001,
	"loss": 2.6687,
	"num_input_tokens_seen": 38640021760,
	"step": 36850
	},
	{
	"epoch": 0.8105469956630793,
	"grad_norm": 0.16505028307437897,
	"learning_rate": 0.001,
	"loss": 2.6654,
	"num_input_tokens_seen": 38692450560,
	"step": 36900
	},
	{
	"epoch": 0.8116452978252244,
	"grad_norm": 0.15305323898792267,
	"learning_rate": 0.001,
	"loss": 2.6612,
	"num_input_tokens_seen": 38744879360,
	"step": 36950
	},
	{
	"epoch": 0.8127435999873696,
	"grad_norm": 0.2416296899318695,
	"learning_rate": 0.001,
	"loss": 2.6614,
	"num_input_tokens_seen": 38797308160,
	"step": 37000
	},
	{
	"epoch": 0.8127435999873696,
	"eval_loss": 2.5642571449279785,
	"eval_runtime": 66.5631,
	"eval_samples_per_second": 75.117,
	"eval_steps_per_second": 18.779,
	"num_input_tokens_seen": 38797308160,
	"step": 37000
	},
	{
	"epoch": 0.8138419021495146,
	"grad_norm": 0.1504666954278946,
	"learning_rate": 0.001,
	"loss": 2.6625,
	"num_input_tokens_seen": 38849736960,
	"step": 37050
	},
	{
	"epoch": 0.8149402043116597,
	"grad_norm": 0.15831789374351501,
	"learning_rate": 0.001,
	"loss": 2.6566,
	"num_input_tokens_seen": 38902165760,
	"step": 37100
	},
	{
	"epoch": 0.8160385064738048,
	"grad_norm": 0.1391575187444687,
	"learning_rate": 0.001,
	"loss": 2.6609,
	"num_input_tokens_seen": 38954594560,
	"step": 37150
	},
	{
	"epoch": 0.81713680863595,
	"grad_norm": 0.22168035805225372,
	"learning_rate": 0.001,
	"loss": 2.6768,
	"num_input_tokens_seen": 39007023360,
	"step": 37200
	},
	{
	"epoch": 0.818235110798095,
	"grad_norm": 0.1874976009130478,
	"learning_rate": 0.001,
	"loss": 2.679,
	"num_input_tokens_seen": 39059452160,
	"step": 37250
	},
	{
	"epoch": 0.8193334129602401,
	"grad_norm": 0.1796240657567978,
	"learning_rate": 0.001,
	"loss": 2.6644,
	"num_input_tokens_seen": 39111880960,
	"step": 37300
	},
	{
	"epoch": 0.8204317151223852,
	"grad_norm": 0.3271934986114502,
	"learning_rate": 0.001,
	"loss": 2.6695,
	"num_input_tokens_seen": 39164309760,
	"step": 37350
	},
	{
	"epoch": 0.8215300172845302,
	"grad_norm": 0.13447704911231995,
	"learning_rate": 0.001,
	"loss": 2.6656,
	"num_input_tokens_seen": 39216738560,
	"step": 37400
	},
	{
	"epoch": 0.8226283194466754,
	"grad_norm": 0.1367628127336502,
	"learning_rate": 0.001,
	"loss": 2.6505,
	"num_input_tokens_seen": 39269167360,
	"step": 37450
	},
	{
	"epoch": 0.8237266216088205,
	"grad_norm": 0.1498686671257019,
	"learning_rate": 0.001,
	"loss": 2.6594,
	"num_input_tokens_seen": 39321596160,
	"step": 37500
	},
	{
	"epoch": 0.8237266216088205,
	"eval_loss": 2.5516529083251953,
	"eval_runtime": 66.8213,
	"eval_samples_per_second": 74.826,
	"eval_steps_per_second": 18.707,
	"num_input_tokens_seen": 39321596160,
	"step": 37500
	},
	{
	"epoch": 0.8248249237709656,
	"grad_norm": 0.14790424704551697,
	"learning_rate": 0.001,
	"loss": 2.6519,
	"num_input_tokens_seen": 39374024960,
	"step": 37550
	},
	{
	"epoch": 0.8259232259331106,
	"grad_norm": 0.15297918021678925,
	"learning_rate": 0.001,
	"loss": 2.6533,
	"num_input_tokens_seen": 39426453760,
	"step": 37600
	},
	{
	"epoch": 0.8270215280952558,
	"grad_norm": 0.15760953724384308,
	"learning_rate": 0.001,
	"loss": 2.6584,
	"num_input_tokens_seen": 39478882560,
	"step": 37650
	},
	{
	"epoch": 0.8281198302574009,
	"grad_norm": 0.1545770913362503,
	"learning_rate": 0.001,
	"loss": 2.6453,
	"num_input_tokens_seen": 39531311360,
	"step": 37700
	},
	{
	"epoch": 0.8292181324195459,
	"grad_norm": 0.17809870839118958,
	"learning_rate": 0.001,
	"loss": 2.6547,
	"num_input_tokens_seen": 39583740160,
	"step": 37750
	},
	{
	"epoch": 0.830316434581691,
	"grad_norm": 0.2712576687335968,
	"learning_rate": 0.001,
	"loss": 2.6489,
	"num_input_tokens_seen": 39636168960,
	"step": 37800
	},
	{
	"epoch": 0.8314147367438361,
	"grad_norm": 0.1525331437587738,
	"learning_rate": 0.001,
	"loss": 2.6558,
	"num_input_tokens_seen": 39688597760,
	"step": 37850
	},
	{
	"epoch": 0.8325130389059812,
	"grad_norm": 0.1624525785446167,
	"learning_rate": 0.001,
	"loss": 2.6465,
	"num_input_tokens_seen": 39741026560,
	"step": 37900
	},
	{
	"epoch": 0.8336113410681263,
	"grad_norm": 0.14974552392959595,
	"learning_rate": 0.001,
	"loss": 2.6595,
	"num_input_tokens_seen": 39793455360,
	"step": 37950
	},
	{
	"epoch": 0.8347096432302714,
	"grad_norm": 0.15206202864646912,
	"learning_rate": 0.001,
	"loss": 2.6525,
	"num_input_tokens_seen": 39845884160,
	"step": 38000
	},
	{
	"epoch": 0.8347096432302714,
	"eval_loss": 2.549203395843506,
	"eval_runtime": 66.3732,
	"eval_samples_per_second": 75.332,
	"eval_steps_per_second": 18.833,
	"num_input_tokens_seen": 39845884160,
	"step": 38000
	},
	{
	"epoch": 0.8358079453924165,
	"grad_norm": 0.15346269309520721,
	"learning_rate": 0.001,
	"loss": 2.645,
	"num_input_tokens_seen": 39898312960,
	"step": 38050
	},
	{
	"epoch": 0.8369062475545616,
	"grad_norm": 0.1504630148410797,
	"learning_rate": 0.001,
	"loss": 2.666,
	"num_input_tokens_seen": 39950741760,
	"step": 38100
	},
	{
	"epoch": 0.8380045497167067,
	"grad_norm": 0.19098903238773346,
	"learning_rate": 0.001,
	"loss": 2.6649,
	"num_input_tokens_seen": 40003170560,
	"step": 38150
	},
	{
	"epoch": 0.8391028518788518,
	"grad_norm": 0.15553973615169525,
	"learning_rate": 0.001,
	"loss": 2.6565,
	"num_input_tokens_seen": 40055599360,
	"step": 38200
	},
	{
	"epoch": 0.8402011540409968,
	"grad_norm": 0.15650159120559692,
	"learning_rate": 0.001,
	"loss": 2.6568,
	"num_input_tokens_seen": 40108028160,
	"step": 38250
	},
	{
	"epoch": 0.841299456203142,
	"grad_norm": 0.17787836492061615,
	"learning_rate": 0.001,
	"loss": 2.6497,
	"num_input_tokens_seen": 40160456960,
	"step": 38300
	},
	{
	"epoch": 0.8423977583652871,
	"grad_norm": 0.1535162478685379,
	"learning_rate": 0.001,
	"loss": 2.6492,
	"num_input_tokens_seen": 40212885760,
	"step": 38350
	},
	{
	"epoch": 0.8434960605274322,
	"grad_norm": 0.16713359951972961,
	"learning_rate": 0.001,
	"loss": 2.6534,
	"num_input_tokens_seen": 40265314560,
	"step": 38400
	},
	{
	"epoch": 0.8445943626895772,
	"grad_norm": 0.17087998986244202,
	"learning_rate": 0.001,
	"loss": 2.6602,
	"num_input_tokens_seen": 40317743360,
	"step": 38450
	},
	{
	"epoch": 0.8456926648517223,
	"grad_norm": 0.15651412308216095,
	"learning_rate": 0.001,
	"loss": 2.6547,
	"num_input_tokens_seen": 40370172160,
	"step": 38500
	},
	{
	"epoch": 0.8456926648517223,
	"eval_loss": 2.5524706840515137,
	"eval_runtime": 66.5023,
	"eval_samples_per_second": 75.185,
	"eval_steps_per_second": 18.796,
	"num_input_tokens_seen": 40370172160,
	"step": 38500
	},
	{
	"epoch": 0.8467909670138675,
	"grad_norm": 0.15205898880958557,
	"learning_rate": 0.001,
	"loss": 2.6541,
	"num_input_tokens_seen": 40422600960,
	"step": 38550
	},
	{
	"epoch": 0.8478892691760125,
	"grad_norm": 0.15865832567214966,
	"learning_rate": 0.001,
	"loss": 2.6536,
	"num_input_tokens_seen": 40475029760,
	"step": 38600
	},
	{
	"epoch": 0.8489875713381576,
	"grad_norm": 0.133284330368042,
	"learning_rate": 0.001,
	"loss": 2.6531,
	"num_input_tokens_seen": 40527458560,
	"step": 38650
	},
	{
	"epoch": 0.8500858735003027,
	"grad_norm": 0.1421806663274765,
	"learning_rate": 0.001,
	"loss": 2.6558,
	"num_input_tokens_seen": 40579887360,
	"step": 38700
	},
	{
	"epoch": 0.8511841756624479,
	"grad_norm": 0.19429996609687805,
	"learning_rate": 0.001,
	"loss": 2.6628,
	"num_input_tokens_seen": 40632316160,
	"step": 38750
	},
	{
	"epoch": 0.8522824778245929,
	"grad_norm": 0.14661937952041626,
	"learning_rate": 0.001,
	"loss": 2.6594,
	"num_input_tokens_seen": 40684744960,
	"step": 38800
	},
	{
	"epoch": 0.853380779986738,
	"grad_norm": 0.1694687008857727,
	"learning_rate": 0.001,
	"loss": 2.6571,
	"num_input_tokens_seen": 40737173760,
	"step": 38850
	},
	{
	"epoch": 0.8544790821488831,
	"grad_norm": 0.152188241481781,
	"learning_rate": 0.001,
	"loss": 2.6534,
	"num_input_tokens_seen": 40789602560,
	"step": 38900
	},
	{
	"epoch": 0.8555773843110281,
	"grad_norm": 0.1554640680551529,
	"learning_rate": 0.001,
	"loss": 2.649,
	"num_input_tokens_seen": 40842031360,
	"step": 38950
	},
	{
	"epoch": 0.8566756864731733,
	"grad_norm": 0.1481955647468567,
	"learning_rate": 0.001,
	"loss": 2.6527,
	"num_input_tokens_seen": 40894460160,
	"step": 39000
	},
	{
	"epoch": 0.8566756864731733,
	"eval_loss": 2.547664165496826,
	"eval_runtime": 66.2874,
	"eval_samples_per_second": 75.429,
	"eval_steps_per_second": 18.857,
	"num_input_tokens_seen": 40894460160,
	"step": 39000
	}
	],
	"logging_steps": 50,
	"max_steps": 200000,
	"num_input_tokens_seen": 40894460160,
	"num_train_epochs": 5,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3289694735724052e+19,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}