Upload trainer_state.json with huggingface_hub

37857e3 verified over 1 year ago

91.2 kB

	{
	"best_metric": 0.19586918,
	"best_model_checkpoint": "/share/project/gsai/kch/output/v9-20250120-041149/checkpoint-614",
	"epoch": 4.996548223350254,
	"eval_steps": 500,
	"global_step": 1535,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003248730964467005,
	"grad_norm": 9.773202050760368,
	"learning_rate": 1.2987012987012988e-06,
	"loss": 1.5496090650558472,
	"memory(GiB)": 35.94,
	"step": 1,
	"token_acc": 0.7444444444444445,
	"train_speed(iter/s)": 0.013018
	},
	{
	"epoch": 0.016243654822335026,
	"grad_norm": 9.248677372850217,
	"learning_rate": 6.493506493506493e-06,
	"loss": 1.707068681716919,
	"memory(GiB)": 36.33,
	"step": 5,
	"token_acc": 0.7226890756302521,
	"train_speed(iter/s)": 0.016033
	},
	{
	"epoch": 0.03248730964467005,
	"grad_norm": 7.883848099402922,
	"learning_rate": 1.2987012987012986e-05,
	"loss": 1.7282501220703126,
	"memory(GiB)": 36.33,
	"step": 10,
	"token_acc": 0.6761363636363636,
	"train_speed(iter/s)": 0.016046
	},
	{
	"epoch": 0.048730964467005075,
	"grad_norm": 6.0889640814527155,
	"learning_rate": 1.9480519480519483e-05,
	"loss": 1.2976716995239257,
	"memory(GiB)": 36.33,
	"step": 15,
	"token_acc": 0.7266355140186916,
	"train_speed(iter/s)": 0.015999
	},
	{
	"epoch": 0.0649746192893401,
	"grad_norm": 2.6158303198283113,
	"learning_rate": 2.5974025974025972e-05,
	"loss": 0.7637146949768067,
	"memory(GiB)": 36.33,
	"step": 20,
	"token_acc": 0.8190709046454768,
	"train_speed(iter/s)": 0.016127
	},
	{
	"epoch": 0.08121827411167512,
	"grad_norm": 1.1712343980644169,
	"learning_rate": 3.246753246753247e-05,
	"loss": 0.5213486194610596,
	"memory(GiB)": 36.91,
	"step": 25,
	"token_acc": 0.8802992518703242,
	"train_speed(iter/s)": 0.016159
	},
	{
	"epoch": 0.09746192893401015,
	"grad_norm": 1.4361934956753106,
	"learning_rate": 3.8961038961038966e-05,
	"loss": 0.4833333969116211,
	"memory(GiB)": 36.91,
	"step": 30,
	"token_acc": 0.8929440389294404,
	"train_speed(iter/s)": 0.01608
	},
	{
	"epoch": 0.11370558375634518,
	"grad_norm": 1.1662861682771686,
	"learning_rate": 4.545454545454546e-05,
	"loss": 0.4054920196533203,
	"memory(GiB)": 36.91,
	"step": 35,
	"token_acc": 0.8860103626943006,
	"train_speed(iter/s)": 0.016078
	},
	{
	"epoch": 0.1299492385786802,
	"grad_norm": 1.0429297515235254,
	"learning_rate": 5.1948051948051944e-05,
	"loss": 0.43406662940979,
	"memory(GiB)": 36.91,
	"step": 40,
	"token_acc": 0.8708333333333333,
	"train_speed(iter/s)": 0.016008
	},
	{
	"epoch": 0.14619289340101524,
	"grad_norm": 1.2238750692730618,
	"learning_rate": 5.844155844155844e-05,
	"loss": 0.36366307735443115,
	"memory(GiB)": 36.91,
	"step": 45,
	"token_acc": 0.9007832898172323,
	"train_speed(iter/s)": 0.01607
	},
	{
	"epoch": 0.16243654822335024,
	"grad_norm": 1.2558032464123954,
	"learning_rate": 6.493506493506494e-05,
	"loss": 0.327667236328125,
	"memory(GiB)": 36.91,
	"step": 50,
	"token_acc": 0.9095890410958904,
	"train_speed(iter/s)": 0.016095
	},
	{
	"epoch": 0.17868020304568527,
	"grad_norm": 1.1346516950379935,
	"learning_rate": 7.142857142857143e-05,
	"loss": 0.2869602680206299,
	"memory(GiB)": 36.91,
	"step": 55,
	"token_acc": 0.9400428265524625,
	"train_speed(iter/s)": 0.016146
	},
	{
	"epoch": 0.1949238578680203,
	"grad_norm": 1.062592286052222,
	"learning_rate": 7.792207792207793e-05,
	"loss": 0.32817542552948,
	"memory(GiB)": 36.91,
	"step": 60,
	"token_acc": 0.9162162162162162,
	"train_speed(iter/s)": 0.016208
	},
	{
	"epoch": 0.21116751269035533,
	"grad_norm": 1.0747418170911354,
	"learning_rate": 8.441558441558442e-05,
	"loss": 0.3106029987335205,
	"memory(GiB)": 36.91,
	"step": 65,
	"token_acc": 0.8882235528942116,
	"train_speed(iter/s)": 0.016166
	},
	{
	"epoch": 0.22741116751269036,
	"grad_norm": 1.3626948899821127,
	"learning_rate": 9.090909090909092e-05,
	"loss": 0.2963001251220703,
	"memory(GiB)": 36.91,
	"step": 70,
	"token_acc": 0.9046511627906977,
	"train_speed(iter/s)": 0.016127
	},
	{
	"epoch": 0.2436548223350254,
	"grad_norm": 1.767990529674908,
	"learning_rate": 9.74025974025974e-05,
	"loss": 0.30068559646606446,
	"memory(GiB)": 36.91,
	"step": 75,
	"token_acc": 0.9203539823008849,
	"train_speed(iter/s)": 0.016153
	},
	{
	"epoch": 0.2598984771573604,
	"grad_norm": 1.1682901865357622,
	"learning_rate": 9.99989553622803e-05,
	"loss": 0.2741088390350342,
	"memory(GiB)": 36.91,
	"step": 80,
	"token_acc": 0.9041394335511983,
	"train_speed(iter/s)": 0.016134
	},
	{
	"epoch": 0.27614213197969545,
	"grad_norm": 1.3278362200249414,
	"learning_rate": 9.999257162318026e-05,
	"loss": 0.25543942451477053,
	"memory(GiB)": 36.91,
	"step": 85,
	"token_acc": 0.9399538106235565,
	"train_speed(iter/s)": 0.016119
	},
	{
	"epoch": 0.2923857868020305,
	"grad_norm": 1.1803595161351554,
	"learning_rate": 9.998038523933224e-05,
	"loss": 0.3038362503051758,
	"memory(GiB)": 36.91,
	"step": 90,
	"token_acc": 0.9416058394160584,
	"train_speed(iter/s)": 0.016104
	},
	{
	"epoch": 0.3086294416243655,
	"grad_norm": 1.1025992286590631,
	"learning_rate": 9.996239762521151e-05,
	"loss": 0.24188714027404784,
	"memory(GiB)": 36.91,
	"step": 95,
	"token_acc": 0.9402298850574713,
	"train_speed(iter/s)": 0.016109
	},
	{
	"epoch": 0.3248730964467005,
	"grad_norm": 1.7473005302414135,
	"learning_rate": 9.993861086864293e-05,
	"loss": 0.2190408945083618,
	"memory(GiB)": 36.91,
	"step": 100,
	"token_acc": 0.9553349875930521,
	"train_speed(iter/s)": 0.016079
	},
	{
	"epoch": 0.3411167512690355,
	"grad_norm": 0.9780470952963239,
	"learning_rate": 9.990902773055866e-05,
	"loss": 0.22316210269927977,
	"memory(GiB)": 36.91,
	"step": 105,
	"token_acc": 0.9384236453201971,
	"train_speed(iter/s)": 0.016094
	},
	{
	"epoch": 0.35736040609137054,
	"grad_norm": 1.2071939622104944,
	"learning_rate": 9.987365164467767e-05,
	"loss": 0.1844509482383728,
	"memory(GiB)": 36.91,
	"step": 110,
	"token_acc": 0.9557291666666666,
	"train_speed(iter/s)": 0.016096
	},
	{
	"epoch": 0.37360406091370557,
	"grad_norm": 1.3488873859555934,
	"learning_rate": 9.983248671710714e-05,
	"loss": 0.24020743370056152,
	"memory(GiB)": 36.91,
	"step": 115,
	"token_acc": 0.91792656587473,
	"train_speed(iter/s)": 0.016103
	},
	{
	"epoch": 0.3898477157360406,
	"grad_norm": 1.3346849143090171,
	"learning_rate": 9.978553772586596e-05,
	"loss": 0.17928496599197388,
	"memory(GiB)": 36.91,
	"step": 120,
	"token_acc": 0.9523809523809523,
	"train_speed(iter/s)": 0.016107
	},
	{
	"epoch": 0.40609137055837563,
	"grad_norm": 1.5370257812561328,
	"learning_rate": 9.973281012033007e-05,
	"loss": 0.22673540115356444,
	"memory(GiB)": 36.91,
	"step": 125,
	"token_acc": 0.9307692307692308,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 0.42233502538071066,
	"grad_norm": 1.564641958549246,
	"learning_rate": 9.967431002060002e-05,
	"loss": 0.2366321563720703,
	"memory(GiB)": 36.91,
	"step": 130,
	"token_acc": 0.9309576837416481,
	"train_speed(iter/s)": 0.016147
	},
	{
	"epoch": 0.4385786802030457,
	"grad_norm": 2.562291519667129,
	"learning_rate": 9.961004421679047e-05,
	"loss": 0.1997455835342407,
	"memory(GiB)": 36.91,
	"step": 135,
	"token_acc": 0.9694656488549618,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 0.4548223350253807,
	"grad_norm": 1.3505627897575587,
	"learning_rate": 9.954002016824227e-05,
	"loss": 0.23050181865692138,
	"memory(GiB)": 36.91,
	"step": 140,
	"token_acc": 0.9395248380129589,
	"train_speed(iter/s)": 0.016177
	},
	{
	"epoch": 0.47106598984771575,
	"grad_norm": 1.1439093152874722,
	"learning_rate": 9.946424600265646e-05,
	"loss": 0.2069091796875,
	"memory(GiB)": 36.91,
	"step": 145,
	"token_acc": 0.9485294117647058,
	"train_speed(iter/s)": 0.016153
	},
	{
	"epoch": 0.4873096446700508,
	"grad_norm": 1.3223308004820944,
	"learning_rate": 9.938273051515098e-05,
	"loss": 0.21799993515014648,
	"memory(GiB)": 36.91,
	"step": 150,
	"token_acc": 0.9325581395348838,
	"train_speed(iter/s)": 0.016154
	},
	{
	"epoch": 0.5035532994923858,
	"grad_norm": 1.2523275744092777,
	"learning_rate": 9.929548316723982e-05,
	"loss": 0.25325832366943357,
	"memory(GiB)": 36.91,
	"step": 155,
	"token_acc": 0.9368421052631579,
	"train_speed(iter/s)": 0.016145
	},
	{
	"epoch": 0.5197969543147208,
	"grad_norm": 0.9022910796931503,
	"learning_rate": 9.920251408573483e-05,
	"loss": 0.2051997184753418,
	"memory(GiB)": 36.91,
	"step": 160,
	"token_acc": 0.9321266968325792,
	"train_speed(iter/s)": 0.016138
	},
	{
	"epoch": 0.5360406091370559,
	"grad_norm": 1.3630797879167007,
	"learning_rate": 9.910383406157018e-05,
	"loss": 0.19534312486648558,
	"memory(GiB)": 36.91,
	"step": 165,
	"token_acc": 0.9489795918367347,
	"train_speed(iter/s)": 0.016146
	},
	{
	"epoch": 0.5522842639593909,
	"grad_norm": 1.2845653777954962,
	"learning_rate": 9.899945454855006e-05,
	"loss": 0.25403494834899903,
	"memory(GiB)": 36.91,
	"step": 170,
	"token_acc": 0.9025974025974026,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 0.5685279187817259,
	"grad_norm": 1.2637865638643238,
	"learning_rate": 9.888938766201907e-05,
	"loss": 0.21994171142578126,
	"memory(GiB)": 36.91,
	"step": 175,
	"token_acc": 0.9292452830188679,
	"train_speed(iter/s)": 0.016148
	},
	{
	"epoch": 0.584771573604061,
	"grad_norm": 1.3035045872952578,
	"learning_rate": 9.877364617745604e-05,
	"loss": 0.21233229637145995,
	"memory(GiB)": 36.91,
	"step": 180,
	"token_acc": 0.936046511627907,
	"train_speed(iter/s)": 0.016163
	},
	{
	"epoch": 0.601015228426396,
	"grad_norm": 1.0837997073678936,
	"learning_rate": 9.865224352899119e-05,
	"loss": 0.20809760093688964,
	"memory(GiB)": 36.91,
	"step": 185,
	"token_acc": 0.9612403100775194,
	"train_speed(iter/s)": 0.016158
	},
	{
	"epoch": 0.617258883248731,
	"grad_norm": 1.6131697829206757,
	"learning_rate": 9.852519380784686e-05,
	"loss": 0.16450556516647338,
	"memory(GiB)": 36.91,
	"step": 190,
	"token_acc": 0.9518716577540107,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 0.6335025380710659,
	"grad_norm": 1.0897399385105642,
	"learning_rate": 9.839251176070184e-05,
	"loss": 0.21039419174194335,
	"memory(GiB)": 36.91,
	"step": 195,
	"token_acc": 0.943089430894309,
	"train_speed(iter/s)": 0.016128
	},
	{
	"epoch": 0.649746192893401,
	"grad_norm": 1.0509670789538326,
	"learning_rate": 9.825421278797983e-05,
	"loss": 0.2035764217376709,
	"memory(GiB)": 36.91,
	"step": 200,
	"token_acc": 0.9397260273972603,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 0.665989847715736,
	"grad_norm": 1.2329373260124112,
	"learning_rate": 9.811031294206184e-05,
	"loss": 0.21548199653625488,
	"memory(GiB)": 36.91,
	"step": 205,
	"token_acc": 0.9368191721132898,
	"train_speed(iter/s)": 0.01613
	},
	{
	"epoch": 0.682233502538071,
	"grad_norm": 0.8421449582235737,
	"learning_rate": 9.796082892542302e-05,
	"loss": 0.166330087184906,
	"memory(GiB)": 36.91,
	"step": 210,
	"token_acc": 0.9555555555555556,
	"train_speed(iter/s)": 0.016131
	},
	{
	"epoch": 0.698477157360406,
	"grad_norm": 3.430879327858774,
	"learning_rate": 9.780577808869398e-05,
	"loss": 0.2193552017211914,
	"memory(GiB)": 36.91,
	"step": 215,
	"token_acc": 0.952020202020202,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 0.7147208121827411,
	"grad_norm": 1.5093266746905538,
	"learning_rate": 9.764517842864696e-05,
	"loss": 0.21606364250183105,
	"memory(GiB)": 36.91,
	"step": 220,
	"token_acc": 0.9311926605504587,
	"train_speed(iter/s)": 0.016141
	},
	{
	"epoch": 0.7309644670050761,
	"grad_norm": 1.3437389442959786,
	"learning_rate": 9.747904858610681e-05,
	"loss": 0.18983598947525024,
	"memory(GiB)": 36.91,
	"step": 225,
	"token_acc": 0.9449035812672176,
	"train_speed(iter/s)": 0.016146
	},
	{
	"epoch": 0.7472081218274111,
	"grad_norm": 0.9560028124850986,
	"learning_rate": 9.730740784378753e-05,
	"loss": 0.15862367153167725,
	"memory(GiB)": 36.91,
	"step": 230,
	"token_acc": 0.9284009546539379,
	"train_speed(iter/s)": 0.016153
	},
	{
	"epoch": 0.7634517766497462,
	"grad_norm": 0.9944797001481037,
	"learning_rate": 9.713027612405395e-05,
	"loss": 0.2057633638381958,
	"memory(GiB)": 36.91,
	"step": 235,
	"token_acc": 0.9560975609756097,
	"train_speed(iter/s)": 0.016148
	},
	{
	"epoch": 0.7796954314720812,
	"grad_norm": 1.3080304212648073,
	"learning_rate": 9.694767398660942e-05,
	"loss": 0.20023531913757325,
	"memory(GiB)": 36.91,
	"step": 240,
	"token_acc": 0.930835734870317,
	"train_speed(iter/s)": 0.016152
	},
	{
	"epoch": 0.7959390862944162,
	"grad_norm": 1.0766984239588557,
	"learning_rate": 9.67596226261095e-05,
	"loss": 0.17447829246520996,
	"memory(GiB)": 36.91,
	"step": 245,
	"token_acc": 0.9543269230769231,
	"train_speed(iter/s)": 0.016152
	},
	{
	"epoch": 0.8121827411167513,
	"grad_norm": 1.507367869013474,
	"learning_rate": 9.656614386970173e-05,
	"loss": 0.1656266212463379,
	"memory(GiB)": 36.91,
	"step": 250,
	"token_acc": 0.9447368421052632,
	"train_speed(iter/s)": 0.016157
	},
	{
	"epoch": 0.8284263959390863,
	"grad_norm": 0.9746901508793566,
	"learning_rate": 9.636726017449236e-05,
	"loss": 0.1971142530441284,
	"memory(GiB)": 36.91,
	"step": 255,
	"token_acc": 0.9336384439359268,
	"train_speed(iter/s)": 0.016144
	},
	{
	"epoch": 0.8446700507614213,
	"grad_norm": 1.2090195353569724,
	"learning_rate": 9.616299462493952e-05,
	"loss": 0.13225051164627075,
	"memory(GiB)": 36.91,
	"step": 260,
	"token_acc": 0.9502369668246445,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 0.8609137055837564,
	"grad_norm": 2.0461505378854024,
	"learning_rate": 9.595337093017404e-05,
	"loss": 0.15409984588623046,
	"memory(GiB)": 36.91,
	"step": 265,
	"token_acc": 0.9537444933920705,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 0.8771573604060914,
	"grad_norm": 2.0732984340431178,
	"learning_rate": 9.57384134212473e-05,
	"loss": 0.21368227005004883,
	"memory(GiB)": 36.91,
	"step": 270,
	"token_acc": 0.9419642857142857,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 0.8934010152284264,
	"grad_norm": 0.7925657032904146,
	"learning_rate": 9.551814704830734e-05,
	"loss": 0.1758435010910034,
	"memory(GiB)": 36.91,
	"step": 275,
	"token_acc": 0.948509485094851,
	"train_speed(iter/s)": 0.016143
	},
	{
	"epoch": 0.9096446700507614,
	"grad_norm": 1.493944081608633,
	"learning_rate": 9.529259737770269e-05,
	"loss": 0.1807725191116333,
	"memory(GiB)": 36.91,
	"step": 280,
	"token_acc": 0.9431524547803618,
	"train_speed(iter/s)": 0.016126
	},
	{
	"epoch": 0.9258883248730965,
	"grad_norm": 1.6848601658017734,
	"learning_rate": 9.506179058901503e-05,
	"loss": 0.20769875049591063,
	"memory(GiB)": 36.91,
	"step": 285,
	"token_acc": 0.9391304347826087,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 0.9421319796954315,
	"grad_norm": 1.3210817601987923,
	"learning_rate": 9.482575347202047e-05,
	"loss": 0.162405526638031,
	"memory(GiB)": 36.91,
	"step": 290,
	"token_acc": 0.9507042253521126,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 0.9583756345177665,
	"grad_norm": 1.3496077516635223,
	"learning_rate": 9.458451342358002e-05,
	"loss": 0.19487454891204833,
	"memory(GiB)": 36.91,
	"step": 295,
	"token_acc": 0.9321608040201005,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 0.9746192893401016,
	"grad_norm": 0.990005748680569,
	"learning_rate": 9.433809844445969e-05,
	"loss": 0.18303027153015136,
	"memory(GiB)": 36.91,
	"step": 300,
	"token_acc": 0.9073170731707317,
	"train_speed(iter/s)": 0.016134
	},
	{
	"epoch": 0.9908629441624366,
	"grad_norm": 1.2295422719869937,
	"learning_rate": 9.40865371360804e-05,
	"loss": 0.17322018146514892,
	"memory(GiB)": 36.91,
	"step": 305,
	"token_acc": 0.9247311827956989,
	"train_speed(iter/s)": 0.016141
	},
	{
	"epoch": 0.9973604060913706,
	"eval_loss": 0.1993405520915985,
	"eval_runtime": 62.0419,
	"eval_samples_per_second": 3.191,
	"eval_steps_per_second": 0.806,
	"eval_token_acc": 0.9332079021636877,
	"step": 307
	},
	{
	"epoch": 1.0095431472081218,
	"grad_norm": 0.6300057786945967,
	"learning_rate": 9.382985869719825e-05,
	"loss": 0.18641979694366456,
	"memory(GiB)": 36.91,
	"step": 310,
	"token_acc": 0.9554234769687965,
	"train_speed(iter/s)": 0.016081
	},
	{
	"epoch": 1.0257868020304568,
	"grad_norm": 0.6546315853574257,
	"learning_rate": 9.35680929205154e-05,
	"loss": 0.09114786386489868,
	"memory(GiB)": 36.91,
	"step": 315,
	"token_acc": 0.972972972972973,
	"train_speed(iter/s)": 0.016095
	},
	{
	"epoch": 1.0420304568527918,
	"grad_norm": 1.0908662736650971,
	"learning_rate": 9.330127018922194e-05,
	"loss": 0.10798045396804809,
	"memory(GiB)": 36.91,
	"step": 320,
	"token_acc": 0.9705093833780161,
	"train_speed(iter/s)": 0.016104
	},
	{
	"epoch": 1.0582741116751269,
	"grad_norm": 1.3297407747084764,
	"learning_rate": 9.302942147346945e-05,
	"loss": 0.1425997495651245,
	"memory(GiB)": 36.91,
	"step": 325,
	"token_acc": 0.9705014749262537,
	"train_speed(iter/s)": 0.016103
	},
	{
	"epoch": 1.074517766497462,
	"grad_norm": 0.9696985174488663,
	"learning_rate": 9.275257832677623e-05,
	"loss": 0.09851968884468079,
	"memory(GiB)": 36.91,
	"step": 330,
	"token_acc": 0.9644549763033176,
	"train_speed(iter/s)": 0.016115
	},
	{
	"epoch": 1.090761421319797,
	"grad_norm": 0.9656710998245678,
	"learning_rate": 9.247077288236488e-05,
	"loss": 0.11144424676895141,
	"memory(GiB)": 36.91,
	"step": 335,
	"token_acc": 0.972568578553616,
	"train_speed(iter/s)": 0.016119
	},
	{
	"epoch": 1.107005076142132,
	"grad_norm": 2.119365217816497,
	"learning_rate": 9.21840378494325e-05,
	"loss": 0.11279252767562867,
	"memory(GiB)": 36.91,
	"step": 340,
	"token_acc": 0.9637462235649547,
	"train_speed(iter/s)": 0.016124
	},
	{
	"epoch": 1.123248730964467,
	"grad_norm": 1.0607496749665157,
	"learning_rate": 9.189240650935433e-05,
	"loss": 0.15501840114593507,
	"memory(GiB)": 36.91,
	"step": 345,
	"token_acc": 0.9662337662337662,
	"train_speed(iter/s)": 0.016118
	},
	{
	"epoch": 1.139492385786802,
	"grad_norm": 1.1350038539205582,
	"learning_rate": 9.159591271182058e-05,
	"loss": 0.12092633247375488,
	"memory(GiB)": 36.91,
	"step": 350,
	"token_acc": 0.9680232558139535,
	"train_speed(iter/s)": 0.016126
	},
	{
	"epoch": 1.155736040609137,
	"grad_norm": 0.6471881138956326,
	"learning_rate": 9.129459087090763e-05,
	"loss": 0.09021483659744263,
	"memory(GiB)": 36.91,
	"step": 355,
	"token_acc": 0.9718670076726342,
	"train_speed(iter/s)": 0.016119
	},
	{
	"epoch": 1.171979695431472,
	"grad_norm": 0.5557368721254966,
	"learning_rate": 9.098847596108351e-05,
	"loss": 0.09125213623046875,
	"memory(GiB)": 36.91,
	"step": 360,
	"token_acc": 0.9772727272727273,
	"train_speed(iter/s)": 0.01612
	},
	{
	"epoch": 1.188223350253807,
	"grad_norm": 0.8767747521686889,
	"learning_rate": 9.067760351314838e-05,
	"loss": 0.10847616195678711,
	"memory(GiB)": 36.91,
	"step": 365,
	"token_acc": 0.9425587467362925,
	"train_speed(iter/s)": 0.016116
	},
	{
	"epoch": 1.2044670050761421,
	"grad_norm": 0.7043233347928591,
	"learning_rate": 9.036200961011059e-05,
	"loss": 0.14046638011932372,
	"memory(GiB)": 36.91,
	"step": 370,
	"token_acc": 0.9632034632034632,
	"train_speed(iter/s)": 0.016126
	},
	{
	"epoch": 1.2207106598984772,
	"grad_norm": 1.0689456764149206,
	"learning_rate": 9.004173088299837e-05,
	"loss": 0.13291985988616944,
	"memory(GiB)": 36.91,
	"step": 375,
	"token_acc": 0.9565217391304348,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 1.2369543147208122,
	"grad_norm": 1.3657829465422844,
	"learning_rate": 8.97168045066082e-05,
	"loss": 0.11737120151519775,
	"memory(GiB)": 36.91,
	"step": 380,
	"token_acc": 0.973421926910299,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 1.2531979695431472,
	"grad_norm": 0.991725434659403,
	"learning_rate": 8.938726819518977e-05,
	"loss": 0.1285269021987915,
	"memory(GiB)": 36.91,
	"step": 385,
	"token_acc": 0.97,
	"train_speed(iter/s)": 0.016149
	},
	{
	"epoch": 1.2694416243654822,
	"grad_norm": 0.7615458350738632,
	"learning_rate": 8.905316019806868e-05,
	"loss": 0.08999634981155395,
	"memory(GiB)": 36.91,
	"step": 390,
	"token_acc": 0.9392405063291139,
	"train_speed(iter/s)": 0.016141
	},
	{
	"epoch": 1.2856852791878173,
	"grad_norm": 1.0176469569030087,
	"learning_rate": 8.871451929520663e-05,
	"loss": 0.12240591049194335,
	"memory(GiB)": 36.91,
	"step": 395,
	"token_acc": 0.9611872146118722,
	"train_speed(iter/s)": 0.016137
	},
	{
	"epoch": 1.3019289340101523,
	"grad_norm": 1.5999057477034428,
	"learning_rate": 8.837138479270036e-05,
	"loss": 0.1078599214553833,
	"memory(GiB)": 36.91,
	"step": 400,
	"token_acc": 0.9562982005141388,
	"train_speed(iter/s)": 0.016137
	},
	{
	"epoch": 1.3181725888324873,
	"grad_norm": 1.8517636831594235,
	"learning_rate": 8.802379651821938e-05,
	"loss": 0.14071439504623412,
	"memory(GiB)": 36.91,
	"step": 405,
	"token_acc": 0.9592875318066157,
	"train_speed(iter/s)": 0.016131
	},
	{
	"epoch": 1.3344162436548224,
	"grad_norm": 1.333329930877741,
	"learning_rate": 8.767179481638303e-05,
	"loss": 0.13171937465667724,
	"memory(GiB)": 36.91,
	"step": 410,
	"token_acc": 0.9744897959183674,
	"train_speed(iter/s)": 0.016135
	},
	{
	"epoch": 1.3506598984771574,
	"grad_norm": 1.1709434640964491,
	"learning_rate": 8.731542054407793e-05,
	"loss": 0.10031242370605468,
	"memory(GiB)": 36.91,
	"step": 415,
	"token_acc": 0.9507829977628636,
	"train_speed(iter/s)": 0.016142
	},
	{
	"epoch": 1.3669035532994924,
	"grad_norm": 0.8550588073511182,
	"learning_rate": 8.695471506571542e-05,
	"loss": 0.09321081638336182,
	"memory(GiB)": 36.91,
	"step": 420,
	"token_acc": 0.9667519181585678,
	"train_speed(iter/s)": 0.016135
	},
	{
	"epoch": 1.3831472081218275,
	"grad_norm": 0.8651388677420173,
	"learning_rate": 8.658972024843062e-05,
	"loss": 0.11361520290374756,
	"memory(GiB)": 36.91,
	"step": 425,
	"token_acc": 0.9243243243243243,
	"train_speed(iter/s)": 0.016131
	},
	{
	"epoch": 1.3993908629441625,
	"grad_norm": 1.1539120381770573,
	"learning_rate": 8.622047845722275e-05,
	"loss": 0.11814072132110595,
	"memory(GiB)": 36.91,
	"step": 430,
	"token_acc": 0.9747368421052631,
	"train_speed(iter/s)": 0.016135
	},
	{
	"epoch": 1.4156345177664975,
	"grad_norm": 0.8277592112279485,
	"learning_rate": 8.584703255003795e-05,
	"loss": 0.11146994829177856,
	"memory(GiB)": 36.91,
	"step": 435,
	"token_acc": 0.9720101781170484,
	"train_speed(iter/s)": 0.016134
	},
	{
	"epoch": 1.4318781725888325,
	"grad_norm": 0.613271329664299,
	"learning_rate": 8.546942587279465e-05,
	"loss": 0.09394789338111878,
	"memory(GiB)": 36.91,
	"step": 440,
	"token_acc": 0.9636803874092009,
	"train_speed(iter/s)": 0.016134
	},
	{
	"epoch": 1.4481218274111676,
	"grad_norm": 1.0271786482031176,
	"learning_rate": 8.508770225435244e-05,
	"loss": 0.09493039846420288,
	"memory(GiB)": 36.91,
	"step": 445,
	"token_acc": 0.9743589743589743,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 1.4643654822335026,
	"grad_norm": 1.0170609694346187,
	"learning_rate": 8.470190600142486e-05,
	"loss": 0.0872123122215271,
	"memory(GiB)": 36.91,
	"step": 450,
	"token_acc": 0.9763779527559056,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 1.4806091370558376,
	"grad_norm": 1.6562131424643847,
	"learning_rate": 8.43120818934367e-05,
	"loss": 0.12921547889709473,
	"memory(GiB)": 36.91,
	"step": 455,
	"token_acc": 0.9691516709511568,
	"train_speed(iter/s)": 0.016142
	},
	{
	"epoch": 1.4968527918781727,
	"grad_norm": 1.9551348110028592,
	"learning_rate": 8.39182751773264e-05,
	"loss": 0.10002539157867432,
	"memory(GiB)": 36.91,
	"step": 460,
	"token_acc": 0.9665924276169265,
	"train_speed(iter/s)": 0.016147
	},
	{
	"epoch": 1.5130964467005077,
	"grad_norm": 1.376875063389563,
	"learning_rate": 8.352053156229438e-05,
	"loss": 0.0880006194114685,
	"memory(GiB)": 36.91,
	"step": 465,
	"token_acc": 0.958128078817734,
	"train_speed(iter/s)": 0.016149
	},
	{
	"epoch": 1.5293401015228425,
	"grad_norm": 1.688502126127077,
	"learning_rate": 8.31188972144974e-05,
	"loss": 0.08950616717338562,
	"memory(GiB)": 36.91,
	"step": 470,
	"token_acc": 0.96996996996997,
	"train_speed(iter/s)": 0.016152
	},
	{
	"epoch": 1.5455837563451778,
	"grad_norm": 1.3189009566745062,
	"learning_rate": 8.27134187516901e-05,
	"loss": 0.08834458589553833,
	"memory(GiB)": 36.91,
	"step": 475,
	"token_acc": 0.9663865546218487,
	"train_speed(iter/s)": 0.016152
	},
	{
	"epoch": 1.5618274111675126,
	"grad_norm": 1.4946742975658185,
	"learning_rate": 8.23041432378141e-05,
	"loss": 0.14390041828155517,
	"memory(GiB)": 36.91,
	"step": 480,
	"token_acc": 0.9621212121212122,
	"train_speed(iter/s)": 0.016158
	},
	{
	"epoch": 1.5780710659898478,
	"grad_norm": 1.3879821905262077,
	"learning_rate": 8.18911181775353e-05,
	"loss": 0.1267578125,
	"memory(GiB)": 36.91,
	"step": 485,
	"token_acc": 0.9685230024213075,
	"train_speed(iter/s)": 0.016166
	},
	{
	"epoch": 1.5943147208121826,
	"grad_norm": 1.0017173842059925,
	"learning_rate": 8.147439151072994e-05,
	"loss": 0.11637402772903442,
	"memory(GiB)": 36.91,
	"step": 490,
	"token_acc": 0.945031712473573,
	"train_speed(iter/s)": 0.016169
	},
	{
	"epoch": 1.6105583756345179,
	"grad_norm": 3.517464157304767,
	"learning_rate": 8.105401160692023e-05,
	"loss": 0.11228004693984986,
	"memory(GiB)": 36.91,
	"step": 495,
	"token_acc": 0.9544513457556936,
	"train_speed(iter/s)": 0.016174
	},
	{
	"epoch": 1.6268020304568527,
	"grad_norm": 1.123471909128111,
	"learning_rate": 8.063002725966015e-05,
	"loss": 0.1422884702682495,
	"memory(GiB)": 36.91,
	"step": 500,
	"token_acc": 0.9502487562189055,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 1.643045685279188,
	"grad_norm": 0.6219224292611003,
	"learning_rate": 8.020248768087188e-05,
	"loss": 0.09764043688774109,
	"memory(GiB)": 36.91,
	"step": 505,
	"token_acc": 0.9696312364425163,
	"train_speed(iter/s)": 0.016171
	},
	{
	"epoch": 1.6592893401015227,
	"grad_norm": 0.6599500918289528,
	"learning_rate": 7.977144249513391e-05,
	"loss": 0.11226143836975097,
	"memory(GiB)": 36.91,
	"step": 510,
	"token_acc": 0.9662447257383966,
	"train_speed(iter/s)": 0.016171
	},
	{
	"epoch": 1.675532994923858,
	"grad_norm": 1.1327299497198065,
	"learning_rate": 7.93369417339209e-05,
	"loss": 0.15791513919830322,
	"memory(GiB)": 36.91,
	"step": 515,
	"token_acc": 0.9535962877030162,
	"train_speed(iter/s)": 0.016172
	},
	{
	"epoch": 1.6917766497461928,
	"grad_norm": 1.246895523664307,
	"learning_rate": 7.88990358297967e-05,
	"loss": 0.1254945158958435,
	"memory(GiB)": 36.91,
	"step": 520,
	"token_acc": 0.9494252873563218,
	"train_speed(iter/s)": 0.016169
	},
	{
	"epoch": 1.708020304568528,
	"grad_norm": 0.7907689981367572,
	"learning_rate": 7.84577756105606e-05,
	"loss": 0.11963515281677246,
	"memory(GiB)": 36.91,
	"step": 525,
	"token_acc": 0.9851116625310173,
	"train_speed(iter/s)": 0.016171
	},
	{
	"epoch": 1.7242639593908629,
	"grad_norm": 0.9327837359999639,
	"learning_rate": 7.801321229334764e-05,
	"loss": 0.0870942771434784,
	"memory(GiB)": 36.91,
	"step": 530,
	"token_acc": 0.9618320610687023,
	"train_speed(iter/s)": 0.01617
	},
	{
	"epoch": 1.740507614213198,
	"grad_norm": 1.0881384151057631,
	"learning_rate": 7.756539747868394e-05,
	"loss": 0.08531727194786072,
	"memory(GiB)": 36.91,
	"step": 535,
	"token_acc": 0.9748603351955307,
	"train_speed(iter/s)": 0.016168
	},
	{
	"epoch": 1.756751269035533,
	"grad_norm": 0.7767069783252919,
	"learning_rate": 7.71143831444974e-05,
	"loss": 0.11042824983596802,
	"memory(GiB)": 36.91,
	"step": 540,
	"token_acc": 0.957983193277311,
	"train_speed(iter/s)": 0.016168
	},
	{
	"epoch": 1.7729949238578682,
	"grad_norm": 1.4499212106775468,
	"learning_rate": 7.666022164008457e-05,
	"loss": 0.11432676315307617,
	"memory(GiB)": 36.91,
	"step": 545,
	"token_acc": 0.975,
	"train_speed(iter/s)": 0.016171
	},
	{
	"epoch": 1.789238578680203,
	"grad_norm": 1.0081688781849556,
	"learning_rate": 7.620296568003449e-05,
	"loss": 0.12327454090118409,
	"memory(GiB)": 36.91,
	"step": 550,
	"token_acc": 0.9525,
	"train_speed(iter/s)": 0.016174
	},
	{
	"epoch": 1.8054822335025382,
	"grad_norm": 0.9935491377578084,
	"learning_rate": 7.57426683381101e-05,
	"loss": 0.09574033617973328,
	"memory(GiB)": 36.91,
	"step": 555,
	"token_acc": 0.9694117647058823,
	"train_speed(iter/s)": 0.016174
	},
	{
	"epoch": 1.821725888324873,
	"grad_norm": 1.0191162814710237,
	"learning_rate": 7.527938304108795e-05,
	"loss": 0.10299128293991089,
	"memory(GiB)": 36.91,
	"step": 560,
	"token_acc": 0.9694793536804309,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 1.8379695431472083,
	"grad_norm": 1.322632268427317,
	"learning_rate": 7.481316356255698e-05,
	"loss": 0.12594590187072754,
	"memory(GiB)": 36.91,
	"step": 565,
	"token_acc": 0.946257197696737,
	"train_speed(iter/s)": 0.016169
	},
	{
	"epoch": 1.854213197969543,
	"grad_norm": 1.2990436559927216,
	"learning_rate": 7.434406401667695e-05,
	"loss": 0.10811959505081177,
	"memory(GiB)": 36.91,
	"step": 570,
	"token_acc": 0.9556650246305419,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 1.8704568527918781,
	"grad_norm": 1.141255912127714,
	"learning_rate": 7.387213885189746e-05,
	"loss": 0.10128064155578613,
	"memory(GiB)": 36.91,
	"step": 575,
	"token_acc": 0.9654255319148937,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 1.8867005076142132,
	"grad_norm": 1.6575287534795722,
	"learning_rate": 7.339744284463808e-05,
	"loss": 0.09879794716835022,
	"memory(GiB)": 36.91,
	"step": 580,
	"token_acc": 0.9805555555555555,
	"train_speed(iter/s)": 0.016182
	},
	{
	"epoch": 1.9029441624365482,
	"grad_norm": 1.1141293923635756,
	"learning_rate": 7.292003109293048e-05,
	"loss": 0.0816422462463379,
	"memory(GiB)": 36.91,
	"step": 585,
	"token_acc": 0.961038961038961,
	"train_speed(iter/s)": 0.016187
	},
	{
	"epoch": 1.9191878172588832,
	"grad_norm": 0.9384463374768481,
	"learning_rate": 7.243995901002312e-05,
	"loss": 0.10118494033813477,
	"memory(GiB)": 36.91,
	"step": 590,
	"token_acc": 0.978021978021978,
	"train_speed(iter/s)": 0.016179
	},
	{
	"epoch": 1.9354314720812182,
	"grad_norm": 1.2458643327317989,
	"learning_rate": 7.19572823179495e-05,
	"loss": 0.13551709651947022,
	"memory(GiB)": 36.91,
	"step": 595,
	"token_acc": 0.96,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 1.9516751269035533,
	"grad_norm": 1.2473685164472739,
	"learning_rate": 7.147205704106046e-05,
	"loss": 0.12769120931625366,
	"memory(GiB)": 36.91,
	"step": 600,
	"token_acc": 0.9561586638830898,
	"train_speed(iter/s)": 0.016179
	},
	{
	"epoch": 1.9679187817258883,
	"grad_norm": 0.7203387342947396,
	"learning_rate": 7.098433949952146e-05,
	"loss": 0.09962844252586364,
	"memory(GiB)": 36.91,
	"step": 605,
	"token_acc": 0.9623115577889447,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 1.9841624365482233,
	"grad_norm": 0.9094364008463653,
	"learning_rate": 7.049418630277542e-05,
	"loss": 0.10799739360809327,
	"memory(GiB)": 36.91,
	"step": 610,
	"token_acc": 0.9705159705159705,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 1.9971573604060913,
	"eval_loss": 0.19586917757987976,
	"eval_runtime": 62.6829,
	"eval_samples_per_second": 3.159,
	"eval_steps_per_second": 0.798,
	"eval_token_acc": 0.9416745061147695,
	"step": 614
	},
	{
	"epoch": 2.0028426395939087,
	"grad_norm": 11.787067733742486,
	"learning_rate": 7.000165434297214e-05,
	"loss": 0.12140052318572998,
	"memory(GiB)": 36.91,
	"step": 615,
	"token_acc": 0.951048951048951,
	"train_speed(iter/s)": 0.016146
	},
	{
	"epoch": 2.0190862944162435,
	"grad_norm": 0.9036939767517369,
	"learning_rate": 6.950680078836474e-05,
	"loss": 0.0476156622171402,
	"memory(GiB)": 36.91,
	"step": 620,
	"token_acc": 0.9901477832512315,
	"train_speed(iter/s)": 0.016145
	},
	{
	"epoch": 2.035329949238579,
	"grad_norm": 0.8045933316745676,
	"learning_rate": 6.900968307667423e-05,
	"loss": 0.0368287205696106,
	"memory(GiB)": 36.91,
	"step": 625,
	"token_acc": 0.9932584269662922,
	"train_speed(iter/s)": 0.016144
	},
	{
	"epoch": 2.0515736040609136,
	"grad_norm": 0.9084110351960255,
	"learning_rate": 6.851035890842259e-05,
	"loss": 0.03829330801963806,
	"memory(GiB)": 36.91,
	"step": 630,
	"token_acc": 0.9928741092636579,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 2.067817258883249,
	"grad_norm": 0.6115130889160721,
	"learning_rate": 6.800888624023553e-05,
	"loss": 0.04897831082344055,
	"memory(GiB)": 36.91,
	"step": 635,
	"token_acc": 0.995,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 2.0840609137055837,
	"grad_norm": 0.2929609590178906,
	"learning_rate": 6.750532327811547e-05,
	"loss": 0.027808183431625368,
	"memory(GiB)": 36.91,
	"step": 640,
	"token_acc": 0.9877750611246944,
	"train_speed(iter/s)": 0.016139
	},
	{
	"epoch": 2.100304568527919,
	"grad_norm": 1.6659772014622232,
	"learning_rate": 6.699972847068553e-05,
	"loss": 0.04012786149978638,
	"memory(GiB)": 36.91,
	"step": 645,
	"token_acc": 0.9892183288409704,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 2.1165482233502537,
	"grad_norm": 1.6942318499082378,
	"learning_rate": 6.649216050240539e-05,
	"loss": 0.03581180572509766,
	"memory(GiB)": 36.91,
	"step": 650,
	"token_acc": 0.9848866498740554,
	"train_speed(iter/s)": 0.016138
	},
	{
	"epoch": 2.132791878172589,
	"grad_norm": 1.7750332328595628,
	"learning_rate": 6.598267828675979e-05,
	"loss": 0.038441383838653566,
	"memory(GiB)": 36.91,
	"step": 655,
	"token_acc": 0.9860724233983287,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 2.149035532994924,
	"grad_norm": 0.948452800180108,
	"learning_rate": 6.547134095942044e-05,
	"loss": 0.03809022605419159,
	"memory(GiB)": 36.91,
	"step": 660,
	"token_acc": 0.9917355371900827,
	"train_speed(iter/s)": 0.016135
	},
	{
	"epoch": 2.165279187817259,
	"grad_norm": 1.185267349759789,
	"learning_rate": 6.495820787138209e-05,
	"loss": 0.033171114325523374,
	"memory(GiB)": 36.91,
	"step": 665,
	"token_acc": 0.9947916666666666,
	"train_speed(iter/s)": 0.016132
	},
	{
	"epoch": 2.181522842639594,
	"grad_norm": 1.1780464513130944,
	"learning_rate": 6.44433385820737e-05,
	"loss": 0.03416465222835541,
	"memory(GiB)": 36.91,
	"step": 670,
	"token_acc": 0.9948051948051948,
	"train_speed(iter/s)": 0.01614
	},
	{
	"epoch": 2.197766497461929,
	"grad_norm": 0.5862751780031482,
	"learning_rate": 6.392679285244538e-05,
	"loss": 0.043843358755111694,
	"memory(GiB)": 36.91,
	"step": 675,
	"token_acc": 0.9854014598540146,
	"train_speed(iter/s)": 0.016137
	},
	{
	"epoch": 2.214010152284264,
	"grad_norm": 0.7314774852745054,
	"learning_rate": 6.340863063803188e-05,
	"loss": 0.03051617741584778,
	"memory(GiB)": 36.91,
	"step": 680,
	"token_acc": 0.9970326409495549,
	"train_speed(iter/s)": 0.016136
	},
	{
	"epoch": 2.230253807106599,
	"grad_norm": 1.4305053109603272,
	"learning_rate": 6.288891208199353e-05,
	"loss": 0.03859332203865051,
	"memory(GiB)": 36.91,
	"step": 685,
	"token_acc": 0.9813829787234043,
	"train_speed(iter/s)": 0.016138
	},
	{
	"epoch": 2.246497461928934,
	"grad_norm": 1.2676862153868658,
	"learning_rate": 6.23676975081355e-05,
	"loss": 0.03608715534210205,
	"memory(GiB)": 36.91,
	"step": 690,
	"token_acc": 0.9923076923076923,
	"train_speed(iter/s)": 0.016143
	},
	{
	"epoch": 2.262741116751269,
	"grad_norm": 0.717797595223322,
	"learning_rate": 6.184504741390596e-05,
	"loss": 0.024200823903083802,
	"memory(GiB)": 36.91,
	"step": 695,
	"token_acc": 0.9932885906040269,
	"train_speed(iter/s)": 0.016142
	},
	{
	"epoch": 2.278984771573604,
	"grad_norm": 1.2738346733999926,
	"learning_rate": 6.132102246337407e-05,
	"loss": 0.04924860596656799,
	"memory(GiB)": 36.91,
	"step": 700,
	"token_acc": 0.989769820971867,
	"train_speed(iter/s)": 0.016144
	},
	{
	"epoch": 2.2952284263959393,
	"grad_norm": 0.9709229547354659,
	"learning_rate": 6.079568348018882e-05,
	"loss": 0.04101951122283935,
	"memory(GiB)": 36.91,
	"step": 705,
	"token_acc": 0.9838709677419355,
	"train_speed(iter/s)": 0.016145
	},
	{
	"epoch": 2.311472081218274,
	"grad_norm": 0.34074159031019935,
	"learning_rate": 6.02690914405191e-05,
	"loss": 0.012625060975551605,
	"memory(GiB)": 36.91,
	"step": 710,
	"token_acc": 0.9893162393162394,
	"train_speed(iter/s)": 0.016143
	},
	{
	"epoch": 2.3277157360406093,
	"grad_norm": 1.405033686903226,
	"learning_rate": 5.974130746597628e-05,
	"loss": 0.023314157128334047,
	"memory(GiB)": 36.91,
	"step": 715,
	"token_acc": 0.9845261121856866,
	"train_speed(iter/s)": 0.016146
	},
	{
	"epoch": 2.343959390862944,
	"grad_norm": 0.393622080479984,
	"learning_rate": 5.921239281651976e-05,
	"loss": 0.03884749114513397,
	"memory(GiB)": 36.91,
	"step": 720,
	"token_acc": 0.9844961240310077,
	"train_speed(iter/s)": 0.016147
	},
	{
	"epoch": 2.360203045685279,
	"grad_norm": 0.8205162732404321,
	"learning_rate": 5.868240888334653e-05,
	"loss": 0.0408410519361496,
	"memory(GiB)": 36.91,
	"step": 725,
	"token_acc": 0.9696969696969697,
	"train_speed(iter/s)": 0.016147
	},
	{
	"epoch": 2.376446700507614,
	"grad_norm": 0.9254262259522679,
	"learning_rate": 5.815141718176549e-05,
	"loss": 0.03491292595863342,
	"memory(GiB)": 36.91,
	"step": 730,
	"token_acc": 0.9818731117824774,
	"train_speed(iter/s)": 0.016148
	},
	{
	"epoch": 2.3926903553299494,
	"grad_norm": 0.4613013276623316,
	"learning_rate": 5.761947934405736e-05,
	"loss": 0.041343241930007935,
	"memory(GiB)": 36.91,
	"step": 735,
	"token_acc": 0.9923076923076923,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 2.4089340101522843,
	"grad_norm": 0.5995425123829327,
	"learning_rate": 5.708665711232103e-05,
	"loss": 0.026265931129455567,
	"memory(GiB)": 36.91,
	"step": 740,
	"token_acc": 0.980225988700565,
	"train_speed(iter/s)": 0.016147
	},
	{
	"epoch": 2.425177664974619,
	"grad_norm": 0.8947399880614664,
	"learning_rate": 5.655301233130711e-05,
	"loss": 0.026338309049606323,
	"memory(GiB)": 36.91,
	"step": 745,
	"token_acc": 0.9891304347826086,
	"train_speed(iter/s)": 0.01615
	},
	{
	"epoch": 2.4414213197969543,
	"grad_norm": 0.6528954286261448,
	"learning_rate": 5.6018606941239615e-05,
	"loss": 0.031349584460258484,
	"memory(GiB)": 36.91,
	"step": 750,
	"token_acc": 0.9825870646766169,
	"train_speed(iter/s)": 0.016153
	},
	{
	"epoch": 2.4576649746192896,
	"grad_norm": 0.9124965491201447,
	"learning_rate": 5.548350297062659e-05,
	"loss": 0.04390305280685425,
	"memory(GiB)": 36.91,
	"step": 755,
	"token_acc": 0.9971181556195965,
	"train_speed(iter/s)": 0.016158
	},
	{
	"epoch": 2.4739086294416244,
	"grad_norm": 1.2758793187917294,
	"learning_rate": 5.494776252906036e-05,
	"loss": 0.03932673335075378,
	"memory(GiB)": 36.91,
	"step": 760,
	"token_acc": 0.9852941176470589,
	"train_speed(iter/s)": 0.016155
	},
	{
	"epoch": 2.490152284263959,
	"grad_norm": 1.6183527750946778,
	"learning_rate": 5.44114478000086e-05,
	"loss": 0.040107494592666625,
	"memory(GiB)": 36.91,
	"step": 765,
	"token_acc": 0.980722891566265,
	"train_speed(iter/s)": 0.01616
	},
	{
	"epoch": 2.5063959390862944,
	"grad_norm": 0.8155608212943981,
	"learning_rate": 5.387462103359655e-05,
	"loss": 0.034613233804702756,
	"memory(GiB)": 36.91,
	"step": 770,
	"token_acc": 0.9809885931558935,
	"train_speed(iter/s)": 0.016158
	},
	{
	"epoch": 2.5226395939086297,
	"grad_norm": 0.72914335142115,
	"learning_rate": 5.333734453938174e-05,
	"loss": 0.03472020030021668,
	"memory(GiB)": 36.91,
	"step": 775,
	"token_acc": 0.980722891566265,
	"train_speed(iter/s)": 0.016157
	},
	{
	"epoch": 2.5388832487309645,
	"grad_norm": 0.715640193227215,
	"learning_rate": 5.279968067912161e-05,
	"loss": 0.03267112672328949,
	"memory(GiB)": 36.91,
	"step": 780,
	"token_acc": 0.9949109414758269,
	"train_speed(iter/s)": 0.016159
	},
	{
	"epoch": 2.5551269035532993,
	"grad_norm": 0.5201766196940287,
	"learning_rate": 5.226169185953532e-05,
	"loss": 0.06324458122253418,
	"memory(GiB)": 36.91,
	"step": 785,
	"token_acc": 0.9822784810126582,
	"train_speed(iter/s)": 0.016157
	},
	{
	"epoch": 2.5713705583756346,
	"grad_norm": 0.716527670309396,
	"learning_rate": 5.1723440525060026e-05,
	"loss": 0.036973622441291806,
	"memory(GiB)": 36.91,
	"step": 790,
	"token_acc": 0.9828009828009828,
	"train_speed(iter/s)": 0.016157
	},
	{
	"epoch": 2.58761421319797,
	"grad_norm": 0.9508048665101771,
	"learning_rate": 5.118498915060307e-05,
	"loss": 0.04134515523910522,
	"memory(GiB)": 36.91,
	"step": 795,
	"token_acc": 0.9832402234636871,
	"train_speed(iter/s)": 0.016159
	},
	{
	"epoch": 2.6038578680203046,
	"grad_norm": 0.1695737988935869,
	"learning_rate": 5.064640023429043e-05,
	"loss": 0.0396234929561615,
	"memory(GiB)": 36.91,
	"step": 800,
	"token_acc": 0.9937888198757764,
	"train_speed(iter/s)": 0.01616
	},
	{
	"epoch": 2.6201015228426394,
	"grad_norm": 1.353410357397197,
	"learning_rate": 5.0107736290212603e-05,
	"loss": 0.032366597652435304,
	"memory(GiB)": 36.91,
	"step": 805,
	"token_acc": 0.9853658536585366,
	"train_speed(iter/s)": 0.016161
	},
	{
	"epoch": 2.6363451776649747,
	"grad_norm": 0.9287301884362714,
	"learning_rate": 4.956905984116858e-05,
	"loss": 0.02025129795074463,
	"memory(GiB)": 36.91,
	"step": 810,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016156
	},
	{
	"epoch": 2.65258883248731,
	"grad_norm": 0.6605215469870417,
	"learning_rate": 4.903043341140879e-05,
	"loss": 0.027498137950897217,
	"memory(GiB)": 36.91,
	"step": 815,
	"token_acc": 0.9890590809628009,
	"train_speed(iter/s)": 0.016158
	},
	{
	"epoch": 2.6688324873096447,
	"grad_norm": 1.284202747583917,
	"learning_rate": 4.84919195193779e-05,
	"loss": 0.04052730202674866,
	"memory(GiB)": 36.91,
	"step": 820,
	"token_acc": 0.9691714836223507,
	"train_speed(iter/s)": 0.016161
	},
	{
	"epoch": 2.6850761421319795,
	"grad_norm": 1.054572423840406,
	"learning_rate": 4.7953580670458345e-05,
	"loss": 0.029700332880020143,
	"memory(GiB)": 36.91,
	"step": 825,
	"token_acc": 0.9903381642512077,
	"train_speed(iter/s)": 0.016161
	},
	{
	"epoch": 2.701319796954315,
	"grad_norm": 1.515148160249309,
	"learning_rate": 4.7415479349715275e-05,
	"loss": 0.03995212614536285,
	"memory(GiB)": 36.91,
	"step": 830,
	"token_acc": 0.9887005649717514,
	"train_speed(iter/s)": 0.016163
	},
	{
	"epoch": 2.7175634517766496,
	"grad_norm": 0.7966857436927859,
	"learning_rate": 4.687767801464388e-05,
	"loss": 0.029492130875587462,
	"memory(GiB)": 36.91,
	"step": 835,
	"token_acc": 0.9946091644204852,
	"train_speed(iter/s)": 0.016162
	},
	{
	"epoch": 2.733807106598985,
	"grad_norm": 0.6747809015160623,
	"learning_rate": 4.634023908791999e-05,
	"loss": 0.028040975332260132,
	"memory(GiB)": 36.91,
	"step": 840,
	"token_acc": 0.9950372208436724,
	"train_speed(iter/s)": 0.016165
	},
	{
	"epoch": 2.7500507614213197,
	"grad_norm": 0.7236373548114289,
	"learning_rate": 4.5803224950154656e-05,
	"loss": 0.022182533144950868,
	"memory(GiB)": 36.91,
	"step": 845,
	"token_acc": 0.9973753280839895,
	"train_speed(iter/s)": 0.016167
	},
	{
	"epoch": 2.766294416243655,
	"grad_norm": 0.8702609694851884,
	"learning_rate": 4.5266697932653616e-05,
	"loss": 0.03542717695236206,
	"memory(GiB)": 36.91,
	"step": 850,
	"token_acc": 0.9930394431554525,
	"train_speed(iter/s)": 0.016168
	},
	{
	"epoch": 2.7825380710659897,
	"grad_norm": 0.2339976820774803,
	"learning_rate": 4.473072031018248e-05,
	"loss": 0.017447268962860106,
	"memory(GiB)": 36.91,
	"step": 855,
	"token_acc": 0.9897172236503856,
	"train_speed(iter/s)": 0.016172
	},
	{
	"epoch": 2.798781725888325,
	"grad_norm": 1.7564108472908913,
	"learning_rate": 4.4195354293738484e-05,
	"loss": 0.040924933552742,
	"memory(GiB)": 36.91,
	"step": 860,
	"token_acc": 0.9693396226415094,
	"train_speed(iter/s)": 0.016172
	},
	{
	"epoch": 2.8150253807106598,
	"grad_norm": 1.749637468786309,
	"learning_rate": 4.366066202332974e-05,
	"loss": 0.0398847758769989,
	"memory(GiB)": 36.91,
	"step": 865,
	"token_acc": 0.9884726224783862,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 2.831269035532995,
	"grad_norm": 1.6657986428559317,
	"learning_rate": 4.312670556076244e-05,
	"loss": 0.027478563785552978,
	"memory(GiB)": 36.91,
	"step": 870,
	"token_acc": 0.9953379953379954,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 2.84751269035533,
	"grad_norm": 0.8830417040757416,
	"learning_rate": 4.259354688243757e-05,
	"loss": 0.05422350764274597,
	"memory(GiB)": 36.91,
	"step": 875,
	"token_acc": 0.9813953488372092,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 2.863756345177665,
	"grad_norm": 1.4037166255295264,
	"learning_rate": 4.206124787215714e-05,
	"loss": 0.03585241138935089,
	"memory(GiB)": 36.91,
	"step": 880,
	"token_acc": 0.9929577464788732,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.40929439648007787,
	"learning_rate": 4.1529870313941386e-05,
	"loss": 0.037713998556137086,
	"memory(GiB)": 36.91,
	"step": 885,
	"token_acc": 0.9755555555555555,
	"train_speed(iter/s)": 0.016182
	},
	{
	"epoch": 2.896243654822335,
	"grad_norm": 0.5649136450093045,
	"learning_rate": 4.099947588485744e-05,
	"loss": 0.02235218584537506,
	"memory(GiB)": 36.91,
	"step": 890,
	"token_acc": 0.9738562091503268,
	"train_speed(iter/s)": 0.016179
	},
	{
	"epoch": 2.91248730964467,
	"grad_norm": 0.9411441260021843,
	"learning_rate": 4.047012614786055e-05,
	"loss": 0.03756971955299378,
	"memory(GiB)": 36.91,
	"step": 895,
	"token_acc": 0.9953596287703016,
	"train_speed(iter/s)": 0.016182
	},
	{
	"epoch": 2.928730964467005,
	"grad_norm": 0.493632814272918,
	"learning_rate": 3.994188254464838e-05,
	"loss": 0.03068949580192566,
	"memory(GiB)": 36.91,
	"step": 900,
	"token_acc": 0.9681372549019608,
	"train_speed(iter/s)": 0.016183
	},
	{
	"epoch": 2.94497461928934,
	"grad_norm": 0.9098057371042104,
	"learning_rate": 3.941480638852948e-05,
	"loss": 0.060313427448272706,
	"memory(GiB)": 36.91,
	"step": 905,
	"token_acc": 0.9809976247030879,
	"train_speed(iter/s)": 0.016186
	},
	{
	"epoch": 2.9612182741116753,
	"grad_norm": 0.7111307711774197,
	"learning_rate": 3.888895885730666e-05,
	"loss": 0.017010049521923067,
	"memory(GiB)": 36.91,
	"step": 910,
	"token_acc": 0.9949748743718593,
	"train_speed(iter/s)": 0.016184
	},
	{
	"epoch": 2.97746192893401,
	"grad_norm": 1.1085076966021257,
	"learning_rate": 3.836440098617611e-05,
	"loss": 0.0352476716041565,
	"memory(GiB)": 36.91,
	"step": 915,
	"token_acc": 0.9971264367816092,
	"train_speed(iter/s)": 0.016185
	},
	{
	"epoch": 2.9937055837563453,
	"grad_norm": 1.0414881730973389,
	"learning_rate": 3.784119366064293e-05,
	"loss": 0.036097651720046996,
	"memory(GiB)": 36.91,
	"step": 920,
	"token_acc": 0.9859484777517564,
	"train_speed(iter/s)": 0.016183
	},
	{
	"epoch": 2.996954314720812,
	"eval_loss": 0.2438431978225708,
	"eval_runtime": 61.9093,
	"eval_samples_per_second": 3.198,
	"eval_steps_per_second": 0.808,
	"eval_token_acc": 0.9426152398871119,
	"step": 921
	},
	{
	"epoch": 3.0123857868020303,
	"grad_norm": 0.40292122284066784,
	"learning_rate": 3.731939760945423e-05,
	"loss": 0.02739437222480774,
	"memory(GiB)": 36.91,
	"step": 925,
	"token_acc": 0.9686609686609686,
	"train_speed(iter/s)": 0.016163
	},
	{
	"epoch": 3.0286294416243655,
	"grad_norm": 2.9493043319197345,
	"learning_rate": 3.6799073397550324e-05,
	"loss": 0.023541851341724394,
	"memory(GiB)": 36.91,
	"step": 930,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016168
	},
	{
	"epoch": 3.0448730964467003,
	"grad_norm": 0.17930096671859505,
	"learning_rate": 3.628028141903493e-05,
	"loss": 0.011585032194852829,
	"memory(GiB)": 36.91,
	"step": 935,
	"token_acc": 0.9955849889624724,
	"train_speed(iter/s)": 0.016168
	},
	{
	"epoch": 3.0611167512690356,
	"grad_norm": 0.32421421634457975,
	"learning_rate": 3.576308189016521e-05,
	"loss": 0.01218060329556465,
	"memory(GiB)": 36.91,
	"step": 940,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016169
	},
	{
	"epoch": 3.0773604060913704,
	"grad_norm": 0.6594419595560748,
	"learning_rate": 3.5247534842362486e-05,
	"loss": 0.02207506597042084,
	"memory(GiB)": 36.91,
	"step": 945,
	"token_acc": 0.988558352402746,
	"train_speed(iter/s)": 0.016162
	},
	{
	"epoch": 3.0936040609137057,
	"grad_norm": 0.2767332960437252,
	"learning_rate": 3.473370011524435e-05,
	"loss": 0.007218687236309052,
	"memory(GiB)": 36.91,
	"step": 950,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016165
	},
	{
	"epoch": 3.1098477157360405,
	"grad_norm": 0.35071543831944074,
	"learning_rate": 3.422163734967913e-05,
	"loss": 0.01153595745563507,
	"memory(GiB)": 36.91,
	"step": 955,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 3.1260913705583757,
	"grad_norm": 0.09053944993100493,
	"learning_rate": 3.371140598086332e-05,
	"loss": 0.0028192587196826935,
	"memory(GiB)": 36.91,
	"step": 960,
	"token_acc": 0.9975247524752475,
	"train_speed(iter/s)": 0.016172
	},
	{
	"epoch": 3.1423350253807105,
	"grad_norm": 0.2428779518534084,
	"learning_rate": 3.3203065231422904e-05,
	"loss": 0.0033150166273117065,
	"memory(GiB)": 36.91,
	"step": 965,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016172
	},
	{
	"epoch": 3.1585786802030458,
	"grad_norm": 0.3634314044068558,
	"learning_rate": 3.269667410453944e-05,
	"loss": 0.006601892411708832,
	"memory(GiB)": 36.91,
	"step": 970,
	"token_acc": 0.9974160206718347,
	"train_speed(iter/s)": 0.016171
	},
	{
	"epoch": 3.1748223350253806,
	"grad_norm": 0.09528591509222967,
	"learning_rate": 3.2192291377101544e-05,
	"loss": 0.006571587175130844,
	"memory(GiB)": 36.91,
	"step": 975,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 3.191065989847716,
	"grad_norm": 1.3857004471442305,
	"learning_rate": 3.1689975592882603e-05,
	"loss": 0.010420820116996765,
	"memory(GiB)": 36.91,
	"step": 980,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 3.2073096446700506,
	"grad_norm": 0.6960737288379213,
	"learning_rate": 3.11897850557456e-05,
	"loss": 0.013220900297164917,
	"memory(GiB)": 36.91,
	"step": 985,
	"token_acc": 0.9951807228915662,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 3.223553299492386,
	"grad_norm": 0.9453732221306024,
	"learning_rate": 3.0691777822875846e-05,
	"loss": 0.01793895959854126,
	"memory(GiB)": 36.91,
	"step": 990,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 3.2397969543147207,
	"grad_norm": 0.7409992990444315,
	"learning_rate": 3.019601169804216e-05,
	"loss": 0.019229742884635925,
	"memory(GiB)": 36.91,
	"step": 995,
	"token_acc": 0.9945054945054945,
	"train_speed(iter/s)": 0.016174
	},
	{
	"epoch": 3.256040609137056,
	"grad_norm": 0.5679417621370911,
	"learning_rate": 2.9702544224887684e-05,
	"loss": 0.024555668234825134,
	"memory(GiB)": 36.91,
	"step": 1000,
	"token_acc": 0.9953161592505855,
	"train_speed(iter/s)": 0.016175
	},
	{
	"epoch": 3.2722842639593908,
	"grad_norm": 0.08818412948467023,
	"learning_rate": 2.9211432680250717e-05,
	"loss": 0.009600495547056198,
	"memory(GiB)": 36.91,
	"step": 1005,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 3.288527918781726,
	"grad_norm": 0.597788232010352,
	"learning_rate": 2.872273406751664e-05,
	"loss": 0.015477313101291657,
	"memory(GiB)": 36.91,
	"step": 1010,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016178
	},
	{
	"epoch": 3.304771573604061,
	"grad_norm": 0.5815875303347526,
	"learning_rate": 2.823650511000142e-05,
	"loss": 0.007314224541187286,
	"memory(GiB)": 36.91,
	"step": 1015,
	"token_acc": 0.9928741092636579,
	"train_speed(iter/s)": 0.016175
	},
	{
	"epoch": 3.321015228426396,
	"grad_norm": 0.06303638116527722,
	"learning_rate": 2.7752802244367875e-05,
	"loss": 0.0048162821680307385,
	"memory(GiB)": 36.91,
	"step": 1020,
	"token_acc": 0.9976359338061466,
	"train_speed(iter/s)": 0.016175
	},
	{
	"epoch": 3.337258883248731,
	"grad_norm": 1.530822467857818,
	"learning_rate": 2.7271681614074973e-05,
	"loss": 0.011756302416324615,
	"memory(GiB)": 36.91,
	"step": 1025,
	"token_acc": 0.9976744186046511,
	"train_speed(iter/s)": 0.016173
	},
	{
	"epoch": 3.353502538071066,
	"grad_norm": 0.03790601751186608,
	"learning_rate": 2.679319906286122e-05,
	"loss": 0.008612405508756638,
	"memory(GiB)": 36.91,
	"step": 1030,
	"token_acc": 0.9927184466019418,
	"train_speed(iter/s)": 0.016176
	},
	{
	"epoch": 3.369746192893401,
	"grad_norm": 0.21401768725028367,
	"learning_rate": 2.6317410128262954e-05,
	"loss": 0.006316320598125457,
	"memory(GiB)": 36.91,
	"step": 1035,
	"token_acc": 0.9950124688279302,
	"train_speed(iter/s)": 0.016179
	},
	{
	"epoch": 3.385989847715736,
	"grad_norm": 0.19540220508166592,
	"learning_rate": 2.5844370035168073e-05,
	"loss": 0.004939628392457962,
	"memory(GiB)": 36.91,
	"step": 1040,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016181
	},
	{
	"epoch": 3.402233502538071,
	"grad_norm": 0.8965894055639708,
	"learning_rate": 2.537413368940601e-05,
	"loss": 0.016151268780231477,
	"memory(GiB)": 36.91,
	"step": 1045,
	"token_acc": 0.9898785425101214,
	"train_speed(iter/s)": 0.016182
	},
	{
	"epoch": 3.4184771573604062,
	"grad_norm": 0.21427146738429803,
	"learning_rate": 2.4906755671374903e-05,
	"loss": 0.010773959755897521,
	"memory(GiB)": 36.91,
	"step": 1050,
	"token_acc": 0.9977827050997783,
	"train_speed(iter/s)": 0.016182
	},
	{
	"epoch": 3.434720812182741,
	"grad_norm": 0.09286838269357345,
	"learning_rate": 2.4442290229706344e-05,
	"loss": 0.004091666638851165,
	"memory(GiB)": 36.91,
	"step": 1055,
	"token_acc": 0.9954233409610984,
	"train_speed(iter/s)": 0.016183
	},
	{
	"epoch": 3.4509644670050763,
	"grad_norm": 0.13489614133107514,
	"learning_rate": 2.3980791274968837e-05,
	"loss": 0.018990179896354674,
	"memory(GiB)": 36.91,
	"step": 1060,
	"token_acc": 0.9945054945054945,
	"train_speed(iter/s)": 0.016184
	},
	{
	"epoch": 3.467208121827411,
	"grad_norm": 0.1825955700626613,
	"learning_rate": 2.3522312373410276e-05,
	"loss": 0.011526491492986679,
	"memory(GiB)": 36.91,
	"step": 1065,
	"token_acc": 0.997275204359673,
	"train_speed(iter/s)": 0.016188
	},
	{
	"epoch": 3.4834517766497464,
	"grad_norm": 0.2440094791459664,
	"learning_rate": 2.3066906740740623e-05,
	"loss": 0.019795812666416168,
	"memory(GiB)": 36.91,
	"step": 1070,
	"token_acc": 0.9896373056994818,
	"train_speed(iter/s)": 0.016187
	},
	{
	"epoch": 3.499695431472081,
	"grad_norm": 0.4913730237430669,
	"learning_rate": 2.2614627235955026e-05,
	"loss": 0.007270602881908417,
	"memory(GiB)": 36.91,
	"step": 1075,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016189
	},
	{
	"epoch": 3.5159390862944164,
	"grad_norm": 0.6922284750457558,
	"learning_rate": 2.2165526355198605e-05,
	"loss": 0.0127563938498497,
	"memory(GiB)": 36.91,
	"step": 1080,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 3.5321827411167512,
	"grad_norm": 0.6450602563278425,
	"learning_rate": 2.171965622567308e-05,
	"loss": 0.007853203266859055,
	"memory(GiB)": 36.91,
	"step": 1085,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016193
	},
	{
	"epoch": 3.548426395939086,
	"grad_norm": 0.3234875973475892,
	"learning_rate": 2.127706859958647e-05,
	"loss": 0.008352670073509216,
	"memory(GiB)": 36.91,
	"step": 1090,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016193
	},
	{
	"epoch": 3.5646700507614213,
	"grad_norm": 0.09371017997182811,
	"learning_rate": 2.0837814848146166e-05,
	"loss": 0.001982194371521473,
	"memory(GiB)": 36.91,
	"step": 1095,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 3.5809137055837565,
	"grad_norm": 0.8724610494447905,
	"learning_rate": 2.0401945955596206e-05,
	"loss": 0.0030656153336167335,
	"memory(GiB)": 36.91,
	"step": 1100,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016188
	},
	{
	"epoch": 3.5971573604060914,
	"grad_norm": 0.5650605008223917,
	"learning_rate": 1.9969512513299664e-05,
	"loss": 0.00554112084209919,
	"memory(GiB)": 36.91,
	"step": 1105,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01619
	},
	{
	"epoch": 3.613401015228426,
	"grad_norm": 0.39939968413297244,
	"learning_rate": 1.9540564713866387e-05,
	"loss": 0.006034587323665619,
	"memory(GiB)": 36.91,
	"step": 1110,
	"token_acc": 0.9948586118251928,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 3.6296446700507614,
	"grad_norm": 0.1065247660653177,
	"learning_rate": 1.9115152345327152e-05,
	"loss": 0.005482121184468269,
	"memory(GiB)": 36.91,
	"step": 1115,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 3.6458883248730967,
	"grad_norm": 0.8174090560458377,
	"learning_rate": 1.8693324785354822e-05,
	"loss": 0.011324305832386018,
	"memory(GiB)": 36.91,
	"step": 1120,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016193
	},
	{
	"epoch": 3.6621319796954315,
	"grad_norm": 0.17850770204119407,
	"learning_rate": 1.8275130995532974e-05,
	"loss": 0.0144767165184021,
	"memory(GiB)": 36.91,
	"step": 1125,
	"token_acc": 0.9978586723768736,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 3.6783756345177663,
	"grad_norm": 0.33877743892749795,
	"learning_rate": 1.7860619515673033e-05,
	"loss": 0.01116895154118538,
	"memory(GiB)": 36.91,
	"step": 1130,
	"token_acc": 0.9953271028037384,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 3.6946192893401015,
	"grad_norm": 0.5168488777536275,
	"learning_rate": 1.744983845818019e-05,
	"loss": 0.0068625412881374356,
	"memory(GiB)": 36.91,
	"step": 1135,
	"token_acc": 0.9978213507625272,
	"train_speed(iter/s)": 0.0162
	},
	{
	"epoch": 3.710862944162437,
	"grad_norm": 0.7346145409084535,
	"learning_rate": 1.7042835502468934e-05,
	"loss": 0.002322973683476448,
	"memory(GiB)": 36.91,
	"step": 1140,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016197
	},
	{
	"epoch": 3.7271065989847716,
	"grad_norm": 0.6646625028373466,
	"learning_rate": 1.6639657889429018e-05,
	"loss": 0.018248292803764343,
	"memory(GiB)": 36.91,
	"step": 1145,
	"token_acc": 0.9840182648401826,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 3.7433502538071064,
	"grad_norm": 0.8354437881107281,
	"learning_rate": 1.624035241594213e-05,
	"loss": 0.006459401547908783,
	"memory(GiB)": 36.91,
	"step": 1150,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016193
	},
	{
	"epoch": 3.7595939086294416,
	"grad_norm": 0.2958093671449778,
	"learning_rate": 1.5844965429450132e-05,
	"loss": 0.008441635966300964,
	"memory(GiB)": 36.91,
	"step": 1155,
	"token_acc": 0.9834368530020704,
	"train_speed(iter/s)": 0.016192
	},
	{
	"epoch": 3.775837563451777,
	"grad_norm": 0.4306627690474224,
	"learning_rate": 1.545354282257562e-05,
	"loss": 0.015231077373027802,
	"memory(GiB)": 36.91,
	"step": 1160,
	"token_acc": 0.9976851851851852,
	"train_speed(iter/s)": 0.016196
	},
	{
	"epoch": 3.7920812182741117,
	"grad_norm": 0.0801666210860899,
	"learning_rate": 1.5066130027795044e-05,
	"loss": 0.02225690186023712,
	"memory(GiB)": 36.91,
	"step": 1165,
	"token_acc": 0.9886363636363636,
	"train_speed(iter/s)": 0.0162
	},
	{
	"epoch": 3.8083248730964465,
	"grad_norm": 1.390297822775598,
	"learning_rate": 1.4682772012165436e-05,
	"loss": 0.011767344176769256,
	"memory(GiB)": 36.91,
	"step": 1170,
	"token_acc": 0.9953810623556582,
	"train_speed(iter/s)": 0.0162
	},
	{
	"epoch": 3.8245685279187818,
	"grad_norm": 0.576269037629794,
	"learning_rate": 1.4303513272105057e-05,
	"loss": 0.01135575920343399,
	"memory(GiB)": 36.91,
	"step": 1175,
	"token_acc": 0.9976744186046511,
	"train_speed(iter/s)": 0.016199
	},
	{
	"epoch": 3.840812182741117,
	"grad_norm": 0.6175307257021349,
	"learning_rate": 1.3928397828228628e-05,
	"loss": 0.00802643597126007,
	"memory(GiB)": 36.91,
	"step": 1180,
	"token_acc": 0.9950738916256158,
	"train_speed(iter/s)": 0.016201
	},
	{
	"epoch": 3.857055837563452,
	"grad_norm": 0.13098006216818975,
	"learning_rate": 1.3557469220237962e-05,
	"loss": 0.011502113938331605,
	"memory(GiB)": 36.91,
	"step": 1185,
	"token_acc": 0.9935344827586207,
	"train_speed(iter/s)": 0.016204
	},
	{
	"epoch": 3.8732994923857866,
	"grad_norm": 0.3987654668677921,
	"learning_rate": 1.3190770501868243e-05,
	"loss": 0.011363585293293,
	"memory(GiB)": 36.91,
	"step": 1190,
	"token_acc": 0.9974160206718347,
	"train_speed(iter/s)": 0.016203
	},
	{
	"epoch": 3.889543147208122,
	"grad_norm": 0.14976124575026759,
	"learning_rate": 1.2828344235890726e-05,
	"loss": 0.01089974120259285,
	"memory(GiB)": 36.91,
	"step": 1195,
	"token_acc": 0.9933481152993349,
	"train_speed(iter/s)": 0.016203
	},
	{
	"epoch": 3.9057868020304567,
	"grad_norm": 1.5199866835408566,
	"learning_rate": 1.247023248917259e-05,
	"loss": 0.009822697192430497,
	"memory(GiB)": 36.91,
	"step": 1200,
	"token_acc": 0.9929742388758782,
	"train_speed(iter/s)": 0.016204
	},
	{
	"epoch": 3.922030456852792,
	"grad_norm": 1.6580131250235997,
	"learning_rate": 1.2116476827794104e-05,
	"loss": 0.024014970660209654,
	"memory(GiB)": 36.91,
	"step": 1205,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016204
	},
	{
	"epoch": 3.9382741116751268,
	"grad_norm": 1.157754837023021,
	"learning_rate": 1.1767118312224151e-05,
	"loss": 0.007532584667205811,
	"memory(GiB)": 36.91,
	"step": 1210,
	"token_acc": 0.9972375690607734,
	"train_speed(iter/s)": 0.016207
	},
	{
	"epoch": 3.954517766497462,
	"grad_norm": 0.6972765226059477,
	"learning_rate": 1.142219749255427e-05,
	"loss": 0.004430451989173889,
	"memory(GiB)": 36.91,
	"step": 1215,
	"token_acc": 0.9972677595628415,
	"train_speed(iter/s)": 0.016207
	},
	{
	"epoch": 3.970761421319797,
	"grad_norm": 2.2979580480692188,
	"learning_rate": 1.1081754403791999e-05,
	"loss": 0.015141716599464417,
	"memory(GiB)": 36.91,
	"step": 1220,
	"token_acc": 0.9954337899543378,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 3.987005076142132,
	"grad_norm": 0.2965970510784761,
	"learning_rate": 1.0745828561214056e-05,
	"loss": 0.021216361224651335,
	"memory(GiB)": 36.91,
	"step": 1225,
	"token_acc": 0.9954337899543378,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 3.996751269035533,
	"eval_loss": 0.29802748560905457,
	"eval_runtime": 62.08,
	"eval_samples_per_second": 3.189,
	"eval_steps_per_second": 0.805,
	"eval_token_acc": 0.9388523047977423,
	"step": 1228
	},
	{
	"epoch": 4.0056852791878175,
	"grad_norm": 0.7419564842144963,
	"learning_rate": 1.041445895577977e-05,
	"loss": 0.009254975616931916,
	"memory(GiB)": 36.91,
	"step": 1230,
	"token_acc": 0.9668174962292609,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 4.021928934010153,
	"grad_norm": 0.1343462548929871,
	"learning_rate": 1.008768404960535e-05,
	"loss": 0.002759779617190361,
	"memory(GiB)": 36.91,
	"step": 1235,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016192
	},
	{
	"epoch": 4.038172588832487,
	"grad_norm": 0.08229350773537837,
	"learning_rate": 9.765541771499659e-06,
	"loss": 0.0012123636901378632,
	"memory(GiB)": 36.91,
	"step": 1240,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016192
	},
	{
	"epoch": 4.054416243654822,
	"grad_norm": 0.08190000464747839,
	"learning_rate": 9.448069512561775e-06,
	"loss": 0.0066297553479671475,
	"memory(GiB)": 36.91,
	"step": 1245,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 4.070659898477158,
	"grad_norm": 0.12397302242146173,
	"learning_rate": 9.135304121840976e-06,
	"loss": 0.0012923330999910832,
	"memory(GiB)": 36.91,
	"step": 1250,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016192
	},
	{
	"epoch": 4.086903553299492,
	"grad_norm": 0.057048418793994596,
	"learning_rate": 8.827281902059698e-06,
	"loss": 0.0007107659243047237,
	"memory(GiB)": 36.91,
	"step": 1255,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 4.103147208121827,
	"grad_norm": 0.16324844745357645,
	"learning_rate": 8.524038605399886e-06,
	"loss": 0.0021383626386523246,
	"memory(GiB)": 36.91,
	"step": 1260,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016189
	},
	{
	"epoch": 4.1193908629441625,
	"grad_norm": 0.06874787839714207,
	"learning_rate": 8.225609429353187e-06,
	"loss": 0.0028022559359669684,
	"memory(GiB)": 36.91,
	"step": 1265,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016188
	},
	{
	"epoch": 4.135634517766498,
	"grad_norm": 0.2526140368602798,
	"learning_rate": 7.932029012635623e-06,
	"loss": 0.003260459750890732,
	"memory(GiB)": 36.91,
	"step": 1270,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016187
	},
	{
	"epoch": 4.151878172588832,
	"grad_norm": 0.14918347721067196,
	"learning_rate": 7.643331431167017e-06,
	"loss": 0.004188637435436249,
	"memory(GiB)": 36.91,
	"step": 1275,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016188
	},
	{
	"epoch": 4.168121827411167,
	"grad_norm": 0.46928271799249704,
	"learning_rate": 7.35955019411585e-06,
	"loss": 0.011932872980833054,
	"memory(GiB)": 36.91,
	"step": 1280,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016191
	},
	{
	"epoch": 4.184365482233503,
	"grad_norm": 0.07080459315091195,
	"learning_rate": 7.080718240009826e-06,
	"loss": 0.004019932448863983,
	"memory(GiB)": 36.91,
	"step": 1285,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01619
	},
	{
	"epoch": 4.200609137055838,
	"grad_norm": 0.7271340874397169,
	"learning_rate": 6.806867932912653e-06,
	"loss": 0.0061328854411840435,
	"memory(GiB)": 36.91,
	"step": 1290,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016194
	},
	{
	"epoch": 4.216852791878172,
	"grad_norm": 0.1265328539578886,
	"learning_rate": 6.53803105866761e-06,
	"loss": 0.006417517364025116,
	"memory(GiB)": 36.91,
	"step": 1295,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016196
	},
	{
	"epoch": 4.233096446700507,
	"grad_norm": 0.057288978819073196,
	"learning_rate": 6.274238821208128e-06,
	"loss": 0.003987757861614228,
	"memory(GiB)": 36.91,
	"step": 1300,
	"token_acc": 0.9975062344139651,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 4.249340101522843,
	"grad_norm": 0.1481683428098521,
	"learning_rate": 6.015521838935905e-06,
	"loss": 0.0010721445083618163,
	"memory(GiB)": 36.91,
	"step": 1305,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016194
	},
	{
	"epoch": 4.265583756345178,
	"grad_norm": 0.10590383120253814,
	"learning_rate": 5.7619101411671095e-06,
	"loss": 0.002213609591126442,
	"memory(GiB)": 36.91,
	"step": 1310,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016195
	},
	{
	"epoch": 4.281827411167512,
	"grad_norm": 0.04714189372424805,
	"learning_rate": 5.513433164646814e-06,
	"loss": 0.0011348580941557885,
	"memory(GiB)": 36.91,
	"step": 1315,
	"token_acc": 0.9976689976689976,
	"train_speed(iter/s)": 0.016199
	},
	{
	"epoch": 4.298071065989848,
	"grad_norm": 0.476391282204877,
	"learning_rate": 5.270119750132258e-06,
	"loss": 0.004196888953447342,
	"memory(GiB)": 36.91,
	"step": 1320,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016201
	},
	{
	"epoch": 4.314314720812183,
	"grad_norm": 0.35042552841819846,
	"learning_rate": 5.031998139045352e-06,
	"loss": 0.0034095611423254012,
	"memory(GiB)": 36.91,
	"step": 1325,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016203
	},
	{
	"epoch": 4.330558375634518,
	"grad_norm": 0.05524764971116243,
	"learning_rate": 4.799095970194628e-06,
	"loss": 0.0037711452692747115,
	"memory(GiB)": 36.91,
	"step": 1330,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016203
	},
	{
	"epoch": 4.346802030456852,
	"grad_norm": 0.5445980593755461,
	"learning_rate": 4.571440276567257e-06,
	"loss": 0.0024499524384737014,
	"memory(GiB)": 36.91,
	"step": 1335,
	"token_acc": 0.997624703087886,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 4.363045685279188,
	"grad_norm": 0.10598886435572437,
	"learning_rate": 4.349057482191299e-06,
	"loss": 0.004410183429718018,
	"memory(GiB)": 36.91,
	"step": 1340,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 4.379289340101523,
	"grad_norm": 0.04699969388550453,
	"learning_rate": 4.1319733990686446e-06,
	"loss": 0.0011100947856903076,
	"memory(GiB)": 36.91,
	"step": 1345,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016205
	},
	{
	"epoch": 4.395532994923858,
	"grad_norm": 0.017045928815902597,
	"learning_rate": 3.920213224179042e-06,
	"loss": 0.00034863052424043416,
	"memory(GiB)": 36.91,
	"step": 1350,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 4.4117766497461925,
	"grad_norm": 0.7161935581935048,
	"learning_rate": 3.7138015365554833e-06,
	"loss": 0.0035605177283287047,
	"memory(GiB)": 36.91,
	"step": 1355,
	"token_acc": 0.9977220956719818,
	"train_speed(iter/s)": 0.016207
	},
	{
	"epoch": 4.428020304568528,
	"grad_norm": 0.06887525802872778,
	"learning_rate": 3.512762294431271e-06,
	"loss": 0.006134101003408432,
	"memory(GiB)": 36.91,
	"step": 1360,
	"token_acc": 0.9975186104218362,
	"train_speed(iter/s)": 0.016208
	},
	{
	"epoch": 4.444263959390863,
	"grad_norm": 0.041826315852571724,
	"learning_rate": 3.3171188324592427e-06,
	"loss": 0.0012344198301434516,
	"memory(GiB)": 36.91,
	"step": 1365,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016208
	},
	{
	"epoch": 4.460507614213198,
	"grad_norm": 0.07787992465189252,
	"learning_rate": 3.126893859003249e-06,
	"loss": 0.0013754777610301971,
	"memory(GiB)": 36.91,
	"step": 1370,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016208
	},
	{
	"epoch": 4.476751269035533,
	"grad_norm": 0.9611581457799497,
	"learning_rate": 2.9421094535024507e-06,
	"loss": 0.004121043905615807,
	"memory(GiB)": 36.91,
	"step": 1375,
	"token_acc": 0.9933920704845814,
	"train_speed(iter/s)": 0.016206
	},
	{
	"epoch": 4.492994923857868,
	"grad_norm": 0.11072593270596472,
	"learning_rate": 2.762787063908523e-06,
	"loss": 0.0024029091000556946,
	"memory(GiB)": 36.91,
	"step": 1380,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016205
	},
	{
	"epoch": 4.509238578680203,
	"grad_norm": 0.02340550565254115,
	"learning_rate": 2.5889475041961765e-06,
	"loss": 0.001028289459645748,
	"memory(GiB)": 36.91,
	"step": 1385,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.525482233502538,
	"grad_norm": 0.08895116218405089,
	"learning_rate": 2.4206109519473163e-06,
	"loss": 0.0021161407232284544,
	"memory(GiB)": 36.91,
	"step": 1390,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016211
	},
	{
	"epoch": 4.541725888324873,
	"grad_norm": 0.24076601170504602,
	"learning_rate": 2.2577969460089997e-06,
	"loss": 0.0007429494522511959,
	"memory(GiB)": 36.91,
	"step": 1395,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.557969543147208,
	"grad_norm": 0.19664829308024404,
	"learning_rate": 2.100524384225555e-06,
	"loss": 0.0008249727077782154,
	"memory(GiB)": 36.91,
	"step": 1400,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.574213197969543,
	"grad_norm": 0.06599531052332817,
	"learning_rate": 1.948811521245131e-06,
	"loss": 0.000786225963383913,
	"memory(GiB)": 36.91,
	"step": 1405,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016209
	},
	{
	"epoch": 4.5904568527918785,
	"grad_norm": 0.10702737644857346,
	"learning_rate": 1.8026759664008465e-06,
	"loss": 0.003063713386654854,
	"memory(GiB)": 36.91,
	"step": 1410,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016207
	},
	{
	"epoch": 4.606700507614213,
	"grad_norm": 0.41678449867799244,
	"learning_rate": 1.6621346816668992e-06,
	"loss": 0.00532943345606327,
	"memory(GiB)": 36.91,
	"step": 1415,
	"token_acc": 0.9937629937629938,
	"train_speed(iter/s)": 0.016207
	},
	{
	"epoch": 4.622944162436548,
	"grad_norm": 0.029982460463042173,
	"learning_rate": 1.5272039796897786e-06,
	"loss": 0.0017097776755690575,
	"memory(GiB)": 36.91,
	"step": 1420,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016209
	},
	{
	"epoch": 4.639187817258883,
	"grad_norm": 0.03591858354249925,
	"learning_rate": 1.397899521894841e-06,
	"loss": 0.0013645312748849392,
	"memory(GiB)": 36.91,
	"step": 1425,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.655431472081219,
	"grad_norm": 0.04773799774300644,
	"learning_rate": 1.2742363166685034e-06,
	"loss": 0.0009639391675591469,
	"memory(GiB)": 36.91,
	"step": 1430,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.671675126903553,
	"grad_norm": 0.129000803673704,
	"learning_rate": 1.15622871761622e-06,
	"loss": 0.0005136763211339712,
	"memory(GiB)": 36.91,
	"step": 1435,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.687918781725888,
	"grad_norm": 0.029179325549530243,
	"learning_rate": 1.0438904218964319e-06,
	"loss": 0.0004105303902179003,
	"memory(GiB)": 36.91,
	"step": 1440,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016213
	},
	{
	"epoch": 4.7041624365482235,
	"grad_norm": 0.04897256940654327,
	"learning_rate": 9.372344686307655e-07,
	"loss": 0.0009922079741954803,
	"memory(GiB)": 36.91,
	"step": 1445,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.720406091370558,
	"grad_norm": 0.0393178010532892,
	"learning_rate": 8.362732373905723e-07,
	"loss": 0.0008288329467177391,
	"memory(GiB)": 36.91,
	"step": 1450,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016214
	},
	{
	"epoch": 4.736649746192893,
	"grad_norm": 0.08771738931354985,
	"learning_rate": 7.410184467600001e-07,
	"loss": 0.0005111692938953638,
	"memory(GiB)": 36.91,
	"step": 1455,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016214
	},
	{
	"epoch": 4.752893401015228,
	"grad_norm": 0.04916799951696976,
	"learning_rate": 6.514811529758747e-07,
	"loss": 0.007441927492618561,
	"memory(GiB)": 36.91,
	"step": 1460,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016214
	},
	{
	"epoch": 4.769137055837564,
	"grad_norm": 0.44716598217302617,
	"learning_rate": 5.676717486443439e-07,
	"loss": 0.0024275451898574827,
	"memory(GiB)": 36.91,
	"step": 1465,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016214
	},
	{
	"epoch": 4.785380710659899,
	"grad_norm": 0.12117859136787597,
	"learning_rate": 4.895999615346314e-07,
	"loss": 0.001637093722820282,
	"memory(GiB)": 36.91,
	"step": 1470,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016214
	},
	{
	"epoch": 4.801624365482233,
	"grad_norm": 0.01706819131966345,
	"learning_rate": 4.1727485344994486e-07,
	"loss": 0.0003483247943222523,
	"memory(GiB)": 36.91,
	"step": 1475,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.8178680203045685,
	"grad_norm": 0.04859669108953238,
	"learning_rate": 3.507048191756401e-07,
	"loss": 0.0021356761455535887,
	"memory(GiB)": 36.91,
	"step": 1480,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.834111675126904,
	"grad_norm": 0.03682429514387162,
	"learning_rate": 2.8989758550487245e-07,
	"loss": 0.0021858945488929748,
	"memory(GiB)": 36.91,
	"step": 1485,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016213
	},
	{
	"epoch": 4.850355329949238,
	"grad_norm": 0.06507640939116277,
	"learning_rate": 2.3486021034170857e-07,
	"loss": 0.002923069894313812,
	"memory(GiB)": 36.91,
	"step": 1490,
	"token_acc": 0.9977064220183486,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.866598984771573,
	"grad_norm": 0.04259804746440851,
	"learning_rate": 1.8559908188195418e-07,
	"loss": 0.0019719479605555534,
	"memory(GiB)": 36.91,
	"step": 1495,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.882842639593909,
	"grad_norm": 0.25393381486977334,
	"learning_rate": 1.4211991787164147e-07,
	"loss": 0.0011512625962495804,
	"memory(GiB)": 36.91,
	"step": 1500,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016215
	},
	{
	"epoch": 4.899086294416244,
	"grad_norm": 0.21720000107148496,
	"learning_rate": 1.044277649433989e-07,
	"loss": 0.003379678726196289,
	"memory(GiB)": 36.91,
	"step": 1505,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016213
	},
	{
	"epoch": 4.915329949238579,
	"grad_norm": 0.6636335728606932,
	"learning_rate": 7.252699803065311e-08,
	"loss": 0.014554958045482635,
	"memory(GiB)": 36.91,
	"step": 1510,
	"token_acc": 0.9886792452830189,
	"train_speed(iter/s)": 0.016211
	},
	{
	"epoch": 4.9315736040609135,
	"grad_norm": 0.042674818413491626,
	"learning_rate": 4.6421319859862864e-08,
	"loss": 0.0024311095476150513,
	"memory(GiB)": 36.91,
	"step": 1515,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016212
	},
	{
	"epoch": 4.947817258883249,
	"grad_norm": 0.07981897617268605,
	"learning_rate": 2.6113760520735108e-08,
	"loss": 0.0024462098255753515,
	"memory(GiB)": 36.91,
	"step": 1520,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.964060913705584,
	"grad_norm": 0.01695528976036472,
	"learning_rate": 1.1606677114500697e-08,
	"loss": 0.011407441645860671,
	"memory(GiB)": 36.91,
	"step": 1525,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.980304568527918,
	"grad_norm": 0.05383783400729952,
	"learning_rate": 2.901753480361036e-09,
	"loss": 0.005226198583841324,
	"memory(GiB)": 36.91,
	"step": 1530,
	"token_acc": 0.9956521739130435,
	"train_speed(iter/s)": 0.01621
	},
	{
	"epoch": 4.996548223350254,
	"grad_norm": 0.9774296313594534,
	"learning_rate": 0.0,
	"loss": 0.003532126545906067,
	"memory(GiB)": 36.91,
	"step": 1535,
	"token_acc": 1.0,
	"train_speed(iter/s)": 0.016209
	},
	{
	"epoch": 4.996548223350254,
	"eval_loss": 0.31882038712501526,
	"eval_runtime": 62.2556,
	"eval_samples_per_second": 3.18,
	"eval_steps_per_second": 0.803,
	"eval_token_acc": 0.9397930385700847,
	"step": 1535
	},
	{
	"epoch": 4.996548223350254,
	"eval_loss": 0.31882038712501526,
	"eval_runtime": 62.6813,
	"eval_samples_per_second": 3.159,
	"eval_steps_per_second": 0.798,
	"eval_token_acc": 0.9397930385700847,
	"step": 1535
	}
	],
	"logging_steps": 5,
	"max_steps": 1535,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.2119246482890555e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}