prog-synthesis-java-v2.0 / last-checkpoint /trainer_state.json

Training in progress, step 5692, checkpoint

329a611 verified about 1 year ago

32.1 kB

	{
	"best_metric": 0.20129592716693878,
	"best_model_checkpoint": "./fine-tuned/checkpoint-5500",
	"epoch": 3.9985950122936424,
	"eval_steps": 100,
	"global_step": 5692,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.035124692658939236,
	"grad_norm": 31298.91015625,
	"learning_rate": 2.9736472241742796e-05,
	"loss": 0.2772,
	"step": 50
	},
	{
	"epoch": 0.07024938531787847,
	"grad_norm": 28423.171875,
	"learning_rate": 2.9472944483485594e-05,
	"loss": 0.2575,
	"step": 100
	},
	{
	"epoch": 0.07024938531787847,
	"eval_loss": 0.22961987555027008,
	"eval_runtime": 67.6563,
	"eval_samples_per_second": 65.921,
	"eval_steps_per_second": 2.069,
	"step": 100
	},
	{
	"epoch": 0.1053740779768177,
	"grad_norm": 28882.9609375,
	"learning_rate": 2.9209416725228392e-05,
	"loss": 0.24,
	"step": 150
	},
	{
	"epoch": 0.14049877063575694,
	"grad_norm": 44492.234375,
	"learning_rate": 2.894588896697119e-05,
	"loss": 0.2427,
	"step": 200
	},
	{
	"epoch": 0.14049877063575694,
	"eval_loss": 0.22477279603481293,
	"eval_runtime": 67.2438,
	"eval_samples_per_second": 66.326,
	"eval_steps_per_second": 2.082,
	"step": 200
	},
	{
	"epoch": 0.17562346329469616,
	"grad_norm": 23385.271484375,
	"learning_rate": 2.8682361208713985e-05,
	"loss": 0.237,
	"step": 250
	},
	{
	"epoch": 0.2107481559536354,
	"grad_norm": 65184.7578125,
	"learning_rate": 2.841883345045678e-05,
	"loss": 0.2351,
	"step": 300
	},
	{
	"epoch": 0.2107481559536354,
	"eval_loss": 0.22264569997787476,
	"eval_runtime": 67.1557,
	"eval_samples_per_second": 66.413,
	"eval_steps_per_second": 2.085,
	"step": 300
	},
	{
	"epoch": 0.24587284861257463,
	"grad_norm": 26510.09375,
	"learning_rate": 2.8155305692199578e-05,
	"loss": 0.2387,
	"step": 350
	},
	{
	"epoch": 0.2809975412715139,
	"grad_norm": 35873.625,
	"learning_rate": 2.7891777933942376e-05,
	"loss": 0.239,
	"step": 400
	},
	{
	"epoch": 0.2809975412715139,
	"eval_loss": 0.22040367126464844,
	"eval_runtime": 67.2556,
	"eval_samples_per_second": 66.314,
	"eval_steps_per_second": 2.082,
	"step": 400
	},
	{
	"epoch": 0.31612223393045313,
	"grad_norm": 190454.703125,
	"learning_rate": 2.7628250175685175e-05,
	"loss": 0.2343,
	"step": 450
	},
	{
	"epoch": 0.3512469265893923,
	"grad_norm": 27248.146484375,
	"learning_rate": 2.736472241742797e-05,
	"loss": 0.2349,
	"step": 500
	},
	{
	"epoch": 0.3512469265893923,
	"eval_loss": 0.21807625889778137,
	"eval_runtime": 67.3281,
	"eval_samples_per_second": 66.243,
	"eval_steps_per_second": 2.079,
	"step": 500
	},
	{
	"epoch": 0.3863716192483316,
	"grad_norm": 21019.255859375,
	"learning_rate": 2.7101194659170764e-05,
	"loss": 0.2286,
	"step": 550
	},
	{
	"epoch": 0.4214963119072708,
	"grad_norm": 23071.5703125,
	"learning_rate": 2.6837666900913563e-05,
	"loss": 0.2311,
	"step": 600
	},
	{
	"epoch": 0.4214963119072708,
	"eval_loss": 0.21645724773406982,
	"eval_runtime": 67.1857,
	"eval_samples_per_second": 66.383,
	"eval_steps_per_second": 2.084,
	"step": 600
	},
	{
	"epoch": 0.45662100456621,
	"grad_norm": 21536.572265625,
	"learning_rate": 2.657413914265636e-05,
	"loss": 0.2249,
	"step": 650
	},
	{
	"epoch": 0.49174569722514927,
	"grad_norm": 22037.119140625,
	"learning_rate": 2.631061138439916e-05,
	"loss": 0.2302,
	"step": 700
	},
	{
	"epoch": 0.49174569722514927,
	"eval_loss": 0.21522314846515656,
	"eval_runtime": 67.377,
	"eval_samples_per_second": 66.195,
	"eval_steps_per_second": 2.078,
	"step": 700
	},
	{
	"epoch": 0.5268703898840885,
	"grad_norm": 24826.04296875,
	"learning_rate": 2.6047083626141954e-05,
	"loss": 0.2295,
	"step": 750
	},
	{
	"epoch": 0.5619950825430278,
	"grad_norm": 21309.46875,
	"learning_rate": 2.578355586788475e-05,
	"loss": 0.2265,
	"step": 800
	},
	{
	"epoch": 0.5619950825430278,
	"eval_loss": 0.21485908329486847,
	"eval_runtime": 67.9456,
	"eval_samples_per_second": 65.641,
	"eval_steps_per_second": 2.06,
	"step": 800
	},
	{
	"epoch": 0.597119775201967,
	"grad_norm": 21253.212890625,
	"learning_rate": 2.5520028109627547e-05,
	"loss": 0.2255,
	"step": 850
	},
	{
	"epoch": 0.6322444678609063,
	"grad_norm": 25884.013671875,
	"learning_rate": 2.5256500351370345e-05,
	"loss": 0.2189,
	"step": 900
	},
	{
	"epoch": 0.6322444678609063,
	"eval_loss": 0.21369116008281708,
	"eval_runtime": 67.5126,
	"eval_samples_per_second": 66.062,
	"eval_steps_per_second": 2.074,
	"step": 900
	},
	{
	"epoch": 0.6673691605198454,
	"grad_norm": 32345.33203125,
	"learning_rate": 2.4992972593113144e-05,
	"loss": 0.2177,
	"step": 950
	},
	{
	"epoch": 0.7024938531787847,
	"grad_norm": 22764.255859375,
	"learning_rate": 2.472944483485594e-05,
	"loss": 0.2205,
	"step": 1000
	},
	{
	"epoch": 0.7024938531787847,
	"eval_loss": 0.2125701606273651,
	"eval_runtime": 67.5281,
	"eval_samples_per_second": 66.047,
	"eval_steps_per_second": 2.073,
	"step": 1000
	},
	{
	"epoch": 0.7376185458377239,
	"grad_norm": 26256.35546875,
	"learning_rate": 2.4465917076598737e-05,
	"loss": 0.2224,
	"step": 1050
	},
	{
	"epoch": 0.7727432384966632,
	"grad_norm": 29107.78515625,
	"learning_rate": 2.420238931834153e-05,
	"loss": 0.2211,
	"step": 1100
	},
	{
	"epoch": 0.7727432384966632,
	"eval_loss": 0.2117428034543991,
	"eval_runtime": 67.5369,
	"eval_samples_per_second": 66.038,
	"eval_steps_per_second": 2.073,
	"step": 1100
	},
	{
	"epoch": 0.8078679311556024,
	"grad_norm": 98354.15625,
	"learning_rate": 2.393886156008433e-05,
	"loss": 0.215,
	"step": 1150
	},
	{
	"epoch": 0.8429926238145417,
	"grad_norm": 22886.3984375,
	"learning_rate": 2.3675333801827128e-05,
	"loss": 0.2229,
	"step": 1200
	},
	{
	"epoch": 0.8429926238145417,
	"eval_loss": 0.2107735425233841,
	"eval_runtime": 67.6295,
	"eval_samples_per_second": 65.948,
	"eval_steps_per_second": 2.07,
	"step": 1200
	},
	{
	"epoch": 0.8781173164734809,
	"grad_norm": 20510.26171875,
	"learning_rate": 2.3411806043569923e-05,
	"loss": 0.2105,
	"step": 1250
	},
	{
	"epoch": 0.91324200913242,
	"grad_norm": 20053.85546875,
	"learning_rate": 2.314827828531272e-05,
	"loss": 0.2195,
	"step": 1300
	},
	{
	"epoch": 0.91324200913242,
	"eval_loss": 0.20966531336307526,
	"eval_runtime": 67.6112,
	"eval_samples_per_second": 65.965,
	"eval_steps_per_second": 2.071,
	"step": 1300
	},
	{
	"epoch": 0.9483667017913593,
	"grad_norm": 28154.595703125,
	"learning_rate": 2.2884750527055516e-05,
	"loss": 0.2215,
	"step": 1350
	},
	{
	"epoch": 0.9834913944502985,
	"grad_norm": 28011.71484375,
	"learning_rate": 2.2621222768798314e-05,
	"loss": 0.2172,
	"step": 1400
	},
	{
	"epoch": 0.9834913944502985,
	"eval_loss": 0.20960816740989685,
	"eval_runtime": 67.6089,
	"eval_samples_per_second": 65.968,
	"eval_steps_per_second": 2.071,
	"step": 1400
	},
	{
	"epoch": 1.0186160871092378,
	"grad_norm": 26518.01171875,
	"learning_rate": 2.2357695010541112e-05,
	"loss": 0.21,
	"step": 1450
	},
	{
	"epoch": 1.053740779768177,
	"grad_norm": 20411.26171875,
	"learning_rate": 2.2094167252283907e-05,
	"loss": 0.2139,
	"step": 1500
	},
	{
	"epoch": 1.053740779768177,
	"eval_loss": 0.20940540730953217,
	"eval_runtime": 67.4684,
	"eval_samples_per_second": 66.105,
	"eval_steps_per_second": 2.075,
	"step": 1500
	},
	{
	"epoch": 1.0888654724271163,
	"grad_norm": 25448.7734375,
	"learning_rate": 2.1830639494026705e-05,
	"loss": 0.2119,
	"step": 1550
	},
	{
	"epoch": 1.1239901650860555,
	"grad_norm": 20371.7109375,
	"learning_rate": 2.15671117357695e-05,
	"loss": 0.2074,
	"step": 1600
	},
	{
	"epoch": 1.1239901650860555,
	"eval_loss": 0.2086929827928543,
	"eval_runtime": 67.511,
	"eval_samples_per_second": 66.063,
	"eval_steps_per_second": 2.074,
	"step": 1600
	},
	{
	"epoch": 1.1591148577449948,
	"grad_norm": 24624.9609375,
	"learning_rate": 2.13035839775123e-05,
	"loss": 0.2109,
	"step": 1650
	},
	{
	"epoch": 1.194239550403934,
	"grad_norm": 28790.974609375,
	"learning_rate": 2.1040056219255097e-05,
	"loss": 0.2126,
	"step": 1700
	},
	{
	"epoch": 1.194239550403934,
	"eval_loss": 0.20832768082618713,
	"eval_runtime": 67.1973,
	"eval_samples_per_second": 66.372,
	"eval_steps_per_second": 2.083,
	"step": 1700
	},
	{
	"epoch": 1.2293642430628733,
	"grad_norm": 22134.93359375,
	"learning_rate": 2.077652846099789e-05,
	"loss": 0.2118,
	"step": 1750
	},
	{
	"epoch": 1.2644889357218125,
	"grad_norm": 22432.322265625,
	"learning_rate": 2.051300070274069e-05,
	"loss": 0.2128,
	"step": 1800
	},
	{
	"epoch": 1.2644889357218125,
	"eval_loss": 0.20813611149787903,
	"eval_runtime": 67.1539,
	"eval_samples_per_second": 66.415,
	"eval_steps_per_second": 2.085,
	"step": 1800
	},
	{
	"epoch": 1.2996136283807518,
	"grad_norm": 21562.96484375,
	"learning_rate": 2.0249472944483485e-05,
	"loss": 0.2135,
	"step": 1850
	},
	{
	"epoch": 1.334738321039691,
	"grad_norm": 22612.58203125,
	"learning_rate": 1.9985945186226283e-05,
	"loss": 0.2081,
	"step": 1900
	},
	{
	"epoch": 1.334738321039691,
	"eval_loss": 0.2073371410369873,
	"eval_runtime": 67.1629,
	"eval_samples_per_second": 66.406,
	"eval_steps_per_second": 2.084,
	"step": 1900
	},
	{
	"epoch": 1.36986301369863,
	"grad_norm": 22550.556640625,
	"learning_rate": 1.972241742796908e-05,
	"loss": 0.2037,
	"step": 1950
	},
	{
	"epoch": 1.4049877063575693,
	"grad_norm": 24281.9140625,
	"learning_rate": 1.9458889669711876e-05,
	"loss": 0.2111,
	"step": 2000
	},
	{
	"epoch": 1.4049877063575693,
	"eval_loss": 0.20700447261333466,
	"eval_runtime": 67.2893,
	"eval_samples_per_second": 66.281,
	"eval_steps_per_second": 2.081,
	"step": 2000
	},
	{
	"epoch": 1.4401123990165086,
	"grad_norm": 25767.197265625,
	"learning_rate": 1.9195361911454674e-05,
	"loss": 0.2054,
	"step": 2050
	},
	{
	"epoch": 1.4752370916754478,
	"grad_norm": 22215.111328125,
	"learning_rate": 1.893183415319747e-05,
	"loss": 0.2082,
	"step": 2100
	},
	{
	"epoch": 1.4752370916754478,
	"eval_loss": 0.20631250739097595,
	"eval_runtime": 67.1038,
	"eval_samples_per_second": 66.464,
	"eval_steps_per_second": 2.086,
	"step": 2100
	},
	{
	"epoch": 1.510361784334387,
	"grad_norm": 27927.373046875,
	"learning_rate": 1.8668306394940267e-05,
	"loss": 0.2128,
	"step": 2150
	},
	{
	"epoch": 1.5454864769933263,
	"grad_norm": 25635.267578125,
	"learning_rate": 1.8404778636683066e-05,
	"loss": 0.2078,
	"step": 2200
	},
	{
	"epoch": 1.5454864769933263,
	"eval_loss": 0.20582793653011322,
	"eval_runtime": 67.2723,
	"eval_samples_per_second": 66.298,
	"eval_steps_per_second": 2.081,
	"step": 2200
	},
	{
	"epoch": 1.5806111696522656,
	"grad_norm": 25550.1171875,
	"learning_rate": 1.814125087842586e-05,
	"loss": 0.2058,
	"step": 2250
	},
	{
	"epoch": 1.6157358623112048,
	"grad_norm": 21671.251953125,
	"learning_rate": 1.787772312016866e-05,
	"loss": 0.206,
	"step": 2300
	},
	{
	"epoch": 1.6157358623112048,
	"eval_loss": 0.2059122622013092,
	"eval_runtime": 67.4662,
	"eval_samples_per_second": 66.107,
	"eval_steps_per_second": 2.075,
	"step": 2300
	},
	{
	"epoch": 1.650860554970144,
	"grad_norm": 21685.947265625,
	"learning_rate": 1.7614195361911453e-05,
	"loss": 0.2086,
	"step": 2350
	},
	{
	"epoch": 1.685985247629083,
	"grad_norm": 24516.828125,
	"learning_rate": 1.7350667603654252e-05,
	"loss": 0.2069,
	"step": 2400
	},
	{
	"epoch": 1.685985247629083,
	"eval_loss": 0.20495346188545227,
	"eval_runtime": 67.1671,
	"eval_samples_per_second": 66.402,
	"eval_steps_per_second": 2.084,
	"step": 2400
	},
	{
	"epoch": 1.7211099402880223,
	"grad_norm": 22610.7734375,
	"learning_rate": 1.708713984539705e-05,
	"loss": 0.2052,
	"step": 2450
	},
	{
	"epoch": 1.7562346329469616,
	"grad_norm": 35525.84765625,
	"learning_rate": 1.6823612087139845e-05,
	"loss": 0.2051,
	"step": 2500
	},
	{
	"epoch": 1.7562346329469616,
	"eval_loss": 0.20481644570827484,
	"eval_runtime": 67.1059,
	"eval_samples_per_second": 66.462,
	"eval_steps_per_second": 2.086,
	"step": 2500
	},
	{
	"epoch": 1.7913593256059008,
	"grad_norm": 20207.35546875,
	"learning_rate": 1.6560084328882643e-05,
	"loss": 0.2049,
	"step": 2550
	},
	{
	"epoch": 1.82648401826484,
	"grad_norm": 17453.359375,
	"learning_rate": 1.6296556570625438e-05,
	"loss": 0.2101,
	"step": 2600
	},
	{
	"epoch": 1.82648401826484,
	"eval_loss": 0.20485134422779083,
	"eval_runtime": 67.202,
	"eval_samples_per_second": 66.367,
	"eval_steps_per_second": 2.083,
	"step": 2600
	},
	{
	"epoch": 1.8616087109237793,
	"grad_norm": 24568.439453125,
	"learning_rate": 1.603302881236824e-05,
	"loss": 0.2081,
	"step": 2650
	},
	{
	"epoch": 1.8967334035827186,
	"grad_norm": 22425.1875,
	"learning_rate": 1.5769501054111034e-05,
	"loss": 0.2032,
	"step": 2700
	},
	{
	"epoch": 1.8967334035827186,
	"eval_loss": 0.2041337788105011,
	"eval_runtime": 67.2372,
	"eval_samples_per_second": 66.332,
	"eval_steps_per_second": 2.082,
	"step": 2700
	},
	{
	"epoch": 1.9318580962416578,
	"grad_norm": 21858.3828125,
	"learning_rate": 1.550597329585383e-05,
	"loss": 0.2074,
	"step": 2750
	},
	{
	"epoch": 1.966982788900597,
	"grad_norm": 17712.39453125,
	"learning_rate": 1.5242445537596626e-05,
	"loss": 0.205,
	"step": 2800
	},
	{
	"epoch": 1.966982788900597,
	"eval_loss": 0.20371712744235992,
	"eval_runtime": 67.1299,
	"eval_samples_per_second": 66.438,
	"eval_steps_per_second": 2.086,
	"step": 2800
	},
	{
	"epoch": 2.0021074815595363,
	"grad_norm": 20413.91796875,
	"learning_rate": 1.4978917779339424e-05,
	"loss": 0.203,
	"step": 2850
	},
	{
	"epoch": 2.0372321742184756,
	"grad_norm": 21380.130859375,
	"learning_rate": 1.471539002108222e-05,
	"loss": 0.199,
	"step": 2900
	},
	{
	"epoch": 2.0372321742184756,
	"eval_loss": 0.20416177809238434,
	"eval_runtime": 67.1771,
	"eval_samples_per_second": 66.392,
	"eval_steps_per_second": 2.084,
	"step": 2900
	},
	{
	"epoch": 2.072356866877415,
	"grad_norm": 28436.697265625,
	"learning_rate": 1.4451862262825019e-05,
	"loss": 0.1989,
	"step": 2950
	},
	{
	"epoch": 2.107481559536354,
	"grad_norm": 18739.8359375,
	"learning_rate": 1.4188334504567815e-05,
	"loss": 0.1982,
	"step": 3000
	},
	{
	"epoch": 2.107481559536354,
	"eval_loss": 0.2037852257490158,
	"eval_runtime": 67.2417,
	"eval_samples_per_second": 66.328,
	"eval_steps_per_second": 2.082,
	"step": 3000
	},
	{
	"epoch": 2.1426062521952933,
	"grad_norm": 26514.828125,
	"learning_rate": 1.3924806746310612e-05,
	"loss": 0.2032,
	"step": 3050
	},
	{
	"epoch": 2.1777309448542326,
	"grad_norm": 22808.0234375,
	"learning_rate": 1.3661278988053408e-05,
	"loss": 0.1944,
	"step": 3100
	},
	{
	"epoch": 2.1777309448542326,
	"eval_loss": 0.20371171832084656,
	"eval_runtime": 67.0231,
	"eval_samples_per_second": 66.544,
	"eval_steps_per_second": 2.089,
	"step": 3100
	},
	{
	"epoch": 2.212855637513172,
	"grad_norm": 24228.18359375,
	"learning_rate": 1.3397751229796205e-05,
	"loss": 0.2056,
	"step": 3150
	},
	{
	"epoch": 2.247980330172111,
	"grad_norm": 20969.25390625,
	"learning_rate": 1.3134223471539003e-05,
	"loss": 0.1948,
	"step": 3200
	},
	{
	"epoch": 2.247980330172111,
	"eval_loss": 0.20387396216392517,
	"eval_runtime": 66.9567,
	"eval_samples_per_second": 66.61,
	"eval_steps_per_second": 2.091,
	"step": 3200
	},
	{
	"epoch": 2.2831050228310503,
	"grad_norm": 42587.73046875,
	"learning_rate": 1.28706957132818e-05,
	"loss": 0.2072,
	"step": 3250
	},
	{
	"epoch": 2.3182297154899896,
	"grad_norm": 22174.130859375,
	"learning_rate": 1.2607167955024596e-05,
	"loss": 0.2023,
	"step": 3300
	},
	{
	"epoch": 2.3182297154899896,
	"eval_loss": 0.20358328521251678,
	"eval_runtime": 67.1207,
	"eval_samples_per_second": 66.447,
	"eval_steps_per_second": 2.086,
	"step": 3300
	},
	{
	"epoch": 2.353354408148929,
	"grad_norm": 28607.568359375,
	"learning_rate": 1.2343640196767393e-05,
	"loss": 0.1964,
	"step": 3350
	},
	{
	"epoch": 2.388479100807868,
	"grad_norm": 27227.3203125,
	"learning_rate": 1.208011243851019e-05,
	"loss": 0.2075,
	"step": 3400
	},
	{
	"epoch": 2.388479100807868,
	"eval_loss": 0.20336925983428955,
	"eval_runtime": 67.2613,
	"eval_samples_per_second": 66.309,
	"eval_steps_per_second": 2.081,
	"step": 3400
	},
	{
	"epoch": 2.4236037934668073,
	"grad_norm": 24440.291015625,
	"learning_rate": 1.1816584680252988e-05,
	"loss": 0.1999,
	"step": 3450
	},
	{
	"epoch": 2.4587284861257466,
	"grad_norm": 23327.6328125,
	"learning_rate": 1.1553056921995784e-05,
	"loss": 0.2041,
	"step": 3500
	},
	{
	"epoch": 2.4587284861257466,
	"eval_loss": 0.2032385915517807,
	"eval_runtime": 67.0192,
	"eval_samples_per_second": 66.548,
	"eval_steps_per_second": 2.089,
	"step": 3500
	},
	{
	"epoch": 2.493853178784686,
	"grad_norm": 23787.681640625,
	"learning_rate": 1.128952916373858e-05,
	"loss": 0.1984,
	"step": 3550
	},
	{
	"epoch": 2.528977871443625,
	"grad_norm": 24526.529296875,
	"learning_rate": 1.1026001405481377e-05,
	"loss": 0.1971,
	"step": 3600
	},
	{
	"epoch": 2.528977871443625,
	"eval_loss": 0.20272360742092133,
	"eval_runtime": 66.8824,
	"eval_samples_per_second": 66.684,
	"eval_steps_per_second": 2.093,
	"step": 3600
	},
	{
	"epoch": 2.564102564102564,
	"grad_norm": 23948.60546875,
	"learning_rate": 1.0762473647224174e-05,
	"loss": 0.1904,
	"step": 3650
	},
	{
	"epoch": 2.5992272567615036,
	"grad_norm": 17924.513671875,
	"learning_rate": 1.0498945888966972e-05,
	"loss": 0.1968,
	"step": 3700
	},
	{
	"epoch": 2.5992272567615036,
	"eval_loss": 0.20258785784244537,
	"eval_runtime": 67.0213,
	"eval_samples_per_second": 66.546,
	"eval_steps_per_second": 2.089,
	"step": 3700
	},
	{
	"epoch": 2.6343519494204424,
	"grad_norm": 18695.21875,
	"learning_rate": 1.0235418130709768e-05,
	"loss": 0.1961,
	"step": 3750
	},
	{
	"epoch": 2.669476642079382,
	"grad_norm": 23424.083984375,
	"learning_rate": 9.971890372452565e-06,
	"loss": 0.1961,
	"step": 3800
	},
	{
	"epoch": 2.669476642079382,
	"eval_loss": 0.2024257928133011,
	"eval_runtime": 67.1877,
	"eval_samples_per_second": 66.381,
	"eval_steps_per_second": 2.084,
	"step": 3800
	},
	{
	"epoch": 2.704601334738321,
	"grad_norm": 18417.158203125,
	"learning_rate": 9.708362614195362e-06,
	"loss": 0.2004,
	"step": 3850
	},
	{
	"epoch": 2.73972602739726,
	"grad_norm": 29204.578125,
	"learning_rate": 9.444834855938158e-06,
	"loss": 0.2,
	"step": 3900
	},
	{
	"epoch": 2.73972602739726,
	"eval_loss": 0.20261028409004211,
	"eval_runtime": 67.145,
	"eval_samples_per_second": 66.423,
	"eval_steps_per_second": 2.085,
	"step": 3900
	},
	{
	"epoch": 2.7748507200561994,
	"grad_norm": 22810.859375,
	"learning_rate": 9.181307097680956e-06,
	"loss": 0.1955,
	"step": 3950
	},
	{
	"epoch": 2.8099754127151386,
	"grad_norm": 20385.189453125,
	"learning_rate": 8.917779339423753e-06,
	"loss": 0.1902,
	"step": 4000
	},
	{
	"epoch": 2.8099754127151386,
	"eval_loss": 0.20224925875663757,
	"eval_runtime": 66.8567,
	"eval_samples_per_second": 66.71,
	"eval_steps_per_second": 2.094,
	"step": 4000
	},
	{
	"epoch": 2.845100105374078,
	"grad_norm": 60070.58984375,
	"learning_rate": 8.65425158116655e-06,
	"loss": 0.1969,
	"step": 4050
	},
	{
	"epoch": 2.880224798033017,
	"grad_norm": 20594.654296875,
	"learning_rate": 8.390723822909348e-06,
	"loss": 0.2009,
	"step": 4100
	},
	{
	"epoch": 2.880224798033017,
	"eval_loss": 0.20173698663711548,
	"eval_runtime": 66.8679,
	"eval_samples_per_second": 66.699,
	"eval_steps_per_second": 2.094,
	"step": 4100
	},
	{
	"epoch": 2.9153494906919564,
	"grad_norm": 22764.1640625,
	"learning_rate": 8.127196064652143e-06,
	"loss": 0.1939,
	"step": 4150
	},
	{
	"epoch": 2.9504741833508956,
	"grad_norm": 22604.9375,
	"learning_rate": 7.86366830639494e-06,
	"loss": 0.1991,
	"step": 4200
	},
	{
	"epoch": 2.9504741833508956,
	"eval_loss": 0.20178209245204926,
	"eval_runtime": 67.157,
	"eval_samples_per_second": 66.412,
	"eval_steps_per_second": 2.085,
	"step": 4200
	},
	{
	"epoch": 2.985598876009835,
	"grad_norm": 23427.0,
	"learning_rate": 7.600140548137737e-06,
	"loss": 0.1982,
	"step": 4250
	},
	{
	"epoch": 3.020723568668774,
	"grad_norm": 22872.943359375,
	"learning_rate": 7.336612789880535e-06,
	"loss": 0.1905,
	"step": 4300
	},
	{
	"epoch": 3.020723568668774,
	"eval_loss": 0.20212285220623016,
	"eval_runtime": 66.9569,
	"eval_samples_per_second": 66.61,
	"eval_steps_per_second": 2.091,
	"step": 4300
	},
	{
	"epoch": 3.0558482613277134,
	"grad_norm": 20360.029296875,
	"learning_rate": 7.073085031623331e-06,
	"loss": 0.2011,
	"step": 4350
	},
	{
	"epoch": 3.0909729539866526,
	"grad_norm": 26769.02734375,
	"learning_rate": 6.809557273366128e-06,
	"loss": 0.1939,
	"step": 4400
	},
	{
	"epoch": 3.0909729539866526,
	"eval_loss": 0.20202863216400146,
	"eval_runtime": 66.9701,
	"eval_samples_per_second": 66.597,
	"eval_steps_per_second": 2.09,
	"step": 4400
	},
	{
	"epoch": 3.126097646645592,
	"grad_norm": 34976.171875,
	"learning_rate": 6.546029515108924e-06,
	"loss": 0.1912,
	"step": 4450
	},
	{
	"epoch": 3.161222339304531,
	"grad_norm": 50123.8671875,
	"learning_rate": 6.282501756851722e-06,
	"loss": 0.1934,
	"step": 4500
	},
	{
	"epoch": 3.161222339304531,
	"eval_loss": 0.20200392603874207,
	"eval_runtime": 66.9822,
	"eval_samples_per_second": 66.585,
	"eval_steps_per_second": 2.09,
	"step": 4500
	},
	{
	"epoch": 3.1963470319634704,
	"grad_norm": 30103.6484375,
	"learning_rate": 6.018973998594519e-06,
	"loss": 0.1891,
	"step": 4550
	},
	{
	"epoch": 3.2314717246224096,
	"grad_norm": 22014.908203125,
	"learning_rate": 5.755446240337316e-06,
	"loss": 0.1933,
	"step": 4600
	},
	{
	"epoch": 3.2314717246224096,
	"eval_loss": 0.20177535712718964,
	"eval_runtime": 66.8767,
	"eval_samples_per_second": 66.69,
	"eval_steps_per_second": 2.093,
	"step": 4600
	},
	{
	"epoch": 3.266596417281349,
	"grad_norm": 24894.115234375,
	"learning_rate": 5.491918482080113e-06,
	"loss": 0.1921,
	"step": 4650
	},
	{
	"epoch": 3.301721109940288,
	"grad_norm": 21648.677734375,
	"learning_rate": 5.2283907238229096e-06,
	"loss": 0.1914,
	"step": 4700
	},
	{
	"epoch": 3.301721109940288,
	"eval_loss": 0.20187227427959442,
	"eval_runtime": 66.9001,
	"eval_samples_per_second": 66.667,
	"eval_steps_per_second": 2.093,
	"step": 4700
	},
	{
	"epoch": 3.3368458025992274,
	"grad_norm": 24555.294921875,
	"learning_rate": 4.964862965565706e-06,
	"loss": 0.1914,
	"step": 4750
	},
	{
	"epoch": 3.3719704952581666,
	"grad_norm": 44338.69921875,
	"learning_rate": 4.7013352073085035e-06,
	"loss": 0.1936,
	"step": 4800
	},
	{
	"epoch": 3.3719704952581666,
	"eval_loss": 0.20171089470386505,
	"eval_runtime": 67.0479,
	"eval_samples_per_second": 66.52,
	"eval_steps_per_second": 2.088,
	"step": 4800
	},
	{
	"epoch": 3.407095187917106,
	"grad_norm": 23296.537109375,
	"learning_rate": 4.4378074490513e-06,
	"loss": 0.1949,
	"step": 4850
	},
	{
	"epoch": 3.442219880576045,
	"grad_norm": 21337.087890625,
	"learning_rate": 4.1742796907940974e-06,
	"loss": 0.1902,
	"step": 4900
	},
	{
	"epoch": 3.442219880576045,
	"eval_loss": 0.20151035487651825,
	"eval_runtime": 66.9445,
	"eval_samples_per_second": 66.622,
	"eval_steps_per_second": 2.091,
	"step": 4900
	},
	{
	"epoch": 3.4773445732349844,
	"grad_norm": 20258.736328125,
	"learning_rate": 3.910751932536894e-06,
	"loss": 0.1966,
	"step": 4950
	},
	{
	"epoch": 3.512469265893923,
	"grad_norm": 22937.763671875,
	"learning_rate": 3.647224174279691e-06,
	"loss": 0.1949,
	"step": 5000
	},
	{
	"epoch": 3.512469265893923,
	"eval_loss": 0.2013118416070938,
	"eval_runtime": 67.0166,
	"eval_samples_per_second": 66.551,
	"eval_steps_per_second": 2.089,
	"step": 5000
	},
	{
	"epoch": 3.547593958552863,
	"grad_norm": 27274.357421875,
	"learning_rate": 3.383696416022488e-06,
	"loss": 0.1968,
	"step": 5050
	},
	{
	"epoch": 3.5827186512118017,
	"grad_norm": 26782.548828125,
	"learning_rate": 3.1201686577652844e-06,
	"loss": 0.1878,
	"step": 5100
	},
	{
	"epoch": 3.5827186512118017,
	"eval_loss": 0.20154449343681335,
	"eval_runtime": 67.1325,
	"eval_samples_per_second": 66.436,
	"eval_steps_per_second": 2.085,
	"step": 5100
	},
	{
	"epoch": 3.6178433438707414,
	"grad_norm": 18810.177734375,
	"learning_rate": 2.8566408995080814e-06,
	"loss": 0.1912,
	"step": 5150
	},
	{
	"epoch": 3.65296803652968,
	"grad_norm": 26744.78515625,
	"learning_rate": 2.593113141250879e-06,
	"loss": 0.1975,
	"step": 5200
	},
	{
	"epoch": 3.65296803652968,
	"eval_loss": 0.20147912204265594,
	"eval_runtime": 67.0091,
	"eval_samples_per_second": 66.558,
	"eval_steps_per_second": 2.089,
	"step": 5200
	},
	{
	"epoch": 3.68809272918862,
	"grad_norm": 23326.36328125,
	"learning_rate": 2.3295853829936753e-06,
	"loss": 0.1995,
	"step": 5250
	},
	{
	"epoch": 3.7232174218475587,
	"grad_norm": 21197.091796875,
	"learning_rate": 2.0660576247364723e-06,
	"loss": 0.1894,
	"step": 5300
	},
	{
	"epoch": 3.7232174218475587,
	"eval_loss": 0.20139345526695251,
	"eval_runtime": 66.9887,
	"eval_samples_per_second": 66.578,
	"eval_steps_per_second": 2.09,
	"step": 5300
	},
	{
	"epoch": 3.758342114506498,
	"grad_norm": 23258.3671875,
	"learning_rate": 1.8025298664792693e-06,
	"loss": 0.1941,
	"step": 5350
	},
	{
	"epoch": 3.793466807165437,
	"grad_norm": 25702.90234375,
	"learning_rate": 1.539002108222066e-06,
	"loss": 0.1952,
	"step": 5400
	},
	{
	"epoch": 3.793466807165437,
	"eval_loss": 0.20133435726165771,
	"eval_runtime": 67.0042,
	"eval_samples_per_second": 66.563,
	"eval_steps_per_second": 2.089,
	"step": 5400
	},
	{
	"epoch": 3.8285914998243764,
	"grad_norm": 22600.765625,
	"learning_rate": 1.275474349964863e-06,
	"loss": 0.1912,
	"step": 5450
	},
	{
	"epoch": 3.8637161924833157,
	"grad_norm": 25134.44921875,
	"learning_rate": 1.0119465917076597e-06,
	"loss": 0.197,
	"step": 5500
	},
	{
	"epoch": 3.8637161924833157,
	"eval_loss": 0.20129592716693878,
	"eval_runtime": 67.1868,
	"eval_samples_per_second": 66.382,
	"eval_steps_per_second": 2.084,
	"step": 5500
	},
	{
	"epoch": 3.898840885142255,
	"grad_norm": 22639.22265625,
	"learning_rate": 7.484188334504568e-07,
	"loss": 0.1898,
	"step": 5550
	},
	{
	"epoch": 3.933965577801194,
	"grad_norm": 108627.9453125,
	"learning_rate": 4.848910751932538e-07,
	"loss": 0.1887,
	"step": 5600
	},
	{
	"epoch": 3.933965577801194,
	"eval_loss": 0.2013484090566635,
	"eval_runtime": 67.1981,
	"eval_samples_per_second": 66.371,
	"eval_steps_per_second": 2.083,
	"step": 5600
	},
	{
	"epoch": 3.9690902704601334,
	"grad_norm": 28155.427734375,
	"learning_rate": 2.213633169360506e-07,
	"loss": 0.1955,
	"step": 5650
	}
	],
	"logging_steps": 50,
	"max_steps": 5692,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.545216223281152e+16,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}