prm-qwen3-8b-seqcls-final1 / trainer_state.json

Upload folder using huggingface_hub

e035f7b verified 3 months ago

35.1 kB

	{
	"best_global_step": 2000,
	"best_metric": 0.09745433926582336,
	"best_model_checkpoint": "/content/drive/MyDrive/UC DAVIS/ECS289A-LLM/prm_project/checkpoints/checkpoint-2000",
	"epoch": 2.254948210439955,
	"eval_steps": 250,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01128089426725464,
	"grad_norm": 12.25,
	"learning_rate": 2.25e-05,
	"loss": 0.7492,
	"step": 10
	},
	{
	"epoch": 0.02256178853450928,
	"grad_norm": 10.25,
	"learning_rate": 4.75e-05,
	"loss": 0.6591,
	"step": 20
	},
	{
	"epoch": 0.033842682801763925,
	"grad_norm": 4.75,
	"learning_rate": 7.25e-05,
	"loss": 0.5451,
	"step": 30
	},
	{
	"epoch": 0.04512357706901856,
	"grad_norm": 4.40625,
	"learning_rate": 9.75e-05,
	"loss": 0.4973,
	"step": 40
	},
	{
	"epoch": 0.0564044713362732,
	"grad_norm": 5.90625,
	"learning_rate": 0.00012250000000000002,
	"loss": 0.4536,
	"step": 50
	},
	{
	"epoch": 0.06768536560352785,
	"grad_norm": 3.90625,
	"learning_rate": 0.0001475,
	"loss": 0.4242,
	"step": 60
	},
	{
	"epoch": 0.07896625987078248,
	"grad_norm": 1.734375,
	"learning_rate": 0.00017250000000000002,
	"loss": 0.409,
	"step": 70
	},
	{
	"epoch": 0.09024715413803712,
	"grad_norm": 3.390625,
	"learning_rate": 0.00019750000000000003,
	"loss": 0.3968,
	"step": 80
	},
	{
	"epoch": 0.10152804840529177,
	"grad_norm": 6.0,
	"learning_rate": 0.0001993025958930647,
	"loss": 0.3769,
	"step": 90
	},
	{
	"epoch": 0.1128089426725464,
	"grad_norm": 4.875,
	"learning_rate": 0.0001985277024409144,
	"loss": 0.3902,
	"step": 100
	},
	{
	"epoch": 0.12408983693980105,
	"grad_norm": 7.0,
	"learning_rate": 0.00019775280898876404,
	"loss": 0.3347,
	"step": 110
	},
	{
	"epoch": 0.1353707312070557,
	"grad_norm": 5.53125,
	"learning_rate": 0.00019697791553661373,
	"loss": 0.3346,
	"step": 120
	},
	{
	"epoch": 0.14665162547431032,
	"grad_norm": 6.34375,
	"learning_rate": 0.0001962030220844634,
	"loss": 0.3517,
	"step": 130
	},
	{
	"epoch": 0.15793251974156497,
	"grad_norm": 4.96875,
	"learning_rate": 0.00019542812863231307,
	"loss": 0.3614,
	"step": 140
	},
	{
	"epoch": 0.16921341400881962,
	"grad_norm": 9.25,
	"learning_rate": 0.00019465323518016273,
	"loss": 0.3342,
	"step": 150
	},
	{
	"epoch": 0.18049430827607424,
	"grad_norm": 1.78125,
	"learning_rate": 0.0001938783417280124,
	"loss": 0.3328,
	"step": 160
	},
	{
	"epoch": 0.1917752025433289,
	"grad_norm": 5.4375,
	"learning_rate": 0.0001931034482758621,
	"loss": 0.3238,
	"step": 170
	},
	{
	"epoch": 0.20305609681058354,
	"grad_norm": 1.015625,
	"learning_rate": 0.00019232855482371176,
	"loss": 0.3256,
	"step": 180
	},
	{
	"epoch": 0.21433699107783816,
	"grad_norm": 2.390625,
	"learning_rate": 0.0001915536613715614,
	"loss": 0.3487,
	"step": 190
	},
	{
	"epoch": 0.2256178853450928,
	"grad_norm": 8.5625,
	"learning_rate": 0.0001907787679194111,
	"loss": 0.3266,
	"step": 200
	},
	{
	"epoch": 0.23689877961234745,
	"grad_norm": 1.5703125,
	"learning_rate": 0.00019000387446726076,
	"loss": 0.316,
	"step": 210
	},
	{
	"epoch": 0.2481796738796021,
	"grad_norm": 1.2890625,
	"learning_rate": 0.00018922898101511045,
	"loss": 0.3118,
	"step": 220
	},
	{
	"epoch": 0.25946056814685675,
	"grad_norm": 2.3125,
	"learning_rate": 0.0001884540875629601,
	"loss": 0.3226,
	"step": 230
	},
	{
	"epoch": 0.2707414624141114,
	"grad_norm": 1.125,
	"learning_rate": 0.00018767919411080976,
	"loss": 0.3407,
	"step": 240
	},
	{
	"epoch": 0.282022356681366,
	"grad_norm": 12.6875,
	"learning_rate": 0.00018690430065865945,
	"loss": 0.3253,
	"step": 250
	},
	{
	"epoch": 0.282022356681366,
	"eval_loss": 0.35227087140083313,
	"eval_runtime": 3939.2496,
	"eval_samples_per_second": 29.703,
	"eval_steps_per_second": 0.928,
	"step": 250
	},
	{
	"epoch": 0.29330325094862064,
	"grad_norm": 11.8125,
	"learning_rate": 0.00018612940720650912,
	"loss": 0.3383,
	"step": 260
	},
	{
	"epoch": 0.3045841452158753,
	"grad_norm": 3.25,
	"learning_rate": 0.00018535451375435879,
	"loss": 0.3237,
	"step": 270
	},
	{
	"epoch": 0.31586503948312994,
	"grad_norm": 3.65625,
	"learning_rate": 0.00018457962030220845,
	"loss": 0.3091,
	"step": 280
	},
	{
	"epoch": 0.3271459337503846,
	"grad_norm": 7.9375,
	"learning_rate": 0.00018380472685005812,
	"loss": 0.3179,
	"step": 290
	},
	{
	"epoch": 0.33842682801763924,
	"grad_norm": 5.21875,
	"learning_rate": 0.0001830298333979078,
	"loss": 0.334,
	"step": 300
	},
	{
	"epoch": 0.34970772228489383,
	"grad_norm": 2.765625,
	"learning_rate": 0.00018225493994575745,
	"loss": 0.3292,
	"step": 310
	},
	{
	"epoch": 0.3609886165521485,
	"grad_norm": 8.375,
	"learning_rate": 0.00018148004649360715,
	"loss": 0.3083,
	"step": 320
	},
	{
	"epoch": 0.3722695108194031,
	"grad_norm": 2.046875,
	"learning_rate": 0.0001807051530414568,
	"loss": 0.2957,
	"step": 330
	},
	{
	"epoch": 0.3835504050866578,
	"grad_norm": 2.34375,
	"learning_rate": 0.00017993025958930648,
	"loss": 0.3152,
	"step": 340
	},
	{
	"epoch": 0.3948312993539124,
	"grad_norm": 4.375,
	"learning_rate": 0.00017915536613715614,
	"loss": 0.2846,
	"step": 350
	},
	{
	"epoch": 0.4061121936211671,
	"grad_norm": 9.1875,
	"learning_rate": 0.0001783804726850058,
	"loss": 0.2714,
	"step": 360
	},
	{
	"epoch": 0.4173930878884217,
	"grad_norm": 2.46875,
	"learning_rate": 0.0001776055792328555,
	"loss": 0.2834,
	"step": 370
	},
	{
	"epoch": 0.4286739821556763,
	"grad_norm": 2.625,
	"learning_rate": 0.00017683068578070517,
	"loss": 0.2854,
	"step": 380
	},
	{
	"epoch": 0.43995487642293096,
	"grad_norm": 1.5546875,
	"learning_rate": 0.00017605579232855484,
	"loss": 0.276,
	"step": 390
	},
	{
	"epoch": 0.4512357706901856,
	"grad_norm": 10.375,
	"learning_rate": 0.0001752808988764045,
	"loss": 0.2842,
	"step": 400
	},
	{
	"epoch": 0.46251666495744026,
	"grad_norm": 9.75,
	"learning_rate": 0.00017450600542425417,
	"loss": 0.3073,
	"step": 410
	},
	{
	"epoch": 0.4737975592246949,
	"grad_norm": 8.875,
	"learning_rate": 0.00017373111197210386,
	"loss": 0.2636,
	"step": 420
	},
	{
	"epoch": 0.48507845349194956,
	"grad_norm": 3.234375,
	"learning_rate": 0.0001729562185199535,
	"loss": 0.2467,
	"step": 430
	},
	{
	"epoch": 0.4963593477592042,
	"grad_norm": 1.3671875,
	"learning_rate": 0.00017218132506780317,
	"loss": 0.277,
	"step": 440
	},
	{
	"epoch": 0.5076402420264589,
	"grad_norm": 5.9375,
	"learning_rate": 0.00017140643161565286,
	"loss": 0.2831,
	"step": 450
	},
	{
	"epoch": 0.5189211362937135,
	"grad_norm": 1.7421875,
	"learning_rate": 0.00017063153816350253,
	"loss": 0.2432,
	"step": 460
	},
	{
	"epoch": 0.5302020305609682,
	"grad_norm": 2.6875,
	"learning_rate": 0.0001698566447113522,
	"loss": 0.2442,
	"step": 470
	},
	{
	"epoch": 0.5414829248282228,
	"grad_norm": 2.921875,
	"learning_rate": 0.00016908175125920186,
	"loss": 0.2655,
	"step": 480
	},
	{
	"epoch": 0.5527638190954773,
	"grad_norm": 1.6796875,
	"learning_rate": 0.00016830685780705153,
	"loss": 0.2463,
	"step": 490
	},
	{
	"epoch": 0.564044713362732,
	"grad_norm": 10.75,
	"learning_rate": 0.00016753196435490122,
	"loss": 0.2679,
	"step": 500
	},
	{
	"epoch": 0.564044713362732,
	"eval_loss": 0.24632702767848969,
	"eval_runtime": 3940.4364,
	"eval_samples_per_second": 29.694,
	"eval_steps_per_second": 0.928,
	"step": 500
	},
	{
	"epoch": 0.5753256076299866,
	"grad_norm": 4.53125,
	"learning_rate": 0.0001667570709027509,
	"loss": 0.27,
	"step": 510
	},
	{
	"epoch": 0.5866065018972413,
	"grad_norm": 3.203125,
	"learning_rate": 0.00016598217745060053,
	"loss": 0.2807,
	"step": 520
	},
	{
	"epoch": 0.5978873961644959,
	"grad_norm": 7.75,
	"learning_rate": 0.00016520728399845022,
	"loss": 0.2615,
	"step": 530
	},
	{
	"epoch": 0.6091682904317506,
	"grad_norm": 4.78125,
	"learning_rate": 0.0001644323905462999,
	"loss": 0.2567,
	"step": 540
	},
	{
	"epoch": 0.6204491846990052,
	"grad_norm": 3.375,
	"learning_rate": 0.00016365749709414956,
	"loss": 0.2562,
	"step": 550
	},
	{
	"epoch": 0.6317300789662599,
	"grad_norm": 1.8828125,
	"learning_rate": 0.00016288260364199922,
	"loss": 0.2389,
	"step": 560
	},
	{
	"epoch": 0.6430109732335145,
	"grad_norm": 2.46875,
	"learning_rate": 0.0001621077101898489,
	"loss": 0.2331,
	"step": 570
	},
	{
	"epoch": 0.6542918675007692,
	"grad_norm": 3.03125,
	"learning_rate": 0.00016133281673769858,
	"loss": 0.2522,
	"step": 580
	},
	{
	"epoch": 0.6655727617680238,
	"grad_norm": 1.28125,
	"learning_rate": 0.00016055792328554825,
	"loss": 0.2196,
	"step": 590
	},
	{
	"epoch": 0.6768536560352785,
	"grad_norm": 3.1875,
	"learning_rate": 0.00015978302983339792,
	"loss": 0.2523,
	"step": 600
	},
	{
	"epoch": 0.6881345503025331,
	"grad_norm": 3.96875,
	"learning_rate": 0.00015900813638124758,
	"loss": 0.263,
	"step": 610
	},
	{
	"epoch": 0.6994154445697877,
	"grad_norm": 3.21875,
	"learning_rate": 0.00015823324292909725,
	"loss": 0.2148,
	"step": 620
	},
	{
	"epoch": 0.7106963388370423,
	"grad_norm": 1.6796875,
	"learning_rate": 0.00015745834947694694,
	"loss": 0.22,
	"step": 630
	},
	{
	"epoch": 0.721977233104297,
	"grad_norm": 4.34375,
	"learning_rate": 0.00015668345602479658,
	"loss": 0.2439,
	"step": 640
	},
	{
	"epoch": 0.7332581273715516,
	"grad_norm": 1.484375,
	"learning_rate": 0.00015590856257264628,
	"loss": 0.2244,
	"step": 650
	},
	{
	"epoch": 0.7445390216388063,
	"grad_norm": 1.6015625,
	"learning_rate": 0.00015513366912049594,
	"loss": 0.1983,
	"step": 660
	},
	{
	"epoch": 0.7558199159060609,
	"grad_norm": 6.65625,
	"learning_rate": 0.0001543587756683456,
	"loss": 0.2232,
	"step": 670
	},
	{
	"epoch": 0.7671008101733156,
	"grad_norm": 1.03125,
	"learning_rate": 0.00015358388221619528,
	"loss": 0.2558,
	"step": 680
	},
	{
	"epoch": 0.7783817044405702,
	"grad_norm": 4.40625,
	"learning_rate": 0.00015280898876404494,
	"loss": 0.249,
	"step": 690
	},
	{
	"epoch": 0.7896625987078248,
	"grad_norm": 3.4375,
	"learning_rate": 0.00015203409531189464,
	"loss": 0.2103,
	"step": 700
	},
	{
	"epoch": 0.8009434929750795,
	"grad_norm": 1.640625,
	"learning_rate": 0.0001512592018597443,
	"loss": 0.2328,
	"step": 710
	},
	{
	"epoch": 0.8122243872423341,
	"grad_norm": 2.421875,
	"learning_rate": 0.00015048430840759394,
	"loss": 0.2327,
	"step": 720
	},
	{
	"epoch": 0.8235052815095888,
	"grad_norm": 7.1875,
	"learning_rate": 0.00014970941495544364,
	"loss": 0.2027,
	"step": 730
	},
	{
	"epoch": 0.8347861757768434,
	"grad_norm": 4.5,
	"learning_rate": 0.0001489345215032933,
	"loss": 0.2416,
	"step": 740
	},
	{
	"epoch": 0.8460670700440981,
	"grad_norm": 2.078125,
	"learning_rate": 0.000148159628051143,
	"loss": 0.2004,
	"step": 750
	},
	{
	"epoch": 0.8460670700440981,
	"eval_loss": 0.1825282871723175,
	"eval_runtime": 3937.2667,
	"eval_samples_per_second": 29.718,
	"eval_steps_per_second": 0.929,
	"step": 750
	},
	{
	"epoch": 0.8573479643113526,
	"grad_norm": 1.734375,
	"learning_rate": 0.00014738473459899264,
	"loss": 0.2186,
	"step": 760
	},
	{
	"epoch": 0.8686288585786073,
	"grad_norm": 3.25,
	"learning_rate": 0.0001466098411468423,
	"loss": 0.2004,
	"step": 770
	},
	{
	"epoch": 0.8799097528458619,
	"grad_norm": 1.9140625,
	"learning_rate": 0.000145834947694692,
	"loss": 0.2121,
	"step": 780
	},
	{
	"epoch": 0.8911906471131166,
	"grad_norm": 3.125,
	"learning_rate": 0.00014506005424254166,
	"loss": 0.2116,
	"step": 790
	},
	{
	"epoch": 0.9024715413803712,
	"grad_norm": 9.75,
	"learning_rate": 0.00014428516079039133,
	"loss": 0.2407,
	"step": 800
	},
	{
	"epoch": 0.9137524356476259,
	"grad_norm": 3.5625,
	"learning_rate": 0.000143510267338241,
	"loss": 0.2077,
	"step": 810
	},
	{
	"epoch": 0.9250333299148805,
	"grad_norm": 5.25,
	"learning_rate": 0.00014273537388609066,
	"loss": 0.2267,
	"step": 820
	},
	{
	"epoch": 0.9363142241821352,
	"grad_norm": 2.5625,
	"learning_rate": 0.00014196048043394036,
	"loss": 0.1969,
	"step": 830
	},
	{
	"epoch": 0.9475951184493898,
	"grad_norm": 1.53125,
	"learning_rate": 0.00014118558698179,
	"loss": 0.1998,
	"step": 840
	},
	{
	"epoch": 0.9588760127166445,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0001404106935296397,
	"loss": 0.2008,
	"step": 850
	},
	{
	"epoch": 0.9701569069838991,
	"grad_norm": 6.0,
	"learning_rate": 0.00013963580007748935,
	"loss": 0.1914,
	"step": 860
	},
	{
	"epoch": 0.9814378012511538,
	"grad_norm": 1.4609375,
	"learning_rate": 0.00013886090662533902,
	"loss": 0.191,
	"step": 870
	},
	{
	"epoch": 0.9927186955184084,
	"grad_norm": 2.390625,
	"learning_rate": 0.0001380860131731887,
	"loss": 0.1816,
	"step": 880
	},
	{
	"epoch": 1.0033842682801764,
	"grad_norm": 3.859375,
	"learning_rate": 0.00013731111972103835,
	"loss": 0.2074,
	"step": 890
	},
	{
	"epoch": 1.014665162547431,
	"grad_norm": 4.28125,
	"learning_rate": 0.00013653622626888802,
	"loss": 0.1984,
	"step": 900
	},
	{
	"epoch": 1.0259460568146856,
	"grad_norm": 1.3203125,
	"learning_rate": 0.00013576133281673771,
	"loss": 0.1648,
	"step": 910
	},
	{
	"epoch": 1.0372269510819403,
	"grad_norm": 3.5,
	"learning_rate": 0.00013498643936458738,
	"loss": 0.192,
	"step": 920
	},
	{
	"epoch": 1.048507845349195,
	"grad_norm": 6.53125,
	"learning_rate": 0.00013421154591243705,
	"loss": 0.1522,
	"step": 930
	},
	{
	"epoch": 1.0597887396164496,
	"grad_norm": 4.625,
	"learning_rate": 0.00013343665246028671,
	"loss": 0.1715,
	"step": 940
	},
	{
	"epoch": 1.0710696338837042,
	"grad_norm": 3.171875,
	"learning_rate": 0.00013266175900813638,
	"loss": 0.1593,
	"step": 950
	},
	{
	"epoch": 1.082350528150959,
	"grad_norm": 3.65625,
	"learning_rate": 0.00013188686555598607,
	"loss": 0.1439,
	"step": 960
	},
	{
	"epoch": 1.0936314224182135,
	"grad_norm": 2.140625,
	"learning_rate": 0.0001311119721038357,
	"loss": 0.1328,
	"step": 970
	},
	{
	"epoch": 1.1049123166854682,
	"grad_norm": 2.359375,
	"learning_rate": 0.0001303370786516854,
	"loss": 0.1763,
	"step": 980
	},
	{
	"epoch": 1.1161932109527228,
	"grad_norm": 1.484375,
	"learning_rate": 0.00012956218519953507,
	"loss": 0.1689,
	"step": 990
	},
	{
	"epoch": 1.1274741052199775,
	"grad_norm": 1.59375,
	"learning_rate": 0.00012878729174738474,
	"loss": 0.1391,
	"step": 1000
	},
	{
	"epoch": 1.1274741052199775,
	"eval_loss": 0.16099952161312103,
	"eval_runtime": 3944.2805,
	"eval_samples_per_second": 29.665,
	"eval_steps_per_second": 0.927,
	"step": 1000
	},
	{
	"epoch": 1.1387549994872321,
	"grad_norm": 2.375,
	"learning_rate": 0.0001280123982952344,
	"loss": 0.1669,
	"step": 1010
	},
	{
	"epoch": 1.1500358937544868,
	"grad_norm": 0.89453125,
	"learning_rate": 0.00012723750484308407,
	"loss": 0.1542,
	"step": 1020
	},
	{
	"epoch": 1.1613167880217414,
	"grad_norm": 2.90625,
	"learning_rate": 0.00012646261139093377,
	"loss": 0.1566,
	"step": 1030
	},
	{
	"epoch": 1.172597682288996,
	"grad_norm": 2.359375,
	"learning_rate": 0.00012568771793878343,
	"loss": 0.1865,
	"step": 1040
	},
	{
	"epoch": 1.1838785765562507,
	"grad_norm": 1.6484375,
	"learning_rate": 0.00012491282448663307,
	"loss": 0.1729,
	"step": 1050
	},
	{
	"epoch": 1.1951594708235054,
	"grad_norm": 3.546875,
	"learning_rate": 0.00012413793103448277,
	"loss": 0.1755,
	"step": 1060
	},
	{
	"epoch": 1.20644036509076,
	"grad_norm": 3.390625,
	"learning_rate": 0.00012336303758233243,
	"loss": 0.1397,
	"step": 1070
	},
	{
	"epoch": 1.2177212593580147,
	"grad_norm": 2.125,
	"learning_rate": 0.00012258814413018213,
	"loss": 0.1583,
	"step": 1080
	},
	{
	"epoch": 1.2290021536252693,
	"grad_norm": 3.5,
	"learning_rate": 0.00012181325067803178,
	"loss": 0.1782,
	"step": 1090
	},
	{
	"epoch": 1.2402830478925237,
	"grad_norm": 0.99609375,
	"learning_rate": 0.00012103835722588143,
	"loss": 0.1693,
	"step": 1100
	},
	{
	"epoch": 1.2515639421597786,
	"grad_norm": 3.296875,
	"learning_rate": 0.00012026346377373113,
	"loss": 0.1591,
	"step": 1110
	},
	{
	"epoch": 1.262844836427033,
	"grad_norm": 2.375,
	"learning_rate": 0.00011948857032158078,
	"loss": 0.1741,
	"step": 1120
	},
	{
	"epoch": 1.2741257306942877,
	"grad_norm": 1.2421875,
	"learning_rate": 0.00011871367686943047,
	"loss": 0.1446,
	"step": 1130
	},
	{
	"epoch": 1.2854066249615423,
	"grad_norm": 1.875,
	"learning_rate": 0.00011793878341728013,
	"loss": 0.1627,
	"step": 1140
	},
	{
	"epoch": 1.296687519228797,
	"grad_norm": 2.484375,
	"learning_rate": 0.00011716388996512979,
	"loss": 0.1509,
	"step": 1150
	},
	{
	"epoch": 1.3079684134960516,
	"grad_norm": 1.6875,
	"learning_rate": 0.00011638899651297947,
	"loss": 0.1545,
	"step": 1160
	},
	{
	"epoch": 1.3192493077633063,
	"grad_norm": 4.9375,
	"learning_rate": 0.00011561410306082914,
	"loss": 0.1503,
	"step": 1170
	},
	{
	"epoch": 1.330530202030561,
	"grad_norm": 1.9375,
	"learning_rate": 0.00011483920960867882,
	"loss": 0.1597,
	"step": 1180
	},
	{
	"epoch": 1.3418110962978156,
	"grad_norm": 1.171875,
	"learning_rate": 0.00011406431615652849,
	"loss": 0.1547,
	"step": 1190
	},
	{
	"epoch": 1.3530919905650702,
	"grad_norm": 2.34375,
	"learning_rate": 0.00011328942270437815,
	"loss": 0.1701,
	"step": 1200
	},
	{
	"epoch": 1.3643728848323249,
	"grad_norm": 1.0625,
	"learning_rate": 0.00011251452925222783,
	"loss": 0.1655,
	"step": 1210
	},
	{
	"epoch": 1.3756537790995795,
	"grad_norm": 3.234375,
	"learning_rate": 0.00011173963580007749,
	"loss": 0.1526,
	"step": 1220
	},
	{
	"epoch": 1.3869346733668342,
	"grad_norm": 1.2890625,
	"learning_rate": 0.00011096474234792718,
	"loss": 0.1539,
	"step": 1230
	},
	{
	"epoch": 1.3982155676340888,
	"grad_norm": 3.640625,
	"learning_rate": 0.00011018984889577683,
	"loss": 0.1421,
	"step": 1240
	},
	{
	"epoch": 1.4094964619013435,
	"grad_norm": 3.046875,
	"learning_rate": 0.0001094149554436265,
	"loss": 0.1549,
	"step": 1250
	},
	{
	"epoch": 1.4094964619013435,
	"eval_loss": 0.13532690703868866,
	"eval_runtime": 3940.6219,
	"eval_samples_per_second": 29.693,
	"eval_steps_per_second": 0.928,
	"step": 1250
	},
	{
	"epoch": 1.4207773561685981,
	"grad_norm": 1.765625,
	"learning_rate": 0.00010864006199147618,
	"loss": 0.1361,
	"step": 1260
	},
	{
	"epoch": 1.4320582504358528,
	"grad_norm": 2.171875,
	"learning_rate": 0.00010786516853932584,
	"loss": 0.1735,
	"step": 1270
	},
	{
	"epoch": 1.4433391447031074,
	"grad_norm": 1.40625,
	"learning_rate": 0.00010709027508717552,
	"loss": 0.1747,
	"step": 1280
	},
	{
	"epoch": 1.454620038970362,
	"grad_norm": 1.5078125,
	"learning_rate": 0.00010631538163502519,
	"loss": 0.1461,
	"step": 1290
	},
	{
	"epoch": 1.4659009332376167,
	"grad_norm": 2.453125,
	"learning_rate": 0.00010554048818287486,
	"loss": 0.1701,
	"step": 1300
	},
	{
	"epoch": 1.4771818275048714,
	"grad_norm": 3.046875,
	"learning_rate": 0.00010476559473072454,
	"loss": 0.1473,
	"step": 1310
	},
	{
	"epoch": 1.488462721772126,
	"grad_norm": 2.140625,
	"learning_rate": 0.0001039907012785742,
	"loss": 0.1292,
	"step": 1320
	},
	{
	"epoch": 1.4997436160393804,
	"grad_norm": 2.90625,
	"learning_rate": 0.00010321580782642388,
	"loss": 0.1572,
	"step": 1330
	},
	{
	"epoch": 1.511024510306635,
	"grad_norm": 2.15625,
	"learning_rate": 0.00010244091437427355,
	"loss": 0.1446,
	"step": 1340
	},
	{
	"epoch": 1.5223054045738897,
	"grad_norm": 3.40625,
	"learning_rate": 0.0001016660209221232,
	"loss": 0.1469,
	"step": 1350
	},
	{
	"epoch": 1.5335862988411444,
	"grad_norm": 1.109375,
	"learning_rate": 0.00010089112746997288,
	"loss": 0.1774,
	"step": 1360
	},
	{
	"epoch": 1.544867193108399,
	"grad_norm": 1.984375,
	"learning_rate": 0.00010011623401782255,
	"loss": 0.1371,
	"step": 1370
	},
	{
	"epoch": 1.5561480873756537,
	"grad_norm": 2.15625,
	"learning_rate": 9.934134056567223e-05,
	"loss": 0.1459,
	"step": 1380
	},
	{
	"epoch": 1.5674289816429083,
	"grad_norm": 1.6953125,
	"learning_rate": 9.85664471135219e-05,
	"loss": 0.138,
	"step": 1390
	},
	{
	"epoch": 1.578709875910163,
	"grad_norm": 1.421875,
	"learning_rate": 9.779155366137158e-05,
	"loss": 0.1395,
	"step": 1400
	},
	{
	"epoch": 1.5899907701774176,
	"grad_norm": 3.0,
	"learning_rate": 9.701666020922123e-05,
	"loss": 0.1526,
	"step": 1410
	},
	{
	"epoch": 1.6012716644446723,
	"grad_norm": 1.1953125,
	"learning_rate": 9.624176675707091e-05,
	"loss": 0.1612,
	"step": 1420
	},
	{
	"epoch": 1.612552558711927,
	"grad_norm": 1.1171875,
	"learning_rate": 9.546687330492058e-05,
	"loss": 0.1355,
	"step": 1430
	},
	{
	"epoch": 1.6238334529791816,
	"grad_norm": 1.171875,
	"learning_rate": 9.469197985277026e-05,
	"loss": 0.1607,
	"step": 1440
	},
	{
	"epoch": 1.6351143472464362,
	"grad_norm": 3.078125,
	"learning_rate": 9.391708640061992e-05,
	"loss": 0.1562,
	"step": 1450
	},
	{
	"epoch": 1.6463952415136909,
	"grad_norm": 1.3359375,
	"learning_rate": 9.314219294846959e-05,
	"loss": 0.146,
	"step": 1460
	},
	{
	"epoch": 1.6576761357809455,
	"grad_norm": 2.125,
	"learning_rate": 9.236729949631926e-05,
	"loss": 0.1405,
	"step": 1470
	},
	{
	"epoch": 1.6689570300482002,
	"grad_norm": 1.5859375,
	"learning_rate": 9.159240604416894e-05,
	"loss": 0.137,
	"step": 1480
	},
	{
	"epoch": 1.6802379243154548,
	"grad_norm": 2.984375,
	"learning_rate": 9.08175125920186e-05,
	"loss": 0.1674,
	"step": 1490
	},
	{
	"epoch": 1.6915188185827095,
	"grad_norm": 2.296875,
	"learning_rate": 9.004261913986827e-05,
	"loss": 0.1452,
	"step": 1500
	},
	{
	"epoch": 1.6915188185827095,
	"eval_loss": 0.1216062381863594,
	"eval_runtime": 3942.5719,
	"eval_samples_per_second": 29.678,
	"eval_steps_per_second": 0.928,
	"step": 1500
	},
	{
	"epoch": 1.7027997128499641,
	"grad_norm": 2.625,
	"learning_rate": 8.926772568771794e-05,
	"loss": 0.1491,
	"step": 1510
	},
	{
	"epoch": 1.7140806071172188,
	"grad_norm": 2.75,
	"learning_rate": 8.849283223556762e-05,
	"loss": 0.1304,
	"step": 1520
	},
	{
	"epoch": 1.7253615013844734,
	"grad_norm": 1.8359375,
	"learning_rate": 8.771793878341728e-05,
	"loss": 0.1367,
	"step": 1530
	},
	{
	"epoch": 1.736642395651728,
	"grad_norm": 2.453125,
	"learning_rate": 8.694304533126696e-05,
	"loss": 0.1321,
	"step": 1540
	},
	{
	"epoch": 1.7479232899189827,
	"grad_norm": 2.53125,
	"learning_rate": 8.616815187911662e-05,
	"loss": 0.1413,
	"step": 1550
	},
	{
	"epoch": 1.7592041841862374,
	"grad_norm": 2.296875,
	"learning_rate": 8.53932584269663e-05,
	"loss": 0.1593,
	"step": 1560
	},
	{
	"epoch": 1.770485078453492,
	"grad_norm": 3.90625,
	"learning_rate": 8.461836497481596e-05,
	"loss": 0.1472,
	"step": 1570
	},
	{
	"epoch": 1.7817659727207467,
	"grad_norm": 1.703125,
	"learning_rate": 8.384347152266564e-05,
	"loss": 0.144,
	"step": 1580
	},
	{
	"epoch": 1.7930468669880013,
	"grad_norm": 1.34375,
	"learning_rate": 8.306857807051531e-05,
	"loss": 0.1431,
	"step": 1590
	},
	{
	"epoch": 1.804327761255256,
	"grad_norm": 4.5,
	"learning_rate": 8.229368461836498e-05,
	"loss": 0.1455,
	"step": 1600
	},
	{
	"epoch": 1.8156086555225106,
	"grad_norm": 2.015625,
	"learning_rate": 8.151879116621464e-05,
	"loss": 0.1142,
	"step": 1610
	},
	{
	"epoch": 1.8268895497897653,
	"grad_norm": 2.25,
	"learning_rate": 8.074389771406432e-05,
	"loss": 0.1554,
	"step": 1620
	},
	{
	"epoch": 1.83817044405702,
	"grad_norm": 1.6328125,
	"learning_rate": 7.996900426191399e-05,
	"loss": 0.1376,
	"step": 1630
	},
	{
	"epoch": 1.8494513383242746,
	"grad_norm": 1.5234375,
	"learning_rate": 7.919411080976367e-05,
	"loss": 0.1308,
	"step": 1640
	},
	{
	"epoch": 1.8607322325915292,
	"grad_norm": 1.78125,
	"learning_rate": 7.841921735761332e-05,
	"loss": 0.1599,
	"step": 1650
	},
	{
	"epoch": 1.8720131268587838,
	"grad_norm": 1.5625,
	"learning_rate": 7.7644323905463e-05,
	"loss": 0.1291,
	"step": 1660
	},
	{
	"epoch": 1.8832940211260385,
	"grad_norm": 2.203125,
	"learning_rate": 7.686943045331267e-05,
	"loss": 0.1368,
	"step": 1670
	},
	{
	"epoch": 1.8945749153932931,
	"grad_norm": 2.828125,
	"learning_rate": 7.609453700116235e-05,
	"loss": 0.1585,
	"step": 1680
	},
	{
	"epoch": 1.9058558096605478,
	"grad_norm": 4.4375,
	"learning_rate": 7.531964354901202e-05,
	"loss": 0.1426,
	"step": 1690
	},
	{
	"epoch": 1.9171367039278022,
	"grad_norm": 1.890625,
	"learning_rate": 7.454475009686168e-05,
	"loss": 0.1578,
	"step": 1700
	},
	{
	"epoch": 1.9284175981950569,
	"grad_norm": 1.8984375,
	"learning_rate": 7.376985664471135e-05,
	"loss": 0.1251,
	"step": 1710
	},
	{
	"epoch": 1.9396984924623115,
	"grad_norm": 1.953125,
	"learning_rate": 7.299496319256103e-05,
	"loss": 0.1229,
	"step": 1720
	},
	{
	"epoch": 1.9509793867295662,
	"grad_norm": 1.640625,
	"learning_rate": 7.22200697404107e-05,
	"loss": 0.1122,
	"step": 1730
	},
	{
	"epoch": 1.9622602809968208,
	"grad_norm": 1.2734375,
	"learning_rate": 7.144517628826036e-05,
	"loss": 0.144,
	"step": 1740
	},
	{
	"epoch": 1.9735411752640755,
	"grad_norm": 0.921875,
	"learning_rate": 7.067028283611004e-05,
	"loss": 0.1526,
	"step": 1750
	},
	{
	"epoch": 1.9735411752640755,
	"eval_loss": 0.10789535939693451,
	"eval_runtime": 3942.9784,
	"eval_samples_per_second": 29.675,
	"eval_steps_per_second": 0.927,
	"step": 1750
	},
	{
	"epoch": 1.9848220695313301,
	"grad_norm": 2.125,
	"learning_rate": 6.989538938395971e-05,
	"loss": 0.1409,
	"step": 1760
	},
	{
	"epoch": 1.9961029637985848,
	"grad_norm": 0.75,
	"learning_rate": 6.912049593180939e-05,
	"loss": 0.1317,
	"step": 1770
	},
	{
	"epoch": 2.0067685365603527,
	"grad_norm": 4.03125,
	"learning_rate": 6.834560247965905e-05,
	"loss": 0.1106,
	"step": 1780
	},
	{
	"epoch": 2.0180494308276073,
	"grad_norm": 2.9375,
	"learning_rate": 6.757070902750872e-05,
	"loss": 0.0853,
	"step": 1790
	},
	{
	"epoch": 2.029330325094862,
	"grad_norm": 1.078125,
	"learning_rate": 6.679581557535839e-05,
	"loss": 0.0947,
	"step": 1800
	},
	{
	"epoch": 2.0406112193621166,
	"grad_norm": 1.734375,
	"learning_rate": 6.602092212320807e-05,
	"loss": 0.0886,
	"step": 1810
	},
	{
	"epoch": 2.0518921136293713,
	"grad_norm": 1.21875,
	"learning_rate": 6.524602867105773e-05,
	"loss": 0.1107,
	"step": 1820
	},
	{
	"epoch": 2.063173007896626,
	"grad_norm": 0.93359375,
	"learning_rate": 6.447113521890741e-05,
	"loss": 0.085,
	"step": 1830
	},
	{
	"epoch": 2.0744539021638806,
	"grad_norm": 1.5078125,
	"learning_rate": 6.369624176675707e-05,
	"loss": 0.087,
	"step": 1840
	},
	{
	"epoch": 2.0857347964311352,
	"grad_norm": 2.21875,
	"learning_rate": 6.292134831460675e-05,
	"loss": 0.1305,
	"step": 1850
	},
	{
	"epoch": 2.09701569069839,
	"grad_norm": 1.6953125,
	"learning_rate": 6.214645486245641e-05,
	"loss": 0.1178,
	"step": 1860
	},
	{
	"epoch": 2.1082965849656445,
	"grad_norm": 2.078125,
	"learning_rate": 6.13715614103061e-05,
	"loss": 0.1124,
	"step": 1870
	},
	{
	"epoch": 2.119577479232899,
	"grad_norm": 0.81640625,
	"learning_rate": 6.059666795815576e-05,
	"loss": 0.1044,
	"step": 1880
	},
	{
	"epoch": 2.130858373500154,
	"grad_norm": 1.8828125,
	"learning_rate": 5.982177450600542e-05,
	"loss": 0.0873,
	"step": 1890
	},
	{
	"epoch": 2.1421392677674085,
	"grad_norm": 1.65625,
	"learning_rate": 5.9046881053855094e-05,
	"loss": 0.1124,
	"step": 1900
	},
	{
	"epoch": 2.153420162034663,
	"grad_norm": 1.4921875,
	"learning_rate": 5.827198760170477e-05,
	"loss": 0.0943,
	"step": 1910
	},
	{
	"epoch": 2.164701056301918,
	"grad_norm": 1.15625,
	"learning_rate": 5.749709414955444e-05,
	"loss": 0.0892,
	"step": 1920
	},
	{
	"epoch": 2.1759819505691724,
	"grad_norm": 2.328125,
	"learning_rate": 5.672220069740411e-05,
	"loss": 0.1028,
	"step": 1930
	},
	{
	"epoch": 2.187262844836427,
	"grad_norm": 1.359375,
	"learning_rate": 5.594730724525378e-05,
	"loss": 0.1033,
	"step": 1940
	},
	{
	"epoch": 2.1985437391036817,
	"grad_norm": 1.1171875,
	"learning_rate": 5.517241379310345e-05,
	"loss": 0.1093,
	"step": 1950
	},
	{
	"epoch": 2.2098246333709364,
	"grad_norm": 1.515625,
	"learning_rate": 5.439752034095312e-05,
	"loss": 0.1123,
	"step": 1960
	},
	{
	"epoch": 2.221105527638191,
	"grad_norm": 1.765625,
	"learning_rate": 5.362262688880279e-05,
	"loss": 0.1139,
	"step": 1970
	},
	{
	"epoch": 2.2323864219054457,
	"grad_norm": 1.7890625,
	"learning_rate": 5.284773343665246e-05,
	"loss": 0.0987,
	"step": 1980
	},
	{
	"epoch": 2.2436673161727003,
	"grad_norm": 2.140625,
	"learning_rate": 5.207283998450213e-05,
	"loss": 0.1008,
	"step": 1990
	},
	{
	"epoch": 2.254948210439955,
	"grad_norm": 2.3125,
	"learning_rate": 5.1297946532351806e-05,
	"loss": 0.0925,
	"step": 2000
	},
	{
	"epoch": 2.254948210439955,
	"eval_loss": 0.09745433926582336,
	"eval_runtime": 3942.1232,
	"eval_samples_per_second": 29.682,
	"eval_steps_per_second": 0.928,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 2661,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 12,
	"trial_name": null,
	"trial_params": null
	}