Heavy2Light / heavy2light_final_checkpoint /trainer_state.json

Upload 17 files

548c872 verified 7 months ago

18.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 50.0,
	"eval_steps": 500,
	"global_step": 367750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 0.11480995267629623,
	"learning_rate": 9.800000000000001e-06,
	"loss": 0.2501,
	"step": 7355
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.42542216181755066,
	"eval_runtime": 128.5308,
	"eval_samples_per_second": 457.774,
	"eval_steps_per_second": 7.158,
	"step": 7355
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.158855602145195,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.2332,
	"step": 14710
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.41126397252082825,
	"eval_runtime": 128.8707,
	"eval_samples_per_second": 456.566,
	"eval_steps_per_second": 7.139,
	"step": 14710
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.20708617568016052,
	"learning_rate": 9.4e-06,
	"loss": 0.2295,
	"step": 22065
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.40615084767341614,
	"eval_runtime": 128.7304,
	"eval_samples_per_second": 457.064,
	"eval_steps_per_second": 7.147,
	"step": 22065
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.2054029405117035,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.2273,
	"step": 29420
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.40087950229644775,
	"eval_runtime": 128.7273,
	"eval_samples_per_second": 457.075,
	"eval_steps_per_second": 7.147,
	"step": 29420
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.19840490818023682,
	"learning_rate": 9e-06,
	"loss": 0.2256,
	"step": 36775
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.3977925777435303,
	"eval_runtime": 128.707,
	"eval_samples_per_second": 457.147,
	"eval_steps_per_second": 7.148,
	"step": 36775
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.25789105892181396,
	"learning_rate": 8.8e-06,
	"loss": 0.2243,
	"step": 44130
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.3958837389945984,
	"eval_runtime": 128.6907,
	"eval_samples_per_second": 457.205,
	"eval_steps_per_second": 7.149,
	"step": 44130
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.21235878765583038,
	"learning_rate": 8.6e-06,
	"loss": 0.2231,
	"step": 51485
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.39352869987487793,
	"eval_runtime": 128.701,
	"eval_samples_per_second": 457.168,
	"eval_steps_per_second": 7.148,
	"step": 51485
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.1889820694923401,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.2221,
	"step": 58840
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.3912597596645355,
	"eval_runtime": 128.7122,
	"eval_samples_per_second": 457.128,
	"eval_steps_per_second": 7.148,
	"step": 58840
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.22390136122703552,
	"learning_rate": 8.2e-06,
	"loss": 0.2212,
	"step": 66195
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.39093491435050964,
	"eval_runtime": 128.7173,
	"eval_samples_per_second": 457.11,
	"eval_steps_per_second": 7.147,
	"step": 66195
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.1813807338476181,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.2205,
	"step": 73550
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.389521986246109,
	"eval_runtime": 128.684,
	"eval_samples_per_second": 457.229,
	"eval_steps_per_second": 7.149,
	"step": 73550
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.17810355126857758,
	"learning_rate": 7.800000000000002e-06,
	"loss": 0.2197,
	"step": 80905
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.3886621296405792,
	"eval_runtime": 128.7099,
	"eval_samples_per_second": 457.137,
	"eval_steps_per_second": 7.148,
	"step": 80905
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.24489013850688934,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.219,
	"step": 88260
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.3879886269569397,
	"eval_runtime": 128.7058,
	"eval_samples_per_second": 457.151,
	"eval_steps_per_second": 7.148,
	"step": 88260
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.1965673714876175,
	"learning_rate": 7.4e-06,
	"loss": 0.2184,
	"step": 95615
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.38754525780677795,
	"eval_runtime": 128.7201,
	"eval_samples_per_second": 457.1,
	"eval_steps_per_second": 7.147,
	"step": 95615
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.22494736313819885,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.2178,
	"step": 102970
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.3873791992664337,
	"eval_runtime": 128.7144,
	"eval_samples_per_second": 457.121,
	"eval_steps_per_second": 7.148,
	"step": 102970
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.32273635268211365,
	"learning_rate": 7e-06,
	"loss": 0.2172,
	"step": 110325
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.38621675968170166,
	"eval_runtime": 128.7027,
	"eval_samples_per_second": 457.162,
	"eval_steps_per_second": 7.148,
	"step": 110325
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.17209158837795258,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.2167,
	"step": 117680
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.3857288658618927,
	"eval_runtime": 128.6791,
	"eval_samples_per_second": 457.246,
	"eval_steps_per_second": 7.15,
	"step": 117680
	},
	{
	"epoch": 17.0,
	"grad_norm": 0.27914878726005554,
	"learning_rate": 6.600000000000001e-06,
	"loss": 0.2162,
	"step": 125035
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.3846561014652252,
	"eval_runtime": 128.6869,
	"eval_samples_per_second": 457.218,
	"eval_steps_per_second": 7.149,
	"step": 125035
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.23364859819412231,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.2157,
	"step": 132390
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.3847697675228119,
	"eval_runtime": 128.7148,
	"eval_samples_per_second": 457.119,
	"eval_steps_per_second": 7.148,
	"step": 132390
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.172671377658844,
	"learning_rate": 6.200000000000001e-06,
	"loss": 0.2152,
	"step": 139745
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.38386115431785583,
	"eval_runtime": 128.6991,
	"eval_samples_per_second": 457.175,
	"eval_steps_per_second": 7.148,
	"step": 139745
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.19780349731445312,
	"learning_rate": 6e-06,
	"loss": 0.2148,
	"step": 147100
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.3836727738380432,
	"eval_runtime": 128.7294,
	"eval_samples_per_second": 457.067,
	"eval_steps_per_second": 7.147,
	"step": 147100
	},
	{
	"epoch": 21.0,
	"grad_norm": 0.26560327410697937,
	"learning_rate": 5.8e-06,
	"loss": 0.2144,
	"step": 154455
	},
	{
	"epoch": 21.0,
	"eval_loss": 0.3844703435897827,
	"eval_runtime": 128.7099,
	"eval_samples_per_second": 457.137,
	"eval_steps_per_second": 7.148,
	"step": 154455
	},
	{
	"epoch": 22.0,
	"grad_norm": 0.22332455217838287,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.2139,
	"step": 161810
	},
	{
	"epoch": 22.0,
	"eval_loss": 0.3834006190299988,
	"eval_runtime": 128.7123,
	"eval_samples_per_second": 457.128,
	"eval_steps_per_second": 7.148,
	"step": 161810
	},
	{
	"epoch": 23.0,
	"grad_norm": 0.2586681842803955,
	"learning_rate": 5.400000000000001e-06,
	"loss": 0.2136,
	"step": 169165
	},
	{
	"epoch": 23.0,
	"eval_loss": 0.38348647952079773,
	"eval_runtime": 128.6691,
	"eval_samples_per_second": 457.281,
	"eval_steps_per_second": 7.15,
	"step": 169165
	},
	{
	"epoch": 24.0,
	"grad_norm": 0.2845219075679779,
	"learning_rate": 5.2e-06,
	"loss": 0.2132,
	"step": 176520
	},
	{
	"epoch": 24.0,
	"eval_loss": 0.3828953504562378,
	"eval_runtime": 128.7332,
	"eval_samples_per_second": 457.054,
	"eval_steps_per_second": 7.147,
	"step": 176520
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.27165067195892334,
	"learning_rate": 5e-06,
	"loss": 0.2128,
	"step": 183875
	},
	{
	"epoch": 25.0,
	"eval_loss": 0.38219162821769714,
	"eval_runtime": 128.7152,
	"eval_samples_per_second": 457.118,
	"eval_steps_per_second": 7.148,
	"step": 183875
	},
	{
	"epoch": 26.0,
	"grad_norm": 0.23254956305027008,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.2125,
	"step": 191230
	},
	{
	"epoch": 26.0,
	"eval_loss": 0.38233497738838196,
	"eval_runtime": 128.8883,
	"eval_samples_per_second": 456.504,
	"eval_steps_per_second": 7.138,
	"step": 191230
	},
	{
	"epoch": 27.0,
	"grad_norm": 0.2750227749347687,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.2122,
	"step": 198585
	},
	{
	"epoch": 27.0,
	"eval_loss": 0.3827952444553375,
	"eval_runtime": 128.7247,
	"eval_samples_per_second": 457.084,
	"eval_steps_per_second": 7.147,
	"step": 198585
	},
	{
	"epoch": 28.0,
	"grad_norm": 0.3043362498283386,
	"learning_rate": 4.4e-06,
	"loss": 0.2118,
	"step": 205940
	},
	{
	"epoch": 28.0,
	"eval_loss": 0.38314878940582275,
	"eval_runtime": 128.7576,
	"eval_samples_per_second": 456.967,
	"eval_steps_per_second": 7.145,
	"step": 205940
	},
	{
	"epoch": 29.0,
	"grad_norm": 0.22233448922634125,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.2115,
	"step": 213295
	},
	{
	"epoch": 29.0,
	"eval_loss": 0.3818701505661011,
	"eval_runtime": 128.736,
	"eval_samples_per_second": 457.044,
	"eval_steps_per_second": 7.146,
	"step": 213295
	},
	{
	"epoch": 30.0,
	"grad_norm": 0.26145127415657043,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.2112,
	"step": 220650
	},
	{
	"epoch": 30.0,
	"eval_loss": 0.38293564319610596,
	"eval_runtime": 128.9344,
	"eval_samples_per_second": 456.341,
	"eval_steps_per_second": 7.135,
	"step": 220650
	},
	{
	"epoch": 31.0,
	"grad_norm": 0.2705918252468109,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.211,
	"step": 228005
	},
	{
	"epoch": 31.0,
	"eval_loss": 0.3823812007904053,
	"eval_runtime": 128.8218,
	"eval_samples_per_second": 456.739,
	"eval_steps_per_second": 7.142,
	"step": 228005
	},
	{
	"epoch": 32.0,
	"grad_norm": 0.2663235366344452,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.2107,
	"step": 235360
	},
	{
	"epoch": 32.0,
	"eval_loss": 0.382473886013031,
	"eval_runtime": 128.7309,
	"eval_samples_per_second": 457.062,
	"eval_steps_per_second": 7.147,
	"step": 235360
	},
	{
	"epoch": 33.0,
	"grad_norm": 0.23493929207324982,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.2104,
	"step": 242715
	},
	{
	"epoch": 33.0,
	"eval_loss": 0.3834179639816284,
	"eval_runtime": 128.7424,
	"eval_samples_per_second": 457.021,
	"eval_steps_per_second": 7.146,
	"step": 242715
	},
	{
	"epoch": 34.0,
	"grad_norm": 0.2235766053199768,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.2102,
	"step": 250070
	},
	{
	"epoch": 34.0,
	"eval_loss": 0.3825724124908447,
	"eval_runtime": 128.7687,
	"eval_samples_per_second": 456.928,
	"eval_steps_per_second": 7.145,
	"step": 250070
	},
	{
	"epoch": 35.0,
	"grad_norm": 0.2881753742694855,
	"learning_rate": 3e-06,
	"loss": 0.2099,
	"step": 257425
	},
	{
	"epoch": 35.0,
	"eval_loss": 0.3824039697647095,
	"eval_runtime": 133.1919,
	"eval_samples_per_second": 441.754,
	"eval_steps_per_second": 6.907,
	"step": 257425
	},
	{
	"epoch": 36.0,
	"grad_norm": 0.35670992732048035,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.2097,
	"step": 264780
	},
	{
	"epoch": 36.0,
	"eval_loss": 0.38277488946914673,
	"eval_runtime": 128.7343,
	"eval_samples_per_second": 457.05,
	"eval_steps_per_second": 7.147,
	"step": 264780
	},
	{
	"epoch": 37.0,
	"grad_norm": 0.29673638939857483,
	"learning_rate": 2.6e-06,
	"loss": 0.2095,
	"step": 272135
	},
	{
	"epoch": 37.0,
	"eval_loss": 0.38287386298179626,
	"eval_runtime": 129.4264,
	"eval_samples_per_second": 454.606,
	"eval_steps_per_second": 7.108,
	"step": 272135
	},
	{
	"epoch": 38.0,
	"grad_norm": 0.25621339678764343,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.2093,
	"step": 279490
	},
	{
	"epoch": 38.0,
	"eval_loss": 0.3827780485153198,
	"eval_runtime": 129.087,
	"eval_samples_per_second": 455.801,
	"eval_steps_per_second": 7.127,
	"step": 279490
	},
	{
	"epoch": 39.0,
	"grad_norm": 0.31819215416908264,
	"learning_rate": 2.2e-06,
	"loss": 0.2091,
	"step": 286845
	},
	{
	"epoch": 39.0,
	"eval_loss": 0.3822120726108551,
	"eval_runtime": 128.8612,
	"eval_samples_per_second": 456.6,
	"eval_steps_per_second": 7.139,
	"step": 286845
	},
	{
	"epoch": 40.0,
	"grad_norm": 0.2761085033416748,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.2089,
	"step": 294200
	},
	{
	"epoch": 40.0,
	"eval_loss": 0.3824302554130554,
	"eval_runtime": 129.0551,
	"eval_samples_per_second": 455.914,
	"eval_steps_per_second": 7.129,
	"step": 294200
	},
	{
	"epoch": 41.0,
	"grad_norm": 0.27816739678382874,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 0.2088,
	"step": 301555
	},
	{
	"epoch": 41.0,
	"eval_loss": 0.38338372111320496,
	"eval_runtime": 129.0432,
	"eval_samples_per_second": 455.956,
	"eval_steps_per_second": 7.129,
	"step": 301555
	},
	{
	"epoch": 42.0,
	"grad_norm": 0.3370245695114136,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.2086,
	"step": 308910
	},
	{
	"epoch": 42.0,
	"eval_loss": 0.3826825022697449,
	"eval_runtime": 129.0854,
	"eval_samples_per_second": 455.807,
	"eval_steps_per_second": 7.127,
	"step": 308910
	},
	{
	"epoch": 43.0,
	"grad_norm": 0.23392541706562042,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 0.2085,
	"step": 316265
	},
	{
	"epoch": 43.0,
	"eval_loss": 0.382882684469223,
	"eval_runtime": 128.8341,
	"eval_samples_per_second": 456.696,
	"eval_steps_per_second": 7.141,
	"step": 316265
	},
	{
	"epoch": 44.0,
	"grad_norm": 0.2567419409751892,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.2083,
	"step": 323620
	},
	{
	"epoch": 44.0,
	"eval_loss": 0.3828926682472229,
	"eval_runtime": 129.1671,
	"eval_samples_per_second": 455.518,
	"eval_steps_per_second": 7.123,
	"step": 323620
	},
	{
	"epoch": 45.0,
	"grad_norm": 0.22591634094715118,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.2082,
	"step": 330975
	},
	{
	"epoch": 45.0,
	"eval_loss": 0.3830114006996155,
	"eval_runtime": 128.7432,
	"eval_samples_per_second": 457.018,
	"eval_steps_per_second": 7.146,
	"step": 330975
	},
	{
	"epoch": 46.0,
	"grad_norm": 0.310523122549057,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.2081,
	"step": 338330
	},
	{
	"epoch": 46.0,
	"eval_loss": 0.38255205750465393,
	"eval_runtime": 129.0345,
	"eval_samples_per_second": 455.987,
	"eval_steps_per_second": 7.13,
	"step": 338330
	},
	{
	"epoch": 47.0,
	"grad_norm": 0.278604120016098,
	"learning_rate": 6.000000000000001e-07,
	"loss": 0.208,
	"step": 345685
	},
	{
	"epoch": 47.0,
	"eval_loss": 0.3827236294746399,
	"eval_runtime": 129.0063,
	"eval_samples_per_second": 456.086,
	"eval_steps_per_second": 7.131,
	"step": 345685
	},
	{
	"epoch": 48.0,
	"grad_norm": 0.2605680227279663,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 0.2079,
	"step": 353040
	},
	{
	"epoch": 48.0,
	"eval_loss": 0.38287004828453064,
	"eval_runtime": 128.8174,
	"eval_samples_per_second": 456.755,
	"eval_steps_per_second": 7.142,
	"step": 353040
	},
	{
	"epoch": 49.0,
	"grad_norm": 0.3245304822921753,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 0.2078,
	"step": 360395
	},
	{
	"epoch": 49.0,
	"eval_loss": 0.38298800587654114,
	"eval_runtime": 128.8343,
	"eval_samples_per_second": 456.695,
	"eval_steps_per_second": 7.141,
	"step": 360395
	},
	{
	"epoch": 50.0,
	"grad_norm": 0.3787703812122345,
	"learning_rate": 0.0,
	"loss": 0.2078,
	"step": 367750
	},
	{
	"epoch": 50.0,
	"eval_loss": 0.3828030824661255,
	"eval_runtime": 128.8773,
	"eval_samples_per_second": 456.543,
	"eval_steps_per_second": 7.139,
	"step": 367750
	}
	],
	"logging_steps": 500,
	"max_steps": 367750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"total_flos": 2.9088945658368e+18,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}