classifier_raft / trainer_state.json

Upload folder using huggingface_hub

801657d verified 14 days ago

10.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 503,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0019880715705765406,
	"grad_norm": 127.0667237907462,
	"learning_rate": 5.882352941176471e-08,
	"loss": 3.918,
	"step": 1
	},
	{
	"epoch": 0.019880715705765408,
	"grad_norm": 115.98143785016711,
	"learning_rate": 5.882352941176471e-07,
	"loss": 3.7431,
	"step": 10
	},
	{
	"epoch": 0.039761431411530816,
	"grad_norm": 65.61390946147996,
	"learning_rate": 1.1764705882352942e-06,
	"loss": 3.0734,
	"step": 20
	},
	{
	"epoch": 0.05964214711729622,
	"grad_norm": 41.009392563213375,
	"learning_rate": 1.7647058823529412e-06,
	"loss": 2.4079,
	"step": 30
	},
	{
	"epoch": 0.07952286282306163,
	"grad_norm": 25.739828109506355,
	"learning_rate": 2.3529411764705885e-06,
	"loss": 2.1062,
	"step": 40
	},
	{
	"epoch": 0.09940357852882704,
	"grad_norm": 17.26914793098219,
	"learning_rate": 2.941176470588235e-06,
	"loss": 2.0659,
	"step": 50
	},
	{
	"epoch": 0.11928429423459244,
	"grad_norm": 25.05959744665656,
	"learning_rate": 2.9970662200387674e-06,
	"loss": 2.0592,
	"step": 60
	},
	{
	"epoch": 0.13916500994035785,
	"grad_norm": 15.43081495953451,
	"learning_rate": 2.986939491128791e-06,
	"loss": 2.0407,
	"step": 70
	},
	{
	"epoch": 0.15904572564612326,
	"grad_norm": 12.58490370084457,
	"learning_rate": 2.969632483038685e-06,
	"loss": 2.0257,
	"step": 80
	},
	{
	"epoch": 0.17892644135188868,
	"grad_norm": 20.125125391550814,
	"learning_rate": 2.94522876954573e-06,
	"loss": 1.9816,
	"step": 90
	},
	{
	"epoch": 0.1988071570576541,
	"grad_norm": 8.501045071308724,
	"learning_rate": 2.9138461936939467e-06,
	"loss": 1.9523,
	"step": 100
	},
	{
	"epoch": 0.1988071570576541,
	"eval_loss": 1.9134721755981445,
	"eval_runtime": 63.5356,
	"eval_samples_per_second": 26.662,
	"eval_steps_per_second": 0.425,
	"step": 100
	},
	{
	"epoch": 0.21868787276341947,
	"grad_norm": 22.082329977354508,
	"learning_rate": 2.875636298742058e-06,
	"loss": 1.9368,
	"step": 110
	},
	{
	"epoch": 0.23856858846918488,
	"grad_norm": 15.818359711105115,
	"learning_rate": 2.8307835963765403e-06,
	"loss": 1.9224,
	"step": 120
	},
	{
	"epoch": 0.2584493041749503,
	"grad_norm": 13.730610615135147,
	"learning_rate": 2.779504675723508e-06,
	"loss": 1.9146,
	"step": 130
	},
	{
	"epoch": 0.2783300198807157,
	"grad_norm": 6.635422891471246,
	"learning_rate": 2.722047157461906e-06,
	"loss": 1.9164,
	"step": 140
	},
	{
	"epoch": 0.2982107355864811,
	"grad_norm": 8.086513909738859,
	"learning_rate": 2.6586884980885044e-06,
	"loss": 1.9076,
	"step": 150
	},
	{
	"epoch": 0.31809145129224653,
	"grad_norm": 13.60628995566901,
	"learning_rate": 2.5897346501087633e-06,
	"loss": 1.9047,
	"step": 160
	},
	{
	"epoch": 0.3379721669980119,
	"grad_norm": 18.644035876158316,
	"learning_rate": 2.5155185846233844e-06,
	"loss": 1.8866,
	"step": 170
	},
	{
	"epoch": 0.35785288270377735,
	"grad_norm": 17.47074603496702,
	"learning_rate": 2.43639868344482e-06,
	"loss": 1.8956,
	"step": 180
	},
	{
	"epoch": 0.37773359840954274,
	"grad_norm": 7.178728301299398,
	"learning_rate": 2.3527570085080407e-06,
	"loss": 1.9043,
	"step": 190
	},
	{
	"epoch": 0.3976143141153082,
	"grad_norm": 12.253857653229236,
	"learning_rate": 2.264997456932413e-06,
	"loss": 1.9159,
	"step": 200
	},
	{
	"epoch": 0.3976143141153082,
	"eval_loss": 1.8660345077514648,
	"eval_runtime": 63.4283,
	"eval_samples_per_second": 26.707,
	"eval_steps_per_second": 0.426,
	"step": 200
	},
	{
	"epoch": 0.41749502982107356,
	"grad_norm": 11.988930445624767,
	"learning_rate": 2.1735438106436967e-06,
	"loss": 1.9004,
	"step": 210
	},
	{
	"epoch": 0.43737574552683894,
	"grad_norm": 10.753394166683348,
	"learning_rate": 2.078837689974332e-06,
	"loss": 1.9172,
	"step": 220
	},
	{
	"epoch": 0.4572564612326044,
	"grad_norm": 9.351072895819225,
	"learning_rate": 1.981336421123892e-06,
	"loss": 1.9192,
	"step": 230
	},
	{
	"epoch": 0.47713717693836977,
	"grad_norm": 7.682035183703906,
	"learning_rate": 1.8815108277774976e-06,
	"loss": 1.8959,
	"step": 240
	},
	{
	"epoch": 0.4970178926441352,
	"grad_norm": 11.950308335271014,
	"learning_rate": 1.7798429575462477e-06,
	"loss": 1.8733,
	"step": 250
	},
	{
	"epoch": 0.5168986083499006,
	"grad_norm": 10.982955764593422,
	"learning_rate": 1.6768237542084645e-06,
	"loss": 1.8827,
	"step": 260
	},
	{
	"epoch": 0.536779324055666,
	"grad_norm": 11.904679442862472,
	"learning_rate": 1.5729506869922447e-06,
	"loss": 1.8765,
	"step": 270
	},
	{
	"epoch": 0.5566600397614314,
	"grad_norm": 9.827244740110832,
	"learning_rate": 1.4687253483472872e-06,
	"loss": 1.8841,
	"step": 280
	},
	{
	"epoch": 0.5765407554671969,
	"grad_norm": 7.306293618482458,
	"learning_rate": 1.3646510318060986e-06,
	"loss": 1.8773,
	"step": 290
	},
	{
	"epoch": 0.5964214711729622,
	"grad_norm": 9.071120593329336,
	"learning_rate": 1.2612303016308466e-06,
	"loss": 1.875,
	"step": 300
	},
	{
	"epoch": 0.5964214711729622,
	"eval_loss": 1.8548645973205566,
	"eval_runtime": 63.4556,
	"eval_samples_per_second": 26.696,
	"eval_steps_per_second": 0.425,
	"step": 300
	},
	{
	"epoch": 0.6163021868787276,
	"grad_norm": 9.443760924559943,
	"learning_rate": 1.1589625659817845e-06,
	"loss": 1.8568,
	"step": 310
	},
	{
	"epoch": 0.6361829025844931,
	"grad_norm": 11.674966838003883,
	"learning_rate": 1.0583416653261663e-06,
	"loss": 1.877,
	"step": 320
	},
	{
	"epoch": 0.6560636182902585,
	"grad_norm": 8.948890555802585,
	"learning_rate": 9.598534877329919e-07,
	"loss": 1.8663,
	"step": 330
	},
	{
	"epoch": 0.6759443339960238,
	"grad_norm": 7.926486654587874,
	"learning_rate": 8.639736225690654e-07,
	"loss": 1.8776,
	"step": 340
	},
	{
	"epoch": 0.6958250497017893,
	"grad_norm": 6.133488811515441,
	"learning_rate": 7.711650639264374e-07,
	"loss": 1.8669,
	"step": 350
	},
	{
	"epoch": 0.7157057654075547,
	"grad_norm": 5.995054734148766,
	"learning_rate": 6.818759748711476e-07,
	"loss": 1.8661,
	"step": 360
	},
	{
	"epoch": 0.73558648111332,
	"grad_norm": 6.532247908566974,
	"learning_rate": 5.965375233094762e-07,
	"loss": 1.8429,
	"step": 370
	},
	{
	"epoch": 0.7554671968190855,
	"grad_norm": 8.52788084676906,
	"learning_rate": 5.155617999220938e-07,
	"loss": 1.883,
	"step": 380
	},
	{
	"epoch": 0.7753479125248509,
	"grad_norm": 7.412951150651719,
	"learning_rate": 4.3933982822017883e-07,
	"loss": 1.8518,
	"step": 390
	},
	{
	"epoch": 0.7952286282306164,
	"grad_norm": 8.704060015623933,
	"learning_rate": 3.6823967633276183e-07,
	"loss": 1.841,
	"step": 400
	},
	{
	"epoch": 0.7952286282306164,
	"eval_loss": 1.834498643875122,
	"eval_runtime": 63.4011,
	"eval_samples_per_second": 26.719,
	"eval_steps_per_second": 0.426,
	"step": 400
	},
	{
	"epoch": 0.8151093439363817,
	"grad_norm": 10.837619200928202,
	"learning_rate": 3.026046796432582e-07,
	"loss": 1.8274,
	"step": 410
	},
	{
	"epoch": 0.8349900596421471,
	"grad_norm": 9.650000403237328,
	"learning_rate": 2.4275178285790973e-07,
	"loss": 1.8457,
	"step": 420
	},
	{
	"epoch": 0.8548707753479126,
	"grad_norm": 8.514388424330665,
	"learning_rate": 1.889700095121219e-07,
	"loss": 1.8333,
	"step": 430
	},
	{
	"epoch": 0.8747514910536779,
	"grad_norm": 11.640897943920702,
	"learning_rate": 1.4151906630527865e-07,
	"loss": 1.8412,
	"step": 440
	},
	{
	"epoch": 0.8946322067594433,
	"grad_norm": 13.422663396524422,
	"learning_rate": 1.00628089003575e-07,
	"loss": 1.8505,
	"step": 450
	},
	{
	"epoch": 0.9145129224652088,
	"grad_norm": 6.751723671685878,
	"learning_rate": 6.649453596676663e-08,
	"loss": 1.8411,
	"step": 460
	},
	{
	"epoch": 0.9343936381709742,
	"grad_norm": 7.821816393267081,
	"learning_rate": 3.928323464188621e-08,
	"loss": 1.8268,
	"step": 470
	},
	{
	"epoch": 0.9542743538767395,
	"grad_norm": 7.257934599669054,
	"learning_rate": 1.9125585628307407e-08,
	"loss": 1.8413,
	"step": 480
	},
	{
	"epoch": 0.974155069582505,
	"grad_norm": 7.949497125452414,
	"learning_rate": 6.118928157650749e-09,
	"loss": 1.8531,
	"step": 490
	},
	{
	"epoch": 0.9940357852882704,
	"grad_norm": 7.167162679479334,
	"learning_rate": 3.260700525591909e-10,
	"loss": 1.8309,
	"step": 500
	},
	{
	"epoch": 0.9940357852882704,
	"eval_loss": 1.8293424844741821,
	"eval_runtime": 63.4663,
	"eval_samples_per_second": 26.691,
	"eval_steps_per_second": 0.425,
	"step": 500
	}
	],
	"logging_steps": 10,
	"max_steps": 503,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 162675912867840.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}