w06618pm

Final trained model ready for demo

4ab0ec0 11 months ago

11.7 kB

	{
	"best_global_step": 6108,
	"best_metric": 0.6058866381645203,
	"best_model_checkpoint": "mamba_nli_ensemble/checkpoint-6108",
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 6108,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016371971185330715,
	"grad_norm": 15.273209571838379,
	"learning_rate": 1.6371971185330716e-06,
	"loss": 0.7553,
	"step": 100
	},
	{
	"epoch": 0.03274394237066143,
	"grad_norm": 17.171979904174805,
	"learning_rate": 3.2743942370661432e-06,
	"loss": 0.7151,
	"step": 200
	},
	{
	"epoch": 0.04911591355599214,
	"grad_norm": 5.574963569641113,
	"learning_rate": 4.911591355599214e-06,
	"loss": 0.7065,
	"step": 300
	},
	{
	"epoch": 0.06548788474132286,
	"grad_norm": 7.3369059562683105,
	"learning_rate": 6.5487884741322864e-06,
	"loss": 0.6996,
	"step": 400
	},
	{
	"epoch": 0.08185985592665357,
	"grad_norm": 7.506777286529541,
	"learning_rate": 8.185985592665357e-06,
	"loss": 0.7071,
	"step": 500
	},
	{
	"epoch": 0.09823182711198428,
	"grad_norm": 6.177253723144531,
	"learning_rate": 9.823182711198428e-06,
	"loss": 0.6926,
	"step": 600
	},
	{
	"epoch": 0.114603798297315,
	"grad_norm": 5.600251197814941,
	"learning_rate": 1.14603798297315e-05,
	"loss": 0.7145,
	"step": 700
	},
	{
	"epoch": 0.13097576948264572,
	"grad_norm": 2.5524227619171143,
	"learning_rate": 1.3097576948264573e-05,
	"loss": 0.6919,
	"step": 800
	},
	{
	"epoch": 0.14734774066797643,
	"grad_norm": 8.479023933410645,
	"learning_rate": 1.4734774066797644e-05,
	"loss": 0.6819,
	"step": 900
	},
	{
	"epoch": 0.16371971185330714,
	"grad_norm": 5.893022060394287,
	"learning_rate": 1.6371971185330713e-05,
	"loss": 0.6944,
	"step": 1000
	},
	{
	"epoch": 0.18009168303863785,
	"grad_norm": 4.31400728225708,
	"learning_rate": 1.8009168303863786e-05,
	"loss": 0.6787,
	"step": 1100
	},
	{
	"epoch": 0.19646365422396855,
	"grad_norm": 1.9604185819625854,
	"learning_rate": 1.9646365422396855e-05,
	"loss": 0.6804,
	"step": 1200
	},
	{
	"epoch": 0.2128356254092993,
	"grad_norm": 14.416400909423828,
	"learning_rate": 2.128356254092993e-05,
	"loss": 0.6979,
	"step": 1300
	},
	{
	"epoch": 0.22920759659463,
	"grad_norm": 2.0943357944488525,
	"learning_rate": 2.2920759659463e-05,
	"loss": 0.6689,
	"step": 1400
	},
	{
	"epoch": 0.2455795677799607,
	"grad_norm": 4.136998176574707,
	"learning_rate": 2.4557956777996073e-05,
	"loss": 0.6694,
	"step": 1500
	},
	{
	"epoch": 0.26195153896529144,
	"grad_norm": 3.5071325302124023,
	"learning_rate": 2.6195153896529146e-05,
	"loss": 0.6168,
	"step": 1600
	},
	{
	"epoch": 0.2783235101506221,
	"grad_norm": 7.638752460479736,
	"learning_rate": 2.7832351015062215e-05,
	"loss": 0.6237,
	"step": 1700
	},
	{
	"epoch": 0.29469548133595286,
	"grad_norm": 1.9127601385116577,
	"learning_rate": 2.9469548133595288e-05,
	"loss": 0.6163,
	"step": 1800
	},
	{
	"epoch": 0.31106745252128354,
	"grad_norm": 66.4927749633789,
	"learning_rate": 3.110674525212836e-05,
	"loss": 0.6006,
	"step": 1900
	},
	{
	"epoch": 0.3274394237066143,
	"grad_norm": 52.92075729370117,
	"learning_rate": 3.2743942370661426e-05,
	"loss": 0.6598,
	"step": 2000
	},
	{
	"epoch": 0.343811394891945,
	"grad_norm": 11.339043617248535,
	"learning_rate": 3.43811394891945e-05,
	"loss": 0.5987,
	"step": 2100
	},
	{
	"epoch": 0.3601833660772757,
	"grad_norm": 28.995885848999023,
	"learning_rate": 3.601833660772757e-05,
	"loss": 0.6509,
	"step": 2200
	},
	{
	"epoch": 0.3765553372626064,
	"grad_norm": 23.708646774291992,
	"learning_rate": 3.765553372626065e-05,
	"loss": 0.6729,
	"step": 2300
	},
	{
	"epoch": 0.3929273084479371,
	"grad_norm": 3.438246726989746,
	"learning_rate": 3.929273084479371e-05,
	"loss": 0.5537,
	"step": 2400
	},
	{
	"epoch": 0.40929927963326784,
	"grad_norm": 10.562445640563965,
	"learning_rate": 4.0929927963326786e-05,
	"loss": 0.6228,
	"step": 2500
	},
	{
	"epoch": 0.4256712508185986,
	"grad_norm": 9.508832931518555,
	"learning_rate": 4.256712508185986e-05,
	"loss": 0.5776,
	"step": 2600
	},
	{
	"epoch": 0.44204322200392926,
	"grad_norm": 12.658103942871094,
	"learning_rate": 4.4204322200392925e-05,
	"loss": 0.5455,
	"step": 2700
	},
	{
	"epoch": 0.45841519318926,
	"grad_norm": 8.46078109741211,
	"learning_rate": 4.5841519318926e-05,
	"loss": 0.5583,
	"step": 2800
	},
	{
	"epoch": 0.4747871643745907,
	"grad_norm": 5.642892360687256,
	"learning_rate": 4.747871643745907e-05,
	"loss": 0.5556,
	"step": 2900
	},
	{
	"epoch": 0.4911591355599214,
	"grad_norm": 3.8212382793426514,
	"learning_rate": 4.9115913555992146e-05,
	"loss": 0.5552,
	"step": 3000
	},
	{
	"epoch": 0.5075311067452521,
	"grad_norm": 8.145768165588379,
	"learning_rate": 4.999965445760666e-05,
	"loss": 0.5488,
	"step": 3100
	},
	{
	"epoch": 0.5239030779305829,
	"grad_norm": 12.39121150970459,
	"learning_rate": 4.999651917405523e-05,
	"loss": 0.5595,
	"step": 3200
	},
	{
	"epoch": 0.5402750491159135,
	"grad_norm": 6.998423099517822,
	"learning_rate": 4.999011837711028e-05,
	"loss": 0.5111,
	"step": 3300
	},
	{
	"epoch": 0.5566470203012442,
	"grad_norm": 31.633630752563477,
	"learning_rate": 4.998045290296376e-05,
	"loss": 0.553,
	"step": 3400
	},
	{
	"epoch": 0.573018991486575,
	"grad_norm": 56.126251220703125,
	"learning_rate": 4.9967524014300896e-05,
	"loss": 0.5713,
	"step": 3500
	},
	{
	"epoch": 0.5893909626719057,
	"grad_norm": 6.04685640335083,
	"learning_rate": 4.995133340013522e-05,
	"loss": 0.526,
	"step": 3600
	},
	{
	"epoch": 0.6057629338572365,
	"grad_norm": 9.806577682495117,
	"learning_rate": 4.993188317558791e-05,
	"loss": 0.6185,
	"step": 3700
	},
	{
	"epoch": 0.6221349050425671,
	"grad_norm": 3.9068918228149414,
	"learning_rate": 4.9909175881611514e-05,
	"loss": 0.5086,
	"step": 3800
	},
	{
	"epoch": 0.6385068762278978,
	"grad_norm": 19.12666130065918,
	"learning_rate": 4.9883214484657957e-05,
	"loss": 0.515,
	"step": 3900
	},
	{
	"epoch": 0.6548788474132285,
	"grad_norm": 6.140756607055664,
	"learning_rate": 4.9854002376291046e-05,
	"loss": 0.5581,
	"step": 4000
	},
	{
	"epoch": 0.6712508185985593,
	"grad_norm": 12.521078109741211,
	"learning_rate": 4.9821543372743355e-05,
	"loss": 0.5192,
	"step": 4100
	},
	{
	"epoch": 0.68762278978389,
	"grad_norm": 18.783933639526367,
	"learning_rate": 4.9785841714417734e-05,
	"loss": 0.5334,
	"step": 4200
	},
	{
	"epoch": 0.7039947609692206,
	"grad_norm": 7.139877796173096,
	"learning_rate": 4.97469020653333e-05,
	"loss": 0.5334,
	"step": 4300
	},
	{
	"epoch": 0.7203667321545514,
	"grad_norm": 7.0137834548950195,
	"learning_rate": 4.970472951251617e-05,
	"loss": 0.5019,
	"step": 4400
	},
	{
	"epoch": 0.7367387033398821,
	"grad_norm": 51.292449951171875,
	"learning_rate": 4.9659329565334854e-05,
	"loss": 0.4813,
	"step": 4500
	},
	{
	"epoch": 0.7531106745252129,
	"grad_norm": 7.053626537322998,
	"learning_rate": 4.9610708154780585e-05,
	"loss": 0.6834,
	"step": 4600
	},
	{
	"epoch": 0.7694826457105436,
	"grad_norm": 0.5209086537361145,
	"learning_rate": 4.955887163269243e-05,
	"loss": 0.4802,
	"step": 4700
	},
	{
	"epoch": 0.7858546168958742,
	"grad_norm": 0.9966021776199341,
	"learning_rate": 4.950382677092754e-05,
	"loss": 0.5673,
	"step": 4800
	},
	{
	"epoch": 0.802226588081205,
	"grad_norm": 1.4829602241516113,
	"learning_rate": 4.944558076047649e-05,
	"loss": 0.4976,
	"step": 4900
	},
	{
	"epoch": 0.8185985592665357,
	"grad_norm": 63.20207214355469,
	"learning_rate": 4.9384141210523804e-05,
	"loss": 0.5398,
	"step": 5000
	},
	{
	"epoch": 0.8349705304518664,
	"grad_norm": 9.008106231689453,
	"learning_rate": 4.931951614745395e-05,
	"loss": 0.5906,
	"step": 5100
	},
	{
	"epoch": 0.8513425016371972,
	"grad_norm": 9.714171409606934,
	"learning_rate": 4.925171401380278e-05,
	"loss": 0.4833,
	"step": 5200
	},
	{
	"epoch": 0.8677144728225278,
	"grad_norm": 1.0515024662017822,
	"learning_rate": 4.918074366715457e-05,
	"loss": 0.5046,
	"step": 5300
	},
	{
	"epoch": 0.8840864440078585,
	"grad_norm": 0.32931941747665405,
	"learning_rate": 4.910661437898493e-05,
	"loss": 0.6394,
	"step": 5400
	},
	{
	"epoch": 0.9004584151931893,
	"grad_norm": 19.654884338378906,
	"learning_rate": 4.902933583344954e-05,
	"loss": 0.5572,
	"step": 5500
	},
	{
	"epoch": 0.91683038637852,
	"grad_norm": 6.547713279724121,
	"learning_rate": 4.8948918126119056e-05,
	"loss": 0.5898,
	"step": 5600
	},
	{
	"epoch": 0.9332023575638507,
	"grad_norm": 0.6314940452575684,
	"learning_rate": 4.886537176266024e-05,
	"loss": 0.4681,
	"step": 5700
	},
	{
	"epoch": 0.9495743287491814,
	"grad_norm": 9.13287353515625,
	"learning_rate": 4.877870765746347e-05,
	"loss": 0.4678,
	"step": 5800
	},
	{
	"epoch": 0.9659462999345121,
	"grad_norm": 8.16297721862793,
	"learning_rate": 4.8688937132216966e-05,
	"loss": 0.5657,
	"step": 5900
	},
	{
	"epoch": 0.9823182711198428,
	"grad_norm": 19.567949295043945,
	"learning_rate": 4.859607191442768e-05,
	"loss": 0.5164,
	"step": 6000
	},
	{
	"epoch": 0.9986902423051736,
	"grad_norm": 20.028736114501953,
	"learning_rate": 4.850012413588926e-05,
	"loss": 0.4769,
	"step": 6100
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8083209509658247,
	"eval_loss": 0.6058866381645203,
	"eval_mcc": 0.6161859428296993,
	"eval_runtime": 5.3649,
	"eval_samples_per_second": 125.446,
	"eval_steps_per_second": 8.015,
	"step": 6108
	}
	],
	"logging_steps": 100,
	"max_steps": 30540,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}