starcoder2-7b-lora-s3 / checkpoint-2000 /trainer_state.json

Upload folder using huggingface_hub

7757329 verified 3 months ago

12.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.962962962962963,
	"eval_steps": 500,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.7838703233003617,
	"epoch": 0.07407407407407407,
	"grad_norm": 2.2315239906311035,
	"learning_rate": 8.032786885245902e-05,
	"loss": 1.5419,
	"mean_token_accuracy": 0.675746806114912,
	"num_tokens": 406250.0,
	"step": 50
	},
	{
	"entropy": 0.42496320378035307,
	"epoch": 0.14814814814814814,
	"grad_norm": 0.3177862763404846,
	"learning_rate": 9.990765991730485e-05,
	"loss": 0.3491,
	"mean_token_accuracy": 0.9115325964987278,
	"num_tokens": 810885.0,
	"step": 100
	},
	{
	"entropy": 0.17912146519869565,
	"epoch": 0.2222222222222222,
	"grad_norm": 0.30210021138191223,
	"learning_rate": 9.950545603782162e-05,
	"loss": 0.1608,
	"mean_token_accuracy": 0.9592751894891262,
	"num_tokens": 1216948.0,
	"step": 150
	},
	{
	"entropy": 0.13433791074901819,
	"epoch": 0.2962962962962963,
	"grad_norm": 0.4639471173286438,
	"learning_rate": 9.878674879048427e-05,
	"loss": 0.1177,
	"mean_token_accuracy": 0.9702847249805927,
	"num_tokens": 1623039.0,
	"step": 200
	},
	{
	"entropy": 0.11072772483341396,
	"epoch": 0.37037037037037035,
	"grad_norm": 0.239689439535141,
	"learning_rate": 9.775613308830824e-05,
	"loss": 0.0996,
	"mean_token_accuracy": 0.9741994588077069,
	"num_tokens": 2029168.0,
	"step": 250
	},
	{
	"entropy": 0.1015299869235605,
	"epoch": 0.4444444444444444,
	"grad_norm": 0.14000816643238068,
	"learning_rate": 9.642019796948866e-05,
	"loss": 0.0946,
	"mean_token_accuracy": 0.9754497842490673,
	"num_tokens": 2433618.0,
	"step": 300
	},
	{
	"entropy": 0.0944658778142184,
	"epoch": 0.5185185185185185,
	"grad_norm": 0.2911929786205292,
	"learning_rate": 9.478748447168449e-05,
	"loss": 0.0888,
	"mean_token_accuracy": 0.9764833557605743,
	"num_tokens": 2837007.0,
	"step": 350
	},
	{
	"entropy": 0.09286680690012872,
	"epoch": 0.5925925925925926,
	"grad_norm": 0.1825980246067047,
	"learning_rate": 9.28684310265789e-05,
	"loss": 0.0884,
	"mean_token_accuracy": 0.9767837685346603,
	"num_tokens": 3241067.0,
	"step": 400
	},
	{
	"entropy": 0.09173870420083403,
	"epoch": 0.6666666666666666,
	"grad_norm": 0.16845248639583588,
	"learning_rate": 9.067530672382544e-05,
	"loss": 0.0871,
	"mean_token_accuracy": 0.9771137611567974,
	"num_tokens": 3644774.0,
	"step": 450
	},
	{
	"entropy": 0.08837487244978547,
	"epoch": 0.7407407407407407,
	"grad_norm": 0.15667857229709625,
	"learning_rate": 8.822213287104348e-05,
	"loss": 0.0846,
	"mean_token_accuracy": 0.9784404304623604,
	"num_tokens": 4050472.0,
	"step": 500
	},
	{
	"entropy": 0.0885874280706048,
	"epoch": 0.8148148148148148,
	"grad_norm": 0.10147374123334885,
	"learning_rate": 8.552459335135381e-05,
	"loss": 0.0848,
	"mean_token_accuracy": 0.977893346697092,
	"num_tokens": 4453374.0,
	"step": 550
	},
	{
	"entropy": 0.08721992008388042,
	"epoch": 0.8888888888888888,
	"grad_norm": 0.08062940090894699,
	"learning_rate": 8.259993435156559e-05,
	"loss": 0.0844,
	"mean_token_accuracy": 0.9785151568055153,
	"num_tokens": 4859149.0,
	"step": 600
	},
	{
	"entropy": 0.08216898602433503,
	"epoch": 0.9629629629629629,
	"grad_norm": 0.1335250586271286,
	"learning_rate": 7.946685410208296e-05,
	"loss": 0.0798,
	"mean_token_accuracy": 0.9796955060958862,
	"num_tokens": 5264437.0,
	"step": 650
	},
	{
	"entropy": 0.08460669645108282,
	"epoch": 1.037037037037037,
	"grad_norm": 0.0986652821302414,
	"learning_rate": 7.614538333345735e-05,
	"loss": 0.0822,
	"mean_token_accuracy": 0.9785672229528427,
	"num_tokens": 5669023.0,
	"step": 700
	},
	{
	"entropy": 0.0850414677709341,
	"epoch": 1.1111111111111112,
	"grad_norm": 0.07220367342233658,
	"learning_rate": 7.265675721386285e-05,
	"loss": 0.0824,
	"mean_token_accuracy": 0.9784497334063054,
	"num_tokens": 6073001.0,
	"step": 750
	},
	{
	"entropy": 0.08401141031645239,
	"epoch": 1.1851851851851851,
	"grad_norm": 0.1240311786532402,
	"learning_rate": 6.902327958623736e-05,
	"loss": 0.0826,
	"mean_token_accuracy": 0.9786691051721573,
	"num_tokens": 6478325.0,
	"step": 800
	},
	{
	"entropy": 0.08358457050286233,
	"epoch": 1.2592592592592593,
	"grad_norm": 0.10120349377393723,
	"learning_rate": 6.526818037306228e-05,
	"loss": 0.0811,
	"mean_token_accuracy": 0.9787746147811413,
	"num_tokens": 6882747.0,
	"step": 850
	},
	{
	"entropy": 0.0835177150182426,
	"epoch": 1.3333333333333333,
	"grad_norm": 0.10029594600200653,
	"learning_rate": 6.14154670604355e-05,
	"loss": 0.0818,
	"mean_token_accuracy": 0.9788197261095047,
	"num_tokens": 7287039.0,
	"step": 900
	},
	{
	"entropy": 0.08201941348612309,
	"epoch": 1.4074074074074074,
	"grad_norm": 0.09068141877651215,
	"learning_rate": 5.7489771210944564e-05,
	"loss": 0.0802,
	"mean_token_accuracy": 0.9791601756215096,
	"num_tokens": 7692281.0,
	"step": 950
	},
	{
	"entropy": 0.08500135038048029,
	"epoch": 1.4814814814814814,
	"grad_norm": 0.10811195522546768,
	"learning_rate": 5.351619098663021e-05,
	"loss": 0.0829,
	"mean_token_accuracy": 0.9783452861011028,
	"num_tokens": 8096455.0,
	"step": 1000
	},
	{
	"entropy": 0.08261076767928899,
	"epoch": 1.5555555555555556,
	"grad_norm": 0.07817448675632477,
	"learning_rate": 4.952013068883795e-05,
	"loss": 0.0807,
	"mean_token_accuracy": 0.9787566863000393,
	"num_tokens": 8501481.0,
	"step": 1050
	},
	{
	"entropy": 0.08088674335740506,
	"epoch": 1.6296296296296298,
	"grad_norm": 0.0741722360253334,
	"learning_rate": 4.5527138340828776e-05,
	"loss": 0.0794,
	"mean_token_accuracy": 0.9796176181733608,
	"num_tokens": 8907814.0,
	"step": 1100
	},
	{
	"entropy": 0.08092430792748928,
	"epoch": 1.7037037037037037,
	"grad_norm": 0.0863470658659935,
	"learning_rate": 4.156274235153189e-05,
	"loss": 0.0792,
	"mean_token_accuracy": 0.9792905601859093,
	"num_tokens": 9312142.0,
	"step": 1150
	},
	{
	"entropy": 0.07963837143965065,
	"epoch": 1.7777777777777777,
	"grad_norm": 0.10823621600866318,
	"learning_rate": 3.765228830469794e-05,
	"loss": 0.0791,
	"mean_token_accuracy": 0.9794147987663746,
	"num_tokens": 9716258.0,
	"step": 1200
	},
	{
	"entropy": 0.08162923349067569,
	"epoch": 1.8518518518518519,
	"grad_norm": 0.1495106816291809,
	"learning_rate": 3.3820776916908857e-05,
	"loss": 0.0801,
	"mean_token_accuracy": 0.9793653392791748,
	"num_tokens": 10121713.0,
	"step": 1250
	},
	{
	"entropy": 0.08032218031585217,
	"epoch": 1.925925925925926,
	"grad_norm": 0.08044654875993729,
	"learning_rate": 3.0092704200428058e-05,
	"loss": 0.079,
	"mean_token_accuracy": 0.9795299915969372,
	"num_tokens": 10526002.0,
	"step": 1300
	},
	{
	"entropy": 0.07872624884359539,
	"epoch": 2.0,
	"grad_norm": 0.07752422988414764,
	"learning_rate": 2.649190485277792e-05,
	"loss": 0.0775,
	"mean_token_accuracy": 0.980090646147728,
	"num_tokens": 10932428.0,
	"step": 1350
	},
	{
	"entropy": 0.08063295830972493,
	"epoch": 2.074074074074074,
	"grad_norm": 0.09133461862802505,
	"learning_rate": 2.3041399874302905e-05,
	"loss": 0.0793,
	"mean_token_accuracy": 0.9794050461053848,
	"num_tokens": 11337209.0,
	"step": 1400
	},
	{
	"entropy": 0.08033578357659281,
	"epoch": 2.148148148148148,
	"grad_norm": 0.06361774355173111,
	"learning_rate": 1.976324938794482e-05,
	"loss": 0.0792,
	"mean_token_accuracy": 0.9797105365991592,
	"num_tokens": 11741968.0,
	"step": 1450
	},
	{
	"entropy": 0.07973854598589242,
	"epoch": 2.2222222222222223,
	"grad_norm": 0.09148402512073517,
	"learning_rate": 1.667841160219835e-05,
	"loss": 0.0778,
	"mean_token_accuracy": 0.9796544459462165,
	"num_tokens": 12147108.0,
	"step": 1500
	},
	{
	"entropy": 0.07991634771227836,
	"epoch": 2.2962962962962963,
	"grad_norm": 0.058334823697805405,
	"learning_rate": 1.3806608818939203e-05,
	"loss": 0.0787,
	"mean_token_accuracy": 0.9793905445933342,
	"num_tokens": 12551885.0,
	"step": 1550
	},
	{
	"entropy": 0.07991615429520607,
	"epoch": 2.3703703703703702,
	"grad_norm": 0.07122901827096939,
	"learning_rate": 1.1166201342777438e-05,
	"loss": 0.0785,
	"mean_token_accuracy": 0.979671506434679,
	"num_tokens": 12956475.0,
	"step": 1600
	},
	{
	"entropy": 0.07969259418547153,
	"epoch": 2.4444444444444446,
	"grad_norm": 0.11193029582500458,
	"learning_rate": 8.774070098071668e-06,
	"loss": 0.0787,
	"mean_token_accuracy": 0.979515576660633,
	"num_tokens": 13362716.0,
	"step": 1650
	},
	{
	"entropy": 0.08067716302350164,
	"epoch": 2.5185185185185186,
	"grad_norm": 0.09012539684772491,
	"learning_rate": 6.645508704069003e-06,
	"loss": 0.0802,
	"mean_token_accuracy": 0.9791687172651291,
	"num_tokens": 13766986.0,
	"step": 1700
	},
	{
	"entropy": 0.07974634082056582,
	"epoch": 2.5925925925925926,
	"grad_norm": 0.09309827536344528,
	"learning_rate": 4.794125698167262e-06,
	"loss": 0.0787,
	"mean_token_accuracy": 0.9794514080882073,
	"num_tokens": 14171018.0,
	"step": 1750
	},
	{
	"entropy": 0.08121541824191808,
	"epoch": 2.6666666666666665,
	"grad_norm": 0.06920253485441208,
	"learning_rate": 3.231757532415458e-06,
	"loss": 0.0794,
	"mean_token_accuracy": 0.9792174778878688,
	"num_tokens": 14575902.0,
	"step": 1800
	},
	{
	"entropy": 0.07990395256318152,
	"epoch": 2.7407407407407405,
	"grad_norm": 0.05824149027466774,
	"learning_rate": 1.9683928994924385e-06,
	"loss": 0.0781,
	"mean_token_accuracy": 0.9798404219746589,
	"num_tokens": 14980838.0,
	"step": 1850
	},
	{
	"entropy": 0.08023261365480722,
	"epoch": 2.814814814814815,
	"grad_norm": 0.08101186901330948,
	"learning_rate": 1.0121088719706296e-06,
	"loss": 0.0795,
	"mean_token_accuracy": 0.9791903717815876,
	"num_tokens": 15385944.0,
	"step": 1900
	},
	{
	"entropy": 0.08040859408676625,
	"epoch": 2.888888888888889,
	"grad_norm": 0.07091067731380463,
	"learning_rate": 3.6901926314575894e-07,
	"loss": 0.0797,
	"mean_token_accuracy": 0.9792876356840133,
	"num_tokens": 15791071.0,
	"step": 1950
	},
	{
	"entropy": 0.0779489404708147,
	"epoch": 2.962962962962963,
	"grad_norm": 0.05987590551376343,
	"learning_rate": 4.323553957759629e-08,
	"loss": 0.0778,
	"mean_token_accuracy": 0.9800369493663311,
	"num_tokens": 16196052.0,
	"step": 2000
	}
	],
	"logging_steps": 50,
	"max_steps": 2025,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6.765523181366723e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}