Hugging-GK
/

jigsaw-binary-gemma

Model card Files Files and versions

jigsaw-binary-gemma / trainer_state.json

Hugging-GK's picture

Upload folder using huggingface_hub

6adde2f verified 6 months ago

4.02 kB

	{
	"best_global_step": 120,
	"best_metric": 0.7853881278538812,
	"best_model_checkpoint": "/content/gemma_jigsaw_binary/checkpoint-120",
	"epoch": 2.3529411764705883,
	"eval_steps": 20,
	"global_step": 120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.39215686274509803,
	"grad_norm": 163.88746643066406,
	"learning_rate": 3.8e-07,
	"loss": 2.5213,
	"step": 20
	},
	{
	"epoch": 0.39215686274509803,
	"eval_accuracy": 0.49261083743842365,
	"eval_f1": 0.0,
	"eval_loss": 2.186915159225464,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 4.0012,
	"eval_samples_per_second": 50.734,
	"eval_steps_per_second": 1.749,
	"step": 20
	},
	{
	"epoch": 0.7843137254901961,
	"grad_norm": 144.07699584960938,
	"learning_rate": 7.8e-07,
	"loss": 1.4747,
	"step": 40
	},
	{
	"epoch": 0.7843137254901961,
	"eval_accuracy": 0.5270935960591133,
	"eval_f1": 0.673469387755102,
	"eval_loss": 1.1523324251174927,
	"eval_precision": 0.518324607329843,
	"eval_recall": 0.9611650485436893,
	"eval_runtime": 3.9856,
	"eval_samples_per_second": 50.934,
	"eval_steps_per_second": 1.756,
	"step": 40
	},
	{
	"epoch": 1.1764705882352942,
	"grad_norm": 39.203147888183594,
	"learning_rate": 1.1800000000000001e-06,
	"loss": 0.7666,
	"step": 60
	},
	{
	"epoch": 1.1764705882352942,
	"eval_accuracy": 0.6748768472906403,
	"eval_f1": 0.7272727272727273,
	"eval_loss": 0.6169362664222717,
	"eval_precision": 0.6330935251798561,
	"eval_recall": 0.8543689320388349,
	"eval_runtime": 3.9946,
	"eval_samples_per_second": 50.819,
	"eval_steps_per_second": 1.752,
	"step": 60
	},
	{
	"epoch": 1.5686274509803921,
	"grad_norm": 22.82895851135254,
	"learning_rate": 1.5800000000000001e-06,
	"loss": 0.6096,
	"step": 80
	},
	{
	"epoch": 1.5686274509803921,
	"eval_accuracy": 0.6847290640394089,
	"eval_f1": 0.75,
	"eval_loss": 0.5973589420318604,
	"eval_precision": 0.6274509803921569,
	"eval_recall": 0.9320388349514563,
	"eval_runtime": 3.9932,
	"eval_samples_per_second": 50.837,
	"eval_steps_per_second": 1.753,
	"step": 80
	},
	{
	"epoch": 1.9607843137254903,
	"grad_norm": 31.963476181030273,
	"learning_rate": 1.98e-06,
	"loss": 0.5868,
	"step": 100
	},
	{
	"epoch": 1.9607843137254903,
	"eval_accuracy": 0.7586206896551724,
	"eval_f1": 0.7586206896551724,
	"eval_loss": 0.5014973878860474,
	"eval_precision": 0.77,
	"eval_recall": 0.7475728155339806,
	"eval_runtime": 3.9896,
	"eval_samples_per_second": 50.883,
	"eval_steps_per_second": 1.755,
	"step": 100
	},
	{
	"epoch": 2.3529411764705883,
	"grad_norm": 21.746936798095703,
	"learning_rate": 2.38e-06,
	"loss": 0.5258,
	"step": 120
	},
	{
	"epoch": 2.3529411764705883,
	"eval_accuracy": 0.7684729064039408,
	"eval_f1": 0.7853881278538812,
	"eval_loss": 0.4798792600631714,
	"eval_precision": 0.7413793103448276,
	"eval_recall": 0.8349514563106796,
	"eval_runtime": 3.9887,
	"eval_samples_per_second": 50.893,
	"eval_steps_per_second": 1.755,
	"step": 120
	}
	],
	"logging_steps": 20,
	"max_steps": 153,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 20,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.5720898182447104e+16,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}