Training in progress, step 1000, checkpoint

2a607bf verified about 1 year ago

6.33 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.13652809065465218,
	"eval_steps": 100,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0001365280906546522,
	"eval_loss": 3.0663866996765137,
	"eval_runtime": 174.8965,
	"eval_samples_per_second": 35.267,
	"eval_steps_per_second": 8.817,
	"step": 1
	},
	{
	"epoch": 0.00682640453273261,
	"grad_norm": 49.984615325927734,
	"learning_rate": 0.00025,
	"loss": 8.7347,
	"step": 50
	},
	{
	"epoch": 0.01365280906546522,
	"grad_norm": 81.82232666015625,
	"learning_rate": 0.00025,
	"loss": 8.9878,
	"step": 100
	},
	{
	"epoch": 0.01365280906546522,
	"eval_loss": 2.4946627616882324,
	"eval_runtime": 175.4739,
	"eval_samples_per_second": 35.151,
	"eval_steps_per_second": 8.788,
	"step": 100
	},
	{
	"epoch": 0.020479213598197828,
	"grad_norm": 56.2267951965332,
	"learning_rate": 0.00025,
	"loss": 8.5546,
	"step": 150
	},
	{
	"epoch": 0.02730561813093044,
	"grad_norm": 141.20570373535156,
	"learning_rate": 0.00025,
	"loss": 9.0165,
	"step": 200
	},
	{
	"epoch": 0.02730561813093044,
	"eval_loss": 2.3397319316864014,
	"eval_runtime": 175.5397,
	"eval_samples_per_second": 35.137,
	"eval_steps_per_second": 8.784,
	"step": 200
	},
	{
	"epoch": 0.034132022663663046,
	"grad_norm": 71.43548583984375,
	"learning_rate": 0.00025,
	"loss": 8.9307,
	"step": 250
	},
	{
	"epoch": 0.040958427196395655,
	"grad_norm": 74.2425765991211,
	"learning_rate": 0.00025,
	"loss": 8.8931,
	"step": 300
	},
	{
	"epoch": 0.040958427196395655,
	"eval_loss": 2.365124225616455,
	"eval_runtime": 175.691,
	"eval_samples_per_second": 35.107,
	"eval_steps_per_second": 8.777,
	"step": 300
	},
	{
	"epoch": 0.04778483172912827,
	"grad_norm": 58.193336486816406,
	"learning_rate": 0.00025,
	"loss": 8.7392,
	"step": 350
	},
	{
	"epoch": 0.05461123626186088,
	"grad_norm": 86.09171295166016,
	"learning_rate": 0.00025,
	"loss": 8.7976,
	"step": 400
	},
	{
	"epoch": 0.05461123626186088,
	"eval_loss": 2.31371808052063,
	"eval_runtime": 175.49,
	"eval_samples_per_second": 35.147,
	"eval_steps_per_second": 8.787,
	"step": 400
	},
	{
	"epoch": 0.06143764079459349,
	"grad_norm": 72.92398834228516,
	"learning_rate": 0.00025,
	"loss": 8.8149,
	"step": 450
	},
	{
	"epoch": 0.06826404532732609,
	"grad_norm": 64.2607192993164,
	"learning_rate": 0.00025,
	"loss": 8.8603,
	"step": 500
	},
	{
	"epoch": 0.06826404532732609,
	"eval_loss": 2.338709592819214,
	"eval_runtime": 175.6396,
	"eval_samples_per_second": 35.117,
	"eval_steps_per_second": 8.779,
	"step": 500
	},
	{
	"epoch": 0.07509044986005871,
	"grad_norm": 88.5269775390625,
	"learning_rate": 0.00025,
	"loss": 8.8715,
	"step": 550
	},
	{
	"epoch": 0.08191685439279131,
	"grad_norm": 69.88550567626953,
	"learning_rate": 0.00025,
	"loss": 9.0193,
	"step": 600
	},
	{
	"epoch": 0.08191685439279131,
	"eval_loss": 2.384012222290039,
	"eval_runtime": 175.5682,
	"eval_samples_per_second": 35.132,
	"eval_steps_per_second": 8.783,
	"step": 600
	},
	{
	"epoch": 0.08874325892552393,
	"grad_norm": 93.70142364501953,
	"learning_rate": 0.00025,
	"loss": 9.1371,
	"step": 650
	},
	{
	"epoch": 0.09556966345825654,
	"grad_norm": 98.56558227539062,
	"learning_rate": 0.00025,
	"loss": 9.2194,
	"step": 700
	},
	{
	"epoch": 0.09556966345825654,
	"eval_loss": 2.415971040725708,
	"eval_runtime": 175.6059,
	"eval_samples_per_second": 35.124,
	"eval_steps_per_second": 8.781,
	"step": 700
	},
	{
	"epoch": 0.10239606799098915,
	"grad_norm": 93.90786743164062,
	"learning_rate": 0.00025,
	"loss": 8.9364,
	"step": 750
	},
	{
	"epoch": 0.10922247252372176,
	"grad_norm": 77.11343383789062,
	"learning_rate": 0.00025,
	"loss": 9.0858,
	"step": 800
	},
	{
	"epoch": 0.10922247252372176,
	"eval_loss": 2.4181454181671143,
	"eval_runtime": 175.1085,
	"eval_samples_per_second": 35.224,
	"eval_steps_per_second": 8.806,
	"step": 800
	},
	{
	"epoch": 0.11604887705645436,
	"grad_norm": 81.04496002197266,
	"learning_rate": 0.00025,
	"loss": 9.0347,
	"step": 850
	},
	{
	"epoch": 0.12287528158918698,
	"grad_norm": 125.09262084960938,
	"learning_rate": 0.00025,
	"loss": 9.0613,
	"step": 900
	},
	{
	"epoch": 0.12287528158918698,
	"eval_loss": 2.4733426570892334,
	"eval_runtime": 175.0699,
	"eval_samples_per_second": 35.232,
	"eval_steps_per_second": 8.808,
	"step": 900
	},
	{
	"epoch": 0.1297016861219196,
	"grad_norm": 110.23700714111328,
	"learning_rate": 0.00025,
	"loss": 9.1768,
	"step": 950
	},
	{
	"epoch": 0.13652809065465218,
	"grad_norm": 100.71356964111328,
	"learning_rate": 0.00025,
	"loss": 9.0456,
	"step": 1000
	},
	{
	"epoch": 0.13652809065465218,
	"eval_loss": 2.4080352783203125,
	"eval_runtime": 174.9154,
	"eval_samples_per_second": 35.263,
	"eval_steps_per_second": 8.816,
	"step": 1000
	}
	],
	"logging_steps": 50,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.53626333642752e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}