mistral-pretty-json / trainer_state.json

Ubuntu

init

5196563 about 2 years ago

17.7 kB

	{
	"best_metric": 0.3685910701751709,
	"best_model_checkpoint": "../../text-generation-webui/loras/mistral-instruct-better-formatting-v1/checkpoint-135",
	"epoch": 0.5162523900573613,
	"eval_steps": 27,
	"global_step": 135,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.0001,
	"loss": 0.9252,
	"step": 1
	},
	{
	"epoch": 0.0,
	"eval_loss": 0.9944313168525696,
	"eval_runtime": 8.9255,
	"eval_samples_per_second": 39.213,
	"eval_steps_per_second": 9.859,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.9232,
	"step": 2
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0003,
	"loss": 0.8082,
	"step": 3
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0004,
	"loss": 0.6783,
	"step": 4
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0005,
	"loss": 0.5423,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0006,
	"loss": 0.6041,
	"step": 6
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0007,
	"loss": 0.4542,
	"step": 7
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0008,
	"loss": 0.5088,
	"step": 8
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0009000000000000001,
	"loss": 0.5163,
	"step": 9
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.001,
	"loss": 0.4498,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0009999608360361113,
	"loss": 0.4613,
	"step": 11
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0009998433502797096,
	"loss": 0.4891,
	"step": 12
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0009996475611356265,
	"loss": 0.4316,
	"step": 13
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0009993734992753778,
	"loss": 0.4464,
	"step": 14
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0009990212076323587,
	"loss": 0.4346,
	"step": 15
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.000998590741395118,
	"loss": 0.3953,
	"step": 16
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0009980821679987123,
	"loss": 0.414,
	"step": 17
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0009974955671141423,
	"loss": 0.415,
	"step": 18
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0009968310306358713,
	"loss": 0.3885,
	"step": 19
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00099608866266743,
	"loss": 0.4143,
	"step": 20
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0009952685795051076,
	"loss": 0.4069,
	"step": 21
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0009943709096197333,
	"loss": 0.4054,
	"step": 22
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0009933957936365514,
	"loss": 0.3943,
	"step": 23
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0009923433843131901,
	"loss": 0.4342,
	"step": 24
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0009912138465157324,
	"loss": 0.4137,
	"step": 25
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0009900073571928885,
	"loss": 0.374,
	"step": 26
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0009887241053482755,
	"loss": 0.3953,
	"step": 27
	},
	{
	"epoch": 0.1,
	"eval_loss": 0.3981475234031677,
	"eval_runtime": 9.1109,
	"eval_samples_per_second": 38.415,
	"eval_steps_per_second": 9.659,
	"step": 27
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.000987364292010809,
	"loss": 0.4272,
	"step": 28
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0009859281302032107,
	"loss": 0.4212,
	"step": 29
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0009844158449086372,
	"loss": 0.3869,
	"step": 30
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0009828276730354352,
	"loss": 0.3549,
	"step": 31
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0009811638633800287,
	"loss": 0.39,
	"step": 32
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.000979424676587942,
	"loss": 0.3672,
	"step": 33
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0009776103851129704,
	"loss": 0.3763,
	"step": 34
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0009757212731744974,
	"loss": 0.4669,
	"step": 35
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0009737576367129695,
	"loss": 0.4118,
	"step": 36
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0009717197833435367,
	"loss": 0.3796,
	"step": 37
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0009696080323078621,
	"loss": 0.403,
	"step": 38
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.000967422714424111,
	"loss": 0.3771,
	"step": 39
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0009651641720351261,
	"loss": 0.4236,
	"step": 40
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0009628327589547976,
	"loss": 0.3739,
	"step": 41
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0009604288404126362,
	"loss": 0.3789,
	"step": 42
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0009579527929965582,
	"loss": 0.3923,
	"step": 43
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0009554050045938894,
	"loss": 0.4141,
	"step": 44
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0009527858743306019,
	"loss": 0.3981,
	"step": 45
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0009500958125087882,
	"loss": 0.3737,
	"step": 46
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0009473352405423844,
	"loss": 0.3878,
	"step": 47
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0009445045908911536,
	"loss": 0.3734,
	"step": 48
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0009416043069929387,
	"loss": 0.3647,
	"step": 49
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0009386348431941953,
	"loss": 0.3761,
	"step": 50
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0009355966646788152,
	"loss": 0.3846,
	"step": 51
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0009324902473952528,
	"loss": 0.3762,
	"step": 52
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0009293160779819658,
	"loss": 0.3907,
	"step": 53
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.000926074653691179,
	"loss": 0.3662,
	"step": 54
	},
	{
	"epoch": 0.21,
	"eval_loss": 0.3824438154697418,
	"eval_runtime": 9.1153,
	"eval_samples_per_second": 38.397,
	"eval_steps_per_second": 9.654,
	"step": 54
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0009227664823109882,
	"loss": 0.3862,
	"step": 55
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0009193920820858111,
	"loss": 0.409,
	"step": 56
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.000915951981635202,
	"loss": 0.374,
	"step": 57
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00091244671987104,
	"loss": 0.3829,
	"step": 58
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.000908876845913106,
	"loss": 0.3919,
	"step": 59
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0009052429190030589,
	"loss": 0.3739,
	"step": 60
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0009015455084168279,
	"loss": 0.3918,
	"step": 61
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0008977851933754317,
	"loss": 0.3809,
	"step": 62
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0008939625629542402,
	"loss": 0.3554,
	"step": 63
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0008900782159906927,
	"loss": 0.4147,
	"step": 64
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0008861327609904858,
	"loss": 0.4175,
	"step": 65
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0008821268160322482,
	"loss": 0.36,
	"step": 66
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0008780610086707148,
	"loss": 0.3417,
	"step": 67
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0008739359758384161,
	"loss": 0.3486,
	"step": 68
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0008697523637458997,
	"loss": 0.4344,
	"step": 69
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0008655108277804975,
	"loss": 0.4002,
	"step": 70
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0008612120324036547,
	"loss": 0.4107,
	"step": 71
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0008568566510468391,
	"loss": 0.3752,
	"step": 72
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0008524453660060433,
	"loss": 0.3873,
	"step": 73
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0008479788683348994,
	"loss": 0.3487,
	"step": 74
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0008434578577364219,
	"loss": 0.3557,
	"step": 75
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0008388830424533935,
	"loss": 0.3841,
	"step": 76
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0008342551391574165,
	"loss": 0.3842,
	"step": 77
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0008295748728366412,
	"loss": 0.3597,
	"step": 78
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0008248429766821926,
	"loss": 0.3659,
	"step": 79
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0008200601919733106,
	"loss": 0.3921,
	"step": 80
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0008152272679612261,
	"loss": 0.3383,
	"step": 81
	},
	{
	"epoch": 0.31,
	"eval_loss": 0.37780898809432983,
	"eval_runtime": 9.1104,
	"eval_samples_per_second": 38.418,
	"eval_steps_per_second": 9.659,
	"step": 81
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.000810344961751785,
	"loss": 0.3658,
	"step": 82
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0008054140381868435,
	"loss": 0.4424,
	"step": 83
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0008004352697244516,
	"loss": 0.4,
	"step": 84
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0007954094363178422,
	"loss": 0.4207,
	"step": 85
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0007903373252932473,
	"loss": 0.4457,
	"step": 86
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0007852197312265592,
	"loss": 0.3963,
	"step": 87
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0007800574558188547,
	"loss": 0.3642,
	"step": 88
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0007748513077708044,
	"loss": 0.4025,
	"step": 89
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0007696021026559849,
	"loss": 0.3789,
	"step": 90
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0007643106627931147,
	"loss": 0.4409,
	"step": 91
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0007589778171172321,
	"loss": 0.3818,
	"step": 92
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0007536044010498396,
	"loss": 0.3816,
	"step": 93
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.000748191256368028,
	"loss": 0.4157,
	"step": 94
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0007427392310726088,
	"loss": 0.3725,
	"step": 95
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0007372491792552693,
	"loss": 0.4034,
	"step": 96
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.000731721960964774,
	"loss": 0.3456,
	"step": 97
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0007261584420722328,
	"loss": 0.3798,
	"step": 98
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.000720559494135458,
	"loss": 0.3309,
	"step": 99
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0007149259942624286,
	"loss": 0.4046,
	"step": 100
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0007092588249738871,
	"loss": 0.3833,
	"step": 101
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0007035588740650869,
	"loss": 0.3554,
	"step": 102
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0006978270344667142,
	"loss": 0.389,
	"step": 103
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0006920642041050055,
	"loss": 0.4031,
	"step": 104
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0006862712857610813,
	"loss": 0.3599,
	"step": 105
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0006804491869295207,
	"loss": 0.359,
	"step": 106
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0006745988196761976,
	"loss": 0.4034,
	"step": 107
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0006687211004953992,
	"loss": 0.3484,
	"step": 108
	},
	{
	"epoch": 0.41,
	"eval_loss": 0.3730239272117615,
	"eval_runtime": 9.1206,
	"eval_samples_per_second": 38.375,
	"eval_steps_per_second": 9.648,
	"step": 108
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0006628169501662526,
	"loss": 0.3735,
	"step": 109
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0006568872936084789,
	"loss": 0.3637,
	"step": 110
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0006509330597374993,
	"loss": 0.3888,
	"step": 111
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.000644955181318915,
	"loss": 0.3852,
	"step": 112
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.000638954594822384,
	"loss": 0.3277,
	"step": 113
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.000632932240274918,
	"loss": 0.341,
	"step": 114
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.000626889061113621,
	"loss": 0.3207,
	"step": 115
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0006208260040378946,
	"loss": 0.3958,
	"step": 116
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0006147440188611324,
	"loss": 0.4147,
	"step": 117
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0006086440583619257,
	"loss": 0.4008,
	"step": 118
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0006025270781348054,
	"loss": 0.3868,
	"step": 119
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0005963940364405425,
	"loss": 0.4198,
	"step": 120
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0005902458940560304,
	"loss": 0.3412,
	"step": 121
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0005840836141237747,
	"loss": 0.3843,
	"step": 122
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0005779081620010104,
	"loss": 0.4006,
	"step": 123
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.000571720505108473,
	"loss": 0.3502,
	"step": 124
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0005655216127788471,
	"loss": 0.3803,
	"step": 125
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0005593124561049141,
	"loss": 0.3338,
	"step": 126
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0005530940077874249,
	"loss": 0.3904,
	"step": 127
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0005468672419827208,
	"loss": 0.4288,
	"step": 128
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0005406331341501263,
	"loss": 0.4279,
	"step": 129
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.000534392660899138,
	"loss": 0.4216,
	"step": 130
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0005281467998364314,
	"loss": 0.3592,
	"step": 131
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0005218965294127155,
	"loss": 0.3659,
	"step": 132
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0005156428287694508,
	"loss": 0.3812,
	"step": 133
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0005093866775854617,
	"loss": 0.3631,
	"step": 134
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0005031290559234649,
	"loss": 0.4098,
	"step": 135
	},
	{
	"epoch": 0.52,
	"eval_loss": 0.3685910701751709,
	"eval_runtime": 9.1112,
	"eval_samples_per_second": 38.414,
	"eval_steps_per_second": 9.658,
	"step": 135
	}
	],
	"logging_steps": 1,
	"max_steps": 261,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 27,
	"total_flos": 3.8191644033417216e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}