MetaMath-CodeLlama-Python-7B-V1-lora / trainer_state.json

Upload 14 files

9947c3a about 2 years ago

31.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.0060759493670886075,
	"eval_steps": 500,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.0959,
	"step": 1
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.1546,
	"step": 2
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.3479,
	"step": 3
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2503,
	"step": 4
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.3416,
	"step": 5
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.3484,
	"step": 6
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.3347,
	"step": 7
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2724,
	"step": 8
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2079,
	"step": 9
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2547,
	"step": 10
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2018,
	"step": 11
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.2583,
	"step": 12
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.284,
	"step": 13
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.0542,
	"step": 14
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.1568,
	"step": 15
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.017,
	"step": 16
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 1.0164,
	"step": 17
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.9156,
	"step": 18
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.9252,
	"step": 19
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.7876,
	"step": 20
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.7165,
	"step": 21
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6807,
	"step": 22
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6941,
	"step": 23
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6218,
	"step": 24
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6979,
	"step": 25
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6974,
	"step": 26
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6624,
	"step": 27
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6455,
	"step": 28
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.701,
	"step": 29
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6802,
	"step": 30
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6353,
	"step": 31
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5297,
	"step": 32
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5491,
	"step": 33
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6545,
	"step": 34
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6168,
	"step": 35
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6217,
	"step": 36
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6234,
	"step": 37
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5422,
	"step": 38
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.7242,
	"step": 39
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6204,
	"step": 40
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5836,
	"step": 41
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5765,
	"step": 42
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5622,
	"step": 43
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5649,
	"step": 44
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6327,
	"step": 45
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.488,
	"step": 46
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5458,
	"step": 47
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5693,
	"step": 48
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5141,
	"step": 49
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5334,
	"step": 50
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5639,
	"step": 51
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6323,
	"step": 52
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6546,
	"step": 53
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6939,
	"step": 54
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6168,
	"step": 55
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.544,
	"step": 56
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5988,
	"step": 57
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5091,
	"step": 58
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5366,
	"step": 59
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5133,
	"step": 60
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5831,
	"step": 61
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6005,
	"step": 62
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5529,
	"step": 63
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5784,
	"step": 64
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5777,
	"step": 65
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5436,
	"step": 66
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5509,
	"step": 67
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6578,
	"step": 68
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5672,
	"step": 69
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.507,
	"step": 70
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6225,
	"step": 71
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6094,
	"step": 72
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5362,
	"step": 73
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5388,
	"step": 74
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5537,
	"step": 75
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5853,
	"step": 76
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4963,
	"step": 77
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.55,
	"step": 78
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5461,
	"step": 79
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.541,
	"step": 80
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.622,
	"step": 81
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5707,
	"step": 82
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5854,
	"step": 83
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5205,
	"step": 84
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4645,
	"step": 85
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5519,
	"step": 86
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5284,
	"step": 87
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4823,
	"step": 88
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5102,
	"step": 89
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5052,
	"step": 90
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5103,
	"step": 91
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4865,
	"step": 92
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5144,
	"step": 93
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4552,
	"step": 94
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.502,
	"step": 95
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4691,
	"step": 96
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4939,
	"step": 97
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5012,
	"step": 98
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4274,
	"step": 99
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4208,
	"step": 100
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5306,
	"step": 101
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5154,
	"step": 102
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6008,
	"step": 103
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5512,
	"step": 104
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4762,
	"step": 105
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6241,
	"step": 106
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5532,
	"step": 107
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4581,
	"step": 108
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5168,
	"step": 109
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5216,
	"step": 110
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4855,
	"step": 111
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4711,
	"step": 112
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4754,
	"step": 113
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4509,
	"step": 114
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4848,
	"step": 115
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.513,
	"step": 116
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5992,
	"step": 117
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5308,
	"step": 118
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.582,
	"step": 119
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5188,
	"step": 120
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5254,
	"step": 121
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.498,
	"step": 122
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5578,
	"step": 123
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4419,
	"step": 124
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5088,
	"step": 125
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4544,
	"step": 126
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5729,
	"step": 127
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5504,
	"step": 128
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5765,
	"step": 129
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4918,
	"step": 130
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4546,
	"step": 131
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4365,
	"step": 132
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4332,
	"step": 133
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4494,
	"step": 134
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5548,
	"step": 135
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5012,
	"step": 136
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5329,
	"step": 137
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4324,
	"step": 138
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5084,
	"step": 139
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.551,
	"step": 140
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4932,
	"step": 141
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4554,
	"step": 142
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4614,
	"step": 143
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.494,
	"step": 144
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4955,
	"step": 145
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5002,
	"step": 146
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4597,
	"step": 147
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5241,
	"step": 148
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.3929,
	"step": 149
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.3445,
	"step": 150
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.58,
	"step": 151
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5182,
	"step": 152
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5274,
	"step": 153
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5099,
	"step": 154
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5458,
	"step": 155
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.474,
	"step": 156
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4769,
	"step": 157
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4472,
	"step": 158
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.514,
	"step": 159
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4605,
	"step": 160
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4921,
	"step": 161
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5079,
	"step": 162
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5588,
	"step": 163
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4637,
	"step": 164
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4842,
	"step": 165
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4781,
	"step": 166
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5443,
	"step": 167
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5679,
	"step": 168
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.523,
	"step": 169
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5176,
	"step": 170
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4599,
	"step": 171
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5255,
	"step": 172
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5217,
	"step": 173
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4861,
	"step": 174
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5303,
	"step": 175
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5442,
	"step": 176
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4619,
	"step": 177
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4551,
	"step": 178
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5021,
	"step": 179
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4832,
	"step": 180
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5725,
	"step": 181
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4902,
	"step": 182
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.506,
	"step": 183
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5055,
	"step": 184
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5262,
	"step": 185
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5572,
	"step": 186
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4542,
	"step": 187
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5356,
	"step": 188
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.493,
	"step": 189
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4752,
	"step": 190
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4753,
	"step": 191
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4706,
	"step": 192
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4993,
	"step": 193
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4781,
	"step": 194
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4874,
	"step": 195
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.549,
	"step": 196
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4599,
	"step": 197
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.3982,
	"step": 198
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.36,
	"step": 199
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.3572,
	"step": 200
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4734,
	"step": 201
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5174,
	"step": 202
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5445,
	"step": 203
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5521,
	"step": 204
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4273,
	"step": 205
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4393,
	"step": 206
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4361,
	"step": 207
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4453,
	"step": 208
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4597,
	"step": 209
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5559,
	"step": 210
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5015,
	"step": 211
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.6537,
	"step": 212
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5598,
	"step": 213
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4147,
	"step": 214
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4752,
	"step": 215
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5194,
	"step": 216
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4395,
	"step": 217
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5379,
	"step": 218
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4989,
	"step": 219
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4861,
	"step": 220
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4913,
	"step": 221
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5293,
	"step": 222
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5284,
	"step": 223
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5284,
	"step": 224
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4723,
	"step": 225
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4811,
	"step": 226
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4969,
	"step": 227
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.632,
	"step": 228
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.507,
	"step": 229
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5252,
	"step": 230
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5073,
	"step": 231
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5142,
	"step": 232
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.472,
	"step": 233
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5791,
	"step": 234
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5082,
	"step": 235
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4911,
	"step": 236
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4799,
	"step": 237
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4584,
	"step": 238
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.5571,
	"step": 239
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4438,
	"step": 240
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.491,
	"step": 241
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4601,
	"step": 242
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.442,
	"step": 243
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4082,
	"step": 244
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4723,
	"step": 245
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.4398,
	"step": 246
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4463,
	"step": 247
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.3909,
	"step": 248
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4419,
	"step": 249
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.3694,
	"step": 250
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5897,
	"step": 251
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5437,
	"step": 252
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4756,
	"step": 253
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4621,
	"step": 254
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4806,
	"step": 255
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4978,
	"step": 256
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.3948,
	"step": 257
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4398,
	"step": 258
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4413,
	"step": 259
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4838,
	"step": 260
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4948,
	"step": 261
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4863,
	"step": 262
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5742,
	"step": 263
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4775,
	"step": 264
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4741,
	"step": 265
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4886,
	"step": 266
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5147,
	"step": 267
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4474,
	"step": 268
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4613,
	"step": 269
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4768,
	"step": 270
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5597,
	"step": 271
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5458,
	"step": 272
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5718,
	"step": 273
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4413,
	"step": 274
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4806,
	"step": 275
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5187,
	"step": 276
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5801,
	"step": 277
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4721,
	"step": 278
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5101,
	"step": 279
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4714,
	"step": 280
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4709,
	"step": 281
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5251,
	"step": 282
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4749,
	"step": 283
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4328,
	"step": 284
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.516,
	"step": 285
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4037,
	"step": 286
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4403,
	"step": 287
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4025,
	"step": 288
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.482,
	"step": 289
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4305,
	"step": 290
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4409,
	"step": 291
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4818,
	"step": 292
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4425,
	"step": 293
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.472,
	"step": 294
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.5274,
	"step": 295
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4769,
	"step": 296
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4344,
	"step": 297
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4103,
	"step": 298
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.4382,
	"step": 299
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.3984,
	"step": 300
	}
	],
	"logging_steps": 1,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"total_flos": 3.3099085906182144e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}