NikhilSwami commited on
Commit
7ed00a5
·
verified ·
1 Parent(s): 5de2800

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +2538 -0
trainer_state.json ADDED
@@ -0,0 +1,2538 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 1.0863531225905936,
6
+ "eval_steps": 64,
7
+ "global_step": 352,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.003108003108003108,
14
+ "grad_norm": 10.027831077575684,
15
+ "learning_rate": 0.0,
16
+ "loss": 0.6767,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.006216006216006216,
21
+ "grad_norm": 9.679778099060059,
22
+ "learning_rate": 5.000000000000001e-07,
23
+ "loss": 0.6644,
24
+ "step": 2
25
+ },
26
+ {
27
+ "epoch": 0.009324009324009324,
28
+ "grad_norm": 10.520271301269531,
29
+ "learning_rate": 1.0000000000000002e-06,
30
+ "loss": 0.6934,
31
+ "step": 3
32
+ },
33
+ {
34
+ "epoch": 0.012432012432012432,
35
+ "grad_norm": 8.677583694458008,
36
+ "learning_rate": 1.5e-06,
37
+ "loss": 0.6617,
38
+ "step": 4
39
+ },
40
+ {
41
+ "epoch": 0.01554001554001554,
42
+ "grad_norm": 6.502548694610596,
43
+ "learning_rate": 2.0000000000000003e-06,
44
+ "loss": 0.6509,
45
+ "step": 5
46
+ },
47
+ {
48
+ "epoch": 0.018648018648018648,
49
+ "grad_norm": 4.257171154022217,
50
+ "learning_rate": 2.5e-06,
51
+ "loss": 0.639,
52
+ "step": 6
53
+ },
54
+ {
55
+ "epoch": 0.021756021756021756,
56
+ "grad_norm": 3.460066556930542,
57
+ "learning_rate": 3e-06,
58
+ "loss": 0.6286,
59
+ "step": 7
60
+ },
61
+ {
62
+ "epoch": 0.024864024864024864,
63
+ "grad_norm": 3.0126283168792725,
64
+ "learning_rate": 3.5e-06,
65
+ "loss": 0.5948,
66
+ "step": 8
67
+ },
68
+ {
69
+ "epoch": 0.027972027972027972,
70
+ "grad_norm": 2.567995309829712,
71
+ "learning_rate": 4.000000000000001e-06,
72
+ "loss": 0.5744,
73
+ "step": 9
74
+ },
75
+ {
76
+ "epoch": 0.03108003108003108,
77
+ "grad_norm": 2.516597032546997,
78
+ "learning_rate": 4.5e-06,
79
+ "loss": 0.5496,
80
+ "step": 10
81
+ },
82
+ {
83
+ "epoch": 0.03418803418803419,
84
+ "grad_norm": 1.8187586069107056,
85
+ "learning_rate": 5e-06,
86
+ "loss": 0.5397,
87
+ "step": 11
88
+ },
89
+ {
90
+ "epoch": 0.037296037296037296,
91
+ "grad_norm": 1.7935529947280884,
92
+ "learning_rate": 5.500000000000001e-06,
93
+ "loss": 0.5229,
94
+ "step": 12
95
+ },
96
+ {
97
+ "epoch": 0.04040404040404041,
98
+ "grad_norm": 1.8665963411331177,
99
+ "learning_rate": 6e-06,
100
+ "loss": 0.5227,
101
+ "step": 13
102
+ },
103
+ {
104
+ "epoch": 0.04351204351204351,
105
+ "grad_norm": 2.0106680393218994,
106
+ "learning_rate": 6.5000000000000004e-06,
107
+ "loss": 0.4882,
108
+ "step": 14
109
+ },
110
+ {
111
+ "epoch": 0.046620046620046623,
112
+ "grad_norm": 3.305211305618286,
113
+ "learning_rate": 7e-06,
114
+ "loss": 0.4772,
115
+ "step": 15
116
+ },
117
+ {
118
+ "epoch": 0.04972804972804973,
119
+ "grad_norm": 3.047219753265381,
120
+ "learning_rate": 7.500000000000001e-06,
121
+ "loss": 0.452,
122
+ "step": 16
123
+ },
124
+ {
125
+ "epoch": 0.05283605283605284,
126
+ "grad_norm": 2.5453591346740723,
127
+ "learning_rate": 8.000000000000001e-06,
128
+ "loss": 0.4138,
129
+ "step": 17
130
+ },
131
+ {
132
+ "epoch": 0.055944055944055944,
133
+ "grad_norm": 5.414841175079346,
134
+ "learning_rate": 8.5e-06,
135
+ "loss": 0.4238,
136
+ "step": 18
137
+ },
138
+ {
139
+ "epoch": 0.059052059052059055,
140
+ "grad_norm": 2.979440927505493,
141
+ "learning_rate": 9e-06,
142
+ "loss": 0.3987,
143
+ "step": 19
144
+ },
145
+ {
146
+ "epoch": 0.06216006216006216,
147
+ "grad_norm": 1.981175422668457,
148
+ "learning_rate": 9.5e-06,
149
+ "loss": 0.3874,
150
+ "step": 20
151
+ },
152
+ {
153
+ "epoch": 0.06526806526806526,
154
+ "grad_norm": 1.7793089151382446,
155
+ "learning_rate": 1e-05,
156
+ "loss": 0.3631,
157
+ "step": 21
158
+ },
159
+ {
160
+ "epoch": 0.06837606837606838,
161
+ "grad_norm": 1.1854480504989624,
162
+ "learning_rate": 9.989429175475688e-06,
163
+ "loss": 0.3765,
164
+ "step": 22
165
+ },
166
+ {
167
+ "epoch": 0.07148407148407149,
168
+ "grad_norm": 0.8928348422050476,
169
+ "learning_rate": 9.978858350951375e-06,
170
+ "loss": 0.3481,
171
+ "step": 23
172
+ },
173
+ {
174
+ "epoch": 0.07459207459207459,
175
+ "grad_norm": 1.7531942129135132,
176
+ "learning_rate": 9.968287526427062e-06,
177
+ "loss": 0.3693,
178
+ "step": 24
179
+ },
180
+ {
181
+ "epoch": 0.0777000777000777,
182
+ "grad_norm": 1.0829464197158813,
183
+ "learning_rate": 9.957716701902749e-06,
184
+ "loss": 0.3644,
185
+ "step": 25
186
+ },
187
+ {
188
+ "epoch": 0.08080808080808081,
189
+ "grad_norm": 0.98089200258255,
190
+ "learning_rate": 9.947145877378436e-06,
191
+ "loss": 0.3616,
192
+ "step": 26
193
+ },
194
+ {
195
+ "epoch": 0.08391608391608392,
196
+ "grad_norm": 0.795221745967865,
197
+ "learning_rate": 9.936575052854123e-06,
198
+ "loss": 0.3679,
199
+ "step": 27
200
+ },
201
+ {
202
+ "epoch": 0.08702408702408702,
203
+ "grad_norm": 1.091843605041504,
204
+ "learning_rate": 9.92600422832981e-06,
205
+ "loss": 0.3439,
206
+ "step": 28
207
+ },
208
+ {
209
+ "epoch": 0.09013209013209013,
210
+ "grad_norm": 0.8538377285003662,
211
+ "learning_rate": 9.915433403805497e-06,
212
+ "loss": 0.3401,
213
+ "step": 29
214
+ },
215
+ {
216
+ "epoch": 0.09324009324009325,
217
+ "grad_norm": 0.9114591479301453,
218
+ "learning_rate": 9.904862579281184e-06,
219
+ "loss": 0.3515,
220
+ "step": 30
221
+ },
222
+ {
223
+ "epoch": 0.09634809634809635,
224
+ "grad_norm": 0.9083001017570496,
225
+ "learning_rate": 9.894291754756871e-06,
226
+ "loss": 0.3449,
227
+ "step": 31
228
+ },
229
+ {
230
+ "epoch": 0.09945609945609946,
231
+ "grad_norm": 0.9144365787506104,
232
+ "learning_rate": 9.883720930232558e-06,
233
+ "loss": 0.3393,
234
+ "step": 32
235
+ },
236
+ {
237
+ "epoch": 0.10256410256410256,
238
+ "grad_norm": 1.0221809148788452,
239
+ "learning_rate": 9.873150105708245e-06,
240
+ "loss": 0.353,
241
+ "step": 33
242
+ },
243
+ {
244
+ "epoch": 0.10567210567210568,
245
+ "grad_norm": 1.0219439268112183,
246
+ "learning_rate": 9.862579281183932e-06,
247
+ "loss": 0.3439,
248
+ "step": 34
249
+ },
250
+ {
251
+ "epoch": 0.10878010878010878,
252
+ "grad_norm": 1.5430618524551392,
253
+ "learning_rate": 9.852008456659621e-06,
254
+ "loss": 0.3338,
255
+ "step": 35
256
+ },
257
+ {
258
+ "epoch": 0.11188811188811189,
259
+ "grad_norm": 1.4754544496536255,
260
+ "learning_rate": 9.841437632135308e-06,
261
+ "loss": 0.3363,
262
+ "step": 36
263
+ },
264
+ {
265
+ "epoch": 0.11499611499611499,
266
+ "grad_norm": 1.1298989057540894,
267
+ "learning_rate": 9.830866807610995e-06,
268
+ "loss": 0.3423,
269
+ "step": 37
270
+ },
271
+ {
272
+ "epoch": 0.11810411810411811,
273
+ "grad_norm": 1.0130062103271484,
274
+ "learning_rate": 9.820295983086682e-06,
275
+ "loss": 0.3298,
276
+ "step": 38
277
+ },
278
+ {
279
+ "epoch": 0.12121212121212122,
280
+ "grad_norm": 1.8003513813018799,
281
+ "learning_rate": 9.80972515856237e-06,
282
+ "loss": 0.3272,
283
+ "step": 39
284
+ },
285
+ {
286
+ "epoch": 0.12432012432012432,
287
+ "grad_norm": 0.9532265067100525,
288
+ "learning_rate": 9.799154334038056e-06,
289
+ "loss": 0.3282,
290
+ "step": 40
291
+ },
292
+ {
293
+ "epoch": 0.12742812742812742,
294
+ "grad_norm": 1.5232913494110107,
295
+ "learning_rate": 9.788583509513743e-06,
296
+ "loss": 0.3469,
297
+ "step": 41
298
+ },
299
+ {
300
+ "epoch": 0.13053613053613053,
301
+ "grad_norm": 0.8918169736862183,
302
+ "learning_rate": 9.77801268498943e-06,
303
+ "loss": 0.326,
304
+ "step": 42
305
+ },
306
+ {
307
+ "epoch": 0.13364413364413363,
308
+ "grad_norm": 0.8845950365066528,
309
+ "learning_rate": 9.767441860465117e-06,
310
+ "loss": 0.3313,
311
+ "step": 43
312
+ },
313
+ {
314
+ "epoch": 0.13675213675213677,
315
+ "grad_norm": 0.8410794138908386,
316
+ "learning_rate": 9.756871035940804e-06,
317
+ "loss": 0.3318,
318
+ "step": 44
319
+ },
320
+ {
321
+ "epoch": 0.13986013986013987,
322
+ "grad_norm": 0.7157808542251587,
323
+ "learning_rate": 9.746300211416491e-06,
324
+ "loss": 0.3381,
325
+ "step": 45
326
+ },
327
+ {
328
+ "epoch": 0.14296814296814297,
329
+ "grad_norm": 1.1680670976638794,
330
+ "learning_rate": 9.735729386892178e-06,
331
+ "loss": 0.3281,
332
+ "step": 46
333
+ },
334
+ {
335
+ "epoch": 0.14607614607614608,
336
+ "grad_norm": 0.9500836133956909,
337
+ "learning_rate": 9.725158562367865e-06,
338
+ "loss": 0.336,
339
+ "step": 47
340
+ },
341
+ {
342
+ "epoch": 0.14918414918414918,
343
+ "grad_norm": 0.8565309643745422,
344
+ "learning_rate": 9.714587737843552e-06,
345
+ "loss": 0.3207,
346
+ "step": 48
347
+ },
348
+ {
349
+ "epoch": 0.1522921522921523,
350
+ "grad_norm": 1.1311777830123901,
351
+ "learning_rate": 9.70401691331924e-06,
352
+ "loss": 0.3339,
353
+ "step": 49
354
+ },
355
+ {
356
+ "epoch": 0.1554001554001554,
357
+ "grad_norm": 1.0368160009384155,
358
+ "learning_rate": 9.693446088794927e-06,
359
+ "loss": 0.3262,
360
+ "step": 50
361
+ },
362
+ {
363
+ "epoch": 0.1585081585081585,
364
+ "grad_norm": 0.9648517370223999,
365
+ "learning_rate": 9.682875264270614e-06,
366
+ "loss": 0.3376,
367
+ "step": 51
368
+ },
369
+ {
370
+ "epoch": 0.16161616161616163,
371
+ "grad_norm": 1.1039059162139893,
372
+ "learning_rate": 9.6723044397463e-06,
373
+ "loss": 0.3352,
374
+ "step": 52
375
+ },
376
+ {
377
+ "epoch": 0.16472416472416473,
378
+ "grad_norm": 1.0544918775558472,
379
+ "learning_rate": 9.661733615221988e-06,
380
+ "loss": 0.3237,
381
+ "step": 53
382
+ },
383
+ {
384
+ "epoch": 0.16783216783216784,
385
+ "grad_norm": 1.533158302307129,
386
+ "learning_rate": 9.651162790697676e-06,
387
+ "loss": 0.3287,
388
+ "step": 54
389
+ },
390
+ {
391
+ "epoch": 0.17094017094017094,
392
+ "grad_norm": 1.2342826128005981,
393
+ "learning_rate": 9.640591966173363e-06,
394
+ "loss": 0.3162,
395
+ "step": 55
396
+ },
397
+ {
398
+ "epoch": 0.17404817404817405,
399
+ "grad_norm": 1.0702942609786987,
400
+ "learning_rate": 9.63002114164905e-06,
401
+ "loss": 0.3143,
402
+ "step": 56
403
+ },
404
+ {
405
+ "epoch": 0.17715617715617715,
406
+ "grad_norm": 1.02211594581604,
407
+ "learning_rate": 9.619450317124736e-06,
408
+ "loss": 0.3318,
409
+ "step": 57
410
+ },
411
+ {
412
+ "epoch": 0.18026418026418026,
413
+ "grad_norm": 0.8379388451576233,
414
+ "learning_rate": 9.608879492600423e-06,
415
+ "loss": 0.3239,
416
+ "step": 58
417
+ },
418
+ {
419
+ "epoch": 0.18337218337218336,
420
+ "grad_norm": 0.9620960354804993,
421
+ "learning_rate": 9.59830866807611e-06,
422
+ "loss": 0.3246,
423
+ "step": 59
424
+ },
425
+ {
426
+ "epoch": 0.1864801864801865,
427
+ "grad_norm": 0.9239097833633423,
428
+ "learning_rate": 9.587737843551797e-06,
429
+ "loss": 0.3278,
430
+ "step": 60
431
+ },
432
+ {
433
+ "epoch": 0.1895881895881896,
434
+ "grad_norm": 0.7097995281219482,
435
+ "learning_rate": 9.577167019027484e-06,
436
+ "loss": 0.3152,
437
+ "step": 61
438
+ },
439
+ {
440
+ "epoch": 0.1926961926961927,
441
+ "grad_norm": 0.9077997803688049,
442
+ "learning_rate": 9.566596194503171e-06,
443
+ "loss": 0.3219,
444
+ "step": 62
445
+ },
446
+ {
447
+ "epoch": 0.1958041958041958,
448
+ "grad_norm": 0.8704112768173218,
449
+ "learning_rate": 9.55602536997886e-06,
450
+ "loss": 0.3262,
451
+ "step": 63
452
+ },
453
+ {
454
+ "epoch": 0.1989121989121989,
455
+ "grad_norm": 0.9264605641365051,
456
+ "learning_rate": 9.545454545454547e-06,
457
+ "loss": 0.3176,
458
+ "step": 64
459
+ },
460
+ {
461
+ "epoch": 0.1989121989121989,
462
+ "eval_loss": 0.3377174139022827,
463
+ "eval_runtime": 149.1316,
464
+ "eval_samples_per_second": 1.911,
465
+ "eval_steps_per_second": 0.959,
466
+ "step": 64
467
+ },
468
+ {
469
+ "epoch": 0.20202020202020202,
470
+ "grad_norm": 0.9881049394607544,
471
+ "learning_rate": 9.534883720930234e-06,
472
+ "loss": 0.3312,
473
+ "step": 65
474
+ },
475
+ {
476
+ "epoch": 0.20512820512820512,
477
+ "grad_norm": 1.1825007200241089,
478
+ "learning_rate": 9.524312896405921e-06,
479
+ "loss": 0.3189,
480
+ "step": 66
481
+ },
482
+ {
483
+ "epoch": 0.20823620823620823,
484
+ "grad_norm": 0.8272495865821838,
485
+ "learning_rate": 9.513742071881608e-06,
486
+ "loss": 0.3293,
487
+ "step": 67
488
+ },
489
+ {
490
+ "epoch": 0.21134421134421136,
491
+ "grad_norm": 1.0992769002914429,
492
+ "learning_rate": 9.503171247357295e-06,
493
+ "loss": 0.3119,
494
+ "step": 68
495
+ },
496
+ {
497
+ "epoch": 0.21445221445221446,
498
+ "grad_norm": 0.9182390570640564,
499
+ "learning_rate": 9.492600422832982e-06,
500
+ "loss": 0.331,
501
+ "step": 69
502
+ },
503
+ {
504
+ "epoch": 0.21756021756021757,
505
+ "grad_norm": 0.8677308559417725,
506
+ "learning_rate": 9.482029598308669e-06,
507
+ "loss": 0.3168,
508
+ "step": 70
509
+ },
510
+ {
511
+ "epoch": 0.22066822066822067,
512
+ "grad_norm": 1.2915256023406982,
513
+ "learning_rate": 9.471458773784356e-06,
514
+ "loss": 0.3181,
515
+ "step": 71
516
+ },
517
+ {
518
+ "epoch": 0.22377622377622378,
519
+ "grad_norm": 1.6176910400390625,
520
+ "learning_rate": 9.460887949260043e-06,
521
+ "loss": 0.3254,
522
+ "step": 72
523
+ },
524
+ {
525
+ "epoch": 0.22688422688422688,
526
+ "grad_norm": 0.6357202529907227,
527
+ "learning_rate": 9.45031712473573e-06,
528
+ "loss": 0.3298,
529
+ "step": 73
530
+ },
531
+ {
532
+ "epoch": 0.22999222999222999,
533
+ "grad_norm": 0.911662220954895,
534
+ "learning_rate": 9.439746300211417e-06,
535
+ "loss": 0.3248,
536
+ "step": 74
537
+ },
538
+ {
539
+ "epoch": 0.2331002331002331,
540
+ "grad_norm": 0.7426556944847107,
541
+ "learning_rate": 9.429175475687104e-06,
542
+ "loss": 0.3301,
543
+ "step": 75
544
+ },
545
+ {
546
+ "epoch": 0.23620823620823622,
547
+ "grad_norm": 0.7509779930114746,
548
+ "learning_rate": 9.418604651162791e-06,
549
+ "loss": 0.3209,
550
+ "step": 76
551
+ },
552
+ {
553
+ "epoch": 0.23931623931623933,
554
+ "grad_norm": 0.7699870467185974,
555
+ "learning_rate": 9.408033826638478e-06,
556
+ "loss": 0.3171,
557
+ "step": 77
558
+ },
559
+ {
560
+ "epoch": 0.24242424242424243,
561
+ "grad_norm": 0.7583193182945251,
562
+ "learning_rate": 9.397463002114165e-06,
563
+ "loss": 0.3128,
564
+ "step": 78
565
+ },
566
+ {
567
+ "epoch": 0.24553224553224554,
568
+ "grad_norm": 0.968973696231842,
569
+ "learning_rate": 9.386892177589852e-06,
570
+ "loss": 0.3293,
571
+ "step": 79
572
+ },
573
+ {
574
+ "epoch": 0.24864024864024864,
575
+ "grad_norm": 0.9967902302742004,
576
+ "learning_rate": 9.37632135306554e-06,
577
+ "loss": 0.3209,
578
+ "step": 80
579
+ },
580
+ {
581
+ "epoch": 0.2517482517482518,
582
+ "grad_norm": 0.7837809920310974,
583
+ "learning_rate": 9.365750528541226e-06,
584
+ "loss": 0.3152,
585
+ "step": 81
586
+ },
587
+ {
588
+ "epoch": 0.25485625485625485,
589
+ "grad_norm": 1.6905367374420166,
590
+ "learning_rate": 9.355179704016915e-06,
591
+ "loss": 0.3163,
592
+ "step": 82
593
+ },
594
+ {
595
+ "epoch": 0.257964257964258,
596
+ "grad_norm": 0.8734452128410339,
597
+ "learning_rate": 9.344608879492602e-06,
598
+ "loss": 0.3306,
599
+ "step": 83
600
+ },
601
+ {
602
+ "epoch": 0.26107226107226106,
603
+ "grad_norm": 3.6059653759002686,
604
+ "learning_rate": 9.33403805496829e-06,
605
+ "loss": 0.3104,
606
+ "step": 84
607
+ },
608
+ {
609
+ "epoch": 0.2641802641802642,
610
+ "grad_norm": 1.1703656911849976,
611
+ "learning_rate": 9.323467230443976e-06,
612
+ "loss": 0.3071,
613
+ "step": 85
614
+ },
615
+ {
616
+ "epoch": 0.26728826728826727,
617
+ "grad_norm": 0.8762909770011902,
618
+ "learning_rate": 9.312896405919663e-06,
619
+ "loss": 0.3022,
620
+ "step": 86
621
+ },
622
+ {
623
+ "epoch": 0.2703962703962704,
624
+ "grad_norm": 2.158876419067383,
625
+ "learning_rate": 9.30232558139535e-06,
626
+ "loss": 0.3217,
627
+ "step": 87
628
+ },
629
+ {
630
+ "epoch": 0.27350427350427353,
631
+ "grad_norm": 0.8010348081588745,
632
+ "learning_rate": 9.291754756871036e-06,
633
+ "loss": 0.322,
634
+ "step": 88
635
+ },
636
+ {
637
+ "epoch": 0.2766122766122766,
638
+ "grad_norm": 1.119739055633545,
639
+ "learning_rate": 9.281183932346723e-06,
640
+ "loss": 0.3248,
641
+ "step": 89
642
+ },
643
+ {
644
+ "epoch": 0.27972027972027974,
645
+ "grad_norm": 0.7900079488754272,
646
+ "learning_rate": 9.27061310782241e-06,
647
+ "loss": 0.3102,
648
+ "step": 90
649
+ },
650
+ {
651
+ "epoch": 0.2828282828282828,
652
+ "grad_norm": 0.8093041181564331,
653
+ "learning_rate": 9.260042283298098e-06,
654
+ "loss": 0.3259,
655
+ "step": 91
656
+ },
657
+ {
658
+ "epoch": 0.28593628593628595,
659
+ "grad_norm": 0.7240622043609619,
660
+ "learning_rate": 9.249471458773785e-06,
661
+ "loss": 0.3002,
662
+ "step": 92
663
+ },
664
+ {
665
+ "epoch": 0.289044289044289,
666
+ "grad_norm": 0.9449782371520996,
667
+ "learning_rate": 9.238900634249473e-06,
668
+ "loss": 0.3076,
669
+ "step": 93
670
+ },
671
+ {
672
+ "epoch": 0.29215229215229216,
673
+ "grad_norm": 0.9448596835136414,
674
+ "learning_rate": 9.22832980972516e-06,
675
+ "loss": 0.3012,
676
+ "step": 94
677
+ },
678
+ {
679
+ "epoch": 0.29526029526029524,
680
+ "grad_norm": 0.9209067821502686,
681
+ "learning_rate": 9.217758985200847e-06,
682
+ "loss": 0.3131,
683
+ "step": 95
684
+ },
685
+ {
686
+ "epoch": 0.29836829836829837,
687
+ "grad_norm": 0.878709614276886,
688
+ "learning_rate": 9.207188160676534e-06,
689
+ "loss": 0.3157,
690
+ "step": 96
691
+ },
692
+ {
693
+ "epoch": 0.3014763014763015,
694
+ "grad_norm": 1.1178463697433472,
695
+ "learning_rate": 9.19661733615222e-06,
696
+ "loss": 0.3166,
697
+ "step": 97
698
+ },
699
+ {
700
+ "epoch": 0.3045843045843046,
701
+ "grad_norm": 0.9717866778373718,
702
+ "learning_rate": 9.186046511627908e-06,
703
+ "loss": 0.3144,
704
+ "step": 98
705
+ },
706
+ {
707
+ "epoch": 0.3076923076923077,
708
+ "grad_norm": 0.9905857443809509,
709
+ "learning_rate": 9.175475687103595e-06,
710
+ "loss": 0.3263,
711
+ "step": 99
712
+ },
713
+ {
714
+ "epoch": 0.3108003108003108,
715
+ "grad_norm": 1.0447399616241455,
716
+ "learning_rate": 9.164904862579282e-06,
717
+ "loss": 0.3074,
718
+ "step": 100
719
+ },
720
+ {
721
+ "epoch": 0.3139083139083139,
722
+ "grad_norm": 0.9876366853713989,
723
+ "learning_rate": 9.154334038054969e-06,
724
+ "loss": 0.3221,
725
+ "step": 101
726
+ },
727
+ {
728
+ "epoch": 0.317016317016317,
729
+ "grad_norm": 1.3406106233596802,
730
+ "learning_rate": 9.143763213530656e-06,
731
+ "loss": 0.3209,
732
+ "step": 102
733
+ },
734
+ {
735
+ "epoch": 0.3201243201243201,
736
+ "grad_norm": 1.1402978897094727,
737
+ "learning_rate": 9.133192389006343e-06,
738
+ "loss": 0.3181,
739
+ "step": 103
740
+ },
741
+ {
742
+ "epoch": 0.32323232323232326,
743
+ "grad_norm": 1.0274314880371094,
744
+ "learning_rate": 9.12262156448203e-06,
745
+ "loss": 0.3179,
746
+ "step": 104
747
+ },
748
+ {
749
+ "epoch": 0.32634032634032634,
750
+ "grad_norm": 1.0853135585784912,
751
+ "learning_rate": 9.112050739957717e-06,
752
+ "loss": 0.3068,
753
+ "step": 105
754
+ },
755
+ {
756
+ "epoch": 0.32944832944832947,
757
+ "grad_norm": 0.9549627900123596,
758
+ "learning_rate": 9.101479915433404e-06,
759
+ "loss": 0.3058,
760
+ "step": 106
761
+ },
762
+ {
763
+ "epoch": 0.33255633255633255,
764
+ "grad_norm": 0.9081363081932068,
765
+ "learning_rate": 9.090909090909091e-06,
766
+ "loss": 0.305,
767
+ "step": 107
768
+ },
769
+ {
770
+ "epoch": 0.3356643356643357,
771
+ "grad_norm": 1.083267092704773,
772
+ "learning_rate": 9.080338266384778e-06,
773
+ "loss": 0.3293,
774
+ "step": 108
775
+ },
776
+ {
777
+ "epoch": 0.33877233877233875,
778
+ "grad_norm": 0.9146764278411865,
779
+ "learning_rate": 9.069767441860465e-06,
780
+ "loss": 0.3308,
781
+ "step": 109
782
+ },
783
+ {
784
+ "epoch": 0.3418803418803419,
785
+ "grad_norm": 0.8309290409088135,
786
+ "learning_rate": 9.059196617336154e-06,
787
+ "loss": 0.3219,
788
+ "step": 110
789
+ },
790
+ {
791
+ "epoch": 0.34498834498834496,
792
+ "grad_norm": 0.7540556788444519,
793
+ "learning_rate": 9.048625792811841e-06,
794
+ "loss": 0.3165,
795
+ "step": 111
796
+ },
797
+ {
798
+ "epoch": 0.3480963480963481,
799
+ "grad_norm": 0.7756165862083435,
800
+ "learning_rate": 9.038054968287528e-06,
801
+ "loss": 0.3201,
802
+ "step": 112
803
+ },
804
+ {
805
+ "epoch": 0.35120435120435123,
806
+ "grad_norm": 1.016161561012268,
807
+ "learning_rate": 9.027484143763215e-06,
808
+ "loss": 0.318,
809
+ "step": 113
810
+ },
811
+ {
812
+ "epoch": 0.3543123543123543,
813
+ "grad_norm": 1.1762275695800781,
814
+ "learning_rate": 9.016913319238902e-06,
815
+ "loss": 0.3071,
816
+ "step": 114
817
+ },
818
+ {
819
+ "epoch": 0.35742035742035744,
820
+ "grad_norm": 1.0186941623687744,
821
+ "learning_rate": 9.006342494714589e-06,
822
+ "loss": 0.3094,
823
+ "step": 115
824
+ },
825
+ {
826
+ "epoch": 0.3605283605283605,
827
+ "grad_norm": 1.3835426568984985,
828
+ "learning_rate": 8.995771670190276e-06,
829
+ "loss": 0.3203,
830
+ "step": 116
831
+ },
832
+ {
833
+ "epoch": 0.36363636363636365,
834
+ "grad_norm": 0.9151639938354492,
835
+ "learning_rate": 8.985200845665963e-06,
836
+ "loss": 0.3075,
837
+ "step": 117
838
+ },
839
+ {
840
+ "epoch": 0.3667443667443667,
841
+ "grad_norm": 0.9079708456993103,
842
+ "learning_rate": 8.974630021141648e-06,
843
+ "loss": 0.3111,
844
+ "step": 118
845
+ },
846
+ {
847
+ "epoch": 0.36985236985236986,
848
+ "grad_norm": 0.7135366201400757,
849
+ "learning_rate": 8.964059196617337e-06,
850
+ "loss": 0.3131,
851
+ "step": 119
852
+ },
853
+ {
854
+ "epoch": 0.372960372960373,
855
+ "grad_norm": 0.7310993671417236,
856
+ "learning_rate": 8.953488372093024e-06,
857
+ "loss": 0.3181,
858
+ "step": 120
859
+ },
860
+ {
861
+ "epoch": 0.37606837606837606,
862
+ "grad_norm": 0.9562262296676636,
863
+ "learning_rate": 8.942917547568711e-06,
864
+ "loss": 0.3114,
865
+ "step": 121
866
+ },
867
+ {
868
+ "epoch": 0.3791763791763792,
869
+ "grad_norm": 1.088692545890808,
870
+ "learning_rate": 8.932346723044398e-06,
871
+ "loss": 0.2985,
872
+ "step": 122
873
+ },
874
+ {
875
+ "epoch": 0.3822843822843823,
876
+ "grad_norm": 1.3334287405014038,
877
+ "learning_rate": 8.921775898520085e-06,
878
+ "loss": 0.3198,
879
+ "step": 123
880
+ },
881
+ {
882
+ "epoch": 0.3853923853923854,
883
+ "grad_norm": 1.1457082033157349,
884
+ "learning_rate": 8.911205073995772e-06,
885
+ "loss": 0.3027,
886
+ "step": 124
887
+ },
888
+ {
889
+ "epoch": 0.3885003885003885,
890
+ "grad_norm": 1.0944201946258545,
891
+ "learning_rate": 8.90063424947146e-06,
892
+ "loss": 0.3195,
893
+ "step": 125
894
+ },
895
+ {
896
+ "epoch": 0.3916083916083916,
897
+ "grad_norm": 1.679890513420105,
898
+ "learning_rate": 8.890063424947146e-06,
899
+ "loss": 0.3118,
900
+ "step": 126
901
+ },
902
+ {
903
+ "epoch": 0.3947163947163947,
904
+ "grad_norm": 1.0934737920761108,
905
+ "learning_rate": 8.879492600422833e-06,
906
+ "loss": 0.3125,
907
+ "step": 127
908
+ },
909
+ {
910
+ "epoch": 0.3978243978243978,
911
+ "grad_norm": 0.9423776865005493,
912
+ "learning_rate": 8.86892177589852e-06,
913
+ "loss": 0.3069,
914
+ "step": 128
915
+ },
916
+ {
917
+ "epoch": 0.3978243978243978,
918
+ "eval_loss": 0.33542340993881226,
919
+ "eval_runtime": 147.0915,
920
+ "eval_samples_per_second": 1.938,
921
+ "eval_steps_per_second": 0.972,
922
+ "step": 128
923
+ },
924
+ {
925
+ "epoch": 0.40093240093240096,
926
+ "grad_norm": 1.373064637184143,
927
+ "learning_rate": 8.858350951374208e-06,
928
+ "loss": 0.3113,
929
+ "step": 129
930
+ },
931
+ {
932
+ "epoch": 0.40404040404040403,
933
+ "grad_norm": 0.9782734513282776,
934
+ "learning_rate": 8.847780126849895e-06,
935
+ "loss": 0.3176,
936
+ "step": 130
937
+ },
938
+ {
939
+ "epoch": 0.40714840714840717,
940
+ "grad_norm": 1.1988129615783691,
941
+ "learning_rate": 8.837209302325582e-06,
942
+ "loss": 0.3036,
943
+ "step": 131
944
+ },
945
+ {
946
+ "epoch": 0.41025641025641024,
947
+ "grad_norm": 1.3978164196014404,
948
+ "learning_rate": 8.826638477801269e-06,
949
+ "loss": 0.3067,
950
+ "step": 132
951
+ },
952
+ {
953
+ "epoch": 0.4133644133644134,
954
+ "grad_norm": 0.8266012072563171,
955
+ "learning_rate": 8.816067653276956e-06,
956
+ "loss": 0.3105,
957
+ "step": 133
958
+ },
959
+ {
960
+ "epoch": 0.41647241647241645,
961
+ "grad_norm": 1.0358003377914429,
962
+ "learning_rate": 8.805496828752643e-06,
963
+ "loss": 0.3176,
964
+ "step": 134
965
+ },
966
+ {
967
+ "epoch": 0.4195804195804196,
968
+ "grad_norm": 0.9363102316856384,
969
+ "learning_rate": 8.79492600422833e-06,
970
+ "loss": 0.3151,
971
+ "step": 135
972
+ },
973
+ {
974
+ "epoch": 0.4226884226884227,
975
+ "grad_norm": 0.9805242419242859,
976
+ "learning_rate": 8.784355179704017e-06,
977
+ "loss": 0.3164,
978
+ "step": 136
979
+ },
980
+ {
981
+ "epoch": 0.4257964257964258,
982
+ "grad_norm": 1.4923985004425049,
983
+ "learning_rate": 8.773784355179706e-06,
984
+ "loss": 0.3059,
985
+ "step": 137
986
+ },
987
+ {
988
+ "epoch": 0.4289044289044289,
989
+ "grad_norm": 1.7009886503219604,
990
+ "learning_rate": 8.763213530655393e-06,
991
+ "loss": 0.2937,
992
+ "step": 138
993
+ },
994
+ {
995
+ "epoch": 0.432012432012432,
996
+ "grad_norm": 0.8320425748825073,
997
+ "learning_rate": 8.75264270613108e-06,
998
+ "loss": 0.288,
999
+ "step": 139
1000
+ },
1001
+ {
1002
+ "epoch": 0.43512043512043513,
1003
+ "grad_norm": 1.3431979417800903,
1004
+ "learning_rate": 8.742071881606767e-06,
1005
+ "loss": 0.3063,
1006
+ "step": 140
1007
+ },
1008
+ {
1009
+ "epoch": 0.4382284382284382,
1010
+ "grad_norm": 1.0519447326660156,
1011
+ "learning_rate": 8.731501057082454e-06,
1012
+ "loss": 0.3043,
1013
+ "step": 141
1014
+ },
1015
+ {
1016
+ "epoch": 0.44133644133644134,
1017
+ "grad_norm": 1.0041645765304565,
1018
+ "learning_rate": 8.72093023255814e-06,
1019
+ "loss": 0.3207,
1020
+ "step": 142
1021
+ },
1022
+ {
1023
+ "epoch": 0.4444444444444444,
1024
+ "grad_norm": 1.176352620124817,
1025
+ "learning_rate": 8.710359408033828e-06,
1026
+ "loss": 0.3099,
1027
+ "step": 143
1028
+ },
1029
+ {
1030
+ "epoch": 0.44755244755244755,
1031
+ "grad_norm": 0.8591434955596924,
1032
+ "learning_rate": 8.699788583509515e-06,
1033
+ "loss": 0.2913,
1034
+ "step": 144
1035
+ },
1036
+ {
1037
+ "epoch": 0.4471858134155744,
1038
+ "grad_norm": 1.2351419925689697,
1039
+ "learning_rate": 8.689217758985202e-06,
1040
+ "loss": 0.3099,
1041
+ "step": 145
1042
+ },
1043
+ {
1044
+ "epoch": 0.4502698535080956,
1045
+ "grad_norm": 1.8375589847564697,
1046
+ "learning_rate": 8.691099476439791e-06,
1047
+ "loss": 0.3092,
1048
+ "step": 146
1049
+ },
1050
+ {
1051
+ "epoch": 0.4533538936006168,
1052
+ "grad_norm": 1.07125985622406,
1053
+ "learning_rate": 8.680628272251308e-06,
1054
+ "loss": 0.3016,
1055
+ "step": 147
1056
+ },
1057
+ {
1058
+ "epoch": 0.456437933693138,
1059
+ "grad_norm": 1.1839478015899658,
1060
+ "learning_rate": 8.670157068062827e-06,
1061
+ "loss": 0.3003,
1062
+ "step": 148
1063
+ },
1064
+ {
1065
+ "epoch": 0.45952197378565923,
1066
+ "grad_norm": 1.294833779335022,
1067
+ "learning_rate": 8.659685863874346e-06,
1068
+ "loss": 0.2972,
1069
+ "step": 149
1070
+ },
1071
+ {
1072
+ "epoch": 0.4626060138781804,
1073
+ "grad_norm": 1.0540661811828613,
1074
+ "learning_rate": 8.649214659685865e-06,
1075
+ "loss": 0.2837,
1076
+ "step": 150
1077
+ },
1078
+ {
1079
+ "epoch": 0.4656900539707016,
1080
+ "grad_norm": 1.1067568063735962,
1081
+ "learning_rate": 8.638743455497383e-06,
1082
+ "loss": 0.2966,
1083
+ "step": 151
1084
+ },
1085
+ {
1086
+ "epoch": 0.46877409406322285,
1087
+ "grad_norm": 0.9972389340400696,
1088
+ "learning_rate": 8.6282722513089e-06,
1089
+ "loss": 0.2934,
1090
+ "step": 152
1091
+ },
1092
+ {
1093
+ "epoch": 0.471858134155744,
1094
+ "grad_norm": 1.1589370965957642,
1095
+ "learning_rate": 8.61780104712042e-06,
1096
+ "loss": 0.3026,
1097
+ "step": 153
1098
+ },
1099
+ {
1100
+ "epoch": 0.47494217424826524,
1101
+ "grad_norm": 1.1224210262298584,
1102
+ "learning_rate": 8.607329842931938e-06,
1103
+ "loss": 0.3042,
1104
+ "step": 154
1105
+ },
1106
+ {
1107
+ "epoch": 0.4780262143407864,
1108
+ "grad_norm": 1.3200238943099976,
1109
+ "learning_rate": 8.596858638743457e-06,
1110
+ "loss": 0.3124,
1111
+ "step": 155
1112
+ },
1113
+ {
1114
+ "epoch": 0.4811102544333076,
1115
+ "grad_norm": 1.1300067901611328,
1116
+ "learning_rate": 8.586387434554974e-06,
1117
+ "loss": 0.3167,
1118
+ "step": 156
1119
+ },
1120
+ {
1121
+ "epoch": 0.48419429452582885,
1122
+ "grad_norm": 0.9678866863250732,
1123
+ "learning_rate": 8.575916230366493e-06,
1124
+ "loss": 0.3039,
1125
+ "step": 157
1126
+ },
1127
+ {
1128
+ "epoch": 0.48727833461835,
1129
+ "grad_norm": 0.9656190872192383,
1130
+ "learning_rate": 8.565445026178011e-06,
1131
+ "loss": 0.3067,
1132
+ "step": 158
1133
+ },
1134
+ {
1135
+ "epoch": 0.49036237471087124,
1136
+ "grad_norm": 0.9618685245513916,
1137
+ "learning_rate": 8.55497382198953e-06,
1138
+ "loss": 0.2992,
1139
+ "step": 159
1140
+ },
1141
+ {
1142
+ "epoch": 0.49344641480339246,
1143
+ "grad_norm": 1.1055867671966553,
1144
+ "learning_rate": 8.544502617801049e-06,
1145
+ "loss": 0.2986,
1146
+ "step": 160
1147
+ },
1148
+ {
1149
+ "epoch": 0.49653045489591363,
1150
+ "grad_norm": 0.8761485815048218,
1151
+ "learning_rate": 8.534031413612566e-06,
1152
+ "loss": 0.3071,
1153
+ "step": 161
1154
+ },
1155
+ {
1156
+ "epoch": 0.49961449498843485,
1157
+ "grad_norm": 1.0709651708602905,
1158
+ "learning_rate": 8.523560209424085e-06,
1159
+ "loss": 0.2965,
1160
+ "step": 162
1161
+ },
1162
+ {
1163
+ "epoch": 0.5026985350809561,
1164
+ "grad_norm": 1.2407382726669312,
1165
+ "learning_rate": 8.513089005235604e-06,
1166
+ "loss": 0.3134,
1167
+ "step": 163
1168
+ },
1169
+ {
1170
+ "epoch": 0.5057825751734772,
1171
+ "grad_norm": 1.46315598487854,
1172
+ "learning_rate": 8.502617801047122e-06,
1173
+ "loss": 0.2886,
1174
+ "step": 164
1175
+ },
1176
+ {
1177
+ "epoch": 0.5088666152659984,
1178
+ "grad_norm": 1.2314726114273071,
1179
+ "learning_rate": 8.49214659685864e-06,
1180
+ "loss": 0.2902,
1181
+ "step": 165
1182
+ },
1183
+ {
1184
+ "epoch": 0.5119506553585197,
1185
+ "grad_norm": 1.223716378211975,
1186
+ "learning_rate": 8.481675392670158e-06,
1187
+ "loss": 0.3088,
1188
+ "step": 166
1189
+ },
1190
+ {
1191
+ "epoch": 0.5150346954510409,
1192
+ "grad_norm": 1.1966098546981812,
1193
+ "learning_rate": 8.471204188481677e-06,
1194
+ "loss": 0.3139,
1195
+ "step": 167
1196
+ },
1197
+ {
1198
+ "epoch": 0.518118735543562,
1199
+ "grad_norm": 1.1182276010513306,
1200
+ "learning_rate": 8.460732984293194e-06,
1201
+ "loss": 0.3161,
1202
+ "step": 168
1203
+ },
1204
+ {
1205
+ "epoch": 0.5212027756360833,
1206
+ "grad_norm": 1.1583510637283325,
1207
+ "learning_rate": 8.450261780104713e-06,
1208
+ "loss": 0.3041,
1209
+ "step": 169
1210
+ },
1211
+ {
1212
+ "epoch": 0.5242868157286045,
1213
+ "grad_norm": 1.1864618062973022,
1214
+ "learning_rate": 8.439790575916232e-06,
1215
+ "loss": 0.3008,
1216
+ "step": 170
1217
+ },
1218
+ {
1219
+ "epoch": 0.5273708558211256,
1220
+ "grad_norm": 1.3757935762405396,
1221
+ "learning_rate": 8.429319371727749e-06,
1222
+ "loss": 0.2865,
1223
+ "step": 171
1224
+ },
1225
+ {
1226
+ "epoch": 0.5304548959136469,
1227
+ "grad_norm": 1.4410743713378906,
1228
+ "learning_rate": 8.418848167539267e-06,
1229
+ "loss": 0.3081,
1230
+ "step": 172
1231
+ },
1232
+ {
1233
+ "epoch": 0.5335389360061681,
1234
+ "grad_norm": 1.3494313955307007,
1235
+ "learning_rate": 8.408376963350786e-06,
1236
+ "loss": 0.2988,
1237
+ "step": 173
1238
+ },
1239
+ {
1240
+ "epoch": 0.5366229760986893,
1241
+ "grad_norm": 1.3871009349822998,
1242
+ "learning_rate": 8.397905759162305e-06,
1243
+ "loss": 0.3045,
1244
+ "step": 174
1245
+ },
1246
+ {
1247
+ "epoch": 0.5397070161912105,
1248
+ "grad_norm": 1.183766484260559,
1249
+ "learning_rate": 8.387434554973822e-06,
1250
+ "loss": 0.2969,
1251
+ "step": 175
1252
+ },
1253
+ {
1254
+ "epoch": 0.5427910562837317,
1255
+ "grad_norm": 1.1075443029403687,
1256
+ "learning_rate": 8.37696335078534e-06,
1257
+ "loss": 0.2834,
1258
+ "step": 176
1259
+ },
1260
+ {
1261
+ "epoch": 0.5458750963762529,
1262
+ "grad_norm": 1.3118195533752441,
1263
+ "learning_rate": 8.36649214659686e-06,
1264
+ "loss": 0.2945,
1265
+ "step": 177
1266
+ },
1267
+ {
1268
+ "epoch": 0.5489591364687741,
1269
+ "grad_norm": 1.3226675987243652,
1270
+ "learning_rate": 8.356020942408377e-06,
1271
+ "loss": 0.3085,
1272
+ "step": 178
1273
+ },
1274
+ {
1275
+ "epoch": 0.5520431765612953,
1276
+ "grad_norm": 1.1877515316009521,
1277
+ "learning_rate": 8.345549738219895e-06,
1278
+ "loss": 0.2757,
1279
+ "step": 179
1280
+ },
1281
+ {
1282
+ "epoch": 0.5551272166538165,
1283
+ "grad_norm": 1.379599928855896,
1284
+ "learning_rate": 8.335078534031414e-06,
1285
+ "loss": 0.2968,
1286
+ "step": 180
1287
+ },
1288
+ {
1289
+ "epoch": 0.5582112567463376,
1290
+ "grad_norm": 1.2975775003433228,
1291
+ "learning_rate": 8.324607329842933e-06,
1292
+ "loss": 0.3074,
1293
+ "step": 181
1294
+ },
1295
+ {
1296
+ "epoch": 0.5612952968388589,
1297
+ "grad_norm": 1.2829333543777466,
1298
+ "learning_rate": 8.31413612565445e-06,
1299
+ "loss": 0.3014,
1300
+ "step": 182
1301
+ },
1302
+ {
1303
+ "epoch": 0.5643793369313801,
1304
+ "grad_norm": 1.4759114980697632,
1305
+ "learning_rate": 8.303664921465969e-06,
1306
+ "loss": 0.3014,
1307
+ "step": 183
1308
+ },
1309
+ {
1310
+ "epoch": 0.5674633770239013,
1311
+ "grad_norm": 1.3108978271484375,
1312
+ "learning_rate": 8.293193717277488e-06,
1313
+ "loss": 0.2914,
1314
+ "step": 184
1315
+ },
1316
+ {
1317
+ "epoch": 0.5705474171164225,
1318
+ "grad_norm": 1.271666407585144,
1319
+ "learning_rate": 8.282722513089005e-06,
1320
+ "loss": 0.305,
1321
+ "step": 185
1322
+ },
1323
+ {
1324
+ "epoch": 0.5736314572089437,
1325
+ "grad_norm": 1.1115907430648804,
1326
+ "learning_rate": 8.272251308900523e-06,
1327
+ "loss": 0.2963,
1328
+ "step": 186
1329
+ },
1330
+ {
1331
+ "epoch": 0.5767154973014649,
1332
+ "grad_norm": 1.089092493057251,
1333
+ "learning_rate": 8.261780104712042e-06,
1334
+ "loss": 0.303,
1335
+ "step": 187
1336
+ },
1337
+ {
1338
+ "epoch": 0.5797995373939862,
1339
+ "grad_norm": 1.1514776945114136,
1340
+ "learning_rate": 8.251308900523561e-06,
1341
+ "loss": 0.3073,
1342
+ "step": 188
1343
+ },
1344
+ {
1345
+ "epoch": 0.5828835774865073,
1346
+ "grad_norm": 1.1654891967773438,
1347
+ "learning_rate": 8.240837696335078e-06,
1348
+ "loss": 0.2883,
1349
+ "step": 189
1350
+ },
1351
+ {
1352
+ "epoch": 0.5859676175790285,
1353
+ "grad_norm": 1.2040210962295532,
1354
+ "learning_rate": 8.230366492146597e-06,
1355
+ "loss": 0.295,
1356
+ "step": 190
1357
+ },
1358
+ {
1359
+ "epoch": 0.5890516576715498,
1360
+ "grad_norm": 1.203511118888855,
1361
+ "learning_rate": 8.219895287958116e-06,
1362
+ "loss": 0.2795,
1363
+ "step": 191
1364
+ },
1365
+ {
1366
+ "epoch": 0.5921356977640709,
1367
+ "grad_norm": 1.5743706226348877,
1368
+ "learning_rate": 8.209424083769634e-06,
1369
+ "loss": 0.3123,
1370
+ "step": 192
1371
+ },
1372
+ {
1373
+ "epoch": 0.5921356977640709,
1374
+ "eval_loss": 0.3412991166114807,
1375
+ "eval_runtime": 149.387,
1376
+ "eval_samples_per_second": 1.928,
1377
+ "eval_steps_per_second": 0.964,
1378
+ "step": 192
1379
+ },
1380
+ {
1381
+ "epoch": 0.5952197378565921,
1382
+ "grad_norm": 1.4109128713607788,
1383
+ "learning_rate": 8.198952879581153e-06,
1384
+ "loss": 0.2996,
1385
+ "step": 193
1386
+ },
1387
+ {
1388
+ "epoch": 0.5983037779491134,
1389
+ "grad_norm": 1.3817074298858643,
1390
+ "learning_rate": 8.18848167539267e-06,
1391
+ "loss": 0.2964,
1392
+ "step": 194
1393
+ },
1394
+ {
1395
+ "epoch": 0.6013878180416345,
1396
+ "grad_norm": 1.3587619066238403,
1397
+ "learning_rate": 8.178010471204189e-06,
1398
+ "loss": 0.3004,
1399
+ "step": 195
1400
+ },
1401
+ {
1402
+ "epoch": 0.6044718581341557,
1403
+ "grad_norm": 1.502744197845459,
1404
+ "learning_rate": 8.167539267015708e-06,
1405
+ "loss": 0.2957,
1406
+ "step": 196
1407
+ },
1408
+ {
1409
+ "epoch": 0.607555898226677,
1410
+ "grad_norm": 1.4416728019714355,
1411
+ "learning_rate": 8.157068062827227e-06,
1412
+ "loss": 0.2962,
1413
+ "step": 197
1414
+ },
1415
+ {
1416
+ "epoch": 0.6106399383191982,
1417
+ "grad_norm": 2.2597157955169678,
1418
+ "learning_rate": 8.146596858638745e-06,
1419
+ "loss": 0.2853,
1420
+ "step": 198
1421
+ },
1422
+ {
1423
+ "epoch": 0.6137239784117193,
1424
+ "grad_norm": 1.854837417602539,
1425
+ "learning_rate": 8.136125654450262e-06,
1426
+ "loss": 0.2918,
1427
+ "step": 199
1428
+ },
1429
+ {
1430
+ "epoch": 0.6168080185042406,
1431
+ "grad_norm": 2.1409687995910645,
1432
+ "learning_rate": 8.125654450261781e-06,
1433
+ "loss": 0.3118,
1434
+ "step": 200
1435
+ },
1436
+ {
1437
+ "epoch": 0.6198920585967618,
1438
+ "grad_norm": 1.7128517627716064,
1439
+ "learning_rate": 8.1151832460733e-06,
1440
+ "loss": 0.2822,
1441
+ "step": 201
1442
+ },
1443
+ {
1444
+ "epoch": 0.6229760986892829,
1445
+ "grad_norm": 1.4401497840881348,
1446
+ "learning_rate": 8.104712041884819e-06,
1447
+ "loss": 0.2802,
1448
+ "step": 202
1449
+ },
1450
+ {
1451
+ "epoch": 0.6260601387818041,
1452
+ "grad_norm": 1.7307312488555908,
1453
+ "learning_rate": 8.094240837696336e-06,
1454
+ "loss": 0.2973,
1455
+ "step": 203
1456
+ },
1457
+ {
1458
+ "epoch": 0.6291441788743254,
1459
+ "grad_norm": 1.263535737991333,
1460
+ "learning_rate": 8.083769633507855e-06,
1461
+ "loss": 0.3016,
1462
+ "step": 204
1463
+ },
1464
+ {
1465
+ "epoch": 0.6322282189668466,
1466
+ "grad_norm": 1.4065901041030884,
1467
+ "learning_rate": 8.073298429319373e-06,
1468
+ "loss": 0.284,
1469
+ "step": 205
1470
+ },
1471
+ {
1472
+ "epoch": 0.6353122590593677,
1473
+ "grad_norm": 1.6004809141159058,
1474
+ "learning_rate": 8.06282722513089e-06,
1475
+ "loss": 0.2908,
1476
+ "step": 206
1477
+ },
1478
+ {
1479
+ "epoch": 0.638396299151889,
1480
+ "grad_norm": 1.458287239074707,
1481
+ "learning_rate": 8.05235602094241e-06,
1482
+ "loss": 0.2832,
1483
+ "step": 207
1484
+ },
1485
+ {
1486
+ "epoch": 0.6414803392444102,
1487
+ "grad_norm": 1.8239188194274902,
1488
+ "learning_rate": 8.041884816753928e-06,
1489
+ "loss": 0.2993,
1490
+ "step": 208
1491
+ },
1492
+ {
1493
+ "epoch": 0.6445643793369313,
1494
+ "grad_norm": 1.8187966346740723,
1495
+ "learning_rate": 8.031413612565445e-06,
1496
+ "loss": 0.311,
1497
+ "step": 209
1498
+ },
1499
+ {
1500
+ "epoch": 0.6476484194294526,
1501
+ "grad_norm": 1.5089385509490967,
1502
+ "learning_rate": 8.020942408376964e-06,
1503
+ "loss": 0.2835,
1504
+ "step": 210
1505
+ },
1506
+ {
1507
+ "epoch": 0.6507324595219738,
1508
+ "grad_norm": 1.5591213703155518,
1509
+ "learning_rate": 8.010471204188483e-06,
1510
+ "loss": 0.2985,
1511
+ "step": 211
1512
+ },
1513
+ {
1514
+ "epoch": 0.653816499614495,
1515
+ "grad_norm": 1.5221312046051025,
1516
+ "learning_rate": 8.000000000000001e-06,
1517
+ "loss": 0.2805,
1518
+ "step": 212
1519
+ },
1520
+ {
1521
+ "epoch": 0.6569005397070162,
1522
+ "grad_norm": 1.8211005926132202,
1523
+ "learning_rate": 7.989528795811518e-06,
1524
+ "loss": 0.2728,
1525
+ "step": 213
1526
+ },
1527
+ {
1528
+ "epoch": 0.6599845797995374,
1529
+ "grad_norm": 2.2500016689300537,
1530
+ "learning_rate": 7.979057591623037e-06,
1531
+ "loss": 0.2932,
1532
+ "step": 214
1533
+ },
1534
+ {
1535
+ "epoch": 0.6630686198920586,
1536
+ "grad_norm": 1.7227460145950317,
1537
+ "learning_rate": 7.968586387434556e-06,
1538
+ "loss": 0.2927,
1539
+ "step": 215
1540
+ },
1541
+ {
1542
+ "epoch": 0.6661526599845798,
1543
+ "grad_norm": 2.1821672916412354,
1544
+ "learning_rate": 7.958115183246073e-06,
1545
+ "loss": 0.2919,
1546
+ "step": 216
1547
+ },
1548
+ {
1549
+ "epoch": 0.669236700077101,
1550
+ "grad_norm": 1.3368958234786987,
1551
+ "learning_rate": 7.947643979057592e-06,
1552
+ "loss": 0.2789,
1553
+ "step": 217
1554
+ },
1555
+ {
1556
+ "epoch": 0.6723207401696222,
1557
+ "grad_norm": 1.4419403076171875,
1558
+ "learning_rate": 7.93717277486911e-06,
1559
+ "loss": 0.2876,
1560
+ "step": 218
1561
+ },
1562
+ {
1563
+ "epoch": 0.6754047802621435,
1564
+ "grad_norm": 2.0355281829833984,
1565
+ "learning_rate": 7.92670157068063e-06,
1566
+ "loss": 0.3059,
1567
+ "step": 219
1568
+ },
1569
+ {
1570
+ "epoch": 0.6784888203546646,
1571
+ "grad_norm": 1.7871628999710083,
1572
+ "learning_rate": 7.916230366492146e-06,
1573
+ "loss": 0.2804,
1574
+ "step": 220
1575
+ },
1576
+ {
1577
+ "epoch": 0.6815728604471858,
1578
+ "grad_norm": 1.8160405158996582,
1579
+ "learning_rate": 7.905759162303665e-06,
1580
+ "loss": 0.2842,
1581
+ "step": 221
1582
+ },
1583
+ {
1584
+ "epoch": 0.6846569005397071,
1585
+ "grad_norm": 2.1498160362243652,
1586
+ "learning_rate": 7.895287958115184e-06,
1587
+ "loss": 0.2875,
1588
+ "step": 222
1589
+ },
1590
+ {
1591
+ "epoch": 0.6877409406322282,
1592
+ "grad_norm": 1.9483954906463623,
1593
+ "learning_rate": 7.884816753926701e-06,
1594
+ "loss": 0.2874,
1595
+ "step": 223
1596
+ },
1597
+ {
1598
+ "epoch": 0.6908249807247494,
1599
+ "grad_norm": 2.0145816802978516,
1600
+ "learning_rate": 7.87434554973822e-06,
1601
+ "loss": 0.2879,
1602
+ "step": 224
1603
+ },
1604
+ {
1605
+ "epoch": 0.6939090208172706,
1606
+ "grad_norm": 1.680413007736206,
1607
+ "learning_rate": 7.863874345549739e-06,
1608
+ "loss": 0.2755,
1609
+ "step": 225
1610
+ },
1611
+ {
1612
+ "epoch": 0.6969930609097919,
1613
+ "grad_norm": 1.5203242301940918,
1614
+ "learning_rate": 7.853403141361257e-06,
1615
+ "loss": 0.284,
1616
+ "step": 226
1617
+ },
1618
+ {
1619
+ "epoch": 0.700077101002313,
1620
+ "grad_norm": 1.892943263053894,
1621
+ "learning_rate": 7.842931937172774e-06,
1622
+ "loss": 0.2799,
1623
+ "step": 227
1624
+ },
1625
+ {
1626
+ "epoch": 0.7031611410948342,
1627
+ "grad_norm": 1.5476278066635132,
1628
+ "learning_rate": 7.832460732984293e-06,
1629
+ "loss": 0.2767,
1630
+ "step": 228
1631
+ },
1632
+ {
1633
+ "epoch": 0.7062451811873555,
1634
+ "grad_norm": 2.2650210857391357,
1635
+ "learning_rate": 7.821989528795812e-06,
1636
+ "loss": 0.2905,
1637
+ "step": 229
1638
+ },
1639
+ {
1640
+ "epoch": 0.7093292212798766,
1641
+ "grad_norm": 2.1595096588134766,
1642
+ "learning_rate": 7.81151832460733e-06,
1643
+ "loss": 0.274,
1644
+ "step": 230
1645
+ },
1646
+ {
1647
+ "epoch": 0.7124132613723978,
1648
+ "grad_norm": 1.587994933128357,
1649
+ "learning_rate": 7.80104712041885e-06,
1650
+ "loss": 0.2743,
1651
+ "step": 231
1652
+ },
1653
+ {
1654
+ "epoch": 0.7154973014649191,
1655
+ "grad_norm": 1.9411978721618652,
1656
+ "learning_rate": 7.790575916230367e-06,
1657
+ "loss": 0.272,
1658
+ "step": 232
1659
+ },
1660
+ {
1661
+ "epoch": 0.7185813415574402,
1662
+ "grad_norm": 2.1039252281188965,
1663
+ "learning_rate": 7.780104712041885e-06,
1664
+ "loss": 0.2884,
1665
+ "step": 233
1666
+ },
1667
+ {
1668
+ "epoch": 0.7216653816499614,
1669
+ "grad_norm": 1.834591269493103,
1670
+ "learning_rate": 7.769633507853404e-06,
1671
+ "loss": 0.2756,
1672
+ "step": 234
1673
+ },
1674
+ {
1675
+ "epoch": 0.7247494217424827,
1676
+ "grad_norm": 2.1758062839508057,
1677
+ "learning_rate": 7.759162303664923e-06,
1678
+ "loss": 0.287,
1679
+ "step": 235
1680
+ },
1681
+ {
1682
+ "epoch": 0.7278334618350039,
1683
+ "grad_norm": 2.0601179599761963,
1684
+ "learning_rate": 7.748691099476442e-06,
1685
+ "loss": 0.2683,
1686
+ "step": 236
1687
+ },
1688
+ {
1689
+ "epoch": 0.730917501927525,
1690
+ "grad_norm": 1.7605801820755005,
1691
+ "learning_rate": 7.738219895287959e-06,
1692
+ "loss": 0.2552,
1693
+ "step": 237
1694
+ },
1695
+ {
1696
+ "epoch": 0.7340015420200463,
1697
+ "grad_norm": 2.0951759815216064,
1698
+ "learning_rate": 7.727748691099478e-06,
1699
+ "loss": 0.258,
1700
+ "step": 238
1701
+ },
1702
+ {
1703
+ "epoch": 0.7370855821125675,
1704
+ "grad_norm": 2.2250118255615234,
1705
+ "learning_rate": 7.717277486910996e-06,
1706
+ "loss": 0.2627,
1707
+ "step": 239
1708
+ },
1709
+ {
1710
+ "epoch": 0.7401696222050886,
1711
+ "grad_norm": 2.54436993598938,
1712
+ "learning_rate": 7.706806282722513e-06,
1713
+ "loss": 0.278,
1714
+ "step": 240
1715
+ },
1716
+ {
1717
+ "epoch": 0.7432536622976099,
1718
+ "grad_norm": 1.810699701309204,
1719
+ "learning_rate": 7.696335078534032e-06,
1720
+ "loss": 0.2684,
1721
+ "step": 241
1722
+ },
1723
+ {
1724
+ "epoch": 0.7463377023901311,
1725
+ "grad_norm": 2.161043882369995,
1726
+ "learning_rate": 7.685863874345551e-06,
1727
+ "loss": 0.2828,
1728
+ "step": 242
1729
+ },
1730
+ {
1731
+ "epoch": 0.7494217424826523,
1732
+ "grad_norm": 1.7965888977050781,
1733
+ "learning_rate": 7.67539267015707e-06,
1734
+ "loss": 0.2677,
1735
+ "step": 243
1736
+ },
1737
+ {
1738
+ "epoch": 0.7525057825751735,
1739
+ "grad_norm": 1.9139559268951416,
1740
+ "learning_rate": 7.664921465968587e-06,
1741
+ "loss": 0.2701,
1742
+ "step": 244
1743
+ },
1744
+ {
1745
+ "epoch": 0.7555898226676947,
1746
+ "grad_norm": 2.0285589694976807,
1747
+ "learning_rate": 7.654450261780106e-06,
1748
+ "loss": 0.2726,
1749
+ "step": 245
1750
+ },
1751
+ {
1752
+ "epoch": 0.7586738627602159,
1753
+ "grad_norm": 2.2968027591705322,
1754
+ "learning_rate": 7.643979057591624e-06,
1755
+ "loss": 0.2606,
1756
+ "step": 246
1757
+ },
1758
+ {
1759
+ "epoch": 0.761757902852737,
1760
+ "grad_norm": 2.4324936866760254,
1761
+ "learning_rate": 7.633507853403141e-06,
1762
+ "loss": 0.2659,
1763
+ "step": 247
1764
+ },
1765
+ {
1766
+ "epoch": 0.7648419429452583,
1767
+ "grad_norm": 2.66330885887146,
1768
+ "learning_rate": 7.62303664921466e-06,
1769
+ "loss": 0.2627,
1770
+ "step": 248
1771
+ },
1772
+ {
1773
+ "epoch": 0.7679259830377795,
1774
+ "grad_norm": 2.435866355895996,
1775
+ "learning_rate": 7.612565445026179e-06,
1776
+ "loss": 0.2713,
1777
+ "step": 249
1778
+ },
1779
+ {
1780
+ "epoch": 0.7710100231303006,
1781
+ "grad_norm": 2.2584385871887207,
1782
+ "learning_rate": 7.602094240837698e-06,
1783
+ "loss": 0.2754,
1784
+ "step": 250
1785
+ },
1786
+ {
1787
+ "epoch": 0.7740940632228219,
1788
+ "grad_norm": 2.1898317337036133,
1789
+ "learning_rate": 7.591623036649215e-06,
1790
+ "loss": 0.2705,
1791
+ "step": 251
1792
+ },
1793
+ {
1794
+ "epoch": 0.7771781033153431,
1795
+ "grad_norm": 2.051255464553833,
1796
+ "learning_rate": 7.5811518324607335e-06,
1797
+ "loss": 0.2491,
1798
+ "step": 252
1799
+ },
1800
+ {
1801
+ "epoch": 0.7802621434078643,
1802
+ "grad_norm": 2.353940725326538,
1803
+ "learning_rate": 7.570680628272252e-06,
1804
+ "loss": 0.277,
1805
+ "step": 253
1806
+ },
1807
+ {
1808
+ "epoch": 0.7833461835003855,
1809
+ "grad_norm": 2.3826687335968018,
1810
+ "learning_rate": 7.560209424083769e-06,
1811
+ "loss": 0.2693,
1812
+ "step": 254
1813
+ },
1814
+ {
1815
+ "epoch": 0.7864302235929067,
1816
+ "grad_norm": 2.522019863128662,
1817
+ "learning_rate": 7.549738219895288e-06,
1818
+ "loss": 0.2706,
1819
+ "step": 255
1820
+ },
1821
+ {
1822
+ "epoch": 0.7895142636854279,
1823
+ "grad_norm": 2.3525524139404297,
1824
+ "learning_rate": 7.539267015706807e-06,
1825
+ "loss": 0.2509,
1826
+ "step": 256
1827
+ },
1828
+ {
1829
+ "epoch": 0.7895142636854279,
1830
+ "eval_loss": 0.3851300776004791,
1831
+ "eval_runtime": 149.046,
1832
+ "eval_samples_per_second": 1.932,
1833
+ "eval_steps_per_second": 0.966,
1834
+ "step": 256
1835
+ },
1836
+ {
1837
+ "epoch": 0.7925983037779492,
1838
+ "grad_norm": 2.7143642902374268,
1839
+ "learning_rate": 7.528795811518326e-06,
1840
+ "loss": 0.2701,
1841
+ "step": 257
1842
+ },
1843
+ {
1844
+ "epoch": 0.7956823438704703,
1845
+ "grad_norm": 2.6725356578826904,
1846
+ "learning_rate": 7.518324607329844e-06,
1847
+ "loss": 0.2718,
1848
+ "step": 258
1849
+ },
1850
+ {
1851
+ "epoch": 0.7987663839629915,
1852
+ "grad_norm": 2.4051880836486816,
1853
+ "learning_rate": 7.5078534031413615e-06,
1854
+ "loss": 0.2554,
1855
+ "step": 259
1856
+ },
1857
+ {
1858
+ "epoch": 0.8018504240555128,
1859
+ "grad_norm": 2.472904920578003,
1860
+ "learning_rate": 7.49738219895288e-06,
1861
+ "loss": 0.2666,
1862
+ "step": 260
1863
+ },
1864
+ {
1865
+ "epoch": 0.8049344641480339,
1866
+ "grad_norm": 2.3598804473876953,
1867
+ "learning_rate": 7.486910994764398e-06,
1868
+ "loss": 0.2532,
1869
+ "step": 261
1870
+ },
1871
+ {
1872
+ "epoch": 0.8080185042405551,
1873
+ "grad_norm": 2.383300542831421,
1874
+ "learning_rate": 7.476439790575917e-06,
1875
+ "loss": 0.2568,
1876
+ "step": 262
1877
+ },
1878
+ {
1879
+ "epoch": 0.8111025443330764,
1880
+ "grad_norm": 2.999469518661499,
1881
+ "learning_rate": 7.465968586387436e-06,
1882
+ "loss": 0.2403,
1883
+ "step": 263
1884
+ },
1885
+ {
1886
+ "epoch": 0.8141865844255975,
1887
+ "grad_norm": 4.071384429931641,
1888
+ "learning_rate": 7.455497382198954e-06,
1889
+ "loss": 0.265,
1890
+ "step": 264
1891
+ },
1892
+ {
1893
+ "epoch": 0.8172706245181187,
1894
+ "grad_norm": 3.5529489517211914,
1895
+ "learning_rate": 7.445026178010472e-06,
1896
+ "loss": 0.2647,
1897
+ "step": 265
1898
+ },
1899
+ {
1900
+ "epoch": 0.8203546646106399,
1901
+ "grad_norm": 2.8842644691467285,
1902
+ "learning_rate": 7.43455497382199e-06,
1903
+ "loss": 0.2725,
1904
+ "step": 266
1905
+ },
1906
+ {
1907
+ "epoch": 0.8234387047031612,
1908
+ "grad_norm": 2.1277332305908203,
1909
+ "learning_rate": 7.424083769633509e-06,
1910
+ "loss": 0.2657,
1911
+ "step": 267
1912
+ },
1913
+ {
1914
+ "epoch": 0.8265227447956823,
1915
+ "grad_norm": 2.832111358642578,
1916
+ "learning_rate": 7.413612565445026e-06,
1917
+ "loss": 0.255,
1918
+ "step": 268
1919
+ },
1920
+ {
1921
+ "epoch": 0.8296067848882035,
1922
+ "grad_norm": 2.7438676357269287,
1923
+ "learning_rate": 7.403141361256545e-06,
1924
+ "loss": 0.2596,
1925
+ "step": 269
1926
+ },
1927
+ {
1928
+ "epoch": 0.8326908249807248,
1929
+ "grad_norm": 2.7950987815856934,
1930
+ "learning_rate": 7.392670157068064e-06,
1931
+ "loss": 0.2624,
1932
+ "step": 270
1933
+ },
1934
+ {
1935
+ "epoch": 0.8357748650732459,
1936
+ "grad_norm": 3.497069835662842,
1937
+ "learning_rate": 7.382198952879581e-06,
1938
+ "loss": 0.2385,
1939
+ "step": 271
1940
+ },
1941
+ {
1942
+ "epoch": 0.8388589051657671,
1943
+ "grad_norm": 5.024068832397461,
1944
+ "learning_rate": 7.3717277486911e-06,
1945
+ "loss": 0.2526,
1946
+ "step": 272
1947
+ },
1948
+ {
1949
+ "epoch": 0.8419429452582884,
1950
+ "grad_norm": 3.5298011302948,
1951
+ "learning_rate": 7.361256544502618e-06,
1952
+ "loss": 0.2452,
1953
+ "step": 273
1954
+ },
1955
+ {
1956
+ "epoch": 0.8450269853508096,
1957
+ "grad_norm": 2.701545238494873,
1958
+ "learning_rate": 7.350785340314137e-06,
1959
+ "loss": 0.2293,
1960
+ "step": 274
1961
+ },
1962
+ {
1963
+ "epoch": 0.8481110254433307,
1964
+ "grad_norm": 2.838541030883789,
1965
+ "learning_rate": 7.340314136125655e-06,
1966
+ "loss": 0.2554,
1967
+ "step": 275
1968
+ },
1969
+ {
1970
+ "epoch": 0.851195065535852,
1971
+ "grad_norm": 2.5854012966156006,
1972
+ "learning_rate": 7.329842931937173e-06,
1973
+ "loss": 0.245,
1974
+ "step": 276
1975
+ },
1976
+ {
1977
+ "epoch": 0.8542791056283732,
1978
+ "grad_norm": 2.9351906776428223,
1979
+ "learning_rate": 7.319371727748692e-06,
1980
+ "loss": 0.2556,
1981
+ "step": 277
1982
+ },
1983
+ {
1984
+ "epoch": 0.8573631457208943,
1985
+ "grad_norm": 3.0675830841064453,
1986
+ "learning_rate": 7.30890052356021e-06,
1987
+ "loss": 0.2501,
1988
+ "step": 278
1989
+ },
1990
+ {
1991
+ "epoch": 0.8604471858134156,
1992
+ "grad_norm": 3.1958088874816895,
1993
+ "learning_rate": 7.2984293193717285e-06,
1994
+ "loss": 0.2347,
1995
+ "step": 279
1996
+ },
1997
+ {
1998
+ "epoch": 0.8635312259059368,
1999
+ "grad_norm": 3.0006463527679443,
2000
+ "learning_rate": 7.287958115183246e-06,
2001
+ "loss": 0.242,
2002
+ "step": 280
2003
+ },
2004
+ {
2005
+ "epoch": 0.866615265998458,
2006
+ "grad_norm": 2.862990379333496,
2007
+ "learning_rate": 7.277486910994765e-06,
2008
+ "loss": 0.2442,
2009
+ "step": 281
2010
+ },
2011
+ {
2012
+ "epoch": 0.8696993060909792,
2013
+ "grad_norm": 3.1585986614227295,
2014
+ "learning_rate": 7.267015706806283e-06,
2015
+ "loss": 0.2401,
2016
+ "step": 282
2017
+ },
2018
+ {
2019
+ "epoch": 0.8727833461835004,
2020
+ "grad_norm": 2.6111812591552734,
2021
+ "learning_rate": 7.256544502617802e-06,
2022
+ "loss": 0.2324,
2023
+ "step": 283
2024
+ },
2025
+ {
2026
+ "epoch": 0.8758673862760216,
2027
+ "grad_norm": 3.1289191246032715,
2028
+ "learning_rate": 7.246073298429321e-06,
2029
+ "loss": 0.2426,
2030
+ "step": 284
2031
+ },
2032
+ {
2033
+ "epoch": 0.8789514263685428,
2034
+ "grad_norm": 3.448789358139038,
2035
+ "learning_rate": 7.235602094240838e-06,
2036
+ "loss": 0.2224,
2037
+ "step": 285
2038
+ },
2039
+ {
2040
+ "epoch": 0.882035466461064,
2041
+ "grad_norm": 3.018432855606079,
2042
+ "learning_rate": 7.2251308900523565e-06,
2043
+ "loss": 0.2238,
2044
+ "step": 286
2045
+ },
2046
+ {
2047
+ "epoch": 0.8851195065535852,
2048
+ "grad_norm": 4.171509742736816,
2049
+ "learning_rate": 7.214659685863875e-06,
2050
+ "loss": 0.2546,
2051
+ "step": 287
2052
+ },
2053
+ {
2054
+ "epoch": 0.8882035466461063,
2055
+ "grad_norm": 3.5390446186065674,
2056
+ "learning_rate": 7.204188481675394e-06,
2057
+ "loss": 0.2417,
2058
+ "step": 288
2059
+ },
2060
+ {
2061
+ "epoch": 0.8912875867386276,
2062
+ "grad_norm": 2.8169162273406982,
2063
+ "learning_rate": 7.193717277486911e-06,
2064
+ "loss": 0.2348,
2065
+ "step": 289
2066
+ },
2067
+ {
2068
+ "epoch": 0.8943716268311488,
2069
+ "grad_norm": 2.9175827503204346,
2070
+ "learning_rate": 7.18324607329843e-06,
2071
+ "loss": 0.214,
2072
+ "step": 290
2073
+ },
2074
+ {
2075
+ "epoch": 0.89745566692367,
2076
+ "grad_norm": 3.939680576324463,
2077
+ "learning_rate": 7.172774869109949e-06,
2078
+ "loss": 0.2489,
2079
+ "step": 291
2080
+ },
2081
+ {
2082
+ "epoch": 0.9005397070161912,
2083
+ "grad_norm": 2.874373435974121,
2084
+ "learning_rate": 7.162303664921466e-06,
2085
+ "loss": 0.2219,
2086
+ "step": 292
2087
+ },
2088
+ {
2089
+ "epoch": 0.9036237471087124,
2090
+ "grad_norm": 4.381021976470947,
2091
+ "learning_rate": 7.1518324607329845e-06,
2092
+ "loss": 0.2419,
2093
+ "step": 293
2094
+ },
2095
+ {
2096
+ "epoch": 0.9067077872012336,
2097
+ "grad_norm": 3.9895918369293213,
2098
+ "learning_rate": 7.141361256544503e-06,
2099
+ "loss": 0.2552,
2100
+ "step": 294
2101
+ },
2102
+ {
2103
+ "epoch": 0.9097918272937549,
2104
+ "grad_norm": 2.9028842449188232,
2105
+ "learning_rate": 7.130890052356022e-06,
2106
+ "loss": 0.2323,
2107
+ "step": 295
2108
+ },
2109
+ {
2110
+ "epoch": 0.912875867386276,
2111
+ "grad_norm": 3.5980117321014404,
2112
+ "learning_rate": 7.12041884816754e-06,
2113
+ "loss": 0.2404,
2114
+ "step": 296
2115
+ },
2116
+ {
2117
+ "epoch": 0.9159599074787972,
2118
+ "grad_norm": 3.490727186203003,
2119
+ "learning_rate": 7.109947643979058e-06,
2120
+ "loss": 0.22,
2121
+ "step": 297
2122
+ },
2123
+ {
2124
+ "epoch": 0.9190439475713185,
2125
+ "grad_norm": 3.256279706954956,
2126
+ "learning_rate": 7.099476439790577e-06,
2127
+ "loss": 0.2368,
2128
+ "step": 298
2129
+ },
2130
+ {
2131
+ "epoch": 0.9221279876638396,
2132
+ "grad_norm": 3.92038893699646,
2133
+ "learning_rate": 7.089005235602095e-06,
2134
+ "loss": 0.2331,
2135
+ "step": 299
2136
+ },
2137
+ {
2138
+ "epoch": 0.9252120277563608,
2139
+ "grad_norm": 3.6917364597320557,
2140
+ "learning_rate": 7.078534031413613e-06,
2141
+ "loss": 0.2139,
2142
+ "step": 300
2143
+ },
2144
+ {
2145
+ "epoch": 0.9282960678488821,
2146
+ "grad_norm": 3.058729887008667,
2147
+ "learning_rate": 7.068062827225132e-06,
2148
+ "loss": 0.2199,
2149
+ "step": 301
2150
+ },
2151
+ {
2152
+ "epoch": 0.9313801079414032,
2153
+ "grad_norm": 3.150188446044922,
2154
+ "learning_rate": 7.057591623036649e-06,
2155
+ "loss": 0.2137,
2156
+ "step": 302
2157
+ },
2158
+ {
2159
+ "epoch": 0.9344641480339244,
2160
+ "grad_norm": 5.77610445022583,
2161
+ "learning_rate": 7.047120418848168e-06,
2162
+ "loss": 0.2478,
2163
+ "step": 303
2164
+ },
2165
+ {
2166
+ "epoch": 0.9375481881264457,
2167
+ "grad_norm": 2.8851089477539062,
2168
+ "learning_rate": 7.036649214659687e-06,
2169
+ "loss": 0.227,
2170
+ "step": 304
2171
+ },
2172
+ {
2173
+ "epoch": 0.9406322282189669,
2174
+ "grad_norm": 3.1656086444854736,
2175
+ "learning_rate": 7.0261780104712055e-06,
2176
+ "loss": 0.2335,
2177
+ "step": 305
2178
+ },
2179
+ {
2180
+ "epoch": 0.943716268311488,
2181
+ "grad_norm": 3.3355696201324463,
2182
+ "learning_rate": 7.015706806282723e-06,
2183
+ "loss": 0.2169,
2184
+ "step": 306
2185
+ },
2186
+ {
2187
+ "epoch": 0.9468003084040093,
2188
+ "grad_norm": 3.5095317363739014,
2189
+ "learning_rate": 7.005235602094241e-06,
2190
+ "loss": 0.2161,
2191
+ "step": 307
2192
+ },
2193
+ {
2194
+ "epoch": 0.9498843484965305,
2195
+ "grad_norm": 3.5365262031555176,
2196
+ "learning_rate": 6.99476439790576e-06,
2197
+ "loss": 0.2097,
2198
+ "step": 308
2199
+ },
2200
+ {
2201
+ "epoch": 0.9529683885890516,
2202
+ "grad_norm": 4.159248352050781,
2203
+ "learning_rate": 6.984293193717277e-06,
2204
+ "loss": 0.2337,
2205
+ "step": 309
2206
+ },
2207
+ {
2208
+ "epoch": 0.9560524286815728,
2209
+ "grad_norm": 2.9792213439941406,
2210
+ "learning_rate": 6.973821989528796e-06,
2211
+ "loss": 0.2149,
2212
+ "step": 310
2213
+ },
2214
+ {
2215
+ "epoch": 0.9591364687740941,
2216
+ "grad_norm": 3.2603046894073486,
2217
+ "learning_rate": 6.963350785340315e-06,
2218
+ "loss": 0.2218,
2219
+ "step": 311
2220
+ },
2221
+ {
2222
+ "epoch": 0.9622205088666153,
2223
+ "grad_norm": 3.5064327716827393,
2224
+ "learning_rate": 6.9528795811518335e-06,
2225
+ "loss": 0.2128,
2226
+ "step": 312
2227
+ },
2228
+ {
2229
+ "epoch": 0.9653045489591364,
2230
+ "grad_norm": 3.971139430999756,
2231
+ "learning_rate": 6.942408376963351e-06,
2232
+ "loss": 0.2172,
2233
+ "step": 313
2234
+ },
2235
+ {
2236
+ "epoch": 0.9683885890516577,
2237
+ "grad_norm": 3.651603937149048,
2238
+ "learning_rate": 6.931937172774869e-06,
2239
+ "loss": 0.2036,
2240
+ "step": 314
2241
+ },
2242
+ {
2243
+ "epoch": 0.9714726291441789,
2244
+ "grad_norm": 5.394900321960449,
2245
+ "learning_rate": 6.921465968586388e-06,
2246
+ "loss": 0.2157,
2247
+ "step": 315
2248
+ },
2249
+ {
2250
+ "epoch": 0.9745566692367,
2251
+ "grad_norm": 3.7696452140808105,
2252
+ "learning_rate": 6.910994764397906e-06,
2253
+ "loss": 0.2168,
2254
+ "step": 316
2255
+ },
2256
+ {
2257
+ "epoch": 0.9776407093292213,
2258
+ "grad_norm": 3.3137505054473877,
2259
+ "learning_rate": 6.900523560209425e-06,
2260
+ "loss": 0.2217,
2261
+ "step": 317
2262
+ },
2263
+ {
2264
+ "epoch": 0.9807247494217425,
2265
+ "grad_norm": 3.927021026611328,
2266
+ "learning_rate": 6.890052356020943e-06,
2267
+ "loss": 0.2149,
2268
+ "step": 318
2269
+ },
2270
+ {
2271
+ "epoch": 0.9838087895142636,
2272
+ "grad_norm": 3.598501443862915,
2273
+ "learning_rate": 6.8795811518324615e-06,
2274
+ "loss": 0.2007,
2275
+ "step": 319
2276
+ },
2277
+ {
2278
+ "epoch": 0.9868928296067849,
2279
+ "grad_norm": 4.063229084014893,
2280
+ "learning_rate": 6.8691099476439794e-06,
2281
+ "loss": 0.2142,
2282
+ "step": 320
2283
+ },
2284
+ {
2285
+ "epoch": 0.9868928296067849,
2286
+ "eval_loss": 0.46243318915367126,
2287
+ "eval_runtime": 150.4594,
2288
+ "eval_samples_per_second": 1.914,
2289
+ "eval_steps_per_second": 0.957,
2290
+ "step": 320
2291
+ },
2292
+ {
2293
+ "epoch": 0.9899768696993061,
2294
+ "grad_norm": 4.520982265472412,
2295
+ "learning_rate": 6.858638743455498e-06,
2296
+ "loss": 0.1978,
2297
+ "step": 321
2298
+ },
2299
+ {
2300
+ "epoch": 0.9930609097918273,
2301
+ "grad_norm": 3.6312687397003174,
2302
+ "learning_rate": 6.848167539267017e-06,
2303
+ "loss": 0.1896,
2304
+ "step": 322
2305
+ },
2306
+ {
2307
+ "epoch": 0.9961449498843485,
2308
+ "grad_norm": 3.1252243518829346,
2309
+ "learning_rate": 6.837696335078534e-06,
2310
+ "loss": 0.1817,
2311
+ "step": 323
2312
+ },
2313
+ {
2314
+ "epoch": 0.9992289899768697,
2315
+ "grad_norm": 4.3829264640808105,
2316
+ "learning_rate": 6.827225130890053e-06,
2317
+ "loss": 0.2199,
2318
+ "step": 324
2319
+ },
2320
+ {
2321
+ "epoch": 1.0030840400925212,
2322
+ "grad_norm": 9.755841255187988,
2323
+ "learning_rate": 6.816753926701572e-06,
2324
+ "loss": 0.4578,
2325
+ "step": 325
2326
+ },
2327
+ {
2328
+ "epoch": 1.0061680801850423,
2329
+ "grad_norm": 3.9052581787109375,
2330
+ "learning_rate": 6.80628272251309e-06,
2331
+ "loss": 0.1959,
2332
+ "step": 326
2333
+ },
2334
+ {
2335
+ "epoch": 1.0092521202775635,
2336
+ "grad_norm": 3.6258931159973145,
2337
+ "learning_rate": 6.7958115183246075e-06,
2338
+ "loss": 0.2062,
2339
+ "step": 327
2340
+ },
2341
+ {
2342
+ "epoch": 1.012336160370085,
2343
+ "grad_norm": 4.131122589111328,
2344
+ "learning_rate": 6.785340314136126e-06,
2345
+ "loss": 0.1915,
2346
+ "step": 328
2347
+ },
2348
+ {
2349
+ "epoch": 1.015420200462606,
2350
+ "grad_norm": 4.387429237365723,
2351
+ "learning_rate": 6.774869109947645e-06,
2352
+ "loss": 0.1792,
2353
+ "step": 329
2354
+ },
2355
+ {
2356
+ "epoch": 1.0185042405551272,
2357
+ "grad_norm": 3.873361110687256,
2358
+ "learning_rate": 6.764397905759162e-06,
2359
+ "loss": 0.1895,
2360
+ "step": 330
2361
+ },
2362
+ {
2363
+ "epoch": 1.0215882806476484,
2364
+ "grad_norm": 4.318599700927734,
2365
+ "learning_rate": 6.753926701570681e-06,
2366
+ "loss": 0.1836,
2367
+ "step": 331
2368
+ },
2369
+ {
2370
+ "epoch": 1.0246723207401696,
2371
+ "grad_norm": 4.9434494972229,
2372
+ "learning_rate": 6.7434554973822e-06,
2373
+ "loss": 0.2199,
2374
+ "step": 332
2375
+ },
2376
+ {
2377
+ "epoch": 1.0277563608326907,
2378
+ "grad_norm": 3.8584797382354736,
2379
+ "learning_rate": 6.732984293193718e-06,
2380
+ "loss": 0.1796,
2381
+ "step": 333
2382
+ },
2383
+ {
2384
+ "epoch": 1.0308404009252121,
2385
+ "grad_norm": 4.104945659637451,
2386
+ "learning_rate": 6.722513089005236e-06,
2387
+ "loss": 0.1812,
2388
+ "step": 334
2389
+ },
2390
+ {
2391
+ "epoch": 1.0339244410177333,
2392
+ "grad_norm": 4.125020503997803,
2393
+ "learning_rate": 6.712041884816754e-06,
2394
+ "loss": 0.197,
2395
+ "step": 335
2396
+ },
2397
+ {
2398
+ "epoch": 1.0370084811102545,
2399
+ "grad_norm": 3.783364772796631,
2400
+ "learning_rate": 6.701570680628273e-06,
2401
+ "loss": 0.1798,
2402
+ "step": 336
2403
+ },
2404
+ {
2405
+ "epoch": 1.0400925212027756,
2406
+ "grad_norm": 4.799828052520752,
2407
+ "learning_rate": 6.691099476439791e-06,
2408
+ "loss": 0.1837,
2409
+ "step": 337
2410
+ },
2411
+ {
2412
+ "epoch": 1.0431765612952968,
2413
+ "grad_norm": 5.570056438446045,
2414
+ "learning_rate": 6.68062827225131e-06,
2415
+ "loss": 0.1987,
2416
+ "step": 338
2417
+ },
2418
+ {
2419
+ "epoch": 1.046260601387818,
2420
+ "grad_norm": 3.9299843311309814,
2421
+ "learning_rate": 6.670157068062828e-06,
2422
+ "loss": 0.1728,
2423
+ "step": 339
2424
+ },
2425
+ {
2426
+ "epoch": 1.0493446414803393,
2427
+ "grad_norm": 4.746124267578125,
2428
+ "learning_rate": 6.6596858638743455e-06,
2429
+ "loss": 0.2055,
2430
+ "step": 340
2431
+ },
2432
+ {
2433
+ "epoch": 1.0524286815728605,
2434
+ "grad_norm": 3.6969268321990967,
2435
+ "learning_rate": 6.649214659685864e-06,
2436
+ "loss": 0.1919,
2437
+ "step": 341
2438
+ },
2439
+ {
2440
+ "epoch": 1.0555127216653817,
2441
+ "grad_norm": 4.096460819244385,
2442
+ "learning_rate": 6.638743455497383e-06,
2443
+ "loss": 0.1725,
2444
+ "step": 342
2445
+ },
2446
+ {
2447
+ "epoch": 1.0585967617579028,
2448
+ "grad_norm": 3.819343328475952,
2449
+ "learning_rate": 6.628272251308902e-06,
2450
+ "loss": 0.1727,
2451
+ "step": 343
2452
+ },
2453
+ {
2454
+ "epoch": 1.061680801850424,
2455
+ "grad_norm": 4.487940788269043,
2456
+ "learning_rate": 6.617801047120419e-06,
2457
+ "loss": 0.176,
2458
+ "step": 344
2459
+ },
2460
+ {
2461
+ "epoch": 1.0647648419429452,
2462
+ "grad_norm": 4.727810382843018,
2463
+ "learning_rate": 6.607329842931938e-06,
2464
+ "loss": 0.1694,
2465
+ "step": 345
2466
+ },
2467
+ {
2468
+ "epoch": 1.0678488820354666,
2469
+ "grad_norm": 5.403895854949951,
2470
+ "learning_rate": 6.5968586387434565e-06,
2471
+ "loss": 0.1853,
2472
+ "step": 346
2473
+ },
2474
+ {
2475
+ "epoch": 1.0709329221279877,
2476
+ "grad_norm": 3.548576831817627,
2477
+ "learning_rate": 6.5863874345549736e-06,
2478
+ "loss": 0.1711,
2479
+ "step": 347
2480
+ },
2481
+ {
2482
+ "epoch": 1.074016962220509,
2483
+ "grad_norm": 3.6849658489227295,
2484
+ "learning_rate": 6.575916230366492e-06,
2485
+ "loss": 0.1877,
2486
+ "step": 348
2487
+ },
2488
+ {
2489
+ "epoch": 1.07710100231303,
2490
+ "grad_norm": 3.7493557929992676,
2491
+ "learning_rate": 6.565445026178011e-06,
2492
+ "loss": 0.1858,
2493
+ "step": 349
2494
+ },
2495
+ {
2496
+ "epoch": 1.0801850424055512,
2497
+ "grad_norm": 3.9486773014068604,
2498
+ "learning_rate": 6.55497382198953e-06,
2499
+ "loss": 0.1515,
2500
+ "step": 350
2501
+ },
2502
+ {
2503
+ "epoch": 1.0832690824980724,
2504
+ "grad_norm": 4.970436096191406,
2505
+ "learning_rate": 6.544502617801047e-06,
2506
+ "loss": 0.172,
2507
+ "step": 351
2508
+ },
2509
+ {
2510
+ "epoch": 1.0863531225905936,
2511
+ "grad_norm": 5.032225131988525,
2512
+ "learning_rate": 6.534031413612566e-06,
2513
+ "loss": 0.1611,
2514
+ "step": 352
2515
+ }
2516
+ ],
2517
+ "logging_steps": 1,
2518
+ "max_steps": 975,
2519
+ "num_input_tokens_seen": 0,
2520
+ "num_train_epochs": 3,
2521
+ "save_steps": 16,
2522
+ "stateful_callbacks": {
2523
+ "TrainerControl": {
2524
+ "args": {
2525
+ "should_epoch_stop": false,
2526
+ "should_evaluate": false,
2527
+ "should_log": false,
2528
+ "should_save": true,
2529
+ "should_training_stop": false
2530
+ },
2531
+ "attributes": {}
2532
+ }
2533
+ },
2534
+ "total_flos": 8.458954269238886e+16,
2535
+ "train_batch_size": 2,
2536
+ "trial_name": null,
2537
+ "trial_params": null
2538
+ }