Aadithyak commited on
Commit
e95ad42
·
verified ·
1 Parent(s): a7f1f18

Upload checkpoint-350/trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. checkpoint-350/trainer_state.json +2529 -0
checkpoint-350/trainer_state.json ADDED
@@ -0,0 +1,2529 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 2.082962962962963,
6
+ "eval_steps": 70,
7
+ "global_step": 350,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.005925925925925926,
14
+ "grad_norm": NaN,
15
+ "learning_rate": 5e-05,
16
+ "loss": 0.0,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.011851851851851851,
21
+ "grad_norm": NaN,
22
+ "learning_rate": 5e-05,
23
+ "loss": 0.0,
24
+ "step": 2
25
+ },
26
+ {
27
+ "epoch": 0.017777777777777778,
28
+ "grad_norm": NaN,
29
+ "learning_rate": 5e-05,
30
+ "loss": 0.0,
31
+ "step": 3
32
+ },
33
+ {
34
+ "epoch": 0.023703703703703703,
35
+ "grad_norm": NaN,
36
+ "learning_rate": 5e-05,
37
+ "loss": 0.0,
38
+ "step": 4
39
+ },
40
+ {
41
+ "epoch": 0.02962962962962963,
42
+ "grad_norm": NaN,
43
+ "learning_rate": 5e-05,
44
+ "loss": 0.0,
45
+ "step": 5
46
+ },
47
+ {
48
+ "epoch": 0.035555555555555556,
49
+ "grad_norm": NaN,
50
+ "learning_rate": 5e-05,
51
+ "loss": 0.0,
52
+ "step": 6
53
+ },
54
+ {
55
+ "epoch": 0.04148148148148148,
56
+ "grad_norm": NaN,
57
+ "learning_rate": 5e-05,
58
+ "loss": 0.0,
59
+ "step": 7
60
+ },
61
+ {
62
+ "epoch": 0.047407407407407405,
63
+ "grad_norm": NaN,
64
+ "learning_rate": 5e-05,
65
+ "loss": 0.0,
66
+ "step": 8
67
+ },
68
+ {
69
+ "epoch": 0.05333333333333334,
70
+ "grad_norm": NaN,
71
+ "learning_rate": 5e-05,
72
+ "loss": 0.0,
73
+ "step": 9
74
+ },
75
+ {
76
+ "epoch": 0.05925925925925926,
77
+ "grad_norm": NaN,
78
+ "learning_rate": 5e-05,
79
+ "loss": 0.0,
80
+ "step": 10
81
+ },
82
+ {
83
+ "epoch": 0.06518518518518518,
84
+ "grad_norm": NaN,
85
+ "learning_rate": 5e-05,
86
+ "loss": 0.0,
87
+ "step": 11
88
+ },
89
+ {
90
+ "epoch": 0.07111111111111111,
91
+ "grad_norm": NaN,
92
+ "learning_rate": 5e-05,
93
+ "loss": 0.0,
94
+ "step": 12
95
+ },
96
+ {
97
+ "epoch": 0.07703703703703704,
98
+ "grad_norm": NaN,
99
+ "learning_rate": 5e-05,
100
+ "loss": 0.0,
101
+ "step": 13
102
+ },
103
+ {
104
+ "epoch": 0.08296296296296296,
105
+ "grad_norm": NaN,
106
+ "learning_rate": 5e-05,
107
+ "loss": 0.0,
108
+ "step": 14
109
+ },
110
+ {
111
+ "epoch": 0.08888888888888889,
112
+ "grad_norm": NaN,
113
+ "learning_rate": 5e-05,
114
+ "loss": 0.0,
115
+ "step": 15
116
+ },
117
+ {
118
+ "epoch": 0.09481481481481481,
119
+ "grad_norm": NaN,
120
+ "learning_rate": 5e-05,
121
+ "loss": 0.0,
122
+ "step": 16
123
+ },
124
+ {
125
+ "epoch": 0.10074074074074074,
126
+ "grad_norm": NaN,
127
+ "learning_rate": 5e-05,
128
+ "loss": 0.0,
129
+ "step": 17
130
+ },
131
+ {
132
+ "epoch": 0.10666666666666667,
133
+ "grad_norm": NaN,
134
+ "learning_rate": 5e-05,
135
+ "loss": 0.0,
136
+ "step": 18
137
+ },
138
+ {
139
+ "epoch": 0.11259259259259259,
140
+ "grad_norm": NaN,
141
+ "learning_rate": 5e-05,
142
+ "loss": 0.0,
143
+ "step": 19
144
+ },
145
+ {
146
+ "epoch": 0.11851851851851852,
147
+ "grad_norm": NaN,
148
+ "learning_rate": 5e-05,
149
+ "loss": 0.0,
150
+ "step": 20
151
+ },
152
+ {
153
+ "epoch": 0.12444444444444444,
154
+ "grad_norm": NaN,
155
+ "learning_rate": 5e-05,
156
+ "loss": 0.0,
157
+ "step": 21
158
+ },
159
+ {
160
+ "epoch": 0.13037037037037036,
161
+ "grad_norm": NaN,
162
+ "learning_rate": 5e-05,
163
+ "loss": 0.0,
164
+ "step": 22
165
+ },
166
+ {
167
+ "epoch": 0.1362962962962963,
168
+ "grad_norm": NaN,
169
+ "learning_rate": 5e-05,
170
+ "loss": 0.0,
171
+ "step": 23
172
+ },
173
+ {
174
+ "epoch": 0.14222222222222222,
175
+ "grad_norm": NaN,
176
+ "learning_rate": 5e-05,
177
+ "loss": 0.0,
178
+ "step": 24
179
+ },
180
+ {
181
+ "epoch": 0.14814814814814814,
182
+ "grad_norm": NaN,
183
+ "learning_rate": 5e-05,
184
+ "loss": 0.0,
185
+ "step": 25
186
+ },
187
+ {
188
+ "epoch": 0.15407407407407409,
189
+ "grad_norm": NaN,
190
+ "learning_rate": 5e-05,
191
+ "loss": 0.0,
192
+ "step": 26
193
+ },
194
+ {
195
+ "epoch": 0.16,
196
+ "grad_norm": NaN,
197
+ "learning_rate": 5e-05,
198
+ "loss": 0.0,
199
+ "step": 27
200
+ },
201
+ {
202
+ "epoch": 0.16592592592592592,
203
+ "grad_norm": NaN,
204
+ "learning_rate": 5e-05,
205
+ "loss": 0.0,
206
+ "step": 28
207
+ },
208
+ {
209
+ "epoch": 0.17185185185185184,
210
+ "grad_norm": NaN,
211
+ "learning_rate": 5e-05,
212
+ "loss": 0.0,
213
+ "step": 29
214
+ },
215
+ {
216
+ "epoch": 0.17777777777777778,
217
+ "grad_norm": NaN,
218
+ "learning_rate": 5e-05,
219
+ "loss": 0.0,
220
+ "step": 30
221
+ },
222
+ {
223
+ "epoch": 0.1837037037037037,
224
+ "grad_norm": NaN,
225
+ "learning_rate": 5e-05,
226
+ "loss": 0.0,
227
+ "step": 31
228
+ },
229
+ {
230
+ "epoch": 0.18962962962962962,
231
+ "grad_norm": NaN,
232
+ "learning_rate": 5e-05,
233
+ "loss": 0.0,
234
+ "step": 32
235
+ },
236
+ {
237
+ "epoch": 0.19555555555555557,
238
+ "grad_norm": NaN,
239
+ "learning_rate": 5e-05,
240
+ "loss": 0.0,
241
+ "step": 33
242
+ },
243
+ {
244
+ "epoch": 0.20148148148148148,
245
+ "grad_norm": NaN,
246
+ "learning_rate": 5e-05,
247
+ "loss": 0.0,
248
+ "step": 34
249
+ },
250
+ {
251
+ "epoch": 0.2074074074074074,
252
+ "grad_norm": NaN,
253
+ "learning_rate": 5e-05,
254
+ "loss": 0.0,
255
+ "step": 35
256
+ },
257
+ {
258
+ "epoch": 0.21333333333333335,
259
+ "grad_norm": NaN,
260
+ "learning_rate": 5e-05,
261
+ "loss": 0.0,
262
+ "step": 36
263
+ },
264
+ {
265
+ "epoch": 0.21925925925925926,
266
+ "grad_norm": NaN,
267
+ "learning_rate": 5e-05,
268
+ "loss": 0.0,
269
+ "step": 37
270
+ },
271
+ {
272
+ "epoch": 0.22518518518518518,
273
+ "grad_norm": NaN,
274
+ "learning_rate": 5e-05,
275
+ "loss": 0.0,
276
+ "step": 38
277
+ },
278
+ {
279
+ "epoch": 0.2311111111111111,
280
+ "grad_norm": NaN,
281
+ "learning_rate": 5e-05,
282
+ "loss": 0.0,
283
+ "step": 39
284
+ },
285
+ {
286
+ "epoch": 0.23703703703703705,
287
+ "grad_norm": NaN,
288
+ "learning_rate": 5e-05,
289
+ "loss": 0.0,
290
+ "step": 40
291
+ },
292
+ {
293
+ "epoch": 0.24296296296296296,
294
+ "grad_norm": NaN,
295
+ "learning_rate": 5e-05,
296
+ "loss": 0.0,
297
+ "step": 41
298
+ },
299
+ {
300
+ "epoch": 0.24888888888888888,
301
+ "grad_norm": NaN,
302
+ "learning_rate": 5e-05,
303
+ "loss": 0.0,
304
+ "step": 42
305
+ },
306
+ {
307
+ "epoch": 0.2548148148148148,
308
+ "grad_norm": NaN,
309
+ "learning_rate": 5e-05,
310
+ "loss": 0.0,
311
+ "step": 43
312
+ },
313
+ {
314
+ "epoch": 0.2607407407407407,
315
+ "grad_norm": NaN,
316
+ "learning_rate": 5e-05,
317
+ "loss": 0.0,
318
+ "step": 44
319
+ },
320
+ {
321
+ "epoch": 0.26666666666666666,
322
+ "grad_norm": NaN,
323
+ "learning_rate": 5e-05,
324
+ "loss": 0.0,
325
+ "step": 45
326
+ },
327
+ {
328
+ "epoch": 0.2725925925925926,
329
+ "grad_norm": NaN,
330
+ "learning_rate": 5e-05,
331
+ "loss": 0.0,
332
+ "step": 46
333
+ },
334
+ {
335
+ "epoch": 0.2785185185185185,
336
+ "grad_norm": NaN,
337
+ "learning_rate": 5e-05,
338
+ "loss": 0.0,
339
+ "step": 47
340
+ },
341
+ {
342
+ "epoch": 0.28444444444444444,
343
+ "grad_norm": NaN,
344
+ "learning_rate": 5e-05,
345
+ "loss": 0.0,
346
+ "step": 48
347
+ },
348
+ {
349
+ "epoch": 0.2903703703703704,
350
+ "grad_norm": NaN,
351
+ "learning_rate": 5e-05,
352
+ "loss": 0.0,
353
+ "step": 49
354
+ },
355
+ {
356
+ "epoch": 0.2962962962962963,
357
+ "grad_norm": NaN,
358
+ "learning_rate": 5e-05,
359
+ "loss": 0.0,
360
+ "step": 50
361
+ },
362
+ {
363
+ "epoch": 0.3022222222222222,
364
+ "grad_norm": NaN,
365
+ "learning_rate": 5e-05,
366
+ "loss": 0.0,
367
+ "step": 51
368
+ },
369
+ {
370
+ "epoch": 0.30814814814814817,
371
+ "grad_norm": NaN,
372
+ "learning_rate": 5e-05,
373
+ "loss": 0.0,
374
+ "step": 52
375
+ },
376
+ {
377
+ "epoch": 0.31407407407407406,
378
+ "grad_norm": NaN,
379
+ "learning_rate": 5e-05,
380
+ "loss": 0.0,
381
+ "step": 53
382
+ },
383
+ {
384
+ "epoch": 0.32,
385
+ "grad_norm": NaN,
386
+ "learning_rate": 5e-05,
387
+ "loss": 0.0,
388
+ "step": 54
389
+ },
390
+ {
391
+ "epoch": 0.32592592592592595,
392
+ "grad_norm": NaN,
393
+ "learning_rate": 5e-05,
394
+ "loss": 0.0,
395
+ "step": 55
396
+ },
397
+ {
398
+ "epoch": 0.33185185185185184,
399
+ "grad_norm": NaN,
400
+ "learning_rate": 5e-05,
401
+ "loss": 0.0,
402
+ "step": 56
403
+ },
404
+ {
405
+ "epoch": 0.3377777777777778,
406
+ "grad_norm": NaN,
407
+ "learning_rate": 5e-05,
408
+ "loss": 0.0,
409
+ "step": 57
410
+ },
411
+ {
412
+ "epoch": 0.3437037037037037,
413
+ "grad_norm": NaN,
414
+ "learning_rate": 5e-05,
415
+ "loss": 0.0,
416
+ "step": 58
417
+ },
418
+ {
419
+ "epoch": 0.3496296296296296,
420
+ "grad_norm": NaN,
421
+ "learning_rate": 5e-05,
422
+ "loss": 0.0,
423
+ "step": 59
424
+ },
425
+ {
426
+ "epoch": 0.35555555555555557,
427
+ "grad_norm": NaN,
428
+ "learning_rate": 5e-05,
429
+ "loss": 0.0,
430
+ "step": 60
431
+ },
432
+ {
433
+ "epoch": 0.36148148148148146,
434
+ "grad_norm": NaN,
435
+ "learning_rate": 5e-05,
436
+ "loss": 0.0,
437
+ "step": 61
438
+ },
439
+ {
440
+ "epoch": 0.3674074074074074,
441
+ "grad_norm": NaN,
442
+ "learning_rate": 5e-05,
443
+ "loss": 0.0,
444
+ "step": 62
445
+ },
446
+ {
447
+ "epoch": 0.37333333333333335,
448
+ "grad_norm": NaN,
449
+ "learning_rate": 5e-05,
450
+ "loss": 0.0,
451
+ "step": 63
452
+ },
453
+ {
454
+ "epoch": 0.37925925925925924,
455
+ "grad_norm": NaN,
456
+ "learning_rate": 5e-05,
457
+ "loss": 0.0,
458
+ "step": 64
459
+ },
460
+ {
461
+ "epoch": 0.3851851851851852,
462
+ "grad_norm": NaN,
463
+ "learning_rate": 5e-05,
464
+ "loss": 0.0,
465
+ "step": 65
466
+ },
467
+ {
468
+ "epoch": 0.39111111111111113,
469
+ "grad_norm": NaN,
470
+ "learning_rate": 5e-05,
471
+ "loss": 0.0,
472
+ "step": 66
473
+ },
474
+ {
475
+ "epoch": 0.397037037037037,
476
+ "grad_norm": NaN,
477
+ "learning_rate": 5e-05,
478
+ "loss": 0.0,
479
+ "step": 67
480
+ },
481
+ {
482
+ "epoch": 0.40296296296296297,
483
+ "grad_norm": NaN,
484
+ "learning_rate": 5e-05,
485
+ "loss": 0.0,
486
+ "step": 68
487
+ },
488
+ {
489
+ "epoch": 0.4088888888888889,
490
+ "grad_norm": NaN,
491
+ "learning_rate": 5e-05,
492
+ "loss": 0.0,
493
+ "step": 69
494
+ },
495
+ {
496
+ "epoch": 0.4148148148148148,
497
+ "grad_norm": NaN,
498
+ "learning_rate": 5e-05,
499
+ "loss": 0.0,
500
+ "step": 70
501
+ },
502
+ {
503
+ "epoch": 0.4148148148148148,
504
+ "eval_loss": 40297.44140625,
505
+ "eval_runtime": 63.992,
506
+ "eval_samples_per_second": 7.032,
507
+ "eval_steps_per_second": 1.172,
508
+ "eval_wer": 1.0381992969974168,
509
+ "step": 70
510
+ },
511
+ {
512
+ "epoch": 0.42074074074074075,
513
+ "grad_norm": NaN,
514
+ "learning_rate": 5e-05,
515
+ "loss": 0.0,
516
+ "step": 71
517
+ },
518
+ {
519
+ "epoch": 0.4266666666666667,
520
+ "grad_norm": NaN,
521
+ "learning_rate": 5e-05,
522
+ "loss": 0.0,
523
+ "step": 72
524
+ },
525
+ {
526
+ "epoch": 0.4325925925925926,
527
+ "grad_norm": NaN,
528
+ "learning_rate": 5e-05,
529
+ "loss": 0.0,
530
+ "step": 73
531
+ },
532
+ {
533
+ "epoch": 0.43851851851851853,
534
+ "grad_norm": NaN,
535
+ "learning_rate": 5e-05,
536
+ "loss": 0.0,
537
+ "step": 74
538
+ },
539
+ {
540
+ "epoch": 0.4444444444444444,
541
+ "grad_norm": NaN,
542
+ "learning_rate": 5e-05,
543
+ "loss": 0.0,
544
+ "step": 75
545
+ },
546
+ {
547
+ "epoch": 0.45037037037037037,
548
+ "grad_norm": NaN,
549
+ "learning_rate": 5e-05,
550
+ "loss": 0.0,
551
+ "step": 76
552
+ },
553
+ {
554
+ "epoch": 0.4562962962962963,
555
+ "grad_norm": NaN,
556
+ "learning_rate": 5e-05,
557
+ "loss": 0.0,
558
+ "step": 77
559
+ },
560
+ {
561
+ "epoch": 0.4622222222222222,
562
+ "grad_norm": NaN,
563
+ "learning_rate": 5e-05,
564
+ "loss": 0.0,
565
+ "step": 78
566
+ },
567
+ {
568
+ "epoch": 0.46814814814814815,
569
+ "grad_norm": NaN,
570
+ "learning_rate": 5e-05,
571
+ "loss": 0.0,
572
+ "step": 79
573
+ },
574
+ {
575
+ "epoch": 0.4740740740740741,
576
+ "grad_norm": NaN,
577
+ "learning_rate": 5e-05,
578
+ "loss": 0.0,
579
+ "step": 80
580
+ },
581
+ {
582
+ "epoch": 0.48,
583
+ "grad_norm": NaN,
584
+ "learning_rate": 5e-05,
585
+ "loss": 0.0,
586
+ "step": 81
587
+ },
588
+ {
589
+ "epoch": 0.48592592592592593,
590
+ "grad_norm": NaN,
591
+ "learning_rate": 5e-05,
592
+ "loss": 0.0,
593
+ "step": 82
594
+ },
595
+ {
596
+ "epoch": 0.4918518518518519,
597
+ "grad_norm": NaN,
598
+ "learning_rate": 5e-05,
599
+ "loss": 0.0,
600
+ "step": 83
601
+ },
602
+ {
603
+ "epoch": 0.49777777777777776,
604
+ "grad_norm": NaN,
605
+ "learning_rate": 5e-05,
606
+ "loss": 0.0,
607
+ "step": 84
608
+ },
609
+ {
610
+ "epoch": 0.5037037037037037,
611
+ "grad_norm": NaN,
612
+ "learning_rate": 5e-05,
613
+ "loss": 0.0,
614
+ "step": 85
615
+ },
616
+ {
617
+ "epoch": 0.5096296296296297,
618
+ "grad_norm": NaN,
619
+ "learning_rate": 5e-05,
620
+ "loss": 0.0,
621
+ "step": 86
622
+ },
623
+ {
624
+ "epoch": 0.5155555555555555,
625
+ "grad_norm": NaN,
626
+ "learning_rate": 5e-05,
627
+ "loss": 0.0,
628
+ "step": 87
629
+ },
630
+ {
631
+ "epoch": 0.5214814814814814,
632
+ "grad_norm": NaN,
633
+ "learning_rate": 5e-05,
634
+ "loss": 0.0,
635
+ "step": 88
636
+ },
637
+ {
638
+ "epoch": 0.5274074074074074,
639
+ "grad_norm": NaN,
640
+ "learning_rate": 5e-05,
641
+ "loss": 0.0,
642
+ "step": 89
643
+ },
644
+ {
645
+ "epoch": 0.5333333333333333,
646
+ "grad_norm": NaN,
647
+ "learning_rate": 5e-05,
648
+ "loss": 0.0,
649
+ "step": 90
650
+ },
651
+ {
652
+ "epoch": 0.5392592592592592,
653
+ "grad_norm": NaN,
654
+ "learning_rate": 5e-05,
655
+ "loss": 0.0,
656
+ "step": 91
657
+ },
658
+ {
659
+ "epoch": 0.5451851851851852,
660
+ "grad_norm": NaN,
661
+ "learning_rate": 5e-05,
662
+ "loss": 0.0,
663
+ "step": 92
664
+ },
665
+ {
666
+ "epoch": 0.5511111111111111,
667
+ "grad_norm": NaN,
668
+ "learning_rate": 5e-05,
669
+ "loss": 0.0,
670
+ "step": 93
671
+ },
672
+ {
673
+ "epoch": 0.557037037037037,
674
+ "grad_norm": NaN,
675
+ "learning_rate": 5e-05,
676
+ "loss": 0.0,
677
+ "step": 94
678
+ },
679
+ {
680
+ "epoch": 0.562962962962963,
681
+ "grad_norm": NaN,
682
+ "learning_rate": 5e-05,
683
+ "loss": 0.0,
684
+ "step": 95
685
+ },
686
+ {
687
+ "epoch": 0.5688888888888889,
688
+ "grad_norm": NaN,
689
+ "learning_rate": 5e-05,
690
+ "loss": 0.0,
691
+ "step": 96
692
+ },
693
+ {
694
+ "epoch": 0.5748148148148148,
695
+ "grad_norm": NaN,
696
+ "learning_rate": 5e-05,
697
+ "loss": 0.0,
698
+ "step": 97
699
+ },
700
+ {
701
+ "epoch": 0.5807407407407408,
702
+ "grad_norm": NaN,
703
+ "learning_rate": 5e-05,
704
+ "loss": 0.0,
705
+ "step": 98
706
+ },
707
+ {
708
+ "epoch": 0.5866666666666667,
709
+ "grad_norm": NaN,
710
+ "learning_rate": 5e-05,
711
+ "loss": 0.0,
712
+ "step": 99
713
+ },
714
+ {
715
+ "epoch": 0.5925925925925926,
716
+ "grad_norm": NaN,
717
+ "learning_rate": 5e-05,
718
+ "loss": 0.0,
719
+ "step": 100
720
+ },
721
+ {
722
+ "epoch": 0.5985185185185186,
723
+ "grad_norm": NaN,
724
+ "learning_rate": 5e-05,
725
+ "loss": 0.0,
726
+ "step": 101
727
+ },
728
+ {
729
+ "epoch": 0.6044444444444445,
730
+ "grad_norm": NaN,
731
+ "learning_rate": 5e-05,
732
+ "loss": 0.0,
733
+ "step": 102
734
+ },
735
+ {
736
+ "epoch": 0.6103703703703703,
737
+ "grad_norm": NaN,
738
+ "learning_rate": 5e-05,
739
+ "loss": 0.0,
740
+ "step": 103
741
+ },
742
+ {
743
+ "epoch": 0.6162962962962963,
744
+ "grad_norm": NaN,
745
+ "learning_rate": 5e-05,
746
+ "loss": 0.0,
747
+ "step": 104
748
+ },
749
+ {
750
+ "epoch": 0.6222222222222222,
751
+ "grad_norm": NaN,
752
+ "learning_rate": 5e-05,
753
+ "loss": 0.0,
754
+ "step": 105
755
+ },
756
+ {
757
+ "epoch": 0.6281481481481481,
758
+ "grad_norm": NaN,
759
+ "learning_rate": 5e-05,
760
+ "loss": 0.0,
761
+ "step": 106
762
+ },
763
+ {
764
+ "epoch": 0.6340740740740741,
765
+ "grad_norm": NaN,
766
+ "learning_rate": 5e-05,
767
+ "loss": 0.0,
768
+ "step": 107
769
+ },
770
+ {
771
+ "epoch": 0.64,
772
+ "grad_norm": NaN,
773
+ "learning_rate": 5e-05,
774
+ "loss": 0.0,
775
+ "step": 108
776
+ },
777
+ {
778
+ "epoch": 0.6459259259259259,
779
+ "grad_norm": NaN,
780
+ "learning_rate": 5e-05,
781
+ "loss": 0.0,
782
+ "step": 109
783
+ },
784
+ {
785
+ "epoch": 0.6518518518518519,
786
+ "grad_norm": NaN,
787
+ "learning_rate": 5e-05,
788
+ "loss": 0.0,
789
+ "step": 110
790
+ },
791
+ {
792
+ "epoch": 0.6577777777777778,
793
+ "grad_norm": NaN,
794
+ "learning_rate": 5e-05,
795
+ "loss": 0.0,
796
+ "step": 111
797
+ },
798
+ {
799
+ "epoch": 0.6637037037037037,
800
+ "grad_norm": NaN,
801
+ "learning_rate": 5e-05,
802
+ "loss": 0.0,
803
+ "step": 112
804
+ },
805
+ {
806
+ "epoch": 0.6696296296296296,
807
+ "grad_norm": NaN,
808
+ "learning_rate": 5e-05,
809
+ "loss": 0.0,
810
+ "step": 113
811
+ },
812
+ {
813
+ "epoch": 0.6755555555555556,
814
+ "grad_norm": NaN,
815
+ "learning_rate": 5e-05,
816
+ "loss": 0.0,
817
+ "step": 114
818
+ },
819
+ {
820
+ "epoch": 0.6814814814814815,
821
+ "grad_norm": NaN,
822
+ "learning_rate": 5e-05,
823
+ "loss": 0.0,
824
+ "step": 115
825
+ },
826
+ {
827
+ "epoch": 0.6874074074074074,
828
+ "grad_norm": NaN,
829
+ "learning_rate": 5e-05,
830
+ "loss": 0.0,
831
+ "step": 116
832
+ },
833
+ {
834
+ "epoch": 0.6933333333333334,
835
+ "grad_norm": NaN,
836
+ "learning_rate": 5e-05,
837
+ "loss": 0.0,
838
+ "step": 117
839
+ },
840
+ {
841
+ "epoch": 0.6992592592592592,
842
+ "grad_norm": NaN,
843
+ "learning_rate": 5e-05,
844
+ "loss": 0.0,
845
+ "step": 118
846
+ },
847
+ {
848
+ "epoch": 0.7051851851851851,
849
+ "grad_norm": NaN,
850
+ "learning_rate": 5e-05,
851
+ "loss": 0.0,
852
+ "step": 119
853
+ },
854
+ {
855
+ "epoch": 0.7111111111111111,
856
+ "grad_norm": NaN,
857
+ "learning_rate": 5e-05,
858
+ "loss": 0.0,
859
+ "step": 120
860
+ },
861
+ {
862
+ "epoch": 0.717037037037037,
863
+ "grad_norm": NaN,
864
+ "learning_rate": 5e-05,
865
+ "loss": 0.0,
866
+ "step": 121
867
+ },
868
+ {
869
+ "epoch": 0.7229629629629629,
870
+ "grad_norm": NaN,
871
+ "learning_rate": 5e-05,
872
+ "loss": 0.0,
873
+ "step": 122
874
+ },
875
+ {
876
+ "epoch": 0.7288888888888889,
877
+ "grad_norm": NaN,
878
+ "learning_rate": 5e-05,
879
+ "loss": 0.0,
880
+ "step": 123
881
+ },
882
+ {
883
+ "epoch": 0.7348148148148148,
884
+ "grad_norm": NaN,
885
+ "learning_rate": 5e-05,
886
+ "loss": 0.0,
887
+ "step": 124
888
+ },
889
+ {
890
+ "epoch": 0.7407407407407407,
891
+ "grad_norm": NaN,
892
+ "learning_rate": 5e-05,
893
+ "loss": 0.0,
894
+ "step": 125
895
+ },
896
+ {
897
+ "epoch": 0.7466666666666667,
898
+ "grad_norm": NaN,
899
+ "learning_rate": 5e-05,
900
+ "loss": 0.0,
901
+ "step": 126
902
+ },
903
+ {
904
+ "epoch": 0.7525925925925926,
905
+ "grad_norm": NaN,
906
+ "learning_rate": 5e-05,
907
+ "loss": 0.0,
908
+ "step": 127
909
+ },
910
+ {
911
+ "epoch": 0.7585185185185185,
912
+ "grad_norm": NaN,
913
+ "learning_rate": 5e-05,
914
+ "loss": 0.0,
915
+ "step": 128
916
+ },
917
+ {
918
+ "epoch": 0.7644444444444445,
919
+ "grad_norm": NaN,
920
+ "learning_rate": 5e-05,
921
+ "loss": 0.0,
922
+ "step": 129
923
+ },
924
+ {
925
+ "epoch": 0.7703703703703704,
926
+ "grad_norm": NaN,
927
+ "learning_rate": 5e-05,
928
+ "loss": 0.0,
929
+ "step": 130
930
+ },
931
+ {
932
+ "epoch": 0.7762962962962963,
933
+ "grad_norm": NaN,
934
+ "learning_rate": 5e-05,
935
+ "loss": 0.0,
936
+ "step": 131
937
+ },
938
+ {
939
+ "epoch": 0.7822222222222223,
940
+ "grad_norm": NaN,
941
+ "learning_rate": 5e-05,
942
+ "loss": 0.0,
943
+ "step": 132
944
+ },
945
+ {
946
+ "epoch": 0.7881481481481482,
947
+ "grad_norm": NaN,
948
+ "learning_rate": 5e-05,
949
+ "loss": 0.0,
950
+ "step": 133
951
+ },
952
+ {
953
+ "epoch": 0.794074074074074,
954
+ "grad_norm": NaN,
955
+ "learning_rate": 5e-05,
956
+ "loss": 0.0,
957
+ "step": 134
958
+ },
959
+ {
960
+ "epoch": 0.8,
961
+ "grad_norm": NaN,
962
+ "learning_rate": 5e-05,
963
+ "loss": 0.0,
964
+ "step": 135
965
+ },
966
+ {
967
+ "epoch": 0.8059259259259259,
968
+ "grad_norm": NaN,
969
+ "learning_rate": 5e-05,
970
+ "loss": 0.0,
971
+ "step": 136
972
+ },
973
+ {
974
+ "epoch": 0.8118518518518518,
975
+ "grad_norm": NaN,
976
+ "learning_rate": 5e-05,
977
+ "loss": 0.0,
978
+ "step": 137
979
+ },
980
+ {
981
+ "epoch": 0.8177777777777778,
982
+ "grad_norm": NaN,
983
+ "learning_rate": 5e-05,
984
+ "loss": 0.0,
985
+ "step": 138
986
+ },
987
+ {
988
+ "epoch": 0.8237037037037037,
989
+ "grad_norm": NaN,
990
+ "learning_rate": 5e-05,
991
+ "loss": 0.0,
992
+ "step": 139
993
+ },
994
+ {
995
+ "epoch": 0.8296296296296296,
996
+ "grad_norm": NaN,
997
+ "learning_rate": 5e-05,
998
+ "loss": 0.0,
999
+ "step": 140
1000
+ },
1001
+ {
1002
+ "epoch": 0.8296296296296296,
1003
+ "eval_loss": 40297.44140625,
1004
+ "eval_runtime": 63.7847,
1005
+ "eval_samples_per_second": 7.055,
1006
+ "eval_steps_per_second": 1.176,
1007
+ "eval_wer": 1.0381992969974168,
1008
+ "step": 140
1009
+ },
1010
+ {
1011
+ "epoch": 0.8355555555555556,
1012
+ "grad_norm": NaN,
1013
+ "learning_rate": 5e-05,
1014
+ "loss": 0.0,
1015
+ "step": 141
1016
+ },
1017
+ {
1018
+ "epoch": 0.8414814814814815,
1019
+ "grad_norm": NaN,
1020
+ "learning_rate": 5e-05,
1021
+ "loss": 0.0,
1022
+ "step": 142
1023
+ },
1024
+ {
1025
+ "epoch": 0.8474074074074074,
1026
+ "grad_norm": NaN,
1027
+ "learning_rate": 5e-05,
1028
+ "loss": 0.0,
1029
+ "step": 143
1030
+ },
1031
+ {
1032
+ "epoch": 0.8533333333333334,
1033
+ "grad_norm": NaN,
1034
+ "learning_rate": 5e-05,
1035
+ "loss": 0.0,
1036
+ "step": 144
1037
+ },
1038
+ {
1039
+ "epoch": 0.8592592592592593,
1040
+ "grad_norm": NaN,
1041
+ "learning_rate": 5e-05,
1042
+ "loss": 0.0,
1043
+ "step": 145
1044
+ },
1045
+ {
1046
+ "epoch": 0.8651851851851852,
1047
+ "grad_norm": NaN,
1048
+ "learning_rate": 5e-05,
1049
+ "loss": 0.0,
1050
+ "step": 146
1051
+ },
1052
+ {
1053
+ "epoch": 0.8711111111111111,
1054
+ "grad_norm": NaN,
1055
+ "learning_rate": 5e-05,
1056
+ "loss": 0.0,
1057
+ "step": 147
1058
+ },
1059
+ {
1060
+ "epoch": 0.8770370370370371,
1061
+ "grad_norm": NaN,
1062
+ "learning_rate": 5e-05,
1063
+ "loss": 0.0,
1064
+ "step": 148
1065
+ },
1066
+ {
1067
+ "epoch": 0.882962962962963,
1068
+ "grad_norm": NaN,
1069
+ "learning_rate": 5e-05,
1070
+ "loss": 0.0,
1071
+ "step": 149
1072
+ },
1073
+ {
1074
+ "epoch": 0.8888888888888888,
1075
+ "grad_norm": NaN,
1076
+ "learning_rate": 5e-05,
1077
+ "loss": 0.0,
1078
+ "step": 150
1079
+ },
1080
+ {
1081
+ "epoch": 0.8948148148148148,
1082
+ "grad_norm": NaN,
1083
+ "learning_rate": 5e-05,
1084
+ "loss": 0.0,
1085
+ "step": 151
1086
+ },
1087
+ {
1088
+ "epoch": 0.9007407407407407,
1089
+ "grad_norm": NaN,
1090
+ "learning_rate": 5e-05,
1091
+ "loss": 0.0,
1092
+ "step": 152
1093
+ },
1094
+ {
1095
+ "epoch": 0.9066666666666666,
1096
+ "grad_norm": NaN,
1097
+ "learning_rate": 5e-05,
1098
+ "loss": 0.0,
1099
+ "step": 153
1100
+ },
1101
+ {
1102
+ "epoch": 0.9125925925925926,
1103
+ "grad_norm": NaN,
1104
+ "learning_rate": 5e-05,
1105
+ "loss": 0.0,
1106
+ "step": 154
1107
+ },
1108
+ {
1109
+ "epoch": 0.9185185185185185,
1110
+ "grad_norm": NaN,
1111
+ "learning_rate": 5e-05,
1112
+ "loss": 0.0,
1113
+ "step": 155
1114
+ },
1115
+ {
1116
+ "epoch": 0.9244444444444444,
1117
+ "grad_norm": NaN,
1118
+ "learning_rate": 5e-05,
1119
+ "loss": 0.0,
1120
+ "step": 156
1121
+ },
1122
+ {
1123
+ "epoch": 0.9303703703703704,
1124
+ "grad_norm": NaN,
1125
+ "learning_rate": 5e-05,
1126
+ "loss": 0.0,
1127
+ "step": 157
1128
+ },
1129
+ {
1130
+ "epoch": 0.9362962962962963,
1131
+ "grad_norm": NaN,
1132
+ "learning_rate": 5e-05,
1133
+ "loss": 0.0,
1134
+ "step": 158
1135
+ },
1136
+ {
1137
+ "epoch": 0.9422222222222222,
1138
+ "grad_norm": NaN,
1139
+ "learning_rate": 5e-05,
1140
+ "loss": 0.0,
1141
+ "step": 159
1142
+ },
1143
+ {
1144
+ "epoch": 0.9481481481481482,
1145
+ "grad_norm": NaN,
1146
+ "learning_rate": 5e-05,
1147
+ "loss": 0.0,
1148
+ "step": 160
1149
+ },
1150
+ {
1151
+ "epoch": 0.9540740740740741,
1152
+ "grad_norm": NaN,
1153
+ "learning_rate": 5e-05,
1154
+ "loss": 0.0,
1155
+ "step": 161
1156
+ },
1157
+ {
1158
+ "epoch": 0.96,
1159
+ "grad_norm": NaN,
1160
+ "learning_rate": 5e-05,
1161
+ "loss": 0.0,
1162
+ "step": 162
1163
+ },
1164
+ {
1165
+ "epoch": 0.965925925925926,
1166
+ "grad_norm": NaN,
1167
+ "learning_rate": 5e-05,
1168
+ "loss": 0.0,
1169
+ "step": 163
1170
+ },
1171
+ {
1172
+ "epoch": 0.9718518518518519,
1173
+ "grad_norm": NaN,
1174
+ "learning_rate": 5e-05,
1175
+ "loss": 0.0,
1176
+ "step": 164
1177
+ },
1178
+ {
1179
+ "epoch": 0.9777777777777777,
1180
+ "grad_norm": NaN,
1181
+ "learning_rate": 5e-05,
1182
+ "loss": 0.0,
1183
+ "step": 165
1184
+ },
1185
+ {
1186
+ "epoch": 0.9837037037037037,
1187
+ "grad_norm": NaN,
1188
+ "learning_rate": 5e-05,
1189
+ "loss": 0.0,
1190
+ "step": 166
1191
+ },
1192
+ {
1193
+ "epoch": 0.9896296296296296,
1194
+ "grad_norm": NaN,
1195
+ "learning_rate": 5e-05,
1196
+ "loss": 0.0,
1197
+ "step": 167
1198
+ },
1199
+ {
1200
+ "epoch": 0.9955555555555555,
1201
+ "grad_norm": NaN,
1202
+ "learning_rate": 5e-05,
1203
+ "loss": 0.0,
1204
+ "step": 168
1205
+ },
1206
+ {
1207
+ "epoch": 1.005925925925926,
1208
+ "grad_norm": NaN,
1209
+ "learning_rate": 5e-05,
1210
+ "loss": 0.0,
1211
+ "step": 169
1212
+ },
1213
+ {
1214
+ "epoch": 1.0118518518518518,
1215
+ "grad_norm": NaN,
1216
+ "learning_rate": 5e-05,
1217
+ "loss": 0.0,
1218
+ "step": 170
1219
+ },
1220
+ {
1221
+ "epoch": 1.0177777777777777,
1222
+ "grad_norm": NaN,
1223
+ "learning_rate": 5e-05,
1224
+ "loss": 0.0,
1225
+ "step": 171
1226
+ },
1227
+ {
1228
+ "epoch": 1.0237037037037038,
1229
+ "grad_norm": NaN,
1230
+ "learning_rate": 5e-05,
1231
+ "loss": 0.0,
1232
+ "step": 172
1233
+ },
1234
+ {
1235
+ "epoch": 1.0296296296296297,
1236
+ "grad_norm": NaN,
1237
+ "learning_rate": 5e-05,
1238
+ "loss": 0.0,
1239
+ "step": 173
1240
+ },
1241
+ {
1242
+ "epoch": 1.0355555555555556,
1243
+ "grad_norm": NaN,
1244
+ "learning_rate": 5e-05,
1245
+ "loss": 0.0,
1246
+ "step": 174
1247
+ },
1248
+ {
1249
+ "epoch": 1.0414814814814815,
1250
+ "grad_norm": NaN,
1251
+ "learning_rate": 5e-05,
1252
+ "loss": 0.0,
1253
+ "step": 175
1254
+ },
1255
+ {
1256
+ "epoch": 1.0474074074074073,
1257
+ "grad_norm": NaN,
1258
+ "learning_rate": 5e-05,
1259
+ "loss": 0.0,
1260
+ "step": 176
1261
+ },
1262
+ {
1263
+ "epoch": 1.0533333333333332,
1264
+ "grad_norm": NaN,
1265
+ "learning_rate": 5e-05,
1266
+ "loss": 0.0,
1267
+ "step": 177
1268
+ },
1269
+ {
1270
+ "epoch": 1.0592592592592593,
1271
+ "grad_norm": NaN,
1272
+ "learning_rate": 5e-05,
1273
+ "loss": 0.0,
1274
+ "step": 178
1275
+ },
1276
+ {
1277
+ "epoch": 1.0651851851851852,
1278
+ "grad_norm": NaN,
1279
+ "learning_rate": 5e-05,
1280
+ "loss": 0.0,
1281
+ "step": 179
1282
+ },
1283
+ {
1284
+ "epoch": 1.0711111111111111,
1285
+ "grad_norm": NaN,
1286
+ "learning_rate": 5e-05,
1287
+ "loss": 0.0,
1288
+ "step": 180
1289
+ },
1290
+ {
1291
+ "epoch": 1.077037037037037,
1292
+ "grad_norm": NaN,
1293
+ "learning_rate": 5e-05,
1294
+ "loss": 0.0,
1295
+ "step": 181
1296
+ },
1297
+ {
1298
+ "epoch": 1.082962962962963,
1299
+ "grad_norm": NaN,
1300
+ "learning_rate": 5e-05,
1301
+ "loss": 0.0,
1302
+ "step": 182
1303
+ },
1304
+ {
1305
+ "epoch": 1.0888888888888888,
1306
+ "grad_norm": NaN,
1307
+ "learning_rate": 5e-05,
1308
+ "loss": 0.0,
1309
+ "step": 183
1310
+ },
1311
+ {
1312
+ "epoch": 1.094814814814815,
1313
+ "grad_norm": NaN,
1314
+ "learning_rate": 5e-05,
1315
+ "loss": 0.0,
1316
+ "step": 184
1317
+ },
1318
+ {
1319
+ "epoch": 1.1007407407407408,
1320
+ "grad_norm": NaN,
1321
+ "learning_rate": 5e-05,
1322
+ "loss": 0.0,
1323
+ "step": 185
1324
+ },
1325
+ {
1326
+ "epoch": 1.1066666666666667,
1327
+ "grad_norm": NaN,
1328
+ "learning_rate": 5e-05,
1329
+ "loss": 0.0,
1330
+ "step": 186
1331
+ },
1332
+ {
1333
+ "epoch": 1.1125925925925926,
1334
+ "grad_norm": NaN,
1335
+ "learning_rate": 5e-05,
1336
+ "loss": 0.0,
1337
+ "step": 187
1338
+ },
1339
+ {
1340
+ "epoch": 1.1185185185185185,
1341
+ "grad_norm": NaN,
1342
+ "learning_rate": 5e-05,
1343
+ "loss": 0.0,
1344
+ "step": 188
1345
+ },
1346
+ {
1347
+ "epoch": 1.1244444444444444,
1348
+ "grad_norm": NaN,
1349
+ "learning_rate": 5e-05,
1350
+ "loss": 0.0,
1351
+ "step": 189
1352
+ },
1353
+ {
1354
+ "epoch": 1.1303703703703705,
1355
+ "grad_norm": NaN,
1356
+ "learning_rate": 5e-05,
1357
+ "loss": 0.0,
1358
+ "step": 190
1359
+ },
1360
+ {
1361
+ "epoch": 1.1362962962962964,
1362
+ "grad_norm": NaN,
1363
+ "learning_rate": 5e-05,
1364
+ "loss": 0.0,
1365
+ "step": 191
1366
+ },
1367
+ {
1368
+ "epoch": 1.1422222222222222,
1369
+ "grad_norm": NaN,
1370
+ "learning_rate": 5e-05,
1371
+ "loss": 0.0,
1372
+ "step": 192
1373
+ },
1374
+ {
1375
+ "epoch": 1.1481481481481481,
1376
+ "grad_norm": NaN,
1377
+ "learning_rate": 5e-05,
1378
+ "loss": 0.0,
1379
+ "step": 193
1380
+ },
1381
+ {
1382
+ "epoch": 1.154074074074074,
1383
+ "grad_norm": NaN,
1384
+ "learning_rate": 5e-05,
1385
+ "loss": 0.0,
1386
+ "step": 194
1387
+ },
1388
+ {
1389
+ "epoch": 1.16,
1390
+ "grad_norm": NaN,
1391
+ "learning_rate": 5e-05,
1392
+ "loss": 0.0,
1393
+ "step": 195
1394
+ },
1395
+ {
1396
+ "epoch": 1.1659259259259258,
1397
+ "grad_norm": NaN,
1398
+ "learning_rate": 5e-05,
1399
+ "loss": 0.0,
1400
+ "step": 196
1401
+ },
1402
+ {
1403
+ "epoch": 1.171851851851852,
1404
+ "grad_norm": NaN,
1405
+ "learning_rate": 5e-05,
1406
+ "loss": 0.0,
1407
+ "step": 197
1408
+ },
1409
+ {
1410
+ "epoch": 1.1777777777777778,
1411
+ "grad_norm": NaN,
1412
+ "learning_rate": 5e-05,
1413
+ "loss": 0.0,
1414
+ "step": 198
1415
+ },
1416
+ {
1417
+ "epoch": 1.1837037037037037,
1418
+ "grad_norm": NaN,
1419
+ "learning_rate": 5e-05,
1420
+ "loss": 0.0,
1421
+ "step": 199
1422
+ },
1423
+ {
1424
+ "epoch": 1.1896296296296296,
1425
+ "grad_norm": NaN,
1426
+ "learning_rate": 5e-05,
1427
+ "loss": 0.0,
1428
+ "step": 200
1429
+ },
1430
+ {
1431
+ "epoch": 1.1955555555555555,
1432
+ "grad_norm": NaN,
1433
+ "learning_rate": 5e-05,
1434
+ "loss": 0.0,
1435
+ "step": 201
1436
+ },
1437
+ {
1438
+ "epoch": 1.2014814814814816,
1439
+ "grad_norm": NaN,
1440
+ "learning_rate": 5e-05,
1441
+ "loss": 0.0,
1442
+ "step": 202
1443
+ },
1444
+ {
1445
+ "epoch": 1.2074074074074075,
1446
+ "grad_norm": NaN,
1447
+ "learning_rate": 5e-05,
1448
+ "loss": 0.0,
1449
+ "step": 203
1450
+ },
1451
+ {
1452
+ "epoch": 1.2133333333333334,
1453
+ "grad_norm": NaN,
1454
+ "learning_rate": 5e-05,
1455
+ "loss": 0.0,
1456
+ "step": 204
1457
+ },
1458
+ {
1459
+ "epoch": 1.2192592592592593,
1460
+ "grad_norm": NaN,
1461
+ "learning_rate": 5e-05,
1462
+ "loss": 0.0,
1463
+ "step": 205
1464
+ },
1465
+ {
1466
+ "epoch": 1.2251851851851852,
1467
+ "grad_norm": NaN,
1468
+ "learning_rate": 5e-05,
1469
+ "loss": 0.0,
1470
+ "step": 206
1471
+ },
1472
+ {
1473
+ "epoch": 1.231111111111111,
1474
+ "grad_norm": NaN,
1475
+ "learning_rate": 5e-05,
1476
+ "loss": 0.0,
1477
+ "step": 207
1478
+ },
1479
+ {
1480
+ "epoch": 1.237037037037037,
1481
+ "grad_norm": NaN,
1482
+ "learning_rate": 5e-05,
1483
+ "loss": 0.0,
1484
+ "step": 208
1485
+ },
1486
+ {
1487
+ "epoch": 1.242962962962963,
1488
+ "grad_norm": NaN,
1489
+ "learning_rate": 5e-05,
1490
+ "loss": 0.0,
1491
+ "step": 209
1492
+ },
1493
+ {
1494
+ "epoch": 1.248888888888889,
1495
+ "grad_norm": NaN,
1496
+ "learning_rate": 5e-05,
1497
+ "loss": 0.0,
1498
+ "step": 210
1499
+ },
1500
+ {
1501
+ "epoch": 1.248888888888889,
1502
+ "eval_loss": 40297.44140625,
1503
+ "eval_runtime": 64.5029,
1504
+ "eval_samples_per_second": 6.976,
1505
+ "eval_steps_per_second": 1.163,
1506
+ "eval_wer": 1.0381992969974168,
1507
+ "step": 210
1508
+ },
1509
+ {
1510
+ "epoch": 1.2548148148148148,
1511
+ "grad_norm": NaN,
1512
+ "learning_rate": 5e-05,
1513
+ "loss": 0.0,
1514
+ "step": 211
1515
+ },
1516
+ {
1517
+ "epoch": 1.2607407407407407,
1518
+ "grad_norm": NaN,
1519
+ "learning_rate": 5e-05,
1520
+ "loss": 0.0,
1521
+ "step": 212
1522
+ },
1523
+ {
1524
+ "epoch": 1.2666666666666666,
1525
+ "grad_norm": NaN,
1526
+ "learning_rate": 5e-05,
1527
+ "loss": 0.0,
1528
+ "step": 213
1529
+ },
1530
+ {
1531
+ "epoch": 1.2725925925925927,
1532
+ "grad_norm": NaN,
1533
+ "learning_rate": 5e-05,
1534
+ "loss": 0.0,
1535
+ "step": 214
1536
+ },
1537
+ {
1538
+ "epoch": 1.2785185185185184,
1539
+ "grad_norm": NaN,
1540
+ "learning_rate": 5e-05,
1541
+ "loss": 0.0,
1542
+ "step": 215
1543
+ },
1544
+ {
1545
+ "epoch": 1.2844444444444445,
1546
+ "grad_norm": NaN,
1547
+ "learning_rate": 5e-05,
1548
+ "loss": 0.0,
1549
+ "step": 216
1550
+ },
1551
+ {
1552
+ "epoch": 1.2903703703703704,
1553
+ "grad_norm": NaN,
1554
+ "learning_rate": 5e-05,
1555
+ "loss": 0.0,
1556
+ "step": 217
1557
+ },
1558
+ {
1559
+ "epoch": 1.2962962962962963,
1560
+ "grad_norm": NaN,
1561
+ "learning_rate": 5e-05,
1562
+ "loss": 0.0,
1563
+ "step": 218
1564
+ },
1565
+ {
1566
+ "epoch": 1.3022222222222222,
1567
+ "grad_norm": NaN,
1568
+ "learning_rate": 5e-05,
1569
+ "loss": 0.0,
1570
+ "step": 219
1571
+ },
1572
+ {
1573
+ "epoch": 1.308148148148148,
1574
+ "grad_norm": NaN,
1575
+ "learning_rate": 5e-05,
1576
+ "loss": 0.0,
1577
+ "step": 220
1578
+ },
1579
+ {
1580
+ "epoch": 1.3140740740740742,
1581
+ "grad_norm": NaN,
1582
+ "learning_rate": 5e-05,
1583
+ "loss": 0.0,
1584
+ "step": 221
1585
+ },
1586
+ {
1587
+ "epoch": 1.32,
1588
+ "grad_norm": NaN,
1589
+ "learning_rate": 5e-05,
1590
+ "loss": 0.0,
1591
+ "step": 222
1592
+ },
1593
+ {
1594
+ "epoch": 1.325925925925926,
1595
+ "grad_norm": NaN,
1596
+ "learning_rate": 5e-05,
1597
+ "loss": 0.0,
1598
+ "step": 223
1599
+ },
1600
+ {
1601
+ "epoch": 1.3318518518518518,
1602
+ "grad_norm": NaN,
1603
+ "learning_rate": 5e-05,
1604
+ "loss": 0.0,
1605
+ "step": 224
1606
+ },
1607
+ {
1608
+ "epoch": 1.3377777777777777,
1609
+ "grad_norm": NaN,
1610
+ "learning_rate": 5e-05,
1611
+ "loss": 0.0,
1612
+ "step": 225
1613
+ },
1614
+ {
1615
+ "epoch": 1.3437037037037036,
1616
+ "grad_norm": NaN,
1617
+ "learning_rate": 5e-05,
1618
+ "loss": 0.0,
1619
+ "step": 226
1620
+ },
1621
+ {
1622
+ "epoch": 1.3496296296296295,
1623
+ "grad_norm": NaN,
1624
+ "learning_rate": 5e-05,
1625
+ "loss": 0.0,
1626
+ "step": 227
1627
+ },
1628
+ {
1629
+ "epoch": 1.3555555555555556,
1630
+ "grad_norm": NaN,
1631
+ "learning_rate": 5e-05,
1632
+ "loss": 0.0,
1633
+ "step": 228
1634
+ },
1635
+ {
1636
+ "epoch": 1.3614814814814815,
1637
+ "grad_norm": NaN,
1638
+ "learning_rate": 5e-05,
1639
+ "loss": 0.0,
1640
+ "step": 229
1641
+ },
1642
+ {
1643
+ "epoch": 1.3674074074074074,
1644
+ "grad_norm": NaN,
1645
+ "learning_rate": 5e-05,
1646
+ "loss": 0.0,
1647
+ "step": 230
1648
+ },
1649
+ {
1650
+ "epoch": 1.3733333333333333,
1651
+ "grad_norm": NaN,
1652
+ "learning_rate": 5e-05,
1653
+ "loss": 0.0,
1654
+ "step": 231
1655
+ },
1656
+ {
1657
+ "epoch": 1.3792592592592592,
1658
+ "grad_norm": NaN,
1659
+ "learning_rate": 5e-05,
1660
+ "loss": 0.0,
1661
+ "step": 232
1662
+ },
1663
+ {
1664
+ "epoch": 1.3851851851851853,
1665
+ "grad_norm": NaN,
1666
+ "learning_rate": 5e-05,
1667
+ "loss": 0.0,
1668
+ "step": 233
1669
+ },
1670
+ {
1671
+ "epoch": 1.3911111111111112,
1672
+ "grad_norm": NaN,
1673
+ "learning_rate": 5e-05,
1674
+ "loss": 0.0,
1675
+ "step": 234
1676
+ },
1677
+ {
1678
+ "epoch": 1.397037037037037,
1679
+ "grad_norm": NaN,
1680
+ "learning_rate": 5e-05,
1681
+ "loss": 0.0,
1682
+ "step": 235
1683
+ },
1684
+ {
1685
+ "epoch": 1.402962962962963,
1686
+ "grad_norm": NaN,
1687
+ "learning_rate": 5e-05,
1688
+ "loss": 0.0,
1689
+ "step": 236
1690
+ },
1691
+ {
1692
+ "epoch": 1.4088888888888889,
1693
+ "grad_norm": NaN,
1694
+ "learning_rate": 5e-05,
1695
+ "loss": 0.0,
1696
+ "step": 237
1697
+ },
1698
+ {
1699
+ "epoch": 1.4148148148148147,
1700
+ "grad_norm": NaN,
1701
+ "learning_rate": 5e-05,
1702
+ "loss": 0.0,
1703
+ "step": 238
1704
+ },
1705
+ {
1706
+ "epoch": 1.4207407407407406,
1707
+ "grad_norm": NaN,
1708
+ "learning_rate": 5e-05,
1709
+ "loss": 0.0,
1710
+ "step": 239
1711
+ },
1712
+ {
1713
+ "epoch": 1.4266666666666667,
1714
+ "grad_norm": NaN,
1715
+ "learning_rate": 5e-05,
1716
+ "loss": 0.0,
1717
+ "step": 240
1718
+ },
1719
+ {
1720
+ "epoch": 1.4325925925925926,
1721
+ "grad_norm": NaN,
1722
+ "learning_rate": 5e-05,
1723
+ "loss": 0.0,
1724
+ "step": 241
1725
+ },
1726
+ {
1727
+ "epoch": 1.4385185185185185,
1728
+ "grad_norm": NaN,
1729
+ "learning_rate": 5e-05,
1730
+ "loss": 0.0,
1731
+ "step": 242
1732
+ },
1733
+ {
1734
+ "epoch": 1.4444444444444444,
1735
+ "grad_norm": NaN,
1736
+ "learning_rate": 5e-05,
1737
+ "loss": 0.0,
1738
+ "step": 243
1739
+ },
1740
+ {
1741
+ "epoch": 1.4503703703703703,
1742
+ "grad_norm": NaN,
1743
+ "learning_rate": 5e-05,
1744
+ "loss": 0.0,
1745
+ "step": 244
1746
+ },
1747
+ {
1748
+ "epoch": 1.4562962962962964,
1749
+ "grad_norm": NaN,
1750
+ "learning_rate": 5e-05,
1751
+ "loss": 0.0,
1752
+ "step": 245
1753
+ },
1754
+ {
1755
+ "epoch": 1.462222222222222,
1756
+ "grad_norm": NaN,
1757
+ "learning_rate": 5e-05,
1758
+ "loss": 0.0,
1759
+ "step": 246
1760
+ },
1761
+ {
1762
+ "epoch": 1.4681481481481482,
1763
+ "grad_norm": NaN,
1764
+ "learning_rate": 5e-05,
1765
+ "loss": 0.0,
1766
+ "step": 247
1767
+ },
1768
+ {
1769
+ "epoch": 1.474074074074074,
1770
+ "grad_norm": NaN,
1771
+ "learning_rate": 5e-05,
1772
+ "loss": 0.0,
1773
+ "step": 248
1774
+ },
1775
+ {
1776
+ "epoch": 1.48,
1777
+ "grad_norm": NaN,
1778
+ "learning_rate": 5e-05,
1779
+ "loss": 0.0,
1780
+ "step": 249
1781
+ },
1782
+ {
1783
+ "epoch": 1.4859259259259259,
1784
+ "grad_norm": NaN,
1785
+ "learning_rate": 5e-05,
1786
+ "loss": 0.0,
1787
+ "step": 250
1788
+ },
1789
+ {
1790
+ "epoch": 1.4918518518518518,
1791
+ "grad_norm": NaN,
1792
+ "learning_rate": 5e-05,
1793
+ "loss": 0.0,
1794
+ "step": 251
1795
+ },
1796
+ {
1797
+ "epoch": 1.4977777777777779,
1798
+ "grad_norm": NaN,
1799
+ "learning_rate": 5e-05,
1800
+ "loss": 0.0,
1801
+ "step": 252
1802
+ },
1803
+ {
1804
+ "epoch": 1.5037037037037035,
1805
+ "grad_norm": NaN,
1806
+ "learning_rate": 5e-05,
1807
+ "loss": 0.0,
1808
+ "step": 253
1809
+ },
1810
+ {
1811
+ "epoch": 1.5096296296296297,
1812
+ "grad_norm": NaN,
1813
+ "learning_rate": 5e-05,
1814
+ "loss": 0.0,
1815
+ "step": 254
1816
+ },
1817
+ {
1818
+ "epoch": 1.5155555555555555,
1819
+ "grad_norm": NaN,
1820
+ "learning_rate": 5e-05,
1821
+ "loss": 0.0,
1822
+ "step": 255
1823
+ },
1824
+ {
1825
+ "epoch": 1.5214814814814814,
1826
+ "grad_norm": NaN,
1827
+ "learning_rate": 5e-05,
1828
+ "loss": 0.0,
1829
+ "step": 256
1830
+ },
1831
+ {
1832
+ "epoch": 1.5274074074074075,
1833
+ "grad_norm": NaN,
1834
+ "learning_rate": 5e-05,
1835
+ "loss": 0.0,
1836
+ "step": 257
1837
+ },
1838
+ {
1839
+ "epoch": 1.5333333333333332,
1840
+ "grad_norm": NaN,
1841
+ "learning_rate": 5e-05,
1842
+ "loss": 0.0,
1843
+ "step": 258
1844
+ },
1845
+ {
1846
+ "epoch": 1.5392592592592593,
1847
+ "grad_norm": NaN,
1848
+ "learning_rate": 5e-05,
1849
+ "loss": 0.0,
1850
+ "step": 259
1851
+ },
1852
+ {
1853
+ "epoch": 1.5451851851851852,
1854
+ "grad_norm": NaN,
1855
+ "learning_rate": 5e-05,
1856
+ "loss": 0.0,
1857
+ "step": 260
1858
+ },
1859
+ {
1860
+ "epoch": 1.551111111111111,
1861
+ "grad_norm": NaN,
1862
+ "learning_rate": 5e-05,
1863
+ "loss": 0.0,
1864
+ "step": 261
1865
+ },
1866
+ {
1867
+ "epoch": 1.557037037037037,
1868
+ "grad_norm": NaN,
1869
+ "learning_rate": 5e-05,
1870
+ "loss": 0.0,
1871
+ "step": 262
1872
+ },
1873
+ {
1874
+ "epoch": 1.5629629629629629,
1875
+ "grad_norm": NaN,
1876
+ "learning_rate": 5e-05,
1877
+ "loss": 0.0,
1878
+ "step": 263
1879
+ },
1880
+ {
1881
+ "epoch": 1.568888888888889,
1882
+ "grad_norm": NaN,
1883
+ "learning_rate": 5e-05,
1884
+ "loss": 0.0,
1885
+ "step": 264
1886
+ },
1887
+ {
1888
+ "epoch": 1.5748148148148147,
1889
+ "grad_norm": NaN,
1890
+ "learning_rate": 5e-05,
1891
+ "loss": 0.0,
1892
+ "step": 265
1893
+ },
1894
+ {
1895
+ "epoch": 1.5807407407407408,
1896
+ "grad_norm": NaN,
1897
+ "learning_rate": 5e-05,
1898
+ "loss": 0.0,
1899
+ "step": 266
1900
+ },
1901
+ {
1902
+ "epoch": 1.5866666666666667,
1903
+ "grad_norm": NaN,
1904
+ "learning_rate": 5e-05,
1905
+ "loss": 0.0,
1906
+ "step": 267
1907
+ },
1908
+ {
1909
+ "epoch": 1.5925925925925926,
1910
+ "grad_norm": NaN,
1911
+ "learning_rate": 5e-05,
1912
+ "loss": 0.0,
1913
+ "step": 268
1914
+ },
1915
+ {
1916
+ "epoch": 1.5985185185185187,
1917
+ "grad_norm": NaN,
1918
+ "learning_rate": 5e-05,
1919
+ "loss": 0.0,
1920
+ "step": 269
1921
+ },
1922
+ {
1923
+ "epoch": 1.6044444444444443,
1924
+ "grad_norm": NaN,
1925
+ "learning_rate": 5e-05,
1926
+ "loss": 0.0,
1927
+ "step": 270
1928
+ },
1929
+ {
1930
+ "epoch": 1.6103703703703705,
1931
+ "grad_norm": NaN,
1932
+ "learning_rate": 5e-05,
1933
+ "loss": 0.0,
1934
+ "step": 271
1935
+ },
1936
+ {
1937
+ "epoch": 1.6162962962962963,
1938
+ "grad_norm": NaN,
1939
+ "learning_rate": 5e-05,
1940
+ "loss": 0.0,
1941
+ "step": 272
1942
+ },
1943
+ {
1944
+ "epoch": 1.6222222222222222,
1945
+ "grad_norm": NaN,
1946
+ "learning_rate": 5e-05,
1947
+ "loss": 0.0,
1948
+ "step": 273
1949
+ },
1950
+ {
1951
+ "epoch": 1.6281481481481481,
1952
+ "grad_norm": NaN,
1953
+ "learning_rate": 5e-05,
1954
+ "loss": 0.0,
1955
+ "step": 274
1956
+ },
1957
+ {
1958
+ "epoch": 1.634074074074074,
1959
+ "grad_norm": NaN,
1960
+ "learning_rate": 5e-05,
1961
+ "loss": 0.0,
1962
+ "step": 275
1963
+ },
1964
+ {
1965
+ "epoch": 1.6400000000000001,
1966
+ "grad_norm": NaN,
1967
+ "learning_rate": 5e-05,
1968
+ "loss": 0.0,
1969
+ "step": 276
1970
+ },
1971
+ {
1972
+ "epoch": 1.6459259259259258,
1973
+ "grad_norm": NaN,
1974
+ "learning_rate": 5e-05,
1975
+ "loss": 0.0,
1976
+ "step": 277
1977
+ },
1978
+ {
1979
+ "epoch": 1.651851851851852,
1980
+ "grad_norm": NaN,
1981
+ "learning_rate": 5e-05,
1982
+ "loss": 0.0,
1983
+ "step": 278
1984
+ },
1985
+ {
1986
+ "epoch": 1.6577777777777778,
1987
+ "grad_norm": NaN,
1988
+ "learning_rate": 5e-05,
1989
+ "loss": 0.0,
1990
+ "step": 279
1991
+ },
1992
+ {
1993
+ "epoch": 1.6637037037037037,
1994
+ "grad_norm": NaN,
1995
+ "learning_rate": 5e-05,
1996
+ "loss": 0.0,
1997
+ "step": 280
1998
+ },
1999
+ {
2000
+ "epoch": 1.6637037037037037,
2001
+ "eval_loss": 40297.44140625,
2002
+ "eval_runtime": 64.363,
2003
+ "eval_samples_per_second": 6.992,
2004
+ "eval_steps_per_second": 1.165,
2005
+ "eval_wer": 1.0381992969974168,
2006
+ "step": 280
2007
+ },
2008
+ {
2009
+ "epoch": 1.6696296296296296,
2010
+ "grad_norm": NaN,
2011
+ "learning_rate": 5e-05,
2012
+ "loss": 0.0,
2013
+ "step": 281
2014
+ },
2015
+ {
2016
+ "epoch": 1.6755555555555555,
2017
+ "grad_norm": NaN,
2018
+ "learning_rate": 5e-05,
2019
+ "loss": 0.0,
2020
+ "step": 282
2021
+ },
2022
+ {
2023
+ "epoch": 1.6814814814814816,
2024
+ "grad_norm": NaN,
2025
+ "learning_rate": 5e-05,
2026
+ "loss": 0.0,
2027
+ "step": 283
2028
+ },
2029
+ {
2030
+ "epoch": 1.6874074074074072,
2031
+ "grad_norm": NaN,
2032
+ "learning_rate": 5e-05,
2033
+ "loss": 0.0,
2034
+ "step": 284
2035
+ },
2036
+ {
2037
+ "epoch": 1.6933333333333334,
2038
+ "grad_norm": NaN,
2039
+ "learning_rate": 5e-05,
2040
+ "loss": 0.0,
2041
+ "step": 285
2042
+ },
2043
+ {
2044
+ "epoch": 1.6992592592592592,
2045
+ "grad_norm": NaN,
2046
+ "learning_rate": 5e-05,
2047
+ "loss": 0.0,
2048
+ "step": 286
2049
+ },
2050
+ {
2051
+ "epoch": 1.7051851851851851,
2052
+ "grad_norm": NaN,
2053
+ "learning_rate": 5e-05,
2054
+ "loss": 0.0,
2055
+ "step": 287
2056
+ },
2057
+ {
2058
+ "epoch": 1.7111111111111112,
2059
+ "grad_norm": NaN,
2060
+ "learning_rate": 5e-05,
2061
+ "loss": 0.0,
2062
+ "step": 288
2063
+ },
2064
+ {
2065
+ "epoch": 1.717037037037037,
2066
+ "grad_norm": NaN,
2067
+ "learning_rate": 5e-05,
2068
+ "loss": 0.0,
2069
+ "step": 289
2070
+ },
2071
+ {
2072
+ "epoch": 1.722962962962963,
2073
+ "grad_norm": NaN,
2074
+ "learning_rate": 5e-05,
2075
+ "loss": 0.0,
2076
+ "step": 290
2077
+ },
2078
+ {
2079
+ "epoch": 1.728888888888889,
2080
+ "grad_norm": NaN,
2081
+ "learning_rate": 5e-05,
2082
+ "loss": 0.0,
2083
+ "step": 291
2084
+ },
2085
+ {
2086
+ "epoch": 1.7348148148148148,
2087
+ "grad_norm": NaN,
2088
+ "learning_rate": 5e-05,
2089
+ "loss": 0.0,
2090
+ "step": 292
2091
+ },
2092
+ {
2093
+ "epoch": 1.7407407407407407,
2094
+ "grad_norm": NaN,
2095
+ "learning_rate": 5e-05,
2096
+ "loss": 0.0,
2097
+ "step": 293
2098
+ },
2099
+ {
2100
+ "epoch": 1.7466666666666666,
2101
+ "grad_norm": NaN,
2102
+ "learning_rate": 5e-05,
2103
+ "loss": 0.0,
2104
+ "step": 294
2105
+ },
2106
+ {
2107
+ "epoch": 1.7525925925925927,
2108
+ "grad_norm": NaN,
2109
+ "learning_rate": 5e-05,
2110
+ "loss": 0.0,
2111
+ "step": 295
2112
+ },
2113
+ {
2114
+ "epoch": 1.7585185185185184,
2115
+ "grad_norm": NaN,
2116
+ "learning_rate": 5e-05,
2117
+ "loss": 0.0,
2118
+ "step": 296
2119
+ },
2120
+ {
2121
+ "epoch": 1.7644444444444445,
2122
+ "grad_norm": NaN,
2123
+ "learning_rate": 5e-05,
2124
+ "loss": 0.0,
2125
+ "step": 297
2126
+ },
2127
+ {
2128
+ "epoch": 1.7703703703703704,
2129
+ "grad_norm": NaN,
2130
+ "learning_rate": 5e-05,
2131
+ "loss": 0.0,
2132
+ "step": 298
2133
+ },
2134
+ {
2135
+ "epoch": 1.7762962962962963,
2136
+ "grad_norm": NaN,
2137
+ "learning_rate": 5e-05,
2138
+ "loss": 0.0,
2139
+ "step": 299
2140
+ },
2141
+ {
2142
+ "epoch": 1.7822222222222224,
2143
+ "grad_norm": NaN,
2144
+ "learning_rate": 5e-05,
2145
+ "loss": 0.0,
2146
+ "step": 300
2147
+ },
2148
+ {
2149
+ "epoch": 1.788148148148148,
2150
+ "grad_norm": NaN,
2151
+ "learning_rate": 5e-05,
2152
+ "loss": 0.0,
2153
+ "step": 301
2154
+ },
2155
+ {
2156
+ "epoch": 1.7940740740740742,
2157
+ "grad_norm": NaN,
2158
+ "learning_rate": 5e-05,
2159
+ "loss": 0.0,
2160
+ "step": 302
2161
+ },
2162
+ {
2163
+ "epoch": 1.8,
2164
+ "grad_norm": NaN,
2165
+ "learning_rate": 5e-05,
2166
+ "loss": 0.0,
2167
+ "step": 303
2168
+ },
2169
+ {
2170
+ "epoch": 1.805925925925926,
2171
+ "grad_norm": NaN,
2172
+ "learning_rate": 5e-05,
2173
+ "loss": 0.0,
2174
+ "step": 304
2175
+ },
2176
+ {
2177
+ "epoch": 1.8118518518518518,
2178
+ "grad_norm": NaN,
2179
+ "learning_rate": 5e-05,
2180
+ "loss": 0.0,
2181
+ "step": 305
2182
+ },
2183
+ {
2184
+ "epoch": 1.8177777777777777,
2185
+ "grad_norm": NaN,
2186
+ "learning_rate": 5e-05,
2187
+ "loss": 0.0,
2188
+ "step": 306
2189
+ },
2190
+ {
2191
+ "epoch": 1.8237037037037038,
2192
+ "grad_norm": NaN,
2193
+ "learning_rate": 5e-05,
2194
+ "loss": 0.0,
2195
+ "step": 307
2196
+ },
2197
+ {
2198
+ "epoch": 1.8296296296296295,
2199
+ "grad_norm": NaN,
2200
+ "learning_rate": 5e-05,
2201
+ "loss": 0.0,
2202
+ "step": 308
2203
+ },
2204
+ {
2205
+ "epoch": 1.8355555555555556,
2206
+ "grad_norm": NaN,
2207
+ "learning_rate": 5e-05,
2208
+ "loss": 0.0,
2209
+ "step": 309
2210
+ },
2211
+ {
2212
+ "epoch": 1.8414814814814815,
2213
+ "grad_norm": NaN,
2214
+ "learning_rate": 5e-05,
2215
+ "loss": 0.0,
2216
+ "step": 310
2217
+ },
2218
+ {
2219
+ "epoch": 1.8474074074074074,
2220
+ "grad_norm": NaN,
2221
+ "learning_rate": 5e-05,
2222
+ "loss": 0.0,
2223
+ "step": 311
2224
+ },
2225
+ {
2226
+ "epoch": 1.8533333333333335,
2227
+ "grad_norm": NaN,
2228
+ "learning_rate": 5e-05,
2229
+ "loss": 0.0,
2230
+ "step": 312
2231
+ },
2232
+ {
2233
+ "epoch": 1.8592592592592592,
2234
+ "grad_norm": NaN,
2235
+ "learning_rate": 5e-05,
2236
+ "loss": 0.0,
2237
+ "step": 313
2238
+ },
2239
+ {
2240
+ "epoch": 1.8651851851851853,
2241
+ "grad_norm": NaN,
2242
+ "learning_rate": 5e-05,
2243
+ "loss": 0.0,
2244
+ "step": 314
2245
+ },
2246
+ {
2247
+ "epoch": 1.871111111111111,
2248
+ "grad_norm": NaN,
2249
+ "learning_rate": 5e-05,
2250
+ "loss": 0.0,
2251
+ "step": 315
2252
+ },
2253
+ {
2254
+ "epoch": 1.877037037037037,
2255
+ "grad_norm": NaN,
2256
+ "learning_rate": 5e-05,
2257
+ "loss": 0.0,
2258
+ "step": 316
2259
+ },
2260
+ {
2261
+ "epoch": 1.882962962962963,
2262
+ "grad_norm": NaN,
2263
+ "learning_rate": 5e-05,
2264
+ "loss": 0.0,
2265
+ "step": 317
2266
+ },
2267
+ {
2268
+ "epoch": 1.8888888888888888,
2269
+ "grad_norm": NaN,
2270
+ "learning_rate": 5e-05,
2271
+ "loss": 0.0,
2272
+ "step": 318
2273
+ },
2274
+ {
2275
+ "epoch": 1.894814814814815,
2276
+ "grad_norm": NaN,
2277
+ "learning_rate": 5e-05,
2278
+ "loss": 0.0,
2279
+ "step": 319
2280
+ },
2281
+ {
2282
+ "epoch": 1.9007407407407406,
2283
+ "grad_norm": NaN,
2284
+ "learning_rate": 5e-05,
2285
+ "loss": 0.0,
2286
+ "step": 320
2287
+ },
2288
+ {
2289
+ "epoch": 1.9066666666666667,
2290
+ "grad_norm": NaN,
2291
+ "learning_rate": 5e-05,
2292
+ "loss": 0.0,
2293
+ "step": 321
2294
+ },
2295
+ {
2296
+ "epoch": 1.9125925925925926,
2297
+ "grad_norm": NaN,
2298
+ "learning_rate": 5e-05,
2299
+ "loss": 0.0,
2300
+ "step": 322
2301
+ },
2302
+ {
2303
+ "epoch": 1.9185185185185185,
2304
+ "grad_norm": NaN,
2305
+ "learning_rate": 5e-05,
2306
+ "loss": 0.0,
2307
+ "step": 323
2308
+ },
2309
+ {
2310
+ "epoch": 1.9244444444444444,
2311
+ "grad_norm": NaN,
2312
+ "learning_rate": 5e-05,
2313
+ "loss": 0.0,
2314
+ "step": 324
2315
+ },
2316
+ {
2317
+ "epoch": 1.9303703703703703,
2318
+ "grad_norm": NaN,
2319
+ "learning_rate": 5e-05,
2320
+ "loss": 0.0,
2321
+ "step": 325
2322
+ },
2323
+ {
2324
+ "epoch": 1.9362962962962964,
2325
+ "grad_norm": NaN,
2326
+ "learning_rate": 5e-05,
2327
+ "loss": 0.0,
2328
+ "step": 326
2329
+ },
2330
+ {
2331
+ "epoch": 1.942222222222222,
2332
+ "grad_norm": NaN,
2333
+ "learning_rate": 5e-05,
2334
+ "loss": 0.0,
2335
+ "step": 327
2336
+ },
2337
+ {
2338
+ "epoch": 1.9481481481481482,
2339
+ "grad_norm": NaN,
2340
+ "learning_rate": 5e-05,
2341
+ "loss": 0.0,
2342
+ "step": 328
2343
+ },
2344
+ {
2345
+ "epoch": 1.954074074074074,
2346
+ "grad_norm": NaN,
2347
+ "learning_rate": 5e-05,
2348
+ "loss": 0.0,
2349
+ "step": 329
2350
+ },
2351
+ {
2352
+ "epoch": 1.96,
2353
+ "grad_norm": NaN,
2354
+ "learning_rate": 5e-05,
2355
+ "loss": 0.0,
2356
+ "step": 330
2357
+ },
2358
+ {
2359
+ "epoch": 1.965925925925926,
2360
+ "grad_norm": NaN,
2361
+ "learning_rate": 5e-05,
2362
+ "loss": 0.0,
2363
+ "step": 331
2364
+ },
2365
+ {
2366
+ "epoch": 1.9718518518518517,
2367
+ "grad_norm": NaN,
2368
+ "learning_rate": 5e-05,
2369
+ "loss": 0.0,
2370
+ "step": 332
2371
+ },
2372
+ {
2373
+ "epoch": 1.9777777777777779,
2374
+ "grad_norm": NaN,
2375
+ "learning_rate": 5e-05,
2376
+ "loss": 0.0,
2377
+ "step": 333
2378
+ },
2379
+ {
2380
+ "epoch": 1.9837037037037037,
2381
+ "grad_norm": NaN,
2382
+ "learning_rate": 5e-05,
2383
+ "loss": 0.0,
2384
+ "step": 334
2385
+ },
2386
+ {
2387
+ "epoch": 1.9896296296296296,
2388
+ "grad_norm": NaN,
2389
+ "learning_rate": 5e-05,
2390
+ "loss": 0.0,
2391
+ "step": 335
2392
+ },
2393
+ {
2394
+ "epoch": 1.9955555555555555,
2395
+ "grad_norm": NaN,
2396
+ "learning_rate": 5e-05,
2397
+ "loss": 0.0,
2398
+ "step": 336
2399
+ },
2400
+ {
2401
+ "epoch": 2.005925925925926,
2402
+ "grad_norm": NaN,
2403
+ "learning_rate": 5e-05,
2404
+ "loss": 0.0,
2405
+ "step": 337
2406
+ },
2407
+ {
2408
+ "epoch": 2.011851851851852,
2409
+ "grad_norm": NaN,
2410
+ "learning_rate": 5e-05,
2411
+ "loss": 0.0,
2412
+ "step": 338
2413
+ },
2414
+ {
2415
+ "epoch": 2.017777777777778,
2416
+ "grad_norm": NaN,
2417
+ "learning_rate": 5e-05,
2418
+ "loss": 0.0,
2419
+ "step": 339
2420
+ },
2421
+ {
2422
+ "epoch": 2.0237037037037036,
2423
+ "grad_norm": NaN,
2424
+ "learning_rate": 5e-05,
2425
+ "loss": 0.0,
2426
+ "step": 340
2427
+ },
2428
+ {
2429
+ "epoch": 2.0296296296296297,
2430
+ "grad_norm": NaN,
2431
+ "learning_rate": 5e-05,
2432
+ "loss": 0.0,
2433
+ "step": 341
2434
+ },
2435
+ {
2436
+ "epoch": 2.0355555555555553,
2437
+ "grad_norm": NaN,
2438
+ "learning_rate": 5e-05,
2439
+ "loss": 0.0,
2440
+ "step": 342
2441
+ },
2442
+ {
2443
+ "epoch": 2.0414814814814815,
2444
+ "grad_norm": NaN,
2445
+ "learning_rate": 5e-05,
2446
+ "loss": 0.0,
2447
+ "step": 343
2448
+ },
2449
+ {
2450
+ "epoch": 2.0474074074074076,
2451
+ "grad_norm": NaN,
2452
+ "learning_rate": 5e-05,
2453
+ "loss": 0.0,
2454
+ "step": 344
2455
+ },
2456
+ {
2457
+ "epoch": 2.0533333333333332,
2458
+ "grad_norm": NaN,
2459
+ "learning_rate": 5e-05,
2460
+ "loss": 0.0,
2461
+ "step": 345
2462
+ },
2463
+ {
2464
+ "epoch": 2.0592592592592593,
2465
+ "grad_norm": NaN,
2466
+ "learning_rate": 5e-05,
2467
+ "loss": 0.0,
2468
+ "step": 346
2469
+ },
2470
+ {
2471
+ "epoch": 2.065185185185185,
2472
+ "grad_norm": NaN,
2473
+ "learning_rate": 5e-05,
2474
+ "loss": 0.0,
2475
+ "step": 347
2476
+ },
2477
+ {
2478
+ "epoch": 2.071111111111111,
2479
+ "grad_norm": NaN,
2480
+ "learning_rate": 5e-05,
2481
+ "loss": 0.0,
2482
+ "step": 348
2483
+ },
2484
+ {
2485
+ "epoch": 2.0770370370370372,
2486
+ "grad_norm": NaN,
2487
+ "learning_rate": 5e-05,
2488
+ "loss": 0.0,
2489
+ "step": 349
2490
+ },
2491
+ {
2492
+ "epoch": 2.082962962962963,
2493
+ "grad_norm": NaN,
2494
+ "learning_rate": 5e-05,
2495
+ "loss": 0.0,
2496
+ "step": 350
2497
+ },
2498
+ {
2499
+ "epoch": 2.082962962962963,
2500
+ "eval_loss": 40297.44140625,
2501
+ "eval_runtime": 64.6431,
2502
+ "eval_samples_per_second": 6.961,
2503
+ "eval_steps_per_second": 1.16,
2504
+ "eval_wer": 1.0381992969974168,
2505
+ "step": 350
2506
+ }
2507
+ ],
2508
+ "logging_steps": 1,
2509
+ "max_steps": 1008,
2510
+ "num_input_tokens_seen": 0,
2511
+ "num_train_epochs": 6,
2512
+ "save_steps": 70,
2513
+ "stateful_callbacks": {
2514
+ "TrainerControl": {
2515
+ "args": {
2516
+ "should_epoch_stop": false,
2517
+ "should_evaluate": false,
2518
+ "should_log": false,
2519
+ "should_save": true,
2520
+ "should_training_stop": false
2521
+ },
2522
+ "attributes": {}
2523
+ }
2524
+ },
2525
+ "total_flos": 2.885106114810622e+18,
2526
+ "train_batch_size": 6,
2527
+ "trial_name": null,
2528
+ "trial_params": null
2529
+ }