Noobbbbb commited on
Commit
070617d
·
1 Parent(s): 6f19f4f

Add training logs

Browse files
Files changed (1) hide show
  1. training_logs.json +1447 -0
training_logs.json ADDED
@@ -0,0 +1,1447 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "loss": 2.2432,
4
+ "grad_norm": 21.744905471801758,
5
+ "learning_rate": 3e-06,
6
+ "epoch": 0.013333333333333334,
7
+ "step": 10
8
+ },
9
+ {
10
+ "loss": 1.7973,
11
+ "grad_norm": 14.733763694763184,
12
+ "learning_rate": 8.000000000000001e-06,
13
+ "epoch": 0.02666666666666667,
14
+ "step": 20
15
+ },
16
+ {
17
+ "loss": 1.5026,
18
+ "grad_norm": 14.220388412475586,
19
+ "learning_rate": 9.96969696969697e-06,
20
+ "epoch": 0.04,
21
+ "step": 30
22
+ },
23
+ {
24
+ "loss": 1.2914,
25
+ "grad_norm": 10.948968887329102,
26
+ "learning_rate": 9.91919191919192e-06,
27
+ "epoch": 0.05333333333333334,
28
+ "step": 40
29
+ },
30
+ {
31
+ "loss": 1.0386,
32
+ "grad_norm": 16.895463943481445,
33
+ "learning_rate": 9.86868686868687e-06,
34
+ "epoch": 0.06666666666666667,
35
+ "step": 50
36
+ },
37
+ {
38
+ "loss": 0.7968,
39
+ "grad_norm": 12.06560230255127,
40
+ "learning_rate": 9.81818181818182e-06,
41
+ "epoch": 0.08,
42
+ "step": 60
43
+ },
44
+ {
45
+ "loss": 0.7156,
46
+ "grad_norm": 13.385286331176758,
47
+ "learning_rate": 9.767676767676767e-06,
48
+ "epoch": 0.09333333333333334,
49
+ "step": 70
50
+ },
51
+ {
52
+ "loss": 0.6196,
53
+ "grad_norm": 11.165105819702148,
54
+ "learning_rate": 9.717171717171719e-06,
55
+ "epoch": 0.10666666666666667,
56
+ "step": 80
57
+ },
58
+ {
59
+ "loss": 0.5291,
60
+ "grad_norm": 10.339080810546875,
61
+ "learning_rate": 9.666666666666667e-06,
62
+ "epoch": 0.12,
63
+ "step": 90
64
+ },
65
+ {
66
+ "loss": 0.4969,
67
+ "grad_norm": 12.498907089233398,
68
+ "learning_rate": 9.616161616161616e-06,
69
+ "epoch": 0.13333333333333333,
70
+ "step": 100
71
+ },
72
+ {
73
+ "loss": 0.4485,
74
+ "grad_norm": 9.328315734863281,
75
+ "learning_rate": 9.565656565656566e-06,
76
+ "epoch": 0.14666666666666667,
77
+ "step": 110
78
+ },
79
+ {
80
+ "loss": 0.4159,
81
+ "grad_norm": 9.491714477539062,
82
+ "learning_rate": 9.515151515151516e-06,
83
+ "epoch": 0.16,
84
+ "step": 120
85
+ },
86
+ {
87
+ "loss": 0.4026,
88
+ "grad_norm": 19.850738525390625,
89
+ "learning_rate": 9.464646464646466e-06,
90
+ "epoch": 0.17333333333333334,
91
+ "step": 130
92
+ },
93
+ {
94
+ "loss": 0.4116,
95
+ "grad_norm": 10.06363296508789,
96
+ "learning_rate": 9.414141414141414e-06,
97
+ "epoch": 0.18666666666666668,
98
+ "step": 140
99
+ },
100
+ {
101
+ "loss": 0.3992,
102
+ "grad_norm": 6.950311660766602,
103
+ "learning_rate": 9.363636363636365e-06,
104
+ "epoch": 0.2,
105
+ "step": 150
106
+ },
107
+ {
108
+ "loss": 0.3622,
109
+ "grad_norm": 8.691428184509277,
110
+ "learning_rate": 9.313131313131313e-06,
111
+ "epoch": 0.21333333333333335,
112
+ "step": 160
113
+ },
114
+ {
115
+ "loss": 0.361,
116
+ "grad_norm": 8.978887557983398,
117
+ "learning_rate": 9.262626262626263e-06,
118
+ "epoch": 0.22666666666666666,
119
+ "step": 170
120
+ },
121
+ {
122
+ "loss": 0.3266,
123
+ "grad_norm": 7.56756591796875,
124
+ "learning_rate": 9.212121212121213e-06,
125
+ "epoch": 0.24,
126
+ "step": 180
127
+ },
128
+ {
129
+ "loss": 0.3168,
130
+ "grad_norm": 9.014394760131836,
131
+ "learning_rate": 9.161616161616162e-06,
132
+ "epoch": 0.25333333333333335,
133
+ "step": 190
134
+ },
135
+ {
136
+ "loss": 0.2891,
137
+ "grad_norm": 6.323943138122559,
138
+ "learning_rate": 9.111111111111112e-06,
139
+ "epoch": 0.26666666666666666,
140
+ "step": 200
141
+ },
142
+ {
143
+ "loss": 0.2897,
144
+ "grad_norm": 7.0876030921936035,
145
+ "learning_rate": 9.06060606060606e-06,
146
+ "epoch": 0.28,
147
+ "step": 210
148
+ },
149
+ {
150
+ "loss": 0.2831,
151
+ "grad_norm": 9.165555000305176,
152
+ "learning_rate": 9.010101010101012e-06,
153
+ "epoch": 0.29333333333333333,
154
+ "step": 220
155
+ },
156
+ {
157
+ "loss": 0.2762,
158
+ "grad_norm": 7.460292816162109,
159
+ "learning_rate": 8.95959595959596e-06,
160
+ "epoch": 0.30666666666666664,
161
+ "step": 230
162
+ },
163
+ {
164
+ "loss": 0.2785,
165
+ "grad_norm": 10.57375717163086,
166
+ "learning_rate": 8.90909090909091e-06,
167
+ "epoch": 0.32,
168
+ "step": 240
169
+ },
170
+ {
171
+ "loss": 0.2643,
172
+ "grad_norm": 6.0825419425964355,
173
+ "learning_rate": 8.85858585858586e-06,
174
+ "epoch": 0.3333333333333333,
175
+ "step": 250
176
+ },
177
+ {
178
+ "loss": 0.2302,
179
+ "grad_norm": 7.762320518493652,
180
+ "learning_rate": 8.808080808080809e-06,
181
+ "epoch": 0.3466666666666667,
182
+ "step": 260
183
+ },
184
+ {
185
+ "loss": 0.231,
186
+ "grad_norm": 5.677389144897461,
187
+ "learning_rate": 8.757575757575759e-06,
188
+ "epoch": 0.36,
189
+ "step": 270
190
+ },
191
+ {
192
+ "loss": 0.2371,
193
+ "grad_norm": 7.94091796875,
194
+ "learning_rate": 8.707070707070707e-06,
195
+ "epoch": 0.37333333333333335,
196
+ "step": 280
197
+ },
198
+ {
199
+ "loss": 0.2188,
200
+ "grad_norm": 6.335744857788086,
201
+ "learning_rate": 8.656565656565658e-06,
202
+ "epoch": 0.38666666666666666,
203
+ "step": 290
204
+ },
205
+ {
206
+ "loss": 0.2266,
207
+ "grad_norm": 5.985649108886719,
208
+ "learning_rate": 8.606060606060606e-06,
209
+ "epoch": 0.4,
210
+ "step": 300
211
+ },
212
+ {
213
+ "loss": 0.1974,
214
+ "grad_norm": 6.430419445037842,
215
+ "learning_rate": 8.555555555555556e-06,
216
+ "epoch": 0.41333333333333333,
217
+ "step": 310
218
+ },
219
+ {
220
+ "loss": 0.1814,
221
+ "grad_norm": 4.81736946105957,
222
+ "learning_rate": 8.505050505050506e-06,
223
+ "epoch": 0.4266666666666667,
224
+ "step": 320
225
+ },
226
+ {
227
+ "loss": 0.1762,
228
+ "grad_norm": 7.138443946838379,
229
+ "learning_rate": 8.454545454545455e-06,
230
+ "epoch": 0.44,
231
+ "step": 330
232
+ },
233
+ {
234
+ "loss": 0.2186,
235
+ "grad_norm": 5.675243377685547,
236
+ "learning_rate": 8.404040404040405e-06,
237
+ "epoch": 0.4533333333333333,
238
+ "step": 340
239
+ },
240
+ {
241
+ "loss": 0.1654,
242
+ "grad_norm": 6.799890518188477,
243
+ "learning_rate": 8.353535353535355e-06,
244
+ "epoch": 0.4666666666666667,
245
+ "step": 350
246
+ },
247
+ {
248
+ "loss": 0.1875,
249
+ "grad_norm": 7.429632663726807,
250
+ "learning_rate": 8.303030303030305e-06,
251
+ "epoch": 0.48,
252
+ "step": 360
253
+ },
254
+ {
255
+ "loss": 0.1751,
256
+ "grad_norm": 5.900808334350586,
257
+ "learning_rate": 8.252525252525253e-06,
258
+ "epoch": 0.49333333333333335,
259
+ "step": 370
260
+ },
261
+ {
262
+ "loss": 0.1782,
263
+ "grad_norm": 6.6987786293029785,
264
+ "learning_rate": 8.202020202020202e-06,
265
+ "epoch": 0.5066666666666667,
266
+ "step": 380
267
+ },
268
+ {
269
+ "loss": 0.1923,
270
+ "grad_norm": 6.688784122467041,
271
+ "learning_rate": 8.151515151515152e-06,
272
+ "epoch": 0.52,
273
+ "step": 390
274
+ },
275
+ {
276
+ "loss": 0.2059,
277
+ "grad_norm": 6.698350429534912,
278
+ "learning_rate": 8.101010101010102e-06,
279
+ "epoch": 0.5333333333333333,
280
+ "step": 400
281
+ },
282
+ {
283
+ "loss": 0.1859,
284
+ "grad_norm": 6.067806720733643,
285
+ "learning_rate": 8.050505050505052e-06,
286
+ "epoch": 0.5466666666666666,
287
+ "step": 410
288
+ },
289
+ {
290
+ "loss": 0.2116,
291
+ "grad_norm": 5.8718342781066895,
292
+ "learning_rate": 8.000000000000001e-06,
293
+ "epoch": 0.56,
294
+ "step": 420
295
+ },
296
+ {
297
+ "loss": 0.1568,
298
+ "grad_norm": 6.063828945159912,
299
+ "learning_rate": 7.949494949494951e-06,
300
+ "epoch": 0.5733333333333334,
301
+ "step": 430
302
+ },
303
+ {
304
+ "loss": 0.1938,
305
+ "grad_norm": 6.0638885498046875,
306
+ "learning_rate": 7.898989898989899e-06,
307
+ "epoch": 0.5866666666666667,
308
+ "step": 440
309
+ },
310
+ {
311
+ "loss": 0.1763,
312
+ "grad_norm": 5.067079544067383,
313
+ "learning_rate": 7.848484848484849e-06,
314
+ "epoch": 0.6,
315
+ "step": 450
316
+ },
317
+ {
318
+ "loss": 0.1852,
319
+ "grad_norm": 5.423183441162109,
320
+ "learning_rate": 7.797979797979799e-06,
321
+ "epoch": 0.6133333333333333,
322
+ "step": 460
323
+ },
324
+ {
325
+ "loss": 0.1729,
326
+ "grad_norm": 6.96974515914917,
327
+ "learning_rate": 7.747474747474748e-06,
328
+ "epoch": 0.6266666666666667,
329
+ "step": 470
330
+ },
331
+ {
332
+ "loss": 0.1671,
333
+ "grad_norm": 6.261080265045166,
334
+ "learning_rate": 7.696969696969696e-06,
335
+ "epoch": 0.64,
336
+ "step": 480
337
+ },
338
+ {
339
+ "loss": 0.1645,
340
+ "grad_norm": 6.328644275665283,
341
+ "learning_rate": 7.646464646464648e-06,
342
+ "epoch": 0.6533333333333333,
343
+ "step": 490
344
+ },
345
+ {
346
+ "loss": 0.1751,
347
+ "grad_norm": 6.327708721160889,
348
+ "learning_rate": 7.595959595959597e-06,
349
+ "epoch": 0.6666666666666666,
350
+ "step": 500
351
+ },
352
+ {
353
+ "eval_loss": 0.16899675130844116,
354
+ "eval_wer": 0.487629886194953,
355
+ "eval_runtime": 297.2109,
356
+ "eval_samples_per_second": 1.124,
357
+ "eval_steps_per_second": 0.141,
358
+ "epoch": 0.6666666666666666,
359
+ "step": 500
360
+ },
361
+ {
362
+ "loss": 0.1644,
363
+ "grad_norm": 5.117833614349365,
364
+ "learning_rate": 7.545454545454546e-06,
365
+ "epoch": 0.68,
366
+ "step": 510
367
+ },
368
+ {
369
+ "loss": 0.1991,
370
+ "grad_norm": 4.407369613647461,
371
+ "learning_rate": 7.494949494949496e-06,
372
+ "epoch": 0.6933333333333334,
373
+ "step": 520
374
+ },
375
+ {
376
+ "loss": 0.1837,
377
+ "grad_norm": 7.0209197998046875,
378
+ "learning_rate": 7.444444444444445e-06,
379
+ "epoch": 0.7066666666666667,
380
+ "step": 530
381
+ },
382
+ {
383
+ "loss": 0.16,
384
+ "grad_norm": 7.45497465133667,
385
+ "learning_rate": 7.393939393939395e-06,
386
+ "epoch": 0.72,
387
+ "step": 540
388
+ },
389
+ {
390
+ "loss": 0.1449,
391
+ "grad_norm": 5.931302070617676,
392
+ "learning_rate": 7.343434343434344e-06,
393
+ "epoch": 0.7333333333333333,
394
+ "step": 550
395
+ },
396
+ {
397
+ "loss": 0.1598,
398
+ "grad_norm": 4.769244194030762,
399
+ "learning_rate": 7.2929292929292934e-06,
400
+ "epoch": 0.7466666666666667,
401
+ "step": 560
402
+ },
403
+ {
404
+ "loss": 0.1623,
405
+ "grad_norm": 7.7779998779296875,
406
+ "learning_rate": 7.242424242424243e-06,
407
+ "epoch": 0.76,
408
+ "step": 570
409
+ },
410
+ {
411
+ "loss": 0.1577,
412
+ "grad_norm": 6.267203330993652,
413
+ "learning_rate": 7.191919191919192e-06,
414
+ "epoch": 0.7733333333333333,
415
+ "step": 580
416
+ },
417
+ {
418
+ "loss": 0.1416,
419
+ "grad_norm": 6.511270999908447,
420
+ "learning_rate": 7.141414141414143e-06,
421
+ "epoch": 0.7866666666666666,
422
+ "step": 590
423
+ },
424
+ {
425
+ "loss": 0.1386,
426
+ "grad_norm": 3.4472644329071045,
427
+ "learning_rate": 7.0909090909090916e-06,
428
+ "epoch": 0.8,
429
+ "step": 600
430
+ },
431
+ {
432
+ "loss": 0.1455,
433
+ "grad_norm": 5.4273481369018555,
434
+ "learning_rate": 7.0404040404040404e-06,
435
+ "epoch": 0.8133333333333334,
436
+ "step": 610
437
+ },
438
+ {
439
+ "loss": 0.1439,
440
+ "grad_norm": 4.951779365539551,
441
+ "learning_rate": 6.98989898989899e-06,
442
+ "epoch": 0.8266666666666667,
443
+ "step": 620
444
+ },
445
+ {
446
+ "loss": 0.156,
447
+ "grad_norm": 6.684361457824707,
448
+ "learning_rate": 6.93939393939394e-06,
449
+ "epoch": 0.84,
450
+ "step": 630
451
+ },
452
+ {
453
+ "loss": 0.1463,
454
+ "grad_norm": 7.8238139152526855,
455
+ "learning_rate": 6.88888888888889e-06,
456
+ "epoch": 0.8533333333333334,
457
+ "step": 640
458
+ },
459
+ {
460
+ "loss": 0.1339,
461
+ "grad_norm": 4.42230224609375,
462
+ "learning_rate": 6.8383838383838386e-06,
463
+ "epoch": 0.8666666666666667,
464
+ "step": 650
465
+ },
466
+ {
467
+ "loss": 0.14,
468
+ "grad_norm": 5.155161380767822,
469
+ "learning_rate": 6.787878787878789e-06,
470
+ "epoch": 0.88,
471
+ "step": 660
472
+ },
473
+ {
474
+ "loss": 0.1472,
475
+ "grad_norm": 5.219048976898193,
476
+ "learning_rate": 6.737373737373738e-06,
477
+ "epoch": 0.8933333333333333,
478
+ "step": 670
479
+ },
480
+ {
481
+ "loss": 0.1561,
482
+ "grad_norm": 4.496595859527588,
483
+ "learning_rate": 6.686868686868687e-06,
484
+ "epoch": 0.9066666666666666,
485
+ "step": 680
486
+ },
487
+ {
488
+ "loss": 0.1591,
489
+ "grad_norm": 5.56928825378418,
490
+ "learning_rate": 6.6363636363636375e-06,
491
+ "epoch": 0.92,
492
+ "step": 690
493
+ },
494
+ {
495
+ "loss": 0.1401,
496
+ "grad_norm": 3.9802422523498535,
497
+ "learning_rate": 6.585858585858586e-06,
498
+ "epoch": 0.9333333333333333,
499
+ "step": 700
500
+ },
501
+ {
502
+ "loss": 0.1583,
503
+ "grad_norm": 8.410820960998535,
504
+ "learning_rate": 6.535353535353536e-06,
505
+ "epoch": 0.9466666666666667,
506
+ "step": 710
507
+ },
508
+ {
509
+ "loss": 0.1277,
510
+ "grad_norm": 5.387331485748291,
511
+ "learning_rate": 6.484848484848485e-06,
512
+ "epoch": 0.96,
513
+ "step": 720
514
+ },
515
+ {
516
+ "loss": 0.1318,
517
+ "grad_norm": 6.340620517730713,
518
+ "learning_rate": 6.434343434343436e-06,
519
+ "epoch": 0.9733333333333334,
520
+ "step": 730
521
+ },
522
+ {
523
+ "loss": 0.1435,
524
+ "grad_norm": 6.36068058013916,
525
+ "learning_rate": 6.3838383838383845e-06,
526
+ "epoch": 0.9866666666666667,
527
+ "step": 740
528
+ },
529
+ {
530
+ "loss": 0.1267,
531
+ "grad_norm": 6.267134189605713,
532
+ "learning_rate": 6.333333333333333e-06,
533
+ "epoch": 1.0,
534
+ "step": 750
535
+ },
536
+ {
537
+ "loss": 0.0935,
538
+ "grad_norm": 2.937222719192505,
539
+ "learning_rate": 6.282828282828284e-06,
540
+ "epoch": 1.0133333333333334,
541
+ "step": 760
542
+ },
543
+ {
544
+ "loss": 0.1018,
545
+ "grad_norm": 3.3359508514404297,
546
+ "learning_rate": 6.232323232323233e-06,
547
+ "epoch": 1.0266666666666666,
548
+ "step": 770
549
+ },
550
+ {
551
+ "loss": 0.0833,
552
+ "grad_norm": 4.2928466796875,
553
+ "learning_rate": 6.181818181818182e-06,
554
+ "epoch": 1.04,
555
+ "step": 780
556
+ },
557
+ {
558
+ "loss": 0.1053,
559
+ "grad_norm": 4.187559127807617,
560
+ "learning_rate": 6.1313131313131315e-06,
561
+ "epoch": 1.0533333333333332,
562
+ "step": 790
563
+ },
564
+ {
565
+ "loss": 0.0916,
566
+ "grad_norm": 4.729913711547852,
567
+ "learning_rate": 6.080808080808081e-06,
568
+ "epoch": 1.0666666666666667,
569
+ "step": 800
570
+ },
571
+ {
572
+ "loss": 0.0898,
573
+ "grad_norm": 3.426358938217163,
574
+ "learning_rate": 6.030303030303031e-06,
575
+ "epoch": 1.08,
576
+ "step": 810
577
+ },
578
+ {
579
+ "loss": 0.0806,
580
+ "grad_norm": 3.42873477935791,
581
+ "learning_rate": 5.97979797979798e-06,
582
+ "epoch": 1.0933333333333333,
583
+ "step": 820
584
+ },
585
+ {
586
+ "loss": 0.0855,
587
+ "grad_norm": 5.813981533050537,
588
+ "learning_rate": 5.9292929292929305e-06,
589
+ "epoch": 1.1066666666666667,
590
+ "step": 830
591
+ },
592
+ {
593
+ "loss": 0.0807,
594
+ "grad_norm": 3.3029656410217285,
595
+ "learning_rate": 5.878787878787879e-06,
596
+ "epoch": 1.12,
597
+ "step": 840
598
+ },
599
+ {
600
+ "loss": 0.0881,
601
+ "grad_norm": 3.9471054077148438,
602
+ "learning_rate": 5.828282828282828e-06,
603
+ "epoch": 1.1333333333333333,
604
+ "step": 850
605
+ },
606
+ {
607
+ "loss": 0.0739,
608
+ "grad_norm": 3.7360801696777344,
609
+ "learning_rate": 5.777777777777778e-06,
610
+ "epoch": 1.1466666666666667,
611
+ "step": 860
612
+ },
613
+ {
614
+ "loss": 0.0756,
615
+ "grad_norm": 2.321897029876709,
616
+ "learning_rate": 5.727272727272728e-06,
617
+ "epoch": 1.16,
618
+ "step": 870
619
+ },
620
+ {
621
+ "loss": 0.1089,
622
+ "grad_norm": 6.8720269203186035,
623
+ "learning_rate": 5.6767676767676775e-06,
624
+ "epoch": 1.1733333333333333,
625
+ "step": 880
626
+ },
627
+ {
628
+ "loss": 0.0852,
629
+ "grad_norm": 3.7198221683502197,
630
+ "learning_rate": 5.626262626262626e-06,
631
+ "epoch": 1.1866666666666668,
632
+ "step": 890
633
+ },
634
+ {
635
+ "loss": 0.0911,
636
+ "grad_norm": 4.52007532119751,
637
+ "learning_rate": 5.575757575757577e-06,
638
+ "epoch": 1.2,
639
+ "step": 900
640
+ },
641
+ {
642
+ "loss": 0.1005,
643
+ "grad_norm": 5.6622748374938965,
644
+ "learning_rate": 5.525252525252526e-06,
645
+ "epoch": 1.2133333333333334,
646
+ "step": 910
647
+ },
648
+ {
649
+ "loss": 0.0885,
650
+ "grad_norm": 3.5315425395965576,
651
+ "learning_rate": 5.474747474747475e-06,
652
+ "epoch": 1.2266666666666666,
653
+ "step": 920
654
+ },
655
+ {
656
+ "loss": 0.0853,
657
+ "grad_norm": 3.7347161769866943,
658
+ "learning_rate": 5.424242424242425e-06,
659
+ "epoch": 1.24,
660
+ "step": 930
661
+ },
662
+ {
663
+ "loss": 0.0739,
664
+ "grad_norm": 3.897317886352539,
665
+ "learning_rate": 5.373737373737374e-06,
666
+ "epoch": 1.2533333333333334,
667
+ "step": 940
668
+ },
669
+ {
670
+ "loss": 0.0932,
671
+ "grad_norm": 4.464446067810059,
672
+ "learning_rate": 5.323232323232324e-06,
673
+ "epoch": 1.2666666666666666,
674
+ "step": 950
675
+ },
676
+ {
677
+ "loss": 0.109,
678
+ "grad_norm": 4.172600269317627,
679
+ "learning_rate": 5.272727272727273e-06,
680
+ "epoch": 1.28,
681
+ "step": 960
682
+ },
683
+ {
684
+ "loss": 0.1006,
685
+ "grad_norm": 6.423786163330078,
686
+ "learning_rate": 5.2222222222222226e-06,
687
+ "epoch": 1.2933333333333334,
688
+ "step": 970
689
+ },
690
+ {
691
+ "loss": 0.0751,
692
+ "grad_norm": 5.334788799285889,
693
+ "learning_rate": 5.171717171717172e-06,
694
+ "epoch": 1.3066666666666666,
695
+ "step": 980
696
+ },
697
+ {
698
+ "loss": 0.0887,
699
+ "grad_norm": 4.050017356872559,
700
+ "learning_rate": 5.121212121212121e-06,
701
+ "epoch": 1.32,
702
+ "step": 990
703
+ },
704
+ {
705
+ "loss": 0.0829,
706
+ "grad_norm": 4.011457920074463,
707
+ "learning_rate": 5.070707070707072e-06,
708
+ "epoch": 1.3333333333333333,
709
+ "step": 1000
710
+ },
711
+ {
712
+ "eval_loss": 0.12301119416952133,
713
+ "eval_wer": 0.3809995051954478,
714
+ "eval_runtime": 300.5012,
715
+ "eval_samples_per_second": 1.111,
716
+ "eval_steps_per_second": 0.14,
717
+ "epoch": 1.3333333333333333,
718
+ "step": 1000
719
+ },
720
+ {
721
+ "loss": 0.0765,
722
+ "grad_norm": 4.142199516296387,
723
+ "learning_rate": 5.020202020202021e-06,
724
+ "epoch": 1.3466666666666667,
725
+ "step": 1010
726
+ },
727
+ {
728
+ "loss": 0.0827,
729
+ "grad_norm": 6.005105018615723,
730
+ "learning_rate": 4.9696969696969696e-06,
731
+ "epoch": 1.3599999999999999,
732
+ "step": 1020
733
+ },
734
+ {
735
+ "loss": 0.083,
736
+ "grad_norm": 3.4381942749023438,
737
+ "learning_rate": 4.919191919191919e-06,
738
+ "epoch": 1.3733333333333333,
739
+ "step": 1030
740
+ },
741
+ {
742
+ "loss": 0.0944,
743
+ "grad_norm": 2.9297616481781006,
744
+ "learning_rate": 4.868686868686869e-06,
745
+ "epoch": 1.3866666666666667,
746
+ "step": 1040
747
+ },
748
+ {
749
+ "loss": 0.0886,
750
+ "grad_norm": 3.7134227752685547,
751
+ "learning_rate": 4.818181818181819e-06,
752
+ "epoch": 1.4,
753
+ "step": 1050
754
+ },
755
+ {
756
+ "loss": 0.0923,
757
+ "grad_norm": 4.643685817718506,
758
+ "learning_rate": 4.7676767676767685e-06,
759
+ "epoch": 1.4133333333333333,
760
+ "step": 1060
761
+ },
762
+ {
763
+ "loss": 0.1007,
764
+ "grad_norm": 10.541472434997559,
765
+ "learning_rate": 4.717171717171717e-06,
766
+ "epoch": 1.4266666666666667,
767
+ "step": 1070
768
+ },
769
+ {
770
+ "loss": 0.0738,
771
+ "grad_norm": 2.6130969524383545,
772
+ "learning_rate": 4.666666666666667e-06,
773
+ "epoch": 1.44,
774
+ "step": 1080
775
+ },
776
+ {
777
+ "loss": 0.0901,
778
+ "grad_norm": 4.330660343170166,
779
+ "learning_rate": 4.616161616161616e-06,
780
+ "epoch": 1.4533333333333334,
781
+ "step": 1090
782
+ },
783
+ {
784
+ "loss": 0.0996,
785
+ "grad_norm": 5.923006534576416,
786
+ "learning_rate": 4.565656565656566e-06,
787
+ "epoch": 1.4666666666666668,
788
+ "step": 1100
789
+ },
790
+ {
791
+ "loss": 0.0834,
792
+ "grad_norm": 3.7538375854492188,
793
+ "learning_rate": 4.5151515151515155e-06,
794
+ "epoch": 1.48,
795
+ "step": 1110
796
+ },
797
+ {
798
+ "loss": 0.0701,
799
+ "grad_norm": 3.5032098293304443,
800
+ "learning_rate": 4.464646464646465e-06,
801
+ "epoch": 1.4933333333333334,
802
+ "step": 1120
803
+ },
804
+ {
805
+ "loss": 0.0804,
806
+ "grad_norm": 4.298966407775879,
807
+ "learning_rate": 4.414141414141415e-06,
808
+ "epoch": 1.5066666666666668,
809
+ "step": 1130
810
+ },
811
+ {
812
+ "loss": 0.0724,
813
+ "grad_norm": 3.847870349884033,
814
+ "learning_rate": 4.363636363636364e-06,
815
+ "epoch": 1.52,
816
+ "step": 1140
817
+ },
818
+ {
819
+ "loss": 0.0779,
820
+ "grad_norm": 3.737017869949341,
821
+ "learning_rate": 4.313131313131314e-06,
822
+ "epoch": 1.5333333333333332,
823
+ "step": 1150
824
+ },
825
+ {
826
+ "loss": 0.0847,
827
+ "grad_norm": 3.2333316802978516,
828
+ "learning_rate": 4.262626262626263e-06,
829
+ "epoch": 1.5466666666666666,
830
+ "step": 1160
831
+ },
832
+ {
833
+ "loss": 0.0787,
834
+ "grad_norm": 4.592497825622559,
835
+ "learning_rate": 4.212121212121212e-06,
836
+ "epoch": 1.56,
837
+ "step": 1170
838
+ },
839
+ {
840
+ "loss": 0.0794,
841
+ "grad_norm": 3.845383644104004,
842
+ "learning_rate": 4.161616161616162e-06,
843
+ "epoch": 1.5733333333333333,
844
+ "step": 1180
845
+ },
846
+ {
847
+ "loss": 0.0978,
848
+ "grad_norm": 4.334165096282959,
849
+ "learning_rate": 4.111111111111111e-06,
850
+ "epoch": 1.5866666666666667,
851
+ "step": 1190
852
+ },
853
+ {
854
+ "loss": 0.0775,
855
+ "grad_norm": 4.0656046867370605,
856
+ "learning_rate": 4.060606060606061e-06,
857
+ "epoch": 1.6,
858
+ "step": 1200
859
+ },
860
+ {
861
+ "loss": 0.0847,
862
+ "grad_norm": 4.935208797454834,
863
+ "learning_rate": 4.01010101010101e-06,
864
+ "epoch": 1.6133333333333333,
865
+ "step": 1210
866
+ },
867
+ {
868
+ "loss": 0.0944,
869
+ "grad_norm": 3.122648239135742,
870
+ "learning_rate": 3.95959595959596e-06,
871
+ "epoch": 1.6266666666666667,
872
+ "step": 1220
873
+ },
874
+ {
875
+ "loss": 0.0714,
876
+ "grad_norm": 3.208401918411255,
877
+ "learning_rate": 3.90909090909091e-06,
878
+ "epoch": 1.6400000000000001,
879
+ "step": 1230
880
+ },
881
+ {
882
+ "loss": 0.0681,
883
+ "grad_norm": 2.0770390033721924,
884
+ "learning_rate": 3.858585858585859e-06,
885
+ "epoch": 1.6533333333333333,
886
+ "step": 1240
887
+ },
888
+ {
889
+ "loss": 0.0745,
890
+ "grad_norm": 3.3009884357452393,
891
+ "learning_rate": 3.8080808080808085e-06,
892
+ "epoch": 1.6666666666666665,
893
+ "step": 1250
894
+ },
895
+ {
896
+ "loss": 0.0935,
897
+ "grad_norm": 4.169901371002197,
898
+ "learning_rate": 3.757575757575758e-06,
899
+ "epoch": 1.6800000000000002,
900
+ "step": 1260
901
+ },
902
+ {
903
+ "loss": 0.0908,
904
+ "grad_norm": 4.098388671875,
905
+ "learning_rate": 3.7070707070707075e-06,
906
+ "epoch": 1.6933333333333334,
907
+ "step": 1270
908
+ },
909
+ {
910
+ "loss": 0.0892,
911
+ "grad_norm": 3.705352306365967,
912
+ "learning_rate": 3.6565656565656573e-06,
913
+ "epoch": 1.7066666666666666,
914
+ "step": 1280
915
+ },
916
+ {
917
+ "loss": 0.0886,
918
+ "grad_norm": 4.458006381988525,
919
+ "learning_rate": 3.606060606060606e-06,
920
+ "epoch": 1.72,
921
+ "step": 1290
922
+ },
923
+ {
924
+ "loss": 0.0759,
925
+ "grad_norm": 4.776914596557617,
926
+ "learning_rate": 3.555555555555556e-06,
927
+ "epoch": 1.7333333333333334,
928
+ "step": 1300
929
+ },
930
+ {
931
+ "loss": 0.0687,
932
+ "grad_norm": 3.9618778228759766,
933
+ "learning_rate": 3.5050505050505052e-06,
934
+ "epoch": 1.7466666666666666,
935
+ "step": 1310
936
+ },
937
+ {
938
+ "loss": 0.0881,
939
+ "grad_norm": 4.7500715255737305,
940
+ "learning_rate": 3.454545454545455e-06,
941
+ "epoch": 1.76,
942
+ "step": 1320
943
+ },
944
+ {
945
+ "loss": 0.0658,
946
+ "grad_norm": 4.474343776702881,
947
+ "learning_rate": 3.4040404040404047e-06,
948
+ "epoch": 1.7733333333333334,
949
+ "step": 1330
950
+ },
951
+ {
952
+ "loss": 0.0714,
953
+ "grad_norm": 4.381460666656494,
954
+ "learning_rate": 3.3535353535353536e-06,
955
+ "epoch": 1.7866666666666666,
956
+ "step": 1340
957
+ },
958
+ {
959
+ "loss": 0.0697,
960
+ "grad_norm": 5.2972235679626465,
961
+ "learning_rate": 3.3030303030303033e-06,
962
+ "epoch": 1.8,
963
+ "step": 1350
964
+ },
965
+ {
966
+ "loss": 0.0838,
967
+ "grad_norm": 3.481915235519409,
968
+ "learning_rate": 3.2525252525252527e-06,
969
+ "epoch": 1.8133333333333335,
970
+ "step": 1360
971
+ },
972
+ {
973
+ "loss": 0.0726,
974
+ "grad_norm": 3.9586760997772217,
975
+ "learning_rate": 3.2020202020202024e-06,
976
+ "epoch": 1.8266666666666667,
977
+ "step": 1370
978
+ },
979
+ {
980
+ "loss": 0.0877,
981
+ "grad_norm": 2.909917116165161,
982
+ "learning_rate": 3.1515151515151517e-06,
983
+ "epoch": 1.8399999999999999,
984
+ "step": 1380
985
+ },
986
+ {
987
+ "loss": 0.0836,
988
+ "grad_norm": 5.644835472106934,
989
+ "learning_rate": 3.1010101010101014e-06,
990
+ "epoch": 1.8533333333333335,
991
+ "step": 1390
992
+ },
993
+ {
994
+ "loss": 0.0666,
995
+ "grad_norm": 2.045072555541992,
996
+ "learning_rate": 3.0505050505050508e-06,
997
+ "epoch": 1.8666666666666667,
998
+ "step": 1400
999
+ },
1000
+ {
1001
+ "loss": 0.0639,
1002
+ "grad_norm": 3.4779183864593506,
1003
+ "learning_rate": 3e-06,
1004
+ "epoch": 1.88,
1005
+ "step": 1410
1006
+ },
1007
+ {
1008
+ "loss": 0.0791,
1009
+ "grad_norm": 4.011447429656982,
1010
+ "learning_rate": 2.94949494949495e-06,
1011
+ "epoch": 1.8933333333333333,
1012
+ "step": 1420
1013
+ },
1014
+ {
1015
+ "loss": 0.0669,
1016
+ "grad_norm": 3.508593797683716,
1017
+ "learning_rate": 2.898989898989899e-06,
1018
+ "epoch": 1.9066666666666667,
1019
+ "step": 1430
1020
+ },
1021
+ {
1022
+ "loss": 0.0757,
1023
+ "grad_norm": 7.03428840637207,
1024
+ "learning_rate": 2.848484848484849e-06,
1025
+ "epoch": 1.92,
1026
+ "step": 1440
1027
+ },
1028
+ {
1029
+ "loss": 0.0685,
1030
+ "grad_norm": 3.3509371280670166,
1031
+ "learning_rate": 2.7979797979797986e-06,
1032
+ "epoch": 1.9333333333333333,
1033
+ "step": 1450
1034
+ },
1035
+ {
1036
+ "loss": 0.0718,
1037
+ "grad_norm": 4.13100004196167,
1038
+ "learning_rate": 2.7474747474747475e-06,
1039
+ "epoch": 1.9466666666666668,
1040
+ "step": 1460
1041
+ },
1042
+ {
1043
+ "loss": 0.0615,
1044
+ "grad_norm": 5.1480512619018555,
1045
+ "learning_rate": 2.6969696969696972e-06,
1046
+ "epoch": 1.96,
1047
+ "step": 1470
1048
+ },
1049
+ {
1050
+ "loss": 0.089,
1051
+ "grad_norm": 4.444997310638428,
1052
+ "learning_rate": 2.6464646464646466e-06,
1053
+ "epoch": 1.9733333333333334,
1054
+ "step": 1480
1055
+ },
1056
+ {
1057
+ "loss": 0.0699,
1058
+ "grad_norm": 3.9407005310058594,
1059
+ "learning_rate": 2.5959595959595963e-06,
1060
+ "epoch": 1.9866666666666668,
1061
+ "step": 1490
1062
+ },
1063
+ {
1064
+ "loss": 0.0728,
1065
+ "grad_norm": 6.953798294067383,
1066
+ "learning_rate": 2.5454545454545456e-06,
1067
+ "epoch": 2.0,
1068
+ "step": 1500
1069
+ },
1070
+ {
1071
+ "eval_loss": 0.10412880033254623,
1072
+ "eval_wer": 0.32657100445324094,
1073
+ "eval_runtime": 300.9073,
1074
+ "eval_samples_per_second": 1.11,
1075
+ "eval_steps_per_second": 0.14,
1076
+ "epoch": 2.0,
1077
+ "step": 1500
1078
+ },
1079
+ {
1080
+ "loss": 0.049,
1081
+ "grad_norm": 2.8069822788238525,
1082
+ "learning_rate": 2.494949494949495e-06,
1083
+ "epoch": 2.013333333333333,
1084
+ "step": 1510
1085
+ },
1086
+ {
1087
+ "loss": 0.0445,
1088
+ "grad_norm": 3.9860682487487793,
1089
+ "learning_rate": 2.4444444444444447e-06,
1090
+ "epoch": 2.026666666666667,
1091
+ "step": 1520
1092
+ },
1093
+ {
1094
+ "loss": 0.044,
1095
+ "grad_norm": 1.8156518936157227,
1096
+ "learning_rate": 2.393939393939394e-06,
1097
+ "epoch": 2.04,
1098
+ "step": 1530
1099
+ },
1100
+ {
1101
+ "loss": 0.0393,
1102
+ "grad_norm": 3.85343337059021,
1103
+ "learning_rate": 2.3434343434343437e-06,
1104
+ "epoch": 2.0533333333333332,
1105
+ "step": 1540
1106
+ },
1107
+ {
1108
+ "loss": 0.0478,
1109
+ "grad_norm": 3.4633591175079346,
1110
+ "learning_rate": 2.292929292929293e-06,
1111
+ "epoch": 2.066666666666667,
1112
+ "step": 1550
1113
+ },
1114
+ {
1115
+ "loss": 0.0369,
1116
+ "grad_norm": 2.2300124168395996,
1117
+ "learning_rate": 2.2424242424242428e-06,
1118
+ "epoch": 2.08,
1119
+ "step": 1560
1120
+ },
1121
+ {
1122
+ "loss": 0.0506,
1123
+ "grad_norm": 2.8760111331939697,
1124
+ "learning_rate": 2.191919191919192e-06,
1125
+ "epoch": 2.0933333333333333,
1126
+ "step": 1570
1127
+ },
1128
+ {
1129
+ "loss": 0.0388,
1130
+ "grad_norm": 2.558821201324463,
1131
+ "learning_rate": 2.1414141414141414e-06,
1132
+ "epoch": 2.1066666666666665,
1133
+ "step": 1580
1134
+ },
1135
+ {
1136
+ "loss": 0.0387,
1137
+ "grad_norm": 2.146301031112671,
1138
+ "learning_rate": 2.090909090909091e-06,
1139
+ "epoch": 2.12,
1140
+ "step": 1590
1141
+ },
1142
+ {
1143
+ "loss": 0.0424,
1144
+ "grad_norm": 3.9771625995635986,
1145
+ "learning_rate": 2.0404040404040405e-06,
1146
+ "epoch": 2.1333333333333333,
1147
+ "step": 1600
1148
+ },
1149
+ {
1150
+ "loss": 0.0575,
1151
+ "grad_norm": 3.292935371398926,
1152
+ "learning_rate": 1.98989898989899e-06,
1153
+ "epoch": 2.1466666666666665,
1154
+ "step": 1610
1155
+ },
1156
+ {
1157
+ "loss": 0.0383,
1158
+ "grad_norm": 3.045471429824829,
1159
+ "learning_rate": 1.9393939393939395e-06,
1160
+ "epoch": 2.16,
1161
+ "step": 1620
1162
+ },
1163
+ {
1164
+ "loss": 0.0316,
1165
+ "grad_norm": 3.168919086456299,
1166
+ "learning_rate": 1.888888888888889e-06,
1167
+ "epoch": 2.1733333333333333,
1168
+ "step": 1630
1169
+ },
1170
+ {
1171
+ "loss": 0.037,
1172
+ "grad_norm": 2.878878116607666,
1173
+ "learning_rate": 1.8383838383838384e-06,
1174
+ "epoch": 2.1866666666666665,
1175
+ "step": 1640
1176
+ },
1177
+ {
1178
+ "loss": 0.0523,
1179
+ "grad_norm": 2.0924072265625,
1180
+ "learning_rate": 1.787878787878788e-06,
1181
+ "epoch": 2.2,
1182
+ "step": 1650
1183
+ },
1184
+ {
1185
+ "loss": 0.0367,
1186
+ "grad_norm": 4.216643333435059,
1187
+ "learning_rate": 1.7373737373737376e-06,
1188
+ "epoch": 2.2133333333333334,
1189
+ "step": 1660
1190
+ },
1191
+ {
1192
+ "loss": 0.0321,
1193
+ "grad_norm": 2.9497156143188477,
1194
+ "learning_rate": 1.6868686868686871e-06,
1195
+ "epoch": 2.2266666666666666,
1196
+ "step": 1670
1197
+ },
1198
+ {
1199
+ "loss": 0.0406,
1200
+ "grad_norm": 2.8304696083068848,
1201
+ "learning_rate": 1.6363636363636365e-06,
1202
+ "epoch": 2.24,
1203
+ "step": 1680
1204
+ },
1205
+ {
1206
+ "loss": 0.0393,
1207
+ "grad_norm": 2.576051712036133,
1208
+ "learning_rate": 1.585858585858586e-06,
1209
+ "epoch": 2.2533333333333334,
1210
+ "step": 1690
1211
+ },
1212
+ {
1213
+ "loss": 0.0284,
1214
+ "grad_norm": 2.7163302898406982,
1215
+ "learning_rate": 1.5353535353535353e-06,
1216
+ "epoch": 2.2666666666666666,
1217
+ "step": 1700
1218
+ },
1219
+ {
1220
+ "loss": 0.0445,
1221
+ "grad_norm": 1.9396488666534424,
1222
+ "learning_rate": 1.484848484848485e-06,
1223
+ "epoch": 2.2800000000000002,
1224
+ "step": 1710
1225
+ },
1226
+ {
1227
+ "loss": 0.0439,
1228
+ "grad_norm": 3.899765729904175,
1229
+ "learning_rate": 1.4343434343434346e-06,
1230
+ "epoch": 2.2933333333333334,
1231
+ "step": 1720
1232
+ },
1233
+ {
1234
+ "loss": 0.0306,
1235
+ "grad_norm": 2.1854968070983887,
1236
+ "learning_rate": 1.3838383838383839e-06,
1237
+ "epoch": 2.3066666666666666,
1238
+ "step": 1730
1239
+ },
1240
+ {
1241
+ "loss": 0.034,
1242
+ "grad_norm": 2.636538505554199,
1243
+ "learning_rate": 1.3333333333333334e-06,
1244
+ "epoch": 2.32,
1245
+ "step": 1740
1246
+ },
1247
+ {
1248
+ "loss": 0.0319,
1249
+ "grad_norm": 2.022677421569824,
1250
+ "learning_rate": 1.282828282828283e-06,
1251
+ "epoch": 2.3333333333333335,
1252
+ "step": 1750
1253
+ },
1254
+ {
1255
+ "loss": 0.0365,
1256
+ "grad_norm": 3.6239359378814697,
1257
+ "learning_rate": 1.2323232323232325e-06,
1258
+ "epoch": 2.3466666666666667,
1259
+ "step": 1760
1260
+ },
1261
+ {
1262
+ "loss": 0.052,
1263
+ "grad_norm": 4.198002338409424,
1264
+ "learning_rate": 1.181818181818182e-06,
1265
+ "epoch": 2.36,
1266
+ "step": 1770
1267
+ },
1268
+ {
1269
+ "loss": 0.0362,
1270
+ "grad_norm": 2.3800501823425293,
1271
+ "learning_rate": 1.1313131313131315e-06,
1272
+ "epoch": 2.3733333333333335,
1273
+ "step": 1780
1274
+ },
1275
+ {
1276
+ "loss": 0.0397,
1277
+ "grad_norm": 3.785360097885132,
1278
+ "learning_rate": 1.0808080808080808e-06,
1279
+ "epoch": 2.3866666666666667,
1280
+ "step": 1790
1281
+ },
1282
+ {
1283
+ "loss": 0.0408,
1284
+ "grad_norm": 3.217353343963623,
1285
+ "learning_rate": 1.0303030303030304e-06,
1286
+ "epoch": 2.4,
1287
+ "step": 1800
1288
+ },
1289
+ {
1290
+ "loss": 0.0388,
1291
+ "grad_norm": 2.529654026031494,
1292
+ "learning_rate": 9.797979797979799e-07,
1293
+ "epoch": 2.413333333333333,
1294
+ "step": 1810
1295
+ },
1296
+ {
1297
+ "loss": 0.0398,
1298
+ "grad_norm": 2.1262857913970947,
1299
+ "learning_rate": 9.292929292929294e-07,
1300
+ "epoch": 2.4266666666666667,
1301
+ "step": 1820
1302
+ },
1303
+ {
1304
+ "loss": 0.0353,
1305
+ "grad_norm": 2.315272569656372,
1306
+ "learning_rate": 8.787878787878788e-07,
1307
+ "epoch": 2.44,
1308
+ "step": 1830
1309
+ },
1310
+ {
1311
+ "loss": 0.0392,
1312
+ "grad_norm": 2.6445798873901367,
1313
+ "learning_rate": 8.282828282828284e-07,
1314
+ "epoch": 2.453333333333333,
1315
+ "step": 1840
1316
+ },
1317
+ {
1318
+ "loss": 0.0404,
1319
+ "grad_norm": 3.2057223320007324,
1320
+ "learning_rate": 7.777777777777779e-07,
1321
+ "epoch": 2.466666666666667,
1322
+ "step": 1850
1323
+ },
1324
+ {
1325
+ "loss": 0.0388,
1326
+ "grad_norm": 1.7564632892608643,
1327
+ "learning_rate": 7.272727272727273e-07,
1328
+ "epoch": 2.48,
1329
+ "step": 1860
1330
+ },
1331
+ {
1332
+ "loss": 0.0389,
1333
+ "grad_norm": 2.8943591117858887,
1334
+ "learning_rate": 6.767676767676768e-07,
1335
+ "epoch": 2.493333333333333,
1336
+ "step": 1870
1337
+ },
1338
+ {
1339
+ "loss": 0.0409,
1340
+ "grad_norm": 2.3569250106811523,
1341
+ "learning_rate": 6.262626262626264e-07,
1342
+ "epoch": 2.506666666666667,
1343
+ "step": 1880
1344
+ },
1345
+ {
1346
+ "loss": 0.0385,
1347
+ "grad_norm": 2.9522323608398438,
1348
+ "learning_rate": 5.757575757575758e-07,
1349
+ "epoch": 2.52,
1350
+ "step": 1890
1351
+ },
1352
+ {
1353
+ "loss": 0.0361,
1354
+ "grad_norm": 2.06543231010437,
1355
+ "learning_rate": 5.252525252525253e-07,
1356
+ "epoch": 2.533333333333333,
1357
+ "step": 1900
1358
+ },
1359
+ {
1360
+ "loss": 0.0409,
1361
+ "grad_norm": 2.8644039630889893,
1362
+ "learning_rate": 4.747474747474748e-07,
1363
+ "epoch": 2.546666666666667,
1364
+ "step": 1910
1365
+ },
1366
+ {
1367
+ "loss": 0.0413,
1368
+ "grad_norm": 2.930689811706543,
1369
+ "learning_rate": 4.242424242424243e-07,
1370
+ "epoch": 2.56,
1371
+ "step": 1920
1372
+ },
1373
+ {
1374
+ "loss": 0.0341,
1375
+ "grad_norm": 2.808952808380127,
1376
+ "learning_rate": 3.7373737373737374e-07,
1377
+ "epoch": 2.5733333333333333,
1378
+ "step": 1930
1379
+ },
1380
+ {
1381
+ "loss": 0.0382,
1382
+ "grad_norm": 2.888901948928833,
1383
+ "learning_rate": 3.2323232323232327e-07,
1384
+ "epoch": 2.586666666666667,
1385
+ "step": 1940
1386
+ },
1387
+ {
1388
+ "loss": 0.0332,
1389
+ "grad_norm": 3.2837748527526855,
1390
+ "learning_rate": 2.7272727272727274e-07,
1391
+ "epoch": 2.6,
1392
+ "step": 1950
1393
+ },
1394
+ {
1395
+ "loss": 0.0389,
1396
+ "grad_norm": 2.218034505844116,
1397
+ "learning_rate": 2.2222222222222224e-07,
1398
+ "epoch": 2.6133333333333333,
1399
+ "step": 1960
1400
+ },
1401
+ {
1402
+ "loss": 0.0319,
1403
+ "grad_norm": 2.5878612995147705,
1404
+ "learning_rate": 1.7171717171717172e-07,
1405
+ "epoch": 2.626666666666667,
1406
+ "step": 1970
1407
+ },
1408
+ {
1409
+ "loss": 0.0451,
1410
+ "grad_norm": 2.980043411254883,
1411
+ "learning_rate": 1.2121212121212122e-07,
1412
+ "epoch": 2.64,
1413
+ "step": 1980
1414
+ },
1415
+ {
1416
+ "loss": 0.0399,
1417
+ "grad_norm": 4.007762908935547,
1418
+ "learning_rate": 7.070707070707072e-08,
1419
+ "epoch": 2.6533333333333333,
1420
+ "step": 1990
1421
+ },
1422
+ {
1423
+ "loss": 0.0369,
1424
+ "grad_norm": 3.797729969024658,
1425
+ "learning_rate": 2.0202020202020204e-08,
1426
+ "epoch": 2.6666666666666665,
1427
+ "step": 2000
1428
+ },
1429
+ {
1430
+ "eval_loss": 0.10373403131961823,
1431
+ "eval_wer": 0.3080158337456705,
1432
+ "eval_runtime": 298.3545,
1433
+ "eval_samples_per_second": 1.119,
1434
+ "eval_steps_per_second": 0.141,
1435
+ "epoch": 2.6666666666666665,
1436
+ "step": 2000
1437
+ },
1438
+ {
1439
+ "train_runtime": 2780.7751,
1440
+ "train_samples_per_second": 2.877,
1441
+ "train_steps_per_second": 0.719,
1442
+ "total_flos": 2.30695169015808e+18,
1443
+ "train_loss": 0.1647129835486412,
1444
+ "epoch": 2.6666666666666665,
1445
+ "step": 2000
1446
+ }
1447
+ ]