Aadithyak commited on
Commit
1d94a5d
·
verified ·
1 Parent(s): 3e562d5

Upload checkpoint-140/trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. checkpoint-140/trainer_state.json +1032 -0
checkpoint-140/trainer_state.json ADDED
@@ -0,0 +1,1032 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.8296296296296296,
6
+ "eval_steps": 70,
7
+ "global_step": 140,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.005925925925925926,
14
+ "grad_norm": NaN,
15
+ "learning_rate": 5e-05,
16
+ "loss": 0.0,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.011851851851851851,
21
+ "grad_norm": NaN,
22
+ "learning_rate": 5e-05,
23
+ "loss": 0.0,
24
+ "step": 2
25
+ },
26
+ {
27
+ "epoch": 0.017777777777777778,
28
+ "grad_norm": NaN,
29
+ "learning_rate": 5e-05,
30
+ "loss": 0.0,
31
+ "step": 3
32
+ },
33
+ {
34
+ "epoch": 0.023703703703703703,
35
+ "grad_norm": NaN,
36
+ "learning_rate": 5e-05,
37
+ "loss": 0.0,
38
+ "step": 4
39
+ },
40
+ {
41
+ "epoch": 0.02962962962962963,
42
+ "grad_norm": NaN,
43
+ "learning_rate": 5e-05,
44
+ "loss": 0.0,
45
+ "step": 5
46
+ },
47
+ {
48
+ "epoch": 0.035555555555555556,
49
+ "grad_norm": NaN,
50
+ "learning_rate": 5e-05,
51
+ "loss": 0.0,
52
+ "step": 6
53
+ },
54
+ {
55
+ "epoch": 0.04148148148148148,
56
+ "grad_norm": NaN,
57
+ "learning_rate": 5e-05,
58
+ "loss": 0.0,
59
+ "step": 7
60
+ },
61
+ {
62
+ "epoch": 0.047407407407407405,
63
+ "grad_norm": NaN,
64
+ "learning_rate": 5e-05,
65
+ "loss": 0.0,
66
+ "step": 8
67
+ },
68
+ {
69
+ "epoch": 0.05333333333333334,
70
+ "grad_norm": NaN,
71
+ "learning_rate": 5e-05,
72
+ "loss": 0.0,
73
+ "step": 9
74
+ },
75
+ {
76
+ "epoch": 0.05925925925925926,
77
+ "grad_norm": NaN,
78
+ "learning_rate": 5e-05,
79
+ "loss": 0.0,
80
+ "step": 10
81
+ },
82
+ {
83
+ "epoch": 0.06518518518518518,
84
+ "grad_norm": NaN,
85
+ "learning_rate": 5e-05,
86
+ "loss": 0.0,
87
+ "step": 11
88
+ },
89
+ {
90
+ "epoch": 0.07111111111111111,
91
+ "grad_norm": NaN,
92
+ "learning_rate": 5e-05,
93
+ "loss": 0.0,
94
+ "step": 12
95
+ },
96
+ {
97
+ "epoch": 0.07703703703703704,
98
+ "grad_norm": NaN,
99
+ "learning_rate": 5e-05,
100
+ "loss": 0.0,
101
+ "step": 13
102
+ },
103
+ {
104
+ "epoch": 0.08296296296296296,
105
+ "grad_norm": NaN,
106
+ "learning_rate": 5e-05,
107
+ "loss": 0.0,
108
+ "step": 14
109
+ },
110
+ {
111
+ "epoch": 0.08888888888888889,
112
+ "grad_norm": NaN,
113
+ "learning_rate": 5e-05,
114
+ "loss": 0.0,
115
+ "step": 15
116
+ },
117
+ {
118
+ "epoch": 0.09481481481481481,
119
+ "grad_norm": NaN,
120
+ "learning_rate": 5e-05,
121
+ "loss": 0.0,
122
+ "step": 16
123
+ },
124
+ {
125
+ "epoch": 0.10074074074074074,
126
+ "grad_norm": NaN,
127
+ "learning_rate": 5e-05,
128
+ "loss": 0.0,
129
+ "step": 17
130
+ },
131
+ {
132
+ "epoch": 0.10666666666666667,
133
+ "grad_norm": NaN,
134
+ "learning_rate": 5e-05,
135
+ "loss": 0.0,
136
+ "step": 18
137
+ },
138
+ {
139
+ "epoch": 0.11259259259259259,
140
+ "grad_norm": NaN,
141
+ "learning_rate": 5e-05,
142
+ "loss": 0.0,
143
+ "step": 19
144
+ },
145
+ {
146
+ "epoch": 0.11851851851851852,
147
+ "grad_norm": NaN,
148
+ "learning_rate": 5e-05,
149
+ "loss": 0.0,
150
+ "step": 20
151
+ },
152
+ {
153
+ "epoch": 0.12444444444444444,
154
+ "grad_norm": NaN,
155
+ "learning_rate": 5e-05,
156
+ "loss": 0.0,
157
+ "step": 21
158
+ },
159
+ {
160
+ "epoch": 0.13037037037037036,
161
+ "grad_norm": NaN,
162
+ "learning_rate": 5e-05,
163
+ "loss": 0.0,
164
+ "step": 22
165
+ },
166
+ {
167
+ "epoch": 0.1362962962962963,
168
+ "grad_norm": NaN,
169
+ "learning_rate": 5e-05,
170
+ "loss": 0.0,
171
+ "step": 23
172
+ },
173
+ {
174
+ "epoch": 0.14222222222222222,
175
+ "grad_norm": NaN,
176
+ "learning_rate": 5e-05,
177
+ "loss": 0.0,
178
+ "step": 24
179
+ },
180
+ {
181
+ "epoch": 0.14814814814814814,
182
+ "grad_norm": NaN,
183
+ "learning_rate": 5e-05,
184
+ "loss": 0.0,
185
+ "step": 25
186
+ },
187
+ {
188
+ "epoch": 0.15407407407407409,
189
+ "grad_norm": NaN,
190
+ "learning_rate": 5e-05,
191
+ "loss": 0.0,
192
+ "step": 26
193
+ },
194
+ {
195
+ "epoch": 0.16,
196
+ "grad_norm": NaN,
197
+ "learning_rate": 5e-05,
198
+ "loss": 0.0,
199
+ "step": 27
200
+ },
201
+ {
202
+ "epoch": 0.16592592592592592,
203
+ "grad_norm": NaN,
204
+ "learning_rate": 5e-05,
205
+ "loss": 0.0,
206
+ "step": 28
207
+ },
208
+ {
209
+ "epoch": 0.17185185185185184,
210
+ "grad_norm": NaN,
211
+ "learning_rate": 5e-05,
212
+ "loss": 0.0,
213
+ "step": 29
214
+ },
215
+ {
216
+ "epoch": 0.17777777777777778,
217
+ "grad_norm": NaN,
218
+ "learning_rate": 5e-05,
219
+ "loss": 0.0,
220
+ "step": 30
221
+ },
222
+ {
223
+ "epoch": 0.1837037037037037,
224
+ "grad_norm": NaN,
225
+ "learning_rate": 5e-05,
226
+ "loss": 0.0,
227
+ "step": 31
228
+ },
229
+ {
230
+ "epoch": 0.18962962962962962,
231
+ "grad_norm": NaN,
232
+ "learning_rate": 5e-05,
233
+ "loss": 0.0,
234
+ "step": 32
235
+ },
236
+ {
237
+ "epoch": 0.19555555555555557,
238
+ "grad_norm": NaN,
239
+ "learning_rate": 5e-05,
240
+ "loss": 0.0,
241
+ "step": 33
242
+ },
243
+ {
244
+ "epoch": 0.20148148148148148,
245
+ "grad_norm": NaN,
246
+ "learning_rate": 5e-05,
247
+ "loss": 0.0,
248
+ "step": 34
249
+ },
250
+ {
251
+ "epoch": 0.2074074074074074,
252
+ "grad_norm": NaN,
253
+ "learning_rate": 5e-05,
254
+ "loss": 0.0,
255
+ "step": 35
256
+ },
257
+ {
258
+ "epoch": 0.21333333333333335,
259
+ "grad_norm": NaN,
260
+ "learning_rate": 5e-05,
261
+ "loss": 0.0,
262
+ "step": 36
263
+ },
264
+ {
265
+ "epoch": 0.21925925925925926,
266
+ "grad_norm": NaN,
267
+ "learning_rate": 5e-05,
268
+ "loss": 0.0,
269
+ "step": 37
270
+ },
271
+ {
272
+ "epoch": 0.22518518518518518,
273
+ "grad_norm": NaN,
274
+ "learning_rate": 5e-05,
275
+ "loss": 0.0,
276
+ "step": 38
277
+ },
278
+ {
279
+ "epoch": 0.2311111111111111,
280
+ "grad_norm": NaN,
281
+ "learning_rate": 5e-05,
282
+ "loss": 0.0,
283
+ "step": 39
284
+ },
285
+ {
286
+ "epoch": 0.23703703703703705,
287
+ "grad_norm": NaN,
288
+ "learning_rate": 5e-05,
289
+ "loss": 0.0,
290
+ "step": 40
291
+ },
292
+ {
293
+ "epoch": 0.24296296296296296,
294
+ "grad_norm": NaN,
295
+ "learning_rate": 5e-05,
296
+ "loss": 0.0,
297
+ "step": 41
298
+ },
299
+ {
300
+ "epoch": 0.24888888888888888,
301
+ "grad_norm": NaN,
302
+ "learning_rate": 5e-05,
303
+ "loss": 0.0,
304
+ "step": 42
305
+ },
306
+ {
307
+ "epoch": 0.2548148148148148,
308
+ "grad_norm": NaN,
309
+ "learning_rate": 5e-05,
310
+ "loss": 0.0,
311
+ "step": 43
312
+ },
313
+ {
314
+ "epoch": 0.2607407407407407,
315
+ "grad_norm": NaN,
316
+ "learning_rate": 5e-05,
317
+ "loss": 0.0,
318
+ "step": 44
319
+ },
320
+ {
321
+ "epoch": 0.26666666666666666,
322
+ "grad_norm": NaN,
323
+ "learning_rate": 5e-05,
324
+ "loss": 0.0,
325
+ "step": 45
326
+ },
327
+ {
328
+ "epoch": 0.2725925925925926,
329
+ "grad_norm": NaN,
330
+ "learning_rate": 5e-05,
331
+ "loss": 0.0,
332
+ "step": 46
333
+ },
334
+ {
335
+ "epoch": 0.2785185185185185,
336
+ "grad_norm": NaN,
337
+ "learning_rate": 5e-05,
338
+ "loss": 0.0,
339
+ "step": 47
340
+ },
341
+ {
342
+ "epoch": 0.28444444444444444,
343
+ "grad_norm": NaN,
344
+ "learning_rate": 5e-05,
345
+ "loss": 0.0,
346
+ "step": 48
347
+ },
348
+ {
349
+ "epoch": 0.2903703703703704,
350
+ "grad_norm": NaN,
351
+ "learning_rate": 5e-05,
352
+ "loss": 0.0,
353
+ "step": 49
354
+ },
355
+ {
356
+ "epoch": 0.2962962962962963,
357
+ "grad_norm": NaN,
358
+ "learning_rate": 5e-05,
359
+ "loss": 0.0,
360
+ "step": 50
361
+ },
362
+ {
363
+ "epoch": 0.3022222222222222,
364
+ "grad_norm": NaN,
365
+ "learning_rate": 5e-05,
366
+ "loss": 0.0,
367
+ "step": 51
368
+ },
369
+ {
370
+ "epoch": 0.30814814814814817,
371
+ "grad_norm": NaN,
372
+ "learning_rate": 5e-05,
373
+ "loss": 0.0,
374
+ "step": 52
375
+ },
376
+ {
377
+ "epoch": 0.31407407407407406,
378
+ "grad_norm": NaN,
379
+ "learning_rate": 5e-05,
380
+ "loss": 0.0,
381
+ "step": 53
382
+ },
383
+ {
384
+ "epoch": 0.32,
385
+ "grad_norm": NaN,
386
+ "learning_rate": 5e-05,
387
+ "loss": 0.0,
388
+ "step": 54
389
+ },
390
+ {
391
+ "epoch": 0.32592592592592595,
392
+ "grad_norm": NaN,
393
+ "learning_rate": 5e-05,
394
+ "loss": 0.0,
395
+ "step": 55
396
+ },
397
+ {
398
+ "epoch": 0.33185185185185184,
399
+ "grad_norm": NaN,
400
+ "learning_rate": 5e-05,
401
+ "loss": 0.0,
402
+ "step": 56
403
+ },
404
+ {
405
+ "epoch": 0.3377777777777778,
406
+ "grad_norm": NaN,
407
+ "learning_rate": 5e-05,
408
+ "loss": 0.0,
409
+ "step": 57
410
+ },
411
+ {
412
+ "epoch": 0.3437037037037037,
413
+ "grad_norm": NaN,
414
+ "learning_rate": 5e-05,
415
+ "loss": 0.0,
416
+ "step": 58
417
+ },
418
+ {
419
+ "epoch": 0.3496296296296296,
420
+ "grad_norm": NaN,
421
+ "learning_rate": 5e-05,
422
+ "loss": 0.0,
423
+ "step": 59
424
+ },
425
+ {
426
+ "epoch": 0.35555555555555557,
427
+ "grad_norm": NaN,
428
+ "learning_rate": 5e-05,
429
+ "loss": 0.0,
430
+ "step": 60
431
+ },
432
+ {
433
+ "epoch": 0.36148148148148146,
434
+ "grad_norm": NaN,
435
+ "learning_rate": 5e-05,
436
+ "loss": 0.0,
437
+ "step": 61
438
+ },
439
+ {
440
+ "epoch": 0.3674074074074074,
441
+ "grad_norm": NaN,
442
+ "learning_rate": 5e-05,
443
+ "loss": 0.0,
444
+ "step": 62
445
+ },
446
+ {
447
+ "epoch": 0.37333333333333335,
448
+ "grad_norm": NaN,
449
+ "learning_rate": 5e-05,
450
+ "loss": 0.0,
451
+ "step": 63
452
+ },
453
+ {
454
+ "epoch": 0.37925925925925924,
455
+ "grad_norm": NaN,
456
+ "learning_rate": 5e-05,
457
+ "loss": 0.0,
458
+ "step": 64
459
+ },
460
+ {
461
+ "epoch": 0.3851851851851852,
462
+ "grad_norm": NaN,
463
+ "learning_rate": 5e-05,
464
+ "loss": 0.0,
465
+ "step": 65
466
+ },
467
+ {
468
+ "epoch": 0.39111111111111113,
469
+ "grad_norm": NaN,
470
+ "learning_rate": 5e-05,
471
+ "loss": 0.0,
472
+ "step": 66
473
+ },
474
+ {
475
+ "epoch": 0.397037037037037,
476
+ "grad_norm": NaN,
477
+ "learning_rate": 5e-05,
478
+ "loss": 0.0,
479
+ "step": 67
480
+ },
481
+ {
482
+ "epoch": 0.40296296296296297,
483
+ "grad_norm": NaN,
484
+ "learning_rate": 5e-05,
485
+ "loss": 0.0,
486
+ "step": 68
487
+ },
488
+ {
489
+ "epoch": 0.4088888888888889,
490
+ "grad_norm": NaN,
491
+ "learning_rate": 5e-05,
492
+ "loss": 0.0,
493
+ "step": 69
494
+ },
495
+ {
496
+ "epoch": 0.4148148148148148,
497
+ "grad_norm": NaN,
498
+ "learning_rate": 5e-05,
499
+ "loss": 0.0,
500
+ "step": 70
501
+ },
502
+ {
503
+ "epoch": 0.4148148148148148,
504
+ "eval_loss": 40297.44140625,
505
+ "eval_runtime": 63.992,
506
+ "eval_samples_per_second": 7.032,
507
+ "eval_steps_per_second": 1.172,
508
+ "eval_wer": 1.0381992969974168,
509
+ "step": 70
510
+ },
511
+ {
512
+ "epoch": 0.42074074074074075,
513
+ "grad_norm": NaN,
514
+ "learning_rate": 5e-05,
515
+ "loss": 0.0,
516
+ "step": 71
517
+ },
518
+ {
519
+ "epoch": 0.4266666666666667,
520
+ "grad_norm": NaN,
521
+ "learning_rate": 5e-05,
522
+ "loss": 0.0,
523
+ "step": 72
524
+ },
525
+ {
526
+ "epoch": 0.4325925925925926,
527
+ "grad_norm": NaN,
528
+ "learning_rate": 5e-05,
529
+ "loss": 0.0,
530
+ "step": 73
531
+ },
532
+ {
533
+ "epoch": 0.43851851851851853,
534
+ "grad_norm": NaN,
535
+ "learning_rate": 5e-05,
536
+ "loss": 0.0,
537
+ "step": 74
538
+ },
539
+ {
540
+ "epoch": 0.4444444444444444,
541
+ "grad_norm": NaN,
542
+ "learning_rate": 5e-05,
543
+ "loss": 0.0,
544
+ "step": 75
545
+ },
546
+ {
547
+ "epoch": 0.45037037037037037,
548
+ "grad_norm": NaN,
549
+ "learning_rate": 5e-05,
550
+ "loss": 0.0,
551
+ "step": 76
552
+ },
553
+ {
554
+ "epoch": 0.4562962962962963,
555
+ "grad_norm": NaN,
556
+ "learning_rate": 5e-05,
557
+ "loss": 0.0,
558
+ "step": 77
559
+ },
560
+ {
561
+ "epoch": 0.4622222222222222,
562
+ "grad_norm": NaN,
563
+ "learning_rate": 5e-05,
564
+ "loss": 0.0,
565
+ "step": 78
566
+ },
567
+ {
568
+ "epoch": 0.46814814814814815,
569
+ "grad_norm": NaN,
570
+ "learning_rate": 5e-05,
571
+ "loss": 0.0,
572
+ "step": 79
573
+ },
574
+ {
575
+ "epoch": 0.4740740740740741,
576
+ "grad_norm": NaN,
577
+ "learning_rate": 5e-05,
578
+ "loss": 0.0,
579
+ "step": 80
580
+ },
581
+ {
582
+ "epoch": 0.48,
583
+ "grad_norm": NaN,
584
+ "learning_rate": 5e-05,
585
+ "loss": 0.0,
586
+ "step": 81
587
+ },
588
+ {
589
+ "epoch": 0.48592592592592593,
590
+ "grad_norm": NaN,
591
+ "learning_rate": 5e-05,
592
+ "loss": 0.0,
593
+ "step": 82
594
+ },
595
+ {
596
+ "epoch": 0.4918518518518519,
597
+ "grad_norm": NaN,
598
+ "learning_rate": 5e-05,
599
+ "loss": 0.0,
600
+ "step": 83
601
+ },
602
+ {
603
+ "epoch": 0.49777777777777776,
604
+ "grad_norm": NaN,
605
+ "learning_rate": 5e-05,
606
+ "loss": 0.0,
607
+ "step": 84
608
+ },
609
+ {
610
+ "epoch": 0.5037037037037037,
611
+ "grad_norm": NaN,
612
+ "learning_rate": 5e-05,
613
+ "loss": 0.0,
614
+ "step": 85
615
+ },
616
+ {
617
+ "epoch": 0.5096296296296297,
618
+ "grad_norm": NaN,
619
+ "learning_rate": 5e-05,
620
+ "loss": 0.0,
621
+ "step": 86
622
+ },
623
+ {
624
+ "epoch": 0.5155555555555555,
625
+ "grad_norm": NaN,
626
+ "learning_rate": 5e-05,
627
+ "loss": 0.0,
628
+ "step": 87
629
+ },
630
+ {
631
+ "epoch": 0.5214814814814814,
632
+ "grad_norm": NaN,
633
+ "learning_rate": 5e-05,
634
+ "loss": 0.0,
635
+ "step": 88
636
+ },
637
+ {
638
+ "epoch": 0.5274074074074074,
639
+ "grad_norm": NaN,
640
+ "learning_rate": 5e-05,
641
+ "loss": 0.0,
642
+ "step": 89
643
+ },
644
+ {
645
+ "epoch": 0.5333333333333333,
646
+ "grad_norm": NaN,
647
+ "learning_rate": 5e-05,
648
+ "loss": 0.0,
649
+ "step": 90
650
+ },
651
+ {
652
+ "epoch": 0.5392592592592592,
653
+ "grad_norm": NaN,
654
+ "learning_rate": 5e-05,
655
+ "loss": 0.0,
656
+ "step": 91
657
+ },
658
+ {
659
+ "epoch": 0.5451851851851852,
660
+ "grad_norm": NaN,
661
+ "learning_rate": 5e-05,
662
+ "loss": 0.0,
663
+ "step": 92
664
+ },
665
+ {
666
+ "epoch": 0.5511111111111111,
667
+ "grad_norm": NaN,
668
+ "learning_rate": 5e-05,
669
+ "loss": 0.0,
670
+ "step": 93
671
+ },
672
+ {
673
+ "epoch": 0.557037037037037,
674
+ "grad_norm": NaN,
675
+ "learning_rate": 5e-05,
676
+ "loss": 0.0,
677
+ "step": 94
678
+ },
679
+ {
680
+ "epoch": 0.562962962962963,
681
+ "grad_norm": NaN,
682
+ "learning_rate": 5e-05,
683
+ "loss": 0.0,
684
+ "step": 95
685
+ },
686
+ {
687
+ "epoch": 0.5688888888888889,
688
+ "grad_norm": NaN,
689
+ "learning_rate": 5e-05,
690
+ "loss": 0.0,
691
+ "step": 96
692
+ },
693
+ {
694
+ "epoch": 0.5748148148148148,
695
+ "grad_norm": NaN,
696
+ "learning_rate": 5e-05,
697
+ "loss": 0.0,
698
+ "step": 97
699
+ },
700
+ {
701
+ "epoch": 0.5807407407407408,
702
+ "grad_norm": NaN,
703
+ "learning_rate": 5e-05,
704
+ "loss": 0.0,
705
+ "step": 98
706
+ },
707
+ {
708
+ "epoch": 0.5866666666666667,
709
+ "grad_norm": NaN,
710
+ "learning_rate": 5e-05,
711
+ "loss": 0.0,
712
+ "step": 99
713
+ },
714
+ {
715
+ "epoch": 0.5925925925925926,
716
+ "grad_norm": NaN,
717
+ "learning_rate": 5e-05,
718
+ "loss": 0.0,
719
+ "step": 100
720
+ },
721
+ {
722
+ "epoch": 0.5985185185185186,
723
+ "grad_norm": NaN,
724
+ "learning_rate": 5e-05,
725
+ "loss": 0.0,
726
+ "step": 101
727
+ },
728
+ {
729
+ "epoch": 0.6044444444444445,
730
+ "grad_norm": NaN,
731
+ "learning_rate": 5e-05,
732
+ "loss": 0.0,
733
+ "step": 102
734
+ },
735
+ {
736
+ "epoch": 0.6103703703703703,
737
+ "grad_norm": NaN,
738
+ "learning_rate": 5e-05,
739
+ "loss": 0.0,
740
+ "step": 103
741
+ },
742
+ {
743
+ "epoch": 0.6162962962962963,
744
+ "grad_norm": NaN,
745
+ "learning_rate": 5e-05,
746
+ "loss": 0.0,
747
+ "step": 104
748
+ },
749
+ {
750
+ "epoch": 0.6222222222222222,
751
+ "grad_norm": NaN,
752
+ "learning_rate": 5e-05,
753
+ "loss": 0.0,
754
+ "step": 105
755
+ },
756
+ {
757
+ "epoch": 0.6281481481481481,
758
+ "grad_norm": NaN,
759
+ "learning_rate": 5e-05,
760
+ "loss": 0.0,
761
+ "step": 106
762
+ },
763
+ {
764
+ "epoch": 0.6340740740740741,
765
+ "grad_norm": NaN,
766
+ "learning_rate": 5e-05,
767
+ "loss": 0.0,
768
+ "step": 107
769
+ },
770
+ {
771
+ "epoch": 0.64,
772
+ "grad_norm": NaN,
773
+ "learning_rate": 5e-05,
774
+ "loss": 0.0,
775
+ "step": 108
776
+ },
777
+ {
778
+ "epoch": 0.6459259259259259,
779
+ "grad_norm": NaN,
780
+ "learning_rate": 5e-05,
781
+ "loss": 0.0,
782
+ "step": 109
783
+ },
784
+ {
785
+ "epoch": 0.6518518518518519,
786
+ "grad_norm": NaN,
787
+ "learning_rate": 5e-05,
788
+ "loss": 0.0,
789
+ "step": 110
790
+ },
791
+ {
792
+ "epoch": 0.6577777777777778,
793
+ "grad_norm": NaN,
794
+ "learning_rate": 5e-05,
795
+ "loss": 0.0,
796
+ "step": 111
797
+ },
798
+ {
799
+ "epoch": 0.6637037037037037,
800
+ "grad_norm": NaN,
801
+ "learning_rate": 5e-05,
802
+ "loss": 0.0,
803
+ "step": 112
804
+ },
805
+ {
806
+ "epoch": 0.6696296296296296,
807
+ "grad_norm": NaN,
808
+ "learning_rate": 5e-05,
809
+ "loss": 0.0,
810
+ "step": 113
811
+ },
812
+ {
813
+ "epoch": 0.6755555555555556,
814
+ "grad_norm": NaN,
815
+ "learning_rate": 5e-05,
816
+ "loss": 0.0,
817
+ "step": 114
818
+ },
819
+ {
820
+ "epoch": 0.6814814814814815,
821
+ "grad_norm": NaN,
822
+ "learning_rate": 5e-05,
823
+ "loss": 0.0,
824
+ "step": 115
825
+ },
826
+ {
827
+ "epoch": 0.6874074074074074,
828
+ "grad_norm": NaN,
829
+ "learning_rate": 5e-05,
830
+ "loss": 0.0,
831
+ "step": 116
832
+ },
833
+ {
834
+ "epoch": 0.6933333333333334,
835
+ "grad_norm": NaN,
836
+ "learning_rate": 5e-05,
837
+ "loss": 0.0,
838
+ "step": 117
839
+ },
840
+ {
841
+ "epoch": 0.6992592592592592,
842
+ "grad_norm": NaN,
843
+ "learning_rate": 5e-05,
844
+ "loss": 0.0,
845
+ "step": 118
846
+ },
847
+ {
848
+ "epoch": 0.7051851851851851,
849
+ "grad_norm": NaN,
850
+ "learning_rate": 5e-05,
851
+ "loss": 0.0,
852
+ "step": 119
853
+ },
854
+ {
855
+ "epoch": 0.7111111111111111,
856
+ "grad_norm": NaN,
857
+ "learning_rate": 5e-05,
858
+ "loss": 0.0,
859
+ "step": 120
860
+ },
861
+ {
862
+ "epoch": 0.717037037037037,
863
+ "grad_norm": NaN,
864
+ "learning_rate": 5e-05,
865
+ "loss": 0.0,
866
+ "step": 121
867
+ },
868
+ {
869
+ "epoch": 0.7229629629629629,
870
+ "grad_norm": NaN,
871
+ "learning_rate": 5e-05,
872
+ "loss": 0.0,
873
+ "step": 122
874
+ },
875
+ {
876
+ "epoch": 0.7288888888888889,
877
+ "grad_norm": NaN,
878
+ "learning_rate": 5e-05,
879
+ "loss": 0.0,
880
+ "step": 123
881
+ },
882
+ {
883
+ "epoch": 0.7348148148148148,
884
+ "grad_norm": NaN,
885
+ "learning_rate": 5e-05,
886
+ "loss": 0.0,
887
+ "step": 124
888
+ },
889
+ {
890
+ "epoch": 0.7407407407407407,
891
+ "grad_norm": NaN,
892
+ "learning_rate": 5e-05,
893
+ "loss": 0.0,
894
+ "step": 125
895
+ },
896
+ {
897
+ "epoch": 0.7466666666666667,
898
+ "grad_norm": NaN,
899
+ "learning_rate": 5e-05,
900
+ "loss": 0.0,
901
+ "step": 126
902
+ },
903
+ {
904
+ "epoch": 0.7525925925925926,
905
+ "grad_norm": NaN,
906
+ "learning_rate": 5e-05,
907
+ "loss": 0.0,
908
+ "step": 127
909
+ },
910
+ {
911
+ "epoch": 0.7585185185185185,
912
+ "grad_norm": NaN,
913
+ "learning_rate": 5e-05,
914
+ "loss": 0.0,
915
+ "step": 128
916
+ },
917
+ {
918
+ "epoch": 0.7644444444444445,
919
+ "grad_norm": NaN,
920
+ "learning_rate": 5e-05,
921
+ "loss": 0.0,
922
+ "step": 129
923
+ },
924
+ {
925
+ "epoch": 0.7703703703703704,
926
+ "grad_norm": NaN,
927
+ "learning_rate": 5e-05,
928
+ "loss": 0.0,
929
+ "step": 130
930
+ },
931
+ {
932
+ "epoch": 0.7762962962962963,
933
+ "grad_norm": NaN,
934
+ "learning_rate": 5e-05,
935
+ "loss": 0.0,
936
+ "step": 131
937
+ },
938
+ {
939
+ "epoch": 0.7822222222222223,
940
+ "grad_norm": NaN,
941
+ "learning_rate": 5e-05,
942
+ "loss": 0.0,
943
+ "step": 132
944
+ },
945
+ {
946
+ "epoch": 0.7881481481481482,
947
+ "grad_norm": NaN,
948
+ "learning_rate": 5e-05,
949
+ "loss": 0.0,
950
+ "step": 133
951
+ },
952
+ {
953
+ "epoch": 0.794074074074074,
954
+ "grad_norm": NaN,
955
+ "learning_rate": 5e-05,
956
+ "loss": 0.0,
957
+ "step": 134
958
+ },
959
+ {
960
+ "epoch": 0.8,
961
+ "grad_norm": NaN,
962
+ "learning_rate": 5e-05,
963
+ "loss": 0.0,
964
+ "step": 135
965
+ },
966
+ {
967
+ "epoch": 0.8059259259259259,
968
+ "grad_norm": NaN,
969
+ "learning_rate": 5e-05,
970
+ "loss": 0.0,
971
+ "step": 136
972
+ },
973
+ {
974
+ "epoch": 0.8118518518518518,
975
+ "grad_norm": NaN,
976
+ "learning_rate": 5e-05,
977
+ "loss": 0.0,
978
+ "step": 137
979
+ },
980
+ {
981
+ "epoch": 0.8177777777777778,
982
+ "grad_norm": NaN,
983
+ "learning_rate": 5e-05,
984
+ "loss": 0.0,
985
+ "step": 138
986
+ },
987
+ {
988
+ "epoch": 0.8237037037037037,
989
+ "grad_norm": NaN,
990
+ "learning_rate": 5e-05,
991
+ "loss": 0.0,
992
+ "step": 139
993
+ },
994
+ {
995
+ "epoch": 0.8296296296296296,
996
+ "grad_norm": NaN,
997
+ "learning_rate": 5e-05,
998
+ "loss": 0.0,
999
+ "step": 140
1000
+ },
1001
+ {
1002
+ "epoch": 0.8296296296296296,
1003
+ "eval_loss": 40297.44140625,
1004
+ "eval_runtime": 63.7847,
1005
+ "eval_samples_per_second": 7.055,
1006
+ "eval_steps_per_second": 1.176,
1007
+ "eval_wer": 1.0381992969974168,
1008
+ "step": 140
1009
+ }
1010
+ ],
1011
+ "logging_steps": 1,
1012
+ "max_steps": 1008,
1013
+ "num_input_tokens_seen": 0,
1014
+ "num_train_epochs": 6,
1015
+ "save_steps": 70,
1016
+ "stateful_callbacks": {
1017
+ "TrainerControl": {
1018
+ "args": {
1019
+ "should_epoch_stop": false,
1020
+ "should_evaluate": false,
1021
+ "should_log": false,
1022
+ "should_save": true,
1023
+ "should_training_stop": false
1024
+ },
1025
+ "attributes": {}
1026
+ }
1027
+ },
1028
+ "total_flos": 1.149038015806368e+18,
1029
+ "train_batch_size": 6,
1030
+ "trial_name": null,
1031
+ "trial_params": null
1032
+ }