Aadithyak commited on
Commit
1b8be1a
·
verified ·
1 Parent(s): bc92e62

Upload checkpoint-70/trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. checkpoint-70/trainer_state.json +533 -0
checkpoint-70/trainer_state.json ADDED
@@ -0,0 +1,533 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.4148148148148148,
6
+ "eval_steps": 70,
7
+ "global_step": 70,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.005925925925925926,
14
+ "grad_norm": NaN,
15
+ "learning_rate": 5e-05,
16
+ "loss": 0.0,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.011851851851851851,
21
+ "grad_norm": NaN,
22
+ "learning_rate": 5e-05,
23
+ "loss": 0.0,
24
+ "step": 2
25
+ },
26
+ {
27
+ "epoch": 0.017777777777777778,
28
+ "grad_norm": NaN,
29
+ "learning_rate": 5e-05,
30
+ "loss": 0.0,
31
+ "step": 3
32
+ },
33
+ {
34
+ "epoch": 0.023703703703703703,
35
+ "grad_norm": NaN,
36
+ "learning_rate": 5e-05,
37
+ "loss": 0.0,
38
+ "step": 4
39
+ },
40
+ {
41
+ "epoch": 0.02962962962962963,
42
+ "grad_norm": NaN,
43
+ "learning_rate": 5e-05,
44
+ "loss": 0.0,
45
+ "step": 5
46
+ },
47
+ {
48
+ "epoch": 0.035555555555555556,
49
+ "grad_norm": NaN,
50
+ "learning_rate": 5e-05,
51
+ "loss": 0.0,
52
+ "step": 6
53
+ },
54
+ {
55
+ "epoch": 0.04148148148148148,
56
+ "grad_norm": NaN,
57
+ "learning_rate": 5e-05,
58
+ "loss": 0.0,
59
+ "step": 7
60
+ },
61
+ {
62
+ "epoch": 0.047407407407407405,
63
+ "grad_norm": NaN,
64
+ "learning_rate": 5e-05,
65
+ "loss": 0.0,
66
+ "step": 8
67
+ },
68
+ {
69
+ "epoch": 0.05333333333333334,
70
+ "grad_norm": NaN,
71
+ "learning_rate": 5e-05,
72
+ "loss": 0.0,
73
+ "step": 9
74
+ },
75
+ {
76
+ "epoch": 0.05925925925925926,
77
+ "grad_norm": NaN,
78
+ "learning_rate": 5e-05,
79
+ "loss": 0.0,
80
+ "step": 10
81
+ },
82
+ {
83
+ "epoch": 0.06518518518518518,
84
+ "grad_norm": NaN,
85
+ "learning_rate": 5e-05,
86
+ "loss": 0.0,
87
+ "step": 11
88
+ },
89
+ {
90
+ "epoch": 0.07111111111111111,
91
+ "grad_norm": NaN,
92
+ "learning_rate": 5e-05,
93
+ "loss": 0.0,
94
+ "step": 12
95
+ },
96
+ {
97
+ "epoch": 0.07703703703703704,
98
+ "grad_norm": NaN,
99
+ "learning_rate": 5e-05,
100
+ "loss": 0.0,
101
+ "step": 13
102
+ },
103
+ {
104
+ "epoch": 0.08296296296296296,
105
+ "grad_norm": NaN,
106
+ "learning_rate": 5e-05,
107
+ "loss": 0.0,
108
+ "step": 14
109
+ },
110
+ {
111
+ "epoch": 0.08888888888888889,
112
+ "grad_norm": NaN,
113
+ "learning_rate": 5e-05,
114
+ "loss": 0.0,
115
+ "step": 15
116
+ },
117
+ {
118
+ "epoch": 0.09481481481481481,
119
+ "grad_norm": NaN,
120
+ "learning_rate": 5e-05,
121
+ "loss": 0.0,
122
+ "step": 16
123
+ },
124
+ {
125
+ "epoch": 0.10074074074074074,
126
+ "grad_norm": NaN,
127
+ "learning_rate": 5e-05,
128
+ "loss": 0.0,
129
+ "step": 17
130
+ },
131
+ {
132
+ "epoch": 0.10666666666666667,
133
+ "grad_norm": NaN,
134
+ "learning_rate": 5e-05,
135
+ "loss": 0.0,
136
+ "step": 18
137
+ },
138
+ {
139
+ "epoch": 0.11259259259259259,
140
+ "grad_norm": NaN,
141
+ "learning_rate": 5e-05,
142
+ "loss": 0.0,
143
+ "step": 19
144
+ },
145
+ {
146
+ "epoch": 0.11851851851851852,
147
+ "grad_norm": NaN,
148
+ "learning_rate": 5e-05,
149
+ "loss": 0.0,
150
+ "step": 20
151
+ },
152
+ {
153
+ "epoch": 0.12444444444444444,
154
+ "grad_norm": NaN,
155
+ "learning_rate": 5e-05,
156
+ "loss": 0.0,
157
+ "step": 21
158
+ },
159
+ {
160
+ "epoch": 0.13037037037037036,
161
+ "grad_norm": NaN,
162
+ "learning_rate": 5e-05,
163
+ "loss": 0.0,
164
+ "step": 22
165
+ },
166
+ {
167
+ "epoch": 0.1362962962962963,
168
+ "grad_norm": NaN,
169
+ "learning_rate": 5e-05,
170
+ "loss": 0.0,
171
+ "step": 23
172
+ },
173
+ {
174
+ "epoch": 0.14222222222222222,
175
+ "grad_norm": NaN,
176
+ "learning_rate": 5e-05,
177
+ "loss": 0.0,
178
+ "step": 24
179
+ },
180
+ {
181
+ "epoch": 0.14814814814814814,
182
+ "grad_norm": NaN,
183
+ "learning_rate": 5e-05,
184
+ "loss": 0.0,
185
+ "step": 25
186
+ },
187
+ {
188
+ "epoch": 0.15407407407407409,
189
+ "grad_norm": NaN,
190
+ "learning_rate": 5e-05,
191
+ "loss": 0.0,
192
+ "step": 26
193
+ },
194
+ {
195
+ "epoch": 0.16,
196
+ "grad_norm": NaN,
197
+ "learning_rate": 5e-05,
198
+ "loss": 0.0,
199
+ "step": 27
200
+ },
201
+ {
202
+ "epoch": 0.16592592592592592,
203
+ "grad_norm": NaN,
204
+ "learning_rate": 5e-05,
205
+ "loss": 0.0,
206
+ "step": 28
207
+ },
208
+ {
209
+ "epoch": 0.17185185185185184,
210
+ "grad_norm": NaN,
211
+ "learning_rate": 5e-05,
212
+ "loss": 0.0,
213
+ "step": 29
214
+ },
215
+ {
216
+ "epoch": 0.17777777777777778,
217
+ "grad_norm": NaN,
218
+ "learning_rate": 5e-05,
219
+ "loss": 0.0,
220
+ "step": 30
221
+ },
222
+ {
223
+ "epoch": 0.1837037037037037,
224
+ "grad_norm": NaN,
225
+ "learning_rate": 5e-05,
226
+ "loss": 0.0,
227
+ "step": 31
228
+ },
229
+ {
230
+ "epoch": 0.18962962962962962,
231
+ "grad_norm": NaN,
232
+ "learning_rate": 5e-05,
233
+ "loss": 0.0,
234
+ "step": 32
235
+ },
236
+ {
237
+ "epoch": 0.19555555555555557,
238
+ "grad_norm": NaN,
239
+ "learning_rate": 5e-05,
240
+ "loss": 0.0,
241
+ "step": 33
242
+ },
243
+ {
244
+ "epoch": 0.20148148148148148,
245
+ "grad_norm": NaN,
246
+ "learning_rate": 5e-05,
247
+ "loss": 0.0,
248
+ "step": 34
249
+ },
250
+ {
251
+ "epoch": 0.2074074074074074,
252
+ "grad_norm": NaN,
253
+ "learning_rate": 5e-05,
254
+ "loss": 0.0,
255
+ "step": 35
256
+ },
257
+ {
258
+ "epoch": 0.21333333333333335,
259
+ "grad_norm": NaN,
260
+ "learning_rate": 5e-05,
261
+ "loss": 0.0,
262
+ "step": 36
263
+ },
264
+ {
265
+ "epoch": 0.21925925925925926,
266
+ "grad_norm": NaN,
267
+ "learning_rate": 5e-05,
268
+ "loss": 0.0,
269
+ "step": 37
270
+ },
271
+ {
272
+ "epoch": 0.22518518518518518,
273
+ "grad_norm": NaN,
274
+ "learning_rate": 5e-05,
275
+ "loss": 0.0,
276
+ "step": 38
277
+ },
278
+ {
279
+ "epoch": 0.2311111111111111,
280
+ "grad_norm": NaN,
281
+ "learning_rate": 5e-05,
282
+ "loss": 0.0,
283
+ "step": 39
284
+ },
285
+ {
286
+ "epoch": 0.23703703703703705,
287
+ "grad_norm": NaN,
288
+ "learning_rate": 5e-05,
289
+ "loss": 0.0,
290
+ "step": 40
291
+ },
292
+ {
293
+ "epoch": 0.24296296296296296,
294
+ "grad_norm": NaN,
295
+ "learning_rate": 5e-05,
296
+ "loss": 0.0,
297
+ "step": 41
298
+ },
299
+ {
300
+ "epoch": 0.24888888888888888,
301
+ "grad_norm": NaN,
302
+ "learning_rate": 5e-05,
303
+ "loss": 0.0,
304
+ "step": 42
305
+ },
306
+ {
307
+ "epoch": 0.2548148148148148,
308
+ "grad_norm": NaN,
309
+ "learning_rate": 5e-05,
310
+ "loss": 0.0,
311
+ "step": 43
312
+ },
313
+ {
314
+ "epoch": 0.2607407407407407,
315
+ "grad_norm": NaN,
316
+ "learning_rate": 5e-05,
317
+ "loss": 0.0,
318
+ "step": 44
319
+ },
320
+ {
321
+ "epoch": 0.26666666666666666,
322
+ "grad_norm": NaN,
323
+ "learning_rate": 5e-05,
324
+ "loss": 0.0,
325
+ "step": 45
326
+ },
327
+ {
328
+ "epoch": 0.2725925925925926,
329
+ "grad_norm": NaN,
330
+ "learning_rate": 5e-05,
331
+ "loss": 0.0,
332
+ "step": 46
333
+ },
334
+ {
335
+ "epoch": 0.2785185185185185,
336
+ "grad_norm": NaN,
337
+ "learning_rate": 5e-05,
338
+ "loss": 0.0,
339
+ "step": 47
340
+ },
341
+ {
342
+ "epoch": 0.28444444444444444,
343
+ "grad_norm": NaN,
344
+ "learning_rate": 5e-05,
345
+ "loss": 0.0,
346
+ "step": 48
347
+ },
348
+ {
349
+ "epoch": 0.2903703703703704,
350
+ "grad_norm": NaN,
351
+ "learning_rate": 5e-05,
352
+ "loss": 0.0,
353
+ "step": 49
354
+ },
355
+ {
356
+ "epoch": 0.2962962962962963,
357
+ "grad_norm": NaN,
358
+ "learning_rate": 5e-05,
359
+ "loss": 0.0,
360
+ "step": 50
361
+ },
362
+ {
363
+ "epoch": 0.3022222222222222,
364
+ "grad_norm": NaN,
365
+ "learning_rate": 5e-05,
366
+ "loss": 0.0,
367
+ "step": 51
368
+ },
369
+ {
370
+ "epoch": 0.30814814814814817,
371
+ "grad_norm": NaN,
372
+ "learning_rate": 5e-05,
373
+ "loss": 0.0,
374
+ "step": 52
375
+ },
376
+ {
377
+ "epoch": 0.31407407407407406,
378
+ "grad_norm": NaN,
379
+ "learning_rate": 5e-05,
380
+ "loss": 0.0,
381
+ "step": 53
382
+ },
383
+ {
384
+ "epoch": 0.32,
385
+ "grad_norm": NaN,
386
+ "learning_rate": 5e-05,
387
+ "loss": 0.0,
388
+ "step": 54
389
+ },
390
+ {
391
+ "epoch": 0.32592592592592595,
392
+ "grad_norm": NaN,
393
+ "learning_rate": 5e-05,
394
+ "loss": 0.0,
395
+ "step": 55
396
+ },
397
+ {
398
+ "epoch": 0.33185185185185184,
399
+ "grad_norm": NaN,
400
+ "learning_rate": 5e-05,
401
+ "loss": 0.0,
402
+ "step": 56
403
+ },
404
+ {
405
+ "epoch": 0.3377777777777778,
406
+ "grad_norm": NaN,
407
+ "learning_rate": 5e-05,
408
+ "loss": 0.0,
409
+ "step": 57
410
+ },
411
+ {
412
+ "epoch": 0.3437037037037037,
413
+ "grad_norm": NaN,
414
+ "learning_rate": 5e-05,
415
+ "loss": 0.0,
416
+ "step": 58
417
+ },
418
+ {
419
+ "epoch": 0.3496296296296296,
420
+ "grad_norm": NaN,
421
+ "learning_rate": 5e-05,
422
+ "loss": 0.0,
423
+ "step": 59
424
+ },
425
+ {
426
+ "epoch": 0.35555555555555557,
427
+ "grad_norm": NaN,
428
+ "learning_rate": 5e-05,
429
+ "loss": 0.0,
430
+ "step": 60
431
+ },
432
+ {
433
+ "epoch": 0.36148148148148146,
434
+ "grad_norm": NaN,
435
+ "learning_rate": 5e-05,
436
+ "loss": 0.0,
437
+ "step": 61
438
+ },
439
+ {
440
+ "epoch": 0.3674074074074074,
441
+ "grad_norm": NaN,
442
+ "learning_rate": 5e-05,
443
+ "loss": 0.0,
444
+ "step": 62
445
+ },
446
+ {
447
+ "epoch": 0.37333333333333335,
448
+ "grad_norm": NaN,
449
+ "learning_rate": 5e-05,
450
+ "loss": 0.0,
451
+ "step": 63
452
+ },
453
+ {
454
+ "epoch": 0.37925925925925924,
455
+ "grad_norm": NaN,
456
+ "learning_rate": 5e-05,
457
+ "loss": 0.0,
458
+ "step": 64
459
+ },
460
+ {
461
+ "epoch": 0.3851851851851852,
462
+ "grad_norm": NaN,
463
+ "learning_rate": 5e-05,
464
+ "loss": 0.0,
465
+ "step": 65
466
+ },
467
+ {
468
+ "epoch": 0.39111111111111113,
469
+ "grad_norm": NaN,
470
+ "learning_rate": 5e-05,
471
+ "loss": 0.0,
472
+ "step": 66
473
+ },
474
+ {
475
+ "epoch": 0.397037037037037,
476
+ "grad_norm": NaN,
477
+ "learning_rate": 5e-05,
478
+ "loss": 0.0,
479
+ "step": 67
480
+ },
481
+ {
482
+ "epoch": 0.40296296296296297,
483
+ "grad_norm": NaN,
484
+ "learning_rate": 5e-05,
485
+ "loss": 0.0,
486
+ "step": 68
487
+ },
488
+ {
489
+ "epoch": 0.4088888888888889,
490
+ "grad_norm": NaN,
491
+ "learning_rate": 5e-05,
492
+ "loss": 0.0,
493
+ "step": 69
494
+ },
495
+ {
496
+ "epoch": 0.4148148148148148,
497
+ "grad_norm": NaN,
498
+ "learning_rate": 5e-05,
499
+ "loss": 0.0,
500
+ "step": 70
501
+ },
502
+ {
503
+ "epoch": 0.4148148148148148,
504
+ "eval_loss": 40297.44140625,
505
+ "eval_runtime": 63.992,
506
+ "eval_samples_per_second": 7.032,
507
+ "eval_steps_per_second": 1.172,
508
+ "eval_wer": 1.0381992969974168,
509
+ "step": 70
510
+ }
511
+ ],
512
+ "logging_steps": 1,
513
+ "max_steps": 1008,
514
+ "num_input_tokens_seen": 0,
515
+ "num_train_epochs": 6,
516
+ "save_steps": 70,
517
+ "stateful_callbacks": {
518
+ "TrainerControl": {
519
+ "args": {
520
+ "should_epoch_stop": false,
521
+ "should_evaluate": false,
522
+ "should_log": false,
523
+ "should_save": true,
524
+ "should_training_stop": false
525
+ },
526
+ "attributes": {}
527
+ }
528
+ },
529
+ "total_flos": 5.741987041980864e+17,
530
+ "train_batch_size": 6,
531
+ "trial_name": null,
532
+ "trial_params": null
533
+ }