Marwan-Kasem commited on
Commit
d4c2ce5
·
verified ·
1 Parent(s): 77313d6

Upload checkpoint directory

Browse files
checkpoint-5000/config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Marwan-Kasem/whisper-small-hi42",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "gelu",
5
+ "apply_spec_augment": false,
6
+ "architectures": [
7
+ "WhisperForConditionalGeneration"
8
+ ],
9
+ "attention_dropout": 0.0,
10
+ "begin_suppress_tokens": null,
11
+ "bos_token_id": 50257,
12
+ "classifier_proj_size": 256,
13
+ "d_model": 768,
14
+ "decoder_attention_heads": 12,
15
+ "decoder_ffn_dim": 3072,
16
+ "decoder_layerdrop": 0.0,
17
+ "decoder_layers": 12,
18
+ "decoder_start_token_id": 50258,
19
+ "dropout": 0.0,
20
+ "encoder_attention_heads": 12,
21
+ "encoder_ffn_dim": 3072,
22
+ "encoder_layerdrop": 0.0,
23
+ "encoder_layers": 12,
24
+ "eos_token_id": 50257,
25
+ "forced_decoder_ids": [
26
+ [
27
+ 1,
28
+ 50259
29
+ ],
30
+ [
31
+ 2,
32
+ 50359
33
+ ],
34
+ [
35
+ 3,
36
+ 50363
37
+ ]
38
+ ],
39
+ "init_std": 0.02,
40
+ "is_encoder_decoder": true,
41
+ "mask_feature_length": 10,
42
+ "mask_feature_min_masks": 0,
43
+ "mask_feature_prob": 0.0,
44
+ "mask_time_length": 10,
45
+ "mask_time_min_masks": 2,
46
+ "mask_time_prob": 0.05,
47
+ "max_length": null,
48
+ "max_source_positions": 1500,
49
+ "max_target_positions": 448,
50
+ "median_filter_width": 7,
51
+ "model_type": "whisper",
52
+ "num_hidden_layers": 12,
53
+ "num_mel_bins": 80,
54
+ "pad_token_id": 50257,
55
+ "scale_embedding": false,
56
+ "torch_dtype": "float32",
57
+ "transformers_version": "4.47.0",
58
+ "use_cache": false,
59
+ "use_weighted_layer_sum": false,
60
+ "vocab_size": 51865
61
+ }
checkpoint-5000/generation_config.json ADDED
@@ -0,0 +1,264 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alignment_heads": [
3
+ [
4
+ 5,
5
+ 3
6
+ ],
7
+ [
8
+ 5,
9
+ 9
10
+ ],
11
+ [
12
+ 8,
13
+ 0
14
+ ],
15
+ [
16
+ 8,
17
+ 4
18
+ ],
19
+ [
20
+ 8,
21
+ 7
22
+ ],
23
+ [
24
+ 8,
25
+ 8
26
+ ],
27
+ [
28
+ 9,
29
+ 0
30
+ ],
31
+ [
32
+ 9,
33
+ 7
34
+ ],
35
+ [
36
+ 9,
37
+ 9
38
+ ],
39
+ [
40
+ 10,
41
+ 5
42
+ ]
43
+ ],
44
+ "begin_suppress_tokens": [
45
+ 220,
46
+ 50257
47
+ ],
48
+ "bos_token_id": 50257,
49
+ "decoder_start_token_id": 50258,
50
+ "eos_token_id": 50257,
51
+ "forced_decoder_ids": [
52
+ [
53
+ 1,
54
+ null
55
+ ],
56
+ [
57
+ 2,
58
+ 50359
59
+ ]
60
+ ],
61
+ "is_multilingual": true,
62
+ "lang_to_id": {
63
+ "<|af|>": 50327,
64
+ "<|am|>": 50334,
65
+ "<|ar|>": 50272,
66
+ "<|as|>": 50350,
67
+ "<|az|>": 50304,
68
+ "<|ba|>": 50355,
69
+ "<|be|>": 50330,
70
+ "<|bg|>": 50292,
71
+ "<|bn|>": 50302,
72
+ "<|bo|>": 50347,
73
+ "<|br|>": 50309,
74
+ "<|bs|>": 50315,
75
+ "<|ca|>": 50270,
76
+ "<|cs|>": 50283,
77
+ "<|cy|>": 50297,
78
+ "<|da|>": 50285,
79
+ "<|de|>": 50261,
80
+ "<|el|>": 50281,
81
+ "<|en|>": 50259,
82
+ "<|es|>": 50262,
83
+ "<|et|>": 50307,
84
+ "<|eu|>": 50310,
85
+ "<|fa|>": 50300,
86
+ "<|fi|>": 50277,
87
+ "<|fo|>": 50338,
88
+ "<|fr|>": 50265,
89
+ "<|gl|>": 50319,
90
+ "<|gu|>": 50333,
91
+ "<|haw|>": 50352,
92
+ "<|ha|>": 50354,
93
+ "<|he|>": 50279,
94
+ "<|hi|>": 50276,
95
+ "<|hr|>": 50291,
96
+ "<|ht|>": 50339,
97
+ "<|hu|>": 50286,
98
+ "<|hy|>": 50312,
99
+ "<|id|>": 50275,
100
+ "<|is|>": 50311,
101
+ "<|it|>": 50274,
102
+ "<|ja|>": 50266,
103
+ "<|jw|>": 50356,
104
+ "<|ka|>": 50329,
105
+ "<|kk|>": 50316,
106
+ "<|km|>": 50323,
107
+ "<|kn|>": 50306,
108
+ "<|ko|>": 50264,
109
+ "<|la|>": 50294,
110
+ "<|lb|>": 50345,
111
+ "<|ln|>": 50353,
112
+ "<|lo|>": 50336,
113
+ "<|lt|>": 50293,
114
+ "<|lv|>": 50301,
115
+ "<|mg|>": 50349,
116
+ "<|mi|>": 50295,
117
+ "<|mk|>": 50308,
118
+ "<|ml|>": 50296,
119
+ "<|mn|>": 50314,
120
+ "<|mr|>": 50320,
121
+ "<|ms|>": 50282,
122
+ "<|mt|>": 50343,
123
+ "<|my|>": 50346,
124
+ "<|ne|>": 50313,
125
+ "<|nl|>": 50271,
126
+ "<|nn|>": 50342,
127
+ "<|no|>": 50288,
128
+ "<|oc|>": 50328,
129
+ "<|pa|>": 50321,
130
+ "<|pl|>": 50269,
131
+ "<|ps|>": 50340,
132
+ "<|pt|>": 50267,
133
+ "<|ro|>": 50284,
134
+ "<|ru|>": 50263,
135
+ "<|sa|>": 50344,
136
+ "<|sd|>": 50332,
137
+ "<|si|>": 50322,
138
+ "<|sk|>": 50298,
139
+ "<|sl|>": 50305,
140
+ "<|sn|>": 50324,
141
+ "<|so|>": 50326,
142
+ "<|sq|>": 50317,
143
+ "<|sr|>": 50303,
144
+ "<|su|>": 50357,
145
+ "<|sv|>": 50273,
146
+ "<|sw|>": 50318,
147
+ "<|ta|>": 50287,
148
+ "<|te|>": 50299,
149
+ "<|tg|>": 50331,
150
+ "<|th|>": 50289,
151
+ "<|tk|>": 50341,
152
+ "<|tl|>": 50348,
153
+ "<|tr|>": 50268,
154
+ "<|tt|>": 50351,
155
+ "<|uk|>": 50280,
156
+ "<|ur|>": 50290,
157
+ "<|uz|>": 50337,
158
+ "<|vi|>": 50278,
159
+ "<|yi|>": 50335,
160
+ "<|yo|>": 50325,
161
+ "<|zh|>": 50260
162
+ },
163
+ "language": "english",
164
+ "max_initial_timestamp_index": 50,
165
+ "max_length": 448,
166
+ "no_timestamps_token_id": 50363,
167
+ "pad_token_id": 50257,
168
+ "prev_sot_token_id": 50361,
169
+ "return_timestamps": false,
170
+ "suppress_tokens": [
171
+ 1,
172
+ 2,
173
+ 7,
174
+ 8,
175
+ 9,
176
+ 10,
177
+ 14,
178
+ 25,
179
+ 26,
180
+ 27,
181
+ 28,
182
+ 29,
183
+ 31,
184
+ 58,
185
+ 59,
186
+ 60,
187
+ 61,
188
+ 62,
189
+ 63,
190
+ 90,
191
+ 91,
192
+ 92,
193
+ 93,
194
+ 359,
195
+ 503,
196
+ 522,
197
+ 542,
198
+ 873,
199
+ 893,
200
+ 902,
201
+ 918,
202
+ 922,
203
+ 931,
204
+ 1350,
205
+ 1853,
206
+ 1982,
207
+ 2460,
208
+ 2627,
209
+ 3246,
210
+ 3253,
211
+ 3268,
212
+ 3536,
213
+ 3846,
214
+ 3961,
215
+ 4183,
216
+ 4667,
217
+ 6585,
218
+ 6647,
219
+ 7273,
220
+ 9061,
221
+ 9383,
222
+ 10428,
223
+ 10929,
224
+ 11938,
225
+ 12033,
226
+ 12331,
227
+ 12562,
228
+ 13793,
229
+ 14157,
230
+ 14635,
231
+ 15265,
232
+ 15618,
233
+ 16553,
234
+ 16604,
235
+ 18362,
236
+ 18956,
237
+ 20075,
238
+ 21675,
239
+ 22520,
240
+ 26130,
241
+ 26161,
242
+ 26435,
243
+ 28279,
244
+ 29464,
245
+ 31650,
246
+ 32302,
247
+ 32470,
248
+ 36865,
249
+ 42863,
250
+ 47425,
251
+ 49870,
252
+ 50254,
253
+ 50258,
254
+ 50360,
255
+ 50361,
256
+ 50362
257
+ ],
258
+ "task": "transcribe",
259
+ "task_to_id": {
260
+ "transcribe": 50359,
261
+ "translate": 50358
262
+ },
263
+ "transformers_version": "4.47.0"
264
+ }
checkpoint-5000/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7725fd97010404929ac3190fe96450acde6e0fa5c682bc1d797fd6445141392c
3
+ size 966995080
checkpoint-5000/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:27dd860ce33287935aec8fd2313d2c76aaf70f18c7608b87ee534539d825d041
3
+ size 1925064044
checkpoint-5000/preprocessor_config.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "chunk_length": 30,
3
+ "feature_extractor_type": "WhisperFeatureExtractor",
4
+ "feature_size": 80,
5
+ "hop_length": 160,
6
+ "n_fft": 400,
7
+ "n_samples": 480000,
8
+ "nb_max_frames": 3000,
9
+ "padding_side": "right",
10
+ "padding_value": 0.0,
11
+ "processor_class": "WhisperProcessor",
12
+ "return_attention_mask": false,
13
+ "sampling_rate": 16000
14
+ }
checkpoint-5000/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fc95685584141f48b03398083068ebb84d7ea0b8823c3b4c31a52f8ee87aedf6
3
+ size 14244
checkpoint-5000/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:95fccff3d542d6c16277c65e5812a6d56ba8bfd572ee45d3b997123c549b8ec2
3
+ size 1064
checkpoint-5000/trainer_state.json ADDED
@@ -0,0 +1,1460 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 894.1176470588235,
3
+ "best_model_checkpoint": "./whisper-small-hi42/checkpoint-2500",
4
+ "epoch": 0.737300007373,
5
+ "eval_steps": 2500,
6
+ "global_step": 5000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0036865000368650003,
13
+ "grad_norm": 18.75660514831543,
14
+ "learning_rate": 1.26e-06,
15
+ "loss": 0.2281,
16
+ "step": 25
17
+ },
18
+ {
19
+ "epoch": 0.007373000073730001,
20
+ "grad_norm": 9.051491737365723,
21
+ "learning_rate": 2.76e-06,
22
+ "loss": 0.2149,
23
+ "step": 50
24
+ },
25
+ {
26
+ "epoch": 0.011059500110595002,
27
+ "grad_norm": 18.25735092163086,
28
+ "learning_rate": 4.26e-06,
29
+ "loss": 0.1847,
30
+ "step": 75
31
+ },
32
+ {
33
+ "epoch": 0.014746000147460001,
34
+ "grad_norm": 15.795555114746094,
35
+ "learning_rate": 5.76e-06,
36
+ "loss": 0.1578,
37
+ "step": 100
38
+ },
39
+ {
40
+ "epoch": 0.018432500184325,
41
+ "grad_norm": 19.176794052124023,
42
+ "learning_rate": 7.26e-06,
43
+ "loss": 0.1898,
44
+ "step": 125
45
+ },
46
+ {
47
+ "epoch": 0.022119000221190004,
48
+ "grad_norm": 12.162376403808594,
49
+ "learning_rate": 8.759999999999999e-06,
50
+ "loss": 0.1925,
51
+ "step": 150
52
+ },
53
+ {
54
+ "epoch": 0.025805500258055003,
55
+ "grad_norm": 21.789493560791016,
56
+ "learning_rate": 1.0260000000000002e-05,
57
+ "loss": 0.1932,
58
+ "step": 175
59
+ },
60
+ {
61
+ "epoch": 0.029492000294920002,
62
+ "grad_norm": 19.523834228515625,
63
+ "learning_rate": 1.1760000000000001e-05,
64
+ "loss": 0.2111,
65
+ "step": 200
66
+ },
67
+ {
68
+ "epoch": 0.033178500331785,
69
+ "grad_norm": 29.254791259765625,
70
+ "learning_rate": 1.326e-05,
71
+ "loss": 0.181,
72
+ "step": 225
73
+ },
74
+ {
75
+ "epoch": 0.03686500036865,
76
+ "grad_norm": 24.781688690185547,
77
+ "learning_rate": 1.4760000000000001e-05,
78
+ "loss": 0.2074,
79
+ "step": 250
80
+ },
81
+ {
82
+ "epoch": 0.040551500405515,
83
+ "grad_norm": 81.7341079711914,
84
+ "learning_rate": 1.626e-05,
85
+ "loss": 0.263,
86
+ "step": 275
87
+ },
88
+ {
89
+ "epoch": 0.04423800044238001,
90
+ "grad_norm": 15.537775993347168,
91
+ "learning_rate": 1.776e-05,
92
+ "loss": 0.2319,
93
+ "step": 300
94
+ },
95
+ {
96
+ "epoch": 0.04792450047924501,
97
+ "grad_norm": 30.62382698059082,
98
+ "learning_rate": 1.9260000000000002e-05,
99
+ "loss": 0.2183,
100
+ "step": 325
101
+ },
102
+ {
103
+ "epoch": 0.051611000516110006,
104
+ "grad_norm": 17.783288955688477,
105
+ "learning_rate": 2.0759999999999998e-05,
106
+ "loss": 0.2514,
107
+ "step": 350
108
+ },
109
+ {
110
+ "epoch": 0.055297500552975005,
111
+ "grad_norm": 17.249370574951172,
112
+ "learning_rate": 2.226e-05,
113
+ "loss": 0.2235,
114
+ "step": 375
115
+ },
116
+ {
117
+ "epoch": 0.058984000589840005,
118
+ "grad_norm": 15.030986785888672,
119
+ "learning_rate": 2.3760000000000003e-05,
120
+ "loss": 0.2287,
121
+ "step": 400
122
+ },
123
+ {
124
+ "epoch": 0.06267050062670501,
125
+ "grad_norm": 13.615246772766113,
126
+ "learning_rate": 2.526e-05,
127
+ "loss": 0.2055,
128
+ "step": 425
129
+ },
130
+ {
131
+ "epoch": 0.06635700066357,
132
+ "grad_norm": 16.132198333740234,
133
+ "learning_rate": 2.676e-05,
134
+ "loss": 0.3079,
135
+ "step": 450
136
+ },
137
+ {
138
+ "epoch": 0.07004350070043501,
139
+ "grad_norm": 14.509906768798828,
140
+ "learning_rate": 2.826e-05,
141
+ "loss": 0.2644,
142
+ "step": 475
143
+ },
144
+ {
145
+ "epoch": 0.0737300007373,
146
+ "grad_norm": 26.63431167602539,
147
+ "learning_rate": 2.976e-05,
148
+ "loss": 0.2891,
149
+ "step": 500
150
+ },
151
+ {
152
+ "epoch": 0.07741650077416501,
153
+ "grad_norm": 19.87978744506836,
154
+ "learning_rate": 2.986e-05,
155
+ "loss": 0.303,
156
+ "step": 525
157
+ },
158
+ {
159
+ "epoch": 0.08110300081103,
160
+ "grad_norm": 20.629268646240234,
161
+ "learning_rate": 2.9693333333333333e-05,
162
+ "loss": 0.276,
163
+ "step": 550
164
+ },
165
+ {
166
+ "epoch": 0.08478950084789501,
167
+ "grad_norm": 21.41944122314453,
168
+ "learning_rate": 2.9526666666666666e-05,
169
+ "loss": 0.3054,
170
+ "step": 575
171
+ },
172
+ {
173
+ "epoch": 0.08847600088476001,
174
+ "grad_norm": 22.30516815185547,
175
+ "learning_rate": 2.936e-05,
176
+ "loss": 0.2826,
177
+ "step": 600
178
+ },
179
+ {
180
+ "epoch": 0.092162500921625,
181
+ "grad_norm": 26.738222122192383,
182
+ "learning_rate": 2.9193333333333334e-05,
183
+ "loss": 0.2567,
184
+ "step": 625
185
+ },
186
+ {
187
+ "epoch": 0.09584900095849001,
188
+ "grad_norm": 20.48783302307129,
189
+ "learning_rate": 2.9026666666666664e-05,
190
+ "loss": 0.2818,
191
+ "step": 650
192
+ },
193
+ {
194
+ "epoch": 0.099535500995355,
195
+ "grad_norm": 20.21194839477539,
196
+ "learning_rate": 2.8859999999999998e-05,
197
+ "loss": 0.2581,
198
+ "step": 675
199
+ },
200
+ {
201
+ "epoch": 0.10322200103222001,
202
+ "grad_norm": 17.05075454711914,
203
+ "learning_rate": 2.8693333333333335e-05,
204
+ "loss": 0.3104,
205
+ "step": 700
206
+ },
207
+ {
208
+ "epoch": 0.106908501069085,
209
+ "grad_norm": 21.780668258666992,
210
+ "learning_rate": 2.852666666666667e-05,
211
+ "loss": 0.2956,
212
+ "step": 725
213
+ },
214
+ {
215
+ "epoch": 0.11059500110595001,
216
+ "grad_norm": 68.6823959350586,
217
+ "learning_rate": 2.8360000000000003e-05,
218
+ "loss": 0.24,
219
+ "step": 750
220
+ },
221
+ {
222
+ "epoch": 0.11428150114281502,
223
+ "grad_norm": 11.34193229675293,
224
+ "learning_rate": 2.8193333333333337e-05,
225
+ "loss": 0.2695,
226
+ "step": 775
227
+ },
228
+ {
229
+ "epoch": 0.11796800117968001,
230
+ "grad_norm": 16.80828285217285,
231
+ "learning_rate": 2.8026666666666667e-05,
232
+ "loss": 0.2308,
233
+ "step": 800
234
+ },
235
+ {
236
+ "epoch": 0.12165450121654502,
237
+ "grad_norm": 12.456579208374023,
238
+ "learning_rate": 2.786e-05,
239
+ "loss": 0.2881,
240
+ "step": 825
241
+ },
242
+ {
243
+ "epoch": 0.12534100125341002,
244
+ "grad_norm": 23.235368728637695,
245
+ "learning_rate": 2.7693333333333335e-05,
246
+ "loss": 0.2695,
247
+ "step": 850
248
+ },
249
+ {
250
+ "epoch": 0.12902750129027502,
251
+ "grad_norm": 38.54967498779297,
252
+ "learning_rate": 2.752666666666667e-05,
253
+ "loss": 0.292,
254
+ "step": 875
255
+ },
256
+ {
257
+ "epoch": 0.13271400132714,
258
+ "grad_norm": 26.577716827392578,
259
+ "learning_rate": 2.7360000000000002e-05,
260
+ "loss": 0.2879,
261
+ "step": 900
262
+ },
263
+ {
264
+ "epoch": 0.136400501364005,
265
+ "grad_norm": 21.612504959106445,
266
+ "learning_rate": 2.7193333333333336e-05,
267
+ "loss": 0.2637,
268
+ "step": 925
269
+ },
270
+ {
271
+ "epoch": 0.14008700140087002,
272
+ "grad_norm": 19.746545791625977,
273
+ "learning_rate": 2.7026666666666667e-05,
274
+ "loss": 0.2681,
275
+ "step": 950
276
+ },
277
+ {
278
+ "epoch": 0.143773501437735,
279
+ "grad_norm": 24.593490600585938,
280
+ "learning_rate": 2.686e-05,
281
+ "loss": 0.2613,
282
+ "step": 975
283
+ },
284
+ {
285
+ "epoch": 0.1474600014746,
286
+ "grad_norm": 16.352689743041992,
287
+ "learning_rate": 2.6700000000000002e-05,
288
+ "loss": 0.3057,
289
+ "step": 1000
290
+ },
291
+ {
292
+ "epoch": 0.15114650151146503,
293
+ "grad_norm": 13.311758041381836,
294
+ "learning_rate": 2.6533333333333336e-05,
295
+ "loss": 0.2774,
296
+ "step": 1025
297
+ },
298
+ {
299
+ "epoch": 0.15483300154833002,
300
+ "grad_norm": 17.516489028930664,
301
+ "learning_rate": 2.636666666666667e-05,
302
+ "loss": 0.2854,
303
+ "step": 1050
304
+ },
305
+ {
306
+ "epoch": 0.158519501585195,
307
+ "grad_norm": 29.11515998840332,
308
+ "learning_rate": 2.62e-05,
309
+ "loss": 0.2443,
310
+ "step": 1075
311
+ },
312
+ {
313
+ "epoch": 0.16220600162206,
314
+ "grad_norm": 22.366535186767578,
315
+ "learning_rate": 2.6033333333333334e-05,
316
+ "loss": 0.269,
317
+ "step": 1100
318
+ },
319
+ {
320
+ "epoch": 0.16589250165892502,
321
+ "grad_norm": 22.265789031982422,
322
+ "learning_rate": 2.5866666666666667e-05,
323
+ "loss": 0.2491,
324
+ "step": 1125
325
+ },
326
+ {
327
+ "epoch": 0.16957900169579002,
328
+ "grad_norm": 27.416053771972656,
329
+ "learning_rate": 2.57e-05,
330
+ "loss": 0.298,
331
+ "step": 1150
332
+ },
333
+ {
334
+ "epoch": 0.173265501732655,
335
+ "grad_norm": 46.90145492553711,
336
+ "learning_rate": 2.5533333333333335e-05,
337
+ "loss": 0.2701,
338
+ "step": 1175
339
+ },
340
+ {
341
+ "epoch": 0.17695200176952003,
342
+ "grad_norm": 17.11941146850586,
343
+ "learning_rate": 2.5366666666666665e-05,
344
+ "loss": 0.277,
345
+ "step": 1200
346
+ },
347
+ {
348
+ "epoch": 0.18063850180638502,
349
+ "grad_norm": 18.886322021484375,
350
+ "learning_rate": 2.52e-05,
351
+ "loss": 0.286,
352
+ "step": 1225
353
+ },
354
+ {
355
+ "epoch": 0.18432500184325,
356
+ "grad_norm": 31.968734741210938,
357
+ "learning_rate": 2.504e-05,
358
+ "loss": 0.3451,
359
+ "step": 1250
360
+ },
361
+ {
362
+ "epoch": 0.188011501880115,
363
+ "grad_norm": 21.282339096069336,
364
+ "learning_rate": 2.4873333333333335e-05,
365
+ "loss": 0.2694,
366
+ "step": 1275
367
+ },
368
+ {
369
+ "epoch": 0.19169800191698003,
370
+ "grad_norm": 20.881519317626953,
371
+ "learning_rate": 2.4713333333333336e-05,
372
+ "loss": 0.2769,
373
+ "step": 1300
374
+ },
375
+ {
376
+ "epoch": 0.19538450195384502,
377
+ "grad_norm": 26.259872436523438,
378
+ "learning_rate": 2.4546666666666667e-05,
379
+ "loss": 0.2351,
380
+ "step": 1325
381
+ },
382
+ {
383
+ "epoch": 0.19907100199071,
384
+ "grad_norm": 20.44563865661621,
385
+ "learning_rate": 2.438e-05,
386
+ "loss": 0.2618,
387
+ "step": 1350
388
+ },
389
+ {
390
+ "epoch": 0.20275750202757503,
391
+ "grad_norm": 20.123743057250977,
392
+ "learning_rate": 2.4213333333333334e-05,
393
+ "loss": 0.2596,
394
+ "step": 1375
395
+ },
396
+ {
397
+ "epoch": 0.20644400206444002,
398
+ "grad_norm": 20.72513198852539,
399
+ "learning_rate": 2.4046666666666668e-05,
400
+ "loss": 0.3285,
401
+ "step": 1400
402
+ },
403
+ {
404
+ "epoch": 0.21013050210130502,
405
+ "grad_norm": 15.452094078063965,
406
+ "learning_rate": 2.3880000000000002e-05,
407
+ "loss": 0.2632,
408
+ "step": 1425
409
+ },
410
+ {
411
+ "epoch": 0.21381700213817,
412
+ "grad_norm": 28.110380172729492,
413
+ "learning_rate": 2.3713333333333332e-05,
414
+ "loss": 0.3212,
415
+ "step": 1450
416
+ },
417
+ {
418
+ "epoch": 0.21750350217503503,
419
+ "grad_norm": 29.40423583984375,
420
+ "learning_rate": 2.3546666666666666e-05,
421
+ "loss": 0.2967,
422
+ "step": 1475
423
+ },
424
+ {
425
+ "epoch": 0.22119000221190002,
426
+ "grad_norm": 18.681171417236328,
427
+ "learning_rate": 2.338e-05,
428
+ "loss": 0.2611,
429
+ "step": 1500
430
+ },
431
+ {
432
+ "epoch": 0.22487650224876501,
433
+ "grad_norm": 20.94416046142578,
434
+ "learning_rate": 2.3213333333333334e-05,
435
+ "loss": 0.2489,
436
+ "step": 1525
437
+ },
438
+ {
439
+ "epoch": 0.22856300228563003,
440
+ "grad_norm": 20.738452911376953,
441
+ "learning_rate": 2.3046666666666667e-05,
442
+ "loss": 0.232,
443
+ "step": 1550
444
+ },
445
+ {
446
+ "epoch": 0.23224950232249503,
447
+ "grad_norm": 20.05936050415039,
448
+ "learning_rate": 2.288e-05,
449
+ "loss": 0.3029,
450
+ "step": 1575
451
+ },
452
+ {
453
+ "epoch": 0.23593600235936002,
454
+ "grad_norm": 20.57016944885254,
455
+ "learning_rate": 2.271333333333333e-05,
456
+ "loss": 0.2726,
457
+ "step": 1600
458
+ },
459
+ {
460
+ "epoch": 0.239622502396225,
461
+ "grad_norm": 26.36762237548828,
462
+ "learning_rate": 2.2546666666666665e-05,
463
+ "loss": 0.3293,
464
+ "step": 1625
465
+ },
466
+ {
467
+ "epoch": 0.24330900243309003,
468
+ "grad_norm": 15.222780227661133,
469
+ "learning_rate": 2.238e-05,
470
+ "loss": 0.2739,
471
+ "step": 1650
472
+ },
473
+ {
474
+ "epoch": 0.24699550246995503,
475
+ "grad_norm": 14.14052963256836,
476
+ "learning_rate": 2.2213333333333333e-05,
477
+ "loss": 0.3381,
478
+ "step": 1675
479
+ },
480
+ {
481
+ "epoch": 0.25068200250682005,
482
+ "grad_norm": 24.071794509887695,
483
+ "learning_rate": 2.2046666666666667e-05,
484
+ "loss": 0.2647,
485
+ "step": 1700
486
+ },
487
+ {
488
+ "epoch": 0.25436850254368504,
489
+ "grad_norm": 17.39927101135254,
490
+ "learning_rate": 2.188e-05,
491
+ "loss": 0.2568,
492
+ "step": 1725
493
+ },
494
+ {
495
+ "epoch": 0.25805500258055003,
496
+ "grad_norm": 10.502955436706543,
497
+ "learning_rate": 2.1713333333333334e-05,
498
+ "loss": 0.2547,
499
+ "step": 1750
500
+ },
501
+ {
502
+ "epoch": 0.261741502617415,
503
+ "grad_norm": 10.240669250488281,
504
+ "learning_rate": 2.1546666666666668e-05,
505
+ "loss": 0.2874,
506
+ "step": 1775
507
+ },
508
+ {
509
+ "epoch": 0.26542800265428,
510
+ "grad_norm": 14.164012908935547,
511
+ "learning_rate": 2.1380000000000002e-05,
512
+ "loss": 0.2762,
513
+ "step": 1800
514
+ },
515
+ {
516
+ "epoch": 0.269114502691145,
517
+ "grad_norm": 20.989524841308594,
518
+ "learning_rate": 2.1213333333333336e-05,
519
+ "loss": 0.2981,
520
+ "step": 1825
521
+ },
522
+ {
523
+ "epoch": 0.27280100272801,
524
+ "grad_norm": 24.458831787109375,
525
+ "learning_rate": 2.104666666666667e-05,
526
+ "loss": 0.2788,
527
+ "step": 1850
528
+ },
529
+ {
530
+ "epoch": 0.27648750276487505,
531
+ "grad_norm": 14.625513076782227,
532
+ "learning_rate": 2.088e-05,
533
+ "loss": 0.252,
534
+ "step": 1875
535
+ },
536
+ {
537
+ "epoch": 0.28017400280174004,
538
+ "grad_norm": 19.73975944519043,
539
+ "learning_rate": 2.0713333333333334e-05,
540
+ "loss": 0.288,
541
+ "step": 1900
542
+ },
543
+ {
544
+ "epoch": 0.28386050283860503,
545
+ "grad_norm": 13.620248794555664,
546
+ "learning_rate": 2.0546666666666668e-05,
547
+ "loss": 0.2949,
548
+ "step": 1925
549
+ },
550
+ {
551
+ "epoch": 0.28754700287547,
552
+ "grad_norm": 30.92563247680664,
553
+ "learning_rate": 2.038e-05,
554
+ "loss": 0.2783,
555
+ "step": 1950
556
+ },
557
+ {
558
+ "epoch": 0.291233502912335,
559
+ "grad_norm": 23.79368782043457,
560
+ "learning_rate": 2.0213333333333335e-05,
561
+ "loss": 0.2906,
562
+ "step": 1975
563
+ },
564
+ {
565
+ "epoch": 0.2949200029492,
566
+ "grad_norm": 20.57227897644043,
567
+ "learning_rate": 2.004666666666667e-05,
568
+ "loss": 0.3046,
569
+ "step": 2000
570
+ },
571
+ {
572
+ "epoch": 0.298606502986065,
573
+ "grad_norm": 15.093461036682129,
574
+ "learning_rate": 1.988e-05,
575
+ "loss": 0.3137,
576
+ "step": 2025
577
+ },
578
+ {
579
+ "epoch": 0.30229300302293005,
580
+ "grad_norm": 20.4903564453125,
581
+ "learning_rate": 1.9713333333333333e-05,
582
+ "loss": 0.2995,
583
+ "step": 2050
584
+ },
585
+ {
586
+ "epoch": 0.30597950305979504,
587
+ "grad_norm": 15.112691879272461,
588
+ "learning_rate": 1.9546666666666667e-05,
589
+ "loss": 0.2575,
590
+ "step": 2075
591
+ },
592
+ {
593
+ "epoch": 0.30966600309666004,
594
+ "grad_norm": 54.09142303466797,
595
+ "learning_rate": 1.938e-05,
596
+ "loss": 0.2476,
597
+ "step": 2100
598
+ },
599
+ {
600
+ "epoch": 0.31335250313352503,
601
+ "grad_norm": 17.167198181152344,
602
+ "learning_rate": 1.9213333333333335e-05,
603
+ "loss": 0.2134,
604
+ "step": 2125
605
+ },
606
+ {
607
+ "epoch": 0.31703900317039,
608
+ "grad_norm": 27.618459701538086,
609
+ "learning_rate": 1.9046666666666665e-05,
610
+ "loss": 0.284,
611
+ "step": 2150
612
+ },
613
+ {
614
+ "epoch": 0.320725503207255,
615
+ "grad_norm": 17.521888732910156,
616
+ "learning_rate": 1.888e-05,
617
+ "loss": 0.2772,
618
+ "step": 2175
619
+ },
620
+ {
621
+ "epoch": 0.32441200324412,
622
+ "grad_norm": 21.149431228637695,
623
+ "learning_rate": 1.8713333333333333e-05,
624
+ "loss": 0.2058,
625
+ "step": 2200
626
+ },
627
+ {
628
+ "epoch": 0.32809850328098505,
629
+ "grad_norm": 17.894245147705078,
630
+ "learning_rate": 1.8546666666666666e-05,
631
+ "loss": 0.2566,
632
+ "step": 2225
633
+ },
634
+ {
635
+ "epoch": 0.33178500331785005,
636
+ "grad_norm": 17.015249252319336,
637
+ "learning_rate": 1.838e-05,
638
+ "loss": 0.2207,
639
+ "step": 2250
640
+ },
641
+ {
642
+ "epoch": 0.33547150335471504,
643
+ "grad_norm": 11.300625801086426,
644
+ "learning_rate": 1.8213333333333334e-05,
645
+ "loss": 0.2179,
646
+ "step": 2275
647
+ },
648
+ {
649
+ "epoch": 0.33915800339158003,
650
+ "grad_norm": 19.790618896484375,
651
+ "learning_rate": 1.8046666666666664e-05,
652
+ "loss": 0.2918,
653
+ "step": 2300
654
+ },
655
+ {
656
+ "epoch": 0.342844503428445,
657
+ "grad_norm": 18.35441017150879,
658
+ "learning_rate": 1.7879999999999998e-05,
659
+ "loss": 0.2519,
660
+ "step": 2325
661
+ },
662
+ {
663
+ "epoch": 0.34653100346531,
664
+ "grad_norm": 23.775989532470703,
665
+ "learning_rate": 1.7713333333333332e-05,
666
+ "loss": 0.2713,
667
+ "step": 2350
668
+ },
669
+ {
670
+ "epoch": 0.350217503502175,
671
+ "grad_norm": 18.242185592651367,
672
+ "learning_rate": 1.754666666666667e-05,
673
+ "loss": 0.2145,
674
+ "step": 2375
675
+ },
676
+ {
677
+ "epoch": 0.35390400353904006,
678
+ "grad_norm": 26.26616096496582,
679
+ "learning_rate": 1.7380000000000003e-05,
680
+ "loss": 0.2913,
681
+ "step": 2400
682
+ },
683
+ {
684
+ "epoch": 0.35759050357590505,
685
+ "grad_norm": 18.030847549438477,
686
+ "learning_rate": 1.7213333333333337e-05,
687
+ "loss": 0.2446,
688
+ "step": 2425
689
+ },
690
+ {
691
+ "epoch": 0.36127700361277004,
692
+ "grad_norm": 14.601178169250488,
693
+ "learning_rate": 1.7046666666666667e-05,
694
+ "loss": 0.269,
695
+ "step": 2450
696
+ },
697
+ {
698
+ "epoch": 0.36496350364963503,
699
+ "grad_norm": 19.659399032592773,
700
+ "learning_rate": 1.688e-05,
701
+ "loss": 0.2094,
702
+ "step": 2475
703
+ },
704
+ {
705
+ "epoch": 0.3686500036865,
706
+ "grad_norm": 11.19994068145752,
707
+ "learning_rate": 1.6713333333333335e-05,
708
+ "loss": 0.2417,
709
+ "step": 2500
710
+ },
711
+ {
712
+ "epoch": 0.3686500036865,
713
+ "eval_loss": 3.362957239151001,
714
+ "eval_runtime": 6743.3326,
715
+ "eval_samples_per_second": 0.938,
716
+ "eval_steps_per_second": 0.234,
717
+ "eval_wer": 894.1176470588235,
718
+ "step": 2500
719
+ },
720
+ {
721
+ "epoch": 0.372336503723365,
722
+ "grad_norm": 16.059974670410156,
723
+ "learning_rate": 1.654666666666667e-05,
724
+ "loss": 0.2334,
725
+ "step": 2525
726
+ },
727
+ {
728
+ "epoch": 0.37602300376023,
729
+ "grad_norm": 14.174128532409668,
730
+ "learning_rate": 1.6380000000000002e-05,
731
+ "loss": 0.2674,
732
+ "step": 2550
733
+ },
734
+ {
735
+ "epoch": 0.37970950379709506,
736
+ "grad_norm": 17.93998908996582,
737
+ "learning_rate": 1.6213333333333333e-05,
738
+ "loss": 0.2318,
739
+ "step": 2575
740
+ },
741
+ {
742
+ "epoch": 0.38339600383396005,
743
+ "grad_norm": 19.523021697998047,
744
+ "learning_rate": 1.6046666666666667e-05,
745
+ "loss": 0.2847,
746
+ "step": 2600
747
+ },
748
+ {
749
+ "epoch": 0.38708250387082505,
750
+ "grad_norm": 16.256864547729492,
751
+ "learning_rate": 1.588e-05,
752
+ "loss": 0.2454,
753
+ "step": 2625
754
+ },
755
+ {
756
+ "epoch": 0.39076900390769004,
757
+ "grad_norm": 16.150251388549805,
758
+ "learning_rate": 1.5713333333333334e-05,
759
+ "loss": 0.305,
760
+ "step": 2650
761
+ },
762
+ {
763
+ "epoch": 0.39445550394455503,
764
+ "grad_norm": 21.875558853149414,
765
+ "learning_rate": 1.5546666666666668e-05,
766
+ "loss": 0.2634,
767
+ "step": 2675
768
+ },
769
+ {
770
+ "epoch": 0.39814200398142,
771
+ "grad_norm": 30.196002960205078,
772
+ "learning_rate": 1.5380000000000002e-05,
773
+ "loss": 0.2776,
774
+ "step": 2700
775
+ },
776
+ {
777
+ "epoch": 0.401828504018285,
778
+ "grad_norm": 22.096120834350586,
779
+ "learning_rate": 1.5213333333333332e-05,
780
+ "loss": 0.2298,
781
+ "step": 2725
782
+ },
783
+ {
784
+ "epoch": 0.40551500405515006,
785
+ "grad_norm": 17.02240753173828,
786
+ "learning_rate": 1.5046666666666666e-05,
787
+ "loss": 0.2348,
788
+ "step": 2750
789
+ },
790
+ {
791
+ "epoch": 0.40920150409201506,
792
+ "grad_norm": 19.941190719604492,
793
+ "learning_rate": 1.488e-05,
794
+ "loss": 0.2744,
795
+ "step": 2775
796
+ },
797
+ {
798
+ "epoch": 0.41288800412888005,
799
+ "grad_norm": 22.23070526123047,
800
+ "learning_rate": 1.4713333333333334e-05,
801
+ "loss": 0.2258,
802
+ "step": 2800
803
+ },
804
+ {
805
+ "epoch": 0.41657450416574504,
806
+ "grad_norm": 26.95673942565918,
807
+ "learning_rate": 1.4546666666666666e-05,
808
+ "loss": 0.2613,
809
+ "step": 2825
810
+ },
811
+ {
812
+ "epoch": 0.42026100420261003,
813
+ "grad_norm": 20.80782699584961,
814
+ "learning_rate": 1.438e-05,
815
+ "loss": 0.2921,
816
+ "step": 2850
817
+ },
818
+ {
819
+ "epoch": 0.423947504239475,
820
+ "grad_norm": 24.43097496032715,
821
+ "learning_rate": 1.4213333333333335e-05,
822
+ "loss": 0.2622,
823
+ "step": 2875
824
+ },
825
+ {
826
+ "epoch": 0.42763400427634,
827
+ "grad_norm": 17.876245498657227,
828
+ "learning_rate": 1.4046666666666667e-05,
829
+ "loss": 0.1954,
830
+ "step": 2900
831
+ },
832
+ {
833
+ "epoch": 0.43132050431320507,
834
+ "grad_norm": 47.99320602416992,
835
+ "learning_rate": 1.3880000000000001e-05,
836
+ "loss": 0.2499,
837
+ "step": 2925
838
+ },
839
+ {
840
+ "epoch": 0.43500700435007006,
841
+ "grad_norm": 15.234955787658691,
842
+ "learning_rate": 1.3713333333333335e-05,
843
+ "loss": 0.2234,
844
+ "step": 2950
845
+ },
846
+ {
847
+ "epoch": 0.43869350438693505,
848
+ "grad_norm": 15.011786460876465,
849
+ "learning_rate": 1.3546666666666667e-05,
850
+ "loss": 0.2197,
851
+ "step": 2975
852
+ },
853
+ {
854
+ "epoch": 0.44238000442380004,
855
+ "grad_norm": 11.17838191986084,
856
+ "learning_rate": 1.338e-05,
857
+ "loss": 0.2727,
858
+ "step": 3000
859
+ },
860
+ {
861
+ "epoch": 0.44606650446066504,
862
+ "grad_norm": 25.07973861694336,
863
+ "learning_rate": 1.3213333333333334e-05,
864
+ "loss": 0.2727,
865
+ "step": 3025
866
+ },
867
+ {
868
+ "epoch": 0.44975300449753003,
869
+ "grad_norm": 26.32314682006836,
870
+ "learning_rate": 1.3046666666666667e-05,
871
+ "loss": 0.2603,
872
+ "step": 3050
873
+ },
874
+ {
875
+ "epoch": 0.453439504534395,
876
+ "grad_norm": 16.592912673950195,
877
+ "learning_rate": 1.288e-05,
878
+ "loss": 0.2207,
879
+ "step": 3075
880
+ },
881
+ {
882
+ "epoch": 0.45712600457126007,
883
+ "grad_norm": 18.071935653686523,
884
+ "learning_rate": 1.2713333333333332e-05,
885
+ "loss": 0.2798,
886
+ "step": 3100
887
+ },
888
+ {
889
+ "epoch": 0.46081250460812506,
890
+ "grad_norm": 22.99540138244629,
891
+ "learning_rate": 1.2546666666666666e-05,
892
+ "loss": 0.2311,
893
+ "step": 3125
894
+ },
895
+ {
896
+ "epoch": 0.46449900464499005,
897
+ "grad_norm": 22.59821891784668,
898
+ "learning_rate": 1.238e-05,
899
+ "loss": 0.2279,
900
+ "step": 3150
901
+ },
902
+ {
903
+ "epoch": 0.46818550468185505,
904
+ "grad_norm": 18.768529891967773,
905
+ "learning_rate": 1.2213333333333334e-05,
906
+ "loss": 0.2425,
907
+ "step": 3175
908
+ },
909
+ {
910
+ "epoch": 0.47187200471872004,
911
+ "grad_norm": 15.747322082519531,
912
+ "learning_rate": 1.2046666666666668e-05,
913
+ "loss": 0.2469,
914
+ "step": 3200
915
+ },
916
+ {
917
+ "epoch": 0.47555850475558503,
918
+ "grad_norm": 17.282495498657227,
919
+ "learning_rate": 1.1880000000000001e-05,
920
+ "loss": 0.234,
921
+ "step": 3225
922
+ },
923
+ {
924
+ "epoch": 0.47924500479245,
925
+ "grad_norm": 16.40440559387207,
926
+ "learning_rate": 1.1713333333333334e-05,
927
+ "loss": 0.2485,
928
+ "step": 3250
929
+ },
930
+ {
931
+ "epoch": 0.4829315048293151,
932
+ "grad_norm": 21.604019165039062,
933
+ "learning_rate": 1.1546666666666667e-05,
934
+ "loss": 0.2254,
935
+ "step": 3275
936
+ },
937
+ {
938
+ "epoch": 0.48661800486618007,
939
+ "grad_norm": 13.803950309753418,
940
+ "learning_rate": 1.1380000000000001e-05,
941
+ "loss": 0.2021,
942
+ "step": 3300
943
+ },
944
+ {
945
+ "epoch": 0.49030450490304506,
946
+ "grad_norm": 24.17011833190918,
947
+ "learning_rate": 1.1213333333333333e-05,
948
+ "loss": 0.2255,
949
+ "step": 3325
950
+ },
951
+ {
952
+ "epoch": 0.49399100493991005,
953
+ "grad_norm": 15.46372127532959,
954
+ "learning_rate": 1.1046666666666667e-05,
955
+ "loss": 0.2457,
956
+ "step": 3350
957
+ },
958
+ {
959
+ "epoch": 0.49767750497677504,
960
+ "grad_norm": 18.39287757873535,
961
+ "learning_rate": 1.0880000000000001e-05,
962
+ "loss": 0.247,
963
+ "step": 3375
964
+ },
965
+ {
966
+ "epoch": 0.5013640050136401,
967
+ "grad_norm": 11.330999374389648,
968
+ "learning_rate": 1.0713333333333333e-05,
969
+ "loss": 0.2107,
970
+ "step": 3400
971
+ },
972
+ {
973
+ "epoch": 0.5050505050505051,
974
+ "grad_norm": 28.71451759338379,
975
+ "learning_rate": 1.0546666666666667e-05,
976
+ "loss": 0.2347,
977
+ "step": 3425
978
+ },
979
+ {
980
+ "epoch": 0.5087370050873701,
981
+ "grad_norm": 15.915485382080078,
982
+ "learning_rate": 1.0379999999999999e-05,
983
+ "loss": 0.2187,
984
+ "step": 3450
985
+ },
986
+ {
987
+ "epoch": 0.5124235051242351,
988
+ "grad_norm": 15.072096824645996,
989
+ "learning_rate": 1.0213333333333333e-05,
990
+ "loss": 0.2176,
991
+ "step": 3475
992
+ },
993
+ {
994
+ "epoch": 0.5161100051611001,
995
+ "grad_norm": 10.299458503723145,
996
+ "learning_rate": 1.0046666666666668e-05,
997
+ "loss": 0.3022,
998
+ "step": 3500
999
+ },
1000
+ {
1001
+ "epoch": 0.519796505197965,
1002
+ "grad_norm": 21.137348175048828,
1003
+ "learning_rate": 9.88e-06,
1004
+ "loss": 0.228,
1005
+ "step": 3525
1006
+ },
1007
+ {
1008
+ "epoch": 0.52348300523483,
1009
+ "grad_norm": 6.446236610412598,
1010
+ "learning_rate": 9.713333333333334e-06,
1011
+ "loss": 0.2073,
1012
+ "step": 3550
1013
+ },
1014
+ {
1015
+ "epoch": 0.527169505271695,
1016
+ "grad_norm": 15.32019329071045,
1017
+ "learning_rate": 9.546666666666668e-06,
1018
+ "loss": 0.2021,
1019
+ "step": 3575
1020
+ },
1021
+ {
1022
+ "epoch": 0.53085600530856,
1023
+ "grad_norm": 20.475473403930664,
1024
+ "learning_rate": 9.38e-06,
1025
+ "loss": 0.2035,
1026
+ "step": 3600
1027
+ },
1028
+ {
1029
+ "epoch": 0.534542505345425,
1030
+ "grad_norm": 11.656693458557129,
1031
+ "learning_rate": 9.213333333333334e-06,
1032
+ "loss": 0.2024,
1033
+ "step": 3625
1034
+ },
1035
+ {
1036
+ "epoch": 0.53822900538229,
1037
+ "grad_norm": 15.80279541015625,
1038
+ "learning_rate": 9.046666666666668e-06,
1039
+ "loss": 0.2721,
1040
+ "step": 3650
1041
+ },
1042
+ {
1043
+ "epoch": 0.541915505419155,
1044
+ "grad_norm": 14.904827117919922,
1045
+ "learning_rate": 8.88e-06,
1046
+ "loss": 0.199,
1047
+ "step": 3675
1048
+ },
1049
+ {
1050
+ "epoch": 0.54560200545602,
1051
+ "grad_norm": 31.738067626953125,
1052
+ "learning_rate": 8.713333333333333e-06,
1053
+ "loss": 0.2582,
1054
+ "step": 3700
1055
+ },
1056
+ {
1057
+ "epoch": 0.5492885054928851,
1058
+ "grad_norm": 16.204824447631836,
1059
+ "learning_rate": 8.546666666666667e-06,
1060
+ "loss": 0.2278,
1061
+ "step": 3725
1062
+ },
1063
+ {
1064
+ "epoch": 0.5529750055297501,
1065
+ "grad_norm": 12.920398712158203,
1066
+ "learning_rate": 8.38e-06,
1067
+ "loss": 0.1984,
1068
+ "step": 3750
1069
+ },
1070
+ {
1071
+ "epoch": 0.5566615055666151,
1072
+ "grad_norm": 11.068310737609863,
1073
+ "learning_rate": 8.213333333333333e-06,
1074
+ "loss": 0.2222,
1075
+ "step": 3775
1076
+ },
1077
+ {
1078
+ "epoch": 0.5603480056034801,
1079
+ "grad_norm": 27.88483238220215,
1080
+ "learning_rate": 8.046666666666665e-06,
1081
+ "loss": 0.2335,
1082
+ "step": 3800
1083
+ },
1084
+ {
1085
+ "epoch": 0.5640345056403451,
1086
+ "grad_norm": 13.373597145080566,
1087
+ "learning_rate": 7.88e-06,
1088
+ "loss": 0.1962,
1089
+ "step": 3825
1090
+ },
1091
+ {
1092
+ "epoch": 0.5677210056772101,
1093
+ "grad_norm": 13.356810569763184,
1094
+ "learning_rate": 7.713333333333335e-06,
1095
+ "loss": 0.2506,
1096
+ "step": 3850
1097
+ },
1098
+ {
1099
+ "epoch": 0.5714075057140751,
1100
+ "grad_norm": 15.66338062286377,
1101
+ "learning_rate": 7.546666666666666e-06,
1102
+ "loss": 0.186,
1103
+ "step": 3875
1104
+ },
1105
+ {
1106
+ "epoch": 0.57509400575094,
1107
+ "grad_norm": 8.784326553344727,
1108
+ "learning_rate": 7.3800000000000005e-06,
1109
+ "loss": 0.2063,
1110
+ "step": 3900
1111
+ },
1112
+ {
1113
+ "epoch": 0.578780505787805,
1114
+ "grad_norm": 25.057741165161133,
1115
+ "learning_rate": 7.2133333333333334e-06,
1116
+ "loss": 0.1827,
1117
+ "step": 3925
1118
+ },
1119
+ {
1120
+ "epoch": 0.58246700582467,
1121
+ "grad_norm": 14.403828620910645,
1122
+ "learning_rate": 7.046666666666667e-06,
1123
+ "loss": 0.2408,
1124
+ "step": 3950
1125
+ },
1126
+ {
1127
+ "epoch": 0.586153505861535,
1128
+ "grad_norm": 21.203418731689453,
1129
+ "learning_rate": 6.88e-06,
1130
+ "loss": 0.2332,
1131
+ "step": 3975
1132
+ },
1133
+ {
1134
+ "epoch": 0.5898400058984,
1135
+ "grad_norm": 9.135237693786621,
1136
+ "learning_rate": 6.713333333333333e-06,
1137
+ "loss": 0.2314,
1138
+ "step": 4000
1139
+ },
1140
+ {
1141
+ "epoch": 0.593526505935265,
1142
+ "grad_norm": 19.98188591003418,
1143
+ "learning_rate": 6.546666666666667e-06,
1144
+ "loss": 0.2248,
1145
+ "step": 4025
1146
+ },
1147
+ {
1148
+ "epoch": 0.59721300597213,
1149
+ "grad_norm": 19.135929107666016,
1150
+ "learning_rate": 6.38e-06,
1151
+ "loss": 0.2214,
1152
+ "step": 4050
1153
+ },
1154
+ {
1155
+ "epoch": 0.6008995060089951,
1156
+ "grad_norm": 15.8812837600708,
1157
+ "learning_rate": 6.213333333333334e-06,
1158
+ "loss": 0.2308,
1159
+ "step": 4075
1160
+ },
1161
+ {
1162
+ "epoch": 0.6045860060458601,
1163
+ "grad_norm": 10.606598854064941,
1164
+ "learning_rate": 6.046666666666667e-06,
1165
+ "loss": 0.1975,
1166
+ "step": 4100
1167
+ },
1168
+ {
1169
+ "epoch": 0.6082725060827251,
1170
+ "grad_norm": 21.68260955810547,
1171
+ "learning_rate": 5.8800000000000005e-06,
1172
+ "loss": 0.2112,
1173
+ "step": 4125
1174
+ },
1175
+ {
1176
+ "epoch": 0.6119590061195901,
1177
+ "grad_norm": 22.929859161376953,
1178
+ "learning_rate": 5.713333333333333e-06,
1179
+ "loss": 0.2397,
1180
+ "step": 4150
1181
+ },
1182
+ {
1183
+ "epoch": 0.6156455061564551,
1184
+ "grad_norm": 14.349271774291992,
1185
+ "learning_rate": 5.546666666666666e-06,
1186
+ "loss": 0.2353,
1187
+ "step": 4175
1188
+ },
1189
+ {
1190
+ "epoch": 0.6193320061933201,
1191
+ "grad_norm": 16.48160743713379,
1192
+ "learning_rate": 5.38e-06,
1193
+ "loss": 0.2248,
1194
+ "step": 4200
1195
+ },
1196
+ {
1197
+ "epoch": 0.6230185062301851,
1198
+ "grad_norm": 22.764707565307617,
1199
+ "learning_rate": 5.213333333333334e-06,
1200
+ "loss": 0.1864,
1201
+ "step": 4225
1202
+ },
1203
+ {
1204
+ "epoch": 0.6267050062670501,
1205
+ "grad_norm": 15.090928077697754,
1206
+ "learning_rate": 5.046666666666667e-06,
1207
+ "loss": 0.1842,
1208
+ "step": 4250
1209
+ },
1210
+ {
1211
+ "epoch": 0.630391506303915,
1212
+ "grad_norm": 13.214851379394531,
1213
+ "learning_rate": 4.88e-06,
1214
+ "loss": 0.2283,
1215
+ "step": 4275
1216
+ },
1217
+ {
1218
+ "epoch": 0.63407800634078,
1219
+ "grad_norm": 18.852643966674805,
1220
+ "learning_rate": 4.713333333333334e-06,
1221
+ "loss": 0.1686,
1222
+ "step": 4300
1223
+ },
1224
+ {
1225
+ "epoch": 0.637764506377645,
1226
+ "grad_norm": 16.26368522644043,
1227
+ "learning_rate": 4.546666666666667e-06,
1228
+ "loss": 0.2027,
1229
+ "step": 4325
1230
+ },
1231
+ {
1232
+ "epoch": 0.64145100641451,
1233
+ "grad_norm": 13.48696517944336,
1234
+ "learning_rate": 4.3799999999999996e-06,
1235
+ "loss": 0.2064,
1236
+ "step": 4350
1237
+ },
1238
+ {
1239
+ "epoch": 0.645137506451375,
1240
+ "grad_norm": 20.077945709228516,
1241
+ "learning_rate": 4.213333333333333e-06,
1242
+ "loss": 0.2112,
1243
+ "step": 4375
1244
+ },
1245
+ {
1246
+ "epoch": 0.64882400648824,
1247
+ "grad_norm": 18.807682037353516,
1248
+ "learning_rate": 4.046666666666667e-06,
1249
+ "loss": 0.2558,
1250
+ "step": 4400
1251
+ },
1252
+ {
1253
+ "epoch": 0.6525105065251051,
1254
+ "grad_norm": 22.49479866027832,
1255
+ "learning_rate": 3.88e-06,
1256
+ "loss": 0.2025,
1257
+ "step": 4425
1258
+ },
1259
+ {
1260
+ "epoch": 0.6561970065619701,
1261
+ "grad_norm": 18.677318572998047,
1262
+ "learning_rate": 3.7133333333333335e-06,
1263
+ "loss": 0.2006,
1264
+ "step": 4450
1265
+ },
1266
+ {
1267
+ "epoch": 0.6598835065988351,
1268
+ "grad_norm": 15.892446517944336,
1269
+ "learning_rate": 3.546666666666667e-06,
1270
+ "loss": 0.1713,
1271
+ "step": 4475
1272
+ },
1273
+ {
1274
+ "epoch": 0.6635700066357001,
1275
+ "grad_norm": 10.78048038482666,
1276
+ "learning_rate": 3.38e-06,
1277
+ "loss": 0.1848,
1278
+ "step": 4500
1279
+ },
1280
+ {
1281
+ "epoch": 0.6672565066725651,
1282
+ "grad_norm": 14.83394718170166,
1283
+ "learning_rate": 3.2133333333333336e-06,
1284
+ "loss": 0.1986,
1285
+ "step": 4525
1286
+ },
1287
+ {
1288
+ "epoch": 0.6709430067094301,
1289
+ "grad_norm": 20.701946258544922,
1290
+ "learning_rate": 3.0466666666666666e-06,
1291
+ "loss": 0.259,
1292
+ "step": 4550
1293
+ },
1294
+ {
1295
+ "epoch": 0.6746295067462951,
1296
+ "grad_norm": 21.86021614074707,
1297
+ "learning_rate": 2.88e-06,
1298
+ "loss": 0.1949,
1299
+ "step": 4575
1300
+ },
1301
+ {
1302
+ "epoch": 0.6783160067831601,
1303
+ "grad_norm": 12.091095924377441,
1304
+ "learning_rate": 2.7133333333333333e-06,
1305
+ "loss": 0.2145,
1306
+ "step": 4600
1307
+ },
1308
+ {
1309
+ "epoch": 0.6820025068200251,
1310
+ "grad_norm": 11.082942962646484,
1311
+ "learning_rate": 2.5466666666666667e-06,
1312
+ "loss": 0.2452,
1313
+ "step": 4625
1314
+ },
1315
+ {
1316
+ "epoch": 0.68568900685689,
1317
+ "grad_norm": 24.253511428833008,
1318
+ "learning_rate": 2.38e-06,
1319
+ "loss": 0.1859,
1320
+ "step": 4650
1321
+ },
1322
+ {
1323
+ "epoch": 0.689375506893755,
1324
+ "grad_norm": 15.203668594360352,
1325
+ "learning_rate": 2.2133333333333335e-06,
1326
+ "loss": 0.2019,
1327
+ "step": 4675
1328
+ },
1329
+ {
1330
+ "epoch": 0.69306200693062,
1331
+ "grad_norm": 15.922442436218262,
1332
+ "learning_rate": 2.046666666666667e-06,
1333
+ "loss": 0.1888,
1334
+ "step": 4700
1335
+ },
1336
+ {
1337
+ "epoch": 0.696748506967485,
1338
+ "grad_norm": 20.253328323364258,
1339
+ "learning_rate": 1.88e-06,
1340
+ "loss": 0.1537,
1341
+ "step": 4725
1342
+ },
1343
+ {
1344
+ "epoch": 0.70043500700435,
1345
+ "grad_norm": 31.187671661376953,
1346
+ "learning_rate": 1.7133333333333334e-06,
1347
+ "loss": 0.2385,
1348
+ "step": 4750
1349
+ },
1350
+ {
1351
+ "epoch": 0.7041215070412151,
1352
+ "grad_norm": 11.846253395080566,
1353
+ "learning_rate": 1.5466666666666668e-06,
1354
+ "loss": 0.2205,
1355
+ "step": 4775
1356
+ },
1357
+ {
1358
+ "epoch": 0.7078080070780801,
1359
+ "grad_norm": 13.351944923400879,
1360
+ "learning_rate": 1.38e-06,
1361
+ "loss": 0.2159,
1362
+ "step": 4800
1363
+ },
1364
+ {
1365
+ "epoch": 0.7114945071149451,
1366
+ "grad_norm": 15.803413391113281,
1367
+ "learning_rate": 1.2133333333333333e-06,
1368
+ "loss": 0.1816,
1369
+ "step": 4825
1370
+ },
1371
+ {
1372
+ "epoch": 0.7151810071518101,
1373
+ "grad_norm": 17.536611557006836,
1374
+ "learning_rate": 1.0466666666666667e-06,
1375
+ "loss": 0.2221,
1376
+ "step": 4850
1377
+ },
1378
+ {
1379
+ "epoch": 0.7188675071886751,
1380
+ "grad_norm": 13.475217819213867,
1381
+ "learning_rate": 8.8e-07,
1382
+ "loss": 0.1869,
1383
+ "step": 4875
1384
+ },
1385
+ {
1386
+ "epoch": 0.7225540072255401,
1387
+ "grad_norm": 19.432355880737305,
1388
+ "learning_rate": 7.133333333333333e-07,
1389
+ "loss": 0.2164,
1390
+ "step": 4900
1391
+ },
1392
+ {
1393
+ "epoch": 0.7262405072624051,
1394
+ "grad_norm": 18.54833984375,
1395
+ "learning_rate": 5.466666666666667e-07,
1396
+ "loss": 0.2257,
1397
+ "step": 4925
1398
+ },
1399
+ {
1400
+ "epoch": 0.7299270072992701,
1401
+ "grad_norm": 17.6931095123291,
1402
+ "learning_rate": 3.8e-07,
1403
+ "loss": 0.1724,
1404
+ "step": 4950
1405
+ },
1406
+ {
1407
+ "epoch": 0.7336135073361351,
1408
+ "grad_norm": 8.846336364746094,
1409
+ "learning_rate": 2.1333333333333334e-07,
1410
+ "loss": 0.2273,
1411
+ "step": 4975
1412
+ },
1413
+ {
1414
+ "epoch": 0.737300007373,
1415
+ "grad_norm": 11.599397659301758,
1416
+ "learning_rate": 4.666666666666667e-08,
1417
+ "loss": 0.1619,
1418
+ "step": 5000
1419
+ },
1420
+ {
1421
+ "epoch": 0.737300007373,
1422
+ "eval_loss": 3.3529720306396484,
1423
+ "eval_runtime": 5174.5819,
1424
+ "eval_samples_per_second": 1.222,
1425
+ "eval_steps_per_second": 0.306,
1426
+ "eval_wer": 1092.1104536489152,
1427
+ "step": 5000
1428
+ }
1429
+ ],
1430
+ "logging_steps": 25,
1431
+ "max_steps": 5000,
1432
+ "num_input_tokens_seen": 0,
1433
+ "num_train_epochs": 1,
1434
+ "save_steps": 2500,
1435
+ "stateful_callbacks": {
1436
+ "EarlyStoppingCallback": {
1437
+ "args": {
1438
+ "early_stopping_patience": 2,
1439
+ "early_stopping_threshold": 0.0
1440
+ },
1441
+ "attributes": {
1442
+ "early_stopping_patience_counter": 1
1443
+ }
1444
+ },
1445
+ "TrainerControl": {
1446
+ "args": {
1447
+ "should_epoch_stop": false,
1448
+ "should_evaluate": false,
1449
+ "should_log": false,
1450
+ "should_save": true,
1451
+ "should_training_stop": true
1452
+ },
1453
+ "attributes": {}
1454
+ }
1455
+ },
1456
+ "total_flos": 1.15434160128e+19,
1457
+ "train_batch_size": 4,
1458
+ "trial_name": null,
1459
+ "trial_params": null
1460
+ }
checkpoint-5000/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:49c35fd5ca580f4feb96cbb758e4aefd3fe94f32fc886c38ea6f6f7c699c3ab4
3
+ size 5432
config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Marwan-Kasem/whisper-small-hi42",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "gelu",
5
+ "apply_spec_augment": false,
6
+ "architectures": [
7
+ "WhisperForConditionalGeneration"
8
+ ],
9
+ "attention_dropout": 0.0,
10
+ "begin_suppress_tokens": null,
11
+ "bos_token_id": 50257,
12
+ "classifier_proj_size": 256,
13
+ "d_model": 768,
14
+ "decoder_attention_heads": 12,
15
+ "decoder_ffn_dim": 3072,
16
+ "decoder_layerdrop": 0.0,
17
+ "decoder_layers": 12,
18
+ "decoder_start_token_id": 50258,
19
+ "dropout": 0.0,
20
+ "encoder_attention_heads": 12,
21
+ "encoder_ffn_dim": 3072,
22
+ "encoder_layerdrop": 0.0,
23
+ "encoder_layers": 12,
24
+ "eos_token_id": 50257,
25
+ "forced_decoder_ids": [
26
+ [
27
+ 1,
28
+ 50259
29
+ ],
30
+ [
31
+ 2,
32
+ 50359
33
+ ],
34
+ [
35
+ 3,
36
+ 50363
37
+ ]
38
+ ],
39
+ "init_std": 0.02,
40
+ "is_encoder_decoder": true,
41
+ "mask_feature_length": 10,
42
+ "mask_feature_min_masks": 0,
43
+ "mask_feature_prob": 0.0,
44
+ "mask_time_length": 10,
45
+ "mask_time_min_masks": 2,
46
+ "mask_time_prob": 0.05,
47
+ "max_length": null,
48
+ "max_source_positions": 1500,
49
+ "max_target_positions": 448,
50
+ "median_filter_width": 7,
51
+ "model_type": "whisper",
52
+ "num_hidden_layers": 12,
53
+ "num_mel_bins": 80,
54
+ "pad_token_id": 50257,
55
+ "scale_embedding": false,
56
+ "torch_dtype": "float32",
57
+ "transformers_version": "4.47.0",
58
+ "use_cache": false,
59
+ "use_weighted_layer_sum": false,
60
+ "vocab_size": 51865
61
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7725fd97010404929ac3190fe96450acde6e0fa5c682bc1d797fd6445141392c
3
+ size 966995080
preprocessor_config.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "chunk_length": 30,
3
+ "feature_extractor_type": "WhisperFeatureExtractor",
4
+ "feature_size": 80,
5
+ "hop_length": 160,
6
+ "n_fft": 400,
7
+ "n_samples": 480000,
8
+ "nb_max_frames": 3000,
9
+ "padding_side": "right",
10
+ "padding_value": 0.0,
11
+ "processor_class": "WhisperProcessor",
12
+ "return_attention_mask": false,
13
+ "sampling_rate": 16000
14
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:49c35fd5ca580f4feb96cbb758e4aefd3fe94f32fc886c38ea6f6f7c699c3ab4
3
+ size 5432