Yehor commited on
Commit
db90cc1
·
verified ·
1 Parent(s): 61f92db

Upload checkpoints epoch_0004_step_00120000

Browse files

Automatic checkpoint upload from train.py.

Report stem: epoch_0004_step_00120000
Epoch: 4
Global step: 120000

.hf_upload_sync/validation_epoch_0004_step_00110000.done ADDED
@@ -0,0 +1 @@
 
 
1
+ 1776542247.1394005
.hf_upload_sync/validation_epoch_0004_step_00120000.started ADDED
@@ -0,0 +1 @@
 
 
1
+ 1776573440.2990248
checkpoint_step_last.json CHANGED
@@ -117,125 +117,125 @@
117
  "padding_value": 1.0
118
  },
119
  "epoch": 4,
120
- "global_step": 110000,
121
  "best_val_wer": 0.2002018694869882,
122
  "metrics": {
123
  "epoch": 4,
124
- "global_step": 110000,
125
- "train_loss": 0.563612056048063,
126
- "train_main_ctc_loss": 0.563612056048063,
127
  "train_aed_loss": 0.0,
128
  "train_liberta_distill_loss": 0.0,
129
  "train_audio_teacher_loss": 0.0,
130
- "val_loss": 0.39291172908774846,
131
- "val_cer": 0.050360971930391685,
132
- "val_wer": 0.24009303550269892,
133
- "val_forward_seconds": 341.4297112603672,
134
  "val_teacher_seconds": 0.0,
135
- "val_decode_seconds": 1.064598832395859,
136
- "val_gather_seconds": 0.022082043113186955,
137
  "val_model_source": "raw",
138
- "val_main_ctc_loss": 0.39291172908774846,
139
  "val_aed_loss": 0.0,
140
  "val_liberta_distill_loss": 0.0,
141
  "val_audio_teacher_loss": 0.0,
142
- "val_avg_blank_probability": 0.7994395690380203,
143
- "val_argmax_blank_fraction": 0.8051671205982273,
144
- "val_avg_top_nonblank_probability": 0.18955979269031142,
145
  "val_avg_output_frames": 129.72159800249688,
146
  "val_avg_target_tokens": 24.885455680399502,
147
  "val_target_tokens_per_frame": 0.1918374123013849,
148
  "val_impossible_sample_fraction": 0.0,
149
  "val_tight_sample_fraction": 0.0,
150
  "val_samples_short": 1183.0,
151
- "val_wer_short": 0.28865979381443296,
152
- "val_cer_short": 0.06182151416889892,
153
  "val_samples_medium": 2021.0,
154
- "val_wer_medium": 0.22826739427012277,
155
- "val_cer_medium": 0.047653934529954374,
156
  "val_samples_long": 0.0,
157
  "val_decoded_empty_fraction": 0.0,
158
- "val_decoded_avg_char_length": 46.065230961298376,
159
- "val_decoded_avg_word_length": 7.063670411985019,
160
  "val_speaker_count": 0.0,
161
  "val_speaker_macro_wer": 0.0,
162
  "val_speaker_id_available": 0.0,
163
  "val_missing_speaker_id_samples": 3204.0,
164
- "val_hardest_example_0_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3390.wav",
165
  "val_hardest_example_0_speaker": "",
166
- "val_hardest_example_0_ref": "Нога?",
167
- "val_hardest_example_0_hyp": "Нога.",
168
- "val_hardest_example_1_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2893.wav",
169
  "val_hardest_example_1_speaker": "",
170
- "val_hardest_example_1_ref": "Не вбивай.",
171
- "val_hardest_example_1_hyp": "Не вбувай.",
172
- "val_hardest_example_2_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2228.wav",
173
  "val_hardest_example_2_speaker": "",
174
- "val_hardest_example_2_ref": "Продав кота в мішку?",
175
- "val_hardest_example_2_hyp": "Продав кота в мішку.",
176
- "val_hardest_example_3_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3201.wav",
177
  "val_hardest_example_3_speaker": "",
178
- "val_hardest_example_3_ref": "То й що?",
179
- "val_hardest_example_3_hyp": " То що?",
180
- "val_hardest_example_4_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2734.wav",
181
  "val_hardest_example_4_speaker": "",
182
- "val_hardest_example_4_ref": "Багато роботи.",
183
- "val_hardest_example_4_hyp": "Багато роботи?",
184
- "val_random_example_0_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2586.wav",
185
  "val_random_example_0_speaker": "",
186
- "val_random_example_0_ref": "Таке військове уміння російського генералітету в Кримській війні під Севастополем.",
187
- "val_random_example_0_hyp": "Таке військове уміння російського генералітету в Кримській війні під Севастополем",
188
- "val_random_example_1_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3408.wav",
189
  "val_random_example_1_speaker": "",
190
- "val_random_example_1_ref": "Мене ж мати та й не била.",
191
- "val_random_example_1_hyp": "Менеж мати та й не била.",
192
- "val_random_example_2_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/741.wav",
193
  "val_random_example_2_speaker": "",
194
- "val_random_example_2_ref": "Це рішення було повністю виконано.",
195
- "val_random_example_2_hyp": "Це рішення було повністюбика.",
196
- "val_random_example_3_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/263.wav",
197
  "val_random_example_3_speaker": "",
198
- "val_random_example_3_ref": "Отже, звечора підуть полями до Кам'янки, а під ранок вернуться з харчами.",
199
- "val_random_example_3_hyp": "Отже, з вечора підуть полями до Камянки, а підранок вернуться з харчами.",
200
- "val_random_example_4_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3725.wav",
201
  "val_random_example_4_speaker": "",
202
- "val_random_example_4_ref": "І князі в ті часи були чужорідним тілом у громаді.",
203
- "val_random_example_4_hyp": "І князі в ті часи були чужорідним тілом у громаді.",
204
- "val/loss": 0.39291172908774846,
205
- "val/cer": 0.050360971930391685,
206
- "val/wer": 0.24009303550269892,
207
- "val/main_ctc_loss": 0.39291172908774846,
208
  "val/aed_loss": 0.0,
209
  "val/liberta_distill_loss": 0.0,
210
  "val/audio_teacher_loss": 0.0,
211
- "val/avg_blank_probability": 0.7994395690380203,
212
- "val/argmax_blank_fraction": 0.8051671205982273,
213
- "val/avg_top_nonblank_probability": 0.18955979269031142,
214
  "val/avg_output_frames": 129.72159800249688,
215
  "val/avg_target_tokens": 24.885455680399502,
216
  "val/target_tokens_per_frame": 0.1918374123013849,
217
  "val/impossible_sample_fraction": 0.0,
218
  "val/tight_sample_fraction": 0.0,
219
  "val/samples_short": 1183.0,
220
- "val/wer_short": 0.28865979381443296,
221
- "val/cer_short": 0.06182151416889892,
222
  "val/samples_medium": 2021.0,
223
- "val/wer_medium": 0.22826739427012277,
224
- "val/cer_medium": 0.047653934529954374,
225
  "val/samples_long": 0.0,
226
  "val/decoded_empty_fraction": 0.0,
227
- "val/decoded_avg_char_length": 46.065230961298376,
228
- "val/decoded_avg_word_length": 7.063670411985019,
229
  "val/speaker_count": 0.0,
230
  "val/speaker_macro_wer": 0.0,
231
  "val/speaker_id_available": 0.0,
232
  "val/missing_speaker_id_samples": 3204.0,
233
- "val/forward_seconds": 341.4297112603672,
234
  "val/teacher_seconds": 0.0,
235
- "val/decode_seconds": 1.064598832395859,
236
- "val/gather_seconds": 0.022082043113186955,
237
- "train/loss": 0.563612056048063,
238
- "train/main_ctc_loss": 0.563612056048063,
239
  "train/aed_loss": 0.0,
240
  "train/liberta_distill_loss": 0.0,
241
  "train/audio_teacher_loss": 0.0
 
117
  "padding_value": 1.0
118
  },
119
  "epoch": 4,
120
+ "global_step": 120000,
121
  "best_val_wer": 0.2002018694869882,
122
  "metrics": {
123
  "epoch": 4,
124
+ "global_step": 120000,
125
+ "train_loss": 0.5748710107435843,
126
+ "train_main_ctc_loss": 0.5748710107435843,
127
  "train_aed_loss": 0.0,
128
  "train_liberta_distill_loss": 0.0,
129
  "train_audio_teacher_loss": 0.0,
130
+ "val_loss": 0.5424013864153068,
131
+ "val_cer": 0.07509697753353807,
132
+ "val_wer": 0.30499846403651204,
133
+ "val_forward_seconds": 315.81560258881655,
134
  "val_teacher_seconds": 0.0,
135
+ "val_decode_seconds": 0.9828740665689111,
136
+ "val_gather_seconds": 0.019874722929671407,
137
  "val_model_source": "raw",
138
+ "val_main_ctc_loss": 0.5424013864153068,
139
  "val_aed_loss": 0.0,
140
  "val_liberta_distill_loss": 0.0,
141
  "val_audio_teacher_loss": 0.0,
142
+ "val_avg_blank_probability": 0.7932991820751002,
143
+ "val_argmax_blank_fraction": 0.8022991713744021,
144
+ "val_avg_top_nonblank_probability": 0.18995462195989157,
145
  "val_avg_output_frames": 129.72159800249688,
146
  "val_avg_target_tokens": 24.885455680399502,
147
  "val_target_tokens_per_frame": 0.1918374123013849,
148
  "val_impossible_sample_fraction": 0.0,
149
  "val_tight_sample_fraction": 0.0,
150
  "val_samples_short": 1183.0,
151
+ "val_wer_short": 0.3549977588525325,
152
+ "val_cer_short": 0.09054701818694487,
153
  "val_samples_medium": 2021.0,
154
+ "val_wer_medium": 0.29282401091405186,
155
+ "val_cer_medium": 0.07144760065270239,
156
  "val_samples_long": 0.0,
157
  "val_decoded_empty_fraction": 0.0,
158
+ "val_decoded_avg_char_length": 45.75343320848939,
159
+ "val_decoded_avg_word_length": 6.892009987515605,
160
  "val_speaker_count": 0.0,
161
  "val_speaker_macro_wer": 0.0,
162
  "val_speaker_id_available": 0.0,
163
  "val_missing_speaker_id_samples": 3204.0,
164
+ "val_hardest_example_0_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/662.wav",
165
  "val_hardest_example_0_speaker": "",
166
+ "val_hardest_example_0_ref": "Тире?",
167
+ "val_hardest_example_0_hyp": "Тира.",
168
+ "val_hardest_example_1_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2228.wav",
169
  "val_hardest_example_1_speaker": "",
170
+ "val_hardest_example_1_ref": "Продав кота в мішку?",
171
+ "val_hardest_example_1_hyp": "Продав котав мішку.",
172
+ "val_hardest_example_2_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3561.wav",
173
  "val_hardest_example_2_speaker": "",
174
+ "val_hardest_example_2_ref": "Двадцять три?",
175
+ "val_hardest_example_2_hyp": "Двадцять три.",
176
+ "val_hardest_example_3_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2884.wav",
177
  "val_hardest_example_3_speaker": "",
178
+ "val_hardest_example_3_ref": "А ти?",
179
+ "val_hardest_example_3_hyp": "а ти?",
180
+ "val_hardest_example_4_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/1920.wav",
181
  "val_hardest_example_4_speaker": "",
182
+ "val_hardest_example_4_ref": "Дякую.",
183
+ "val_hardest_example_4_hyp": "Дякую!",
184
+ "val_random_example_0_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/473.wav",
185
  "val_random_example_0_speaker": "",
186
+ "val_random_example_0_ref": "Ганді завжди розділяв людину і функції, які вона виконує.",
187
+ "val_random_example_0_hyp": "Ганді завжди розділяв людину і функції, які вона виконує.",
188
+ "val_random_example_1_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2950.wav",
189
  "val_random_example_1_speaker": "",
190
+ "val_random_example_1_ref": "Що видиш там, отрочице?",
191
+ "val_random_example_1_hyp": "Що видеш там, отручиться?",
192
+ "val_random_example_2_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/1526.wav",
193
  "val_random_example_2_speaker": "",
194
+ "val_random_example_2_ref": "Тут є два аспекти.",
195
+ "val_random_example_2_hyp": "Тут є два аспекти.",
196
+ "val_random_example_3_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3361.wav",
197
  "val_random_example_3_speaker": "",
198
+ "val_random_example_3_ref": "Тільки вірність і слухняність творять передумови успіху національної боротьби.",
199
+ "val_random_example_3_hyp": "Тільки віяльність і слухняність говорить передумови успіху національми боротьби.",
200
+ "val_random_example_4_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2605.wav",
201
  "val_random_example_4_speaker": "",
202
+ "val_random_example_4_ref": "І як швидко взагалі ми зможемо ввести в експлуатацію другий та третій блоки?",
203
+ "val_random_example_4_hyp": "І як швидко взагалі ми зможемо вести в експлуатацію другій та третій блоки.",
204
+ "val/loss": 0.5424013864153068,
205
+ "val/cer": 0.07509697753353807,
206
+ "val/wer": 0.30499846403651204,
207
+ "val/main_ctc_loss": 0.5424013864153068,
208
  "val/aed_loss": 0.0,
209
  "val/liberta_distill_loss": 0.0,
210
  "val/audio_teacher_loss": 0.0,
211
+ "val/avg_blank_probability": 0.7932991820751002,
212
+ "val/argmax_blank_fraction": 0.8022991713744021,
213
+ "val/avg_top_nonblank_probability": 0.18995462195989157,
214
  "val/avg_output_frames": 129.72159800249688,
215
  "val/avg_target_tokens": 24.885455680399502,
216
  "val/target_tokens_per_frame": 0.1918374123013849,
217
  "val/impossible_sample_fraction": 0.0,
218
  "val/tight_sample_fraction": 0.0,
219
  "val/samples_short": 1183.0,
220
+ "val/wer_short": 0.3549977588525325,
221
+ "val/cer_short": 0.09054701818694487,
222
  "val/samples_medium": 2021.0,
223
+ "val/wer_medium": 0.29282401091405186,
224
+ "val/cer_medium": 0.07144760065270239,
225
  "val/samples_long": 0.0,
226
  "val/decoded_empty_fraction": 0.0,
227
+ "val/decoded_avg_char_length": 45.75343320848939,
228
+ "val/decoded_avg_word_length": 6.892009987515605,
229
  "val/speaker_count": 0.0,
230
  "val/speaker_macro_wer": 0.0,
231
  "val/speaker_id_available": 0.0,
232
  "val/missing_speaker_id_samples": 3204.0,
233
+ "val/forward_seconds": 315.81560258881655,
234
  "val/teacher_seconds": 0.0,
235
+ "val/decode_seconds": 0.9828740665689111,
236
+ "val/gather_seconds": 0.019874722929671407,
237
+ "train/loss": 0.5748710107435843,
238
+ "train/main_ctc_loss": 0.5748710107435843,
239
  "train/aed_loss": 0.0,
240
  "train/liberta_distill_loss": 0.0,
241
  "train/audio_teacher_loss": 0.0
checkpoint_step_last.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a58c1a1785595c9fea30d6c1353d60815991f8563946101839c364dbac73761a
3
  size 2424913224
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9906b703a2b1a26d196572dfcf609a70d47e71da7a9154c481dd7b2471c1e95b
3
  size 2424913224
eval_reports/epoch_0004_step_00120000.json ADDED
@@ -0,0 +1,133 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 4,
3
+ "global_step": 120000,
4
+ "model_source": "raw",
5
+ "metrics": {
6
+ "loss": 0.5424013864153068,
7
+ "main_ctc_loss": 0.5424013864153068,
8
+ "aed_loss": 0.0,
9
+ "liberta_distill_loss": 0.0,
10
+ "audio_teacher_loss": 0.0,
11
+ "cer": 0.07509697753353807,
12
+ "wer": 0.30499846403651204,
13
+ "avg_blank_probability": 0.7932991820751002,
14
+ "argmax_blank_fraction": 0.8022991713744021,
15
+ "avg_top_nonblank_probability": 0.18995462195989157,
16
+ "avg_output_frames": 129.72159800249688,
17
+ "avg_target_tokens": 24.885455680399502,
18
+ "target_tokens_per_frame": 0.1918374123013849,
19
+ "impossible_sample_fraction": 0.0,
20
+ "tight_sample_fraction": 0.0,
21
+ "samples_short": 1183.0,
22
+ "wer_short": 0.3549977588525325,
23
+ "cer_short": 0.09054701818694487,
24
+ "samples_medium": 2021.0,
25
+ "wer_medium": 0.29282401091405186,
26
+ "cer_medium": 0.07144760065270239,
27
+ "samples_long": 0.0,
28
+ "decoded_empty_fraction": 0.0,
29
+ "decoded_avg_char_length": 45.75343320848939,
30
+ "decoded_avg_word_length": 6.892009987515605,
31
+ "speaker_count": 0.0,
32
+ "speaker_macro_wer": 0.0,
33
+ "speaker_id_available": 0.0,
34
+ "missing_speaker_id_samples": 3204.0
35
+ },
36
+ "hardest_examples": [
37
+ {
38
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/662.wav",
39
+ "speaker_id": "",
40
+ "reference": "Тире?",
41
+ "hypothesis": "Тира."
42
+ },
43
+ {
44
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2228.wav",
45
+ "speaker_id": "",
46
+ "reference": "Продав кота в мішку?",
47
+ "hypothesis": "Продав котав мішку."
48
+ },
49
+ {
50
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3561.wav",
51
+ "speaker_id": "",
52
+ "reference": "Двадцять три?",
53
+ "hypothesis": "Двадцять три."
54
+ },
55
+ {
56
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2884.wav",
57
+ "speaker_id": "",
58
+ "reference": "А ти?",
59
+ "hypothesis": "а ти?"
60
+ },
61
+ {
62
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/1920.wav",
63
+ "speaker_id": "",
64
+ "reference": "Дякую.",
65
+ "hypothesis": "Дякую!"
66
+ }
67
+ ],
68
+ "random_examples": [
69
+ {
70
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/473.wav",
71
+ "speaker_id": "",
72
+ "reference": "Ганді завжди розділяв людину і функції, які вона виконує.",
73
+ "hypothesis": "Ганді завжди розділяв людину і функції, які вона виконує."
74
+ },
75
+ {
76
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2950.wav",
77
+ "speaker_id": "",
78
+ "reference": "Що видиш там, отрочице?",
79
+ "hypothesis": "Що видеш там, отручиться?"
80
+ },
81
+ {
82
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/1526.wav",
83
+ "speaker_id": "",
84
+ "reference": "Тут є два аспекти.",
85
+ "hypothesis": "Тут є два аспекти."
86
+ },
87
+ {
88
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/3361.wav",
89
+ "speaker_id": "",
90
+ "reference": "Тільки вірність і слухняність творять передумови успіху національної боротьби.",
91
+ "hypothesis": "Тільки віяльність і слухняність говорить передумови успіху національми боротьби."
92
+ },
93
+ {
94
+ "utterance_id": "/home/yehor/squeezeformer/data/cv10-uk-testset-clean-punctuated/2605.wav",
95
+ "speaker_id": "",
96
+ "reference": "І як швидко взагалі ми зможемо ввести в експлуатацію другий та третій блоки?",
97
+ "hypothesis": "І як швидко взагалі ми зможемо вести в експлуатацію другій та третій блоки."
98
+ }
99
+ ],
100
+ "speaker_metrics": {
101
+ "speaker_count": 0,
102
+ "speaker_macro_wer": 0.0,
103
+ "speaker_id_available": false,
104
+ "missing_speaker_id_samples": 3204,
105
+ "per_speaker": {}
106
+ },
107
+ "split_audit": {
108
+ "counts": {
109
+ "train": {
110
+ "samples": 648240,
111
+ "speakers": 0,
112
+ "records_with_speaker_id": 0,
113
+ "hours": 1264.353836267957
114
+ },
115
+ "validation": {
116
+ "samples": 3204,
117
+ "speakers": 0,
118
+ "records_with_speaker_id": 0,
119
+ "hours": 4.629311440972232
120
+ }
121
+ },
122
+ "hours": {
123
+ "train": 1264.353836267957,
124
+ "validation": 4.629311440972232
125
+ },
126
+ "total_hours": 1268.9831477089292,
127
+ "speaker_overlaps": {
128
+ "train_vs_validation": 0
129
+ },
130
+ "speaker_balance_ratio": 1.0,
131
+ "speaker_id_available": false
132
+ }
133
+ }
training_20260415_090229.log CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e8d7f736f13ef65a60b645b66bd245bb79f22c4bcab6e6357df9dd3d49e1c9fb
3
- size 16488077
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a49307b652dcb1ccb05f14a01d53bb65fe81f533bdf6580ed53d8a83cdff86b5
3
+ size 18264496