wav2vec2-large-mms-1b-aft-kcn

This model is a fine-tuned version of facebook/mms-1b-all on the audiofolder dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.001
train_batch_size: 2
eval_batch_size: 8
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 100
num_epochs: 5
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss	Wer
9.9122	0.1439	100	5.5377	1.1348
5.9787	0.2878	200	4.8867	1.0004
4.6707	0.4317	300	4.2176	1.0033
8.8052	0.5755	400	4.8161	0.9998
4.3902	0.7194	500	4.3634	1.0
3.8068	0.8633	600	3.5661	1.0566
1.7929	1.0072	700	1.3192	0.9041
1.1238	1.1511	800	1.2100	0.7270
0.9287	1.2950	900	1.1480	0.7217
1.1237	1.4388	1000	1.2015	0.6705
0.9523	1.5827	1100	1.1231	0.6491
0.8742	1.7266	1200	1.0630	0.6377
1.1556	1.8705	1300	1.1508	0.6250
0.9921	2.0144	1400	1.0217	0.6103
0.8035	2.1583	1500	1.1153	0.5918
0.9002	2.3022	1600	1.0007	0.6402
0.9575	2.4460	1700	0.9746	0.5869
0.8741	2.5899	1800	1.0372	0.5741
0.9298	2.7338	1900	0.9517	0.6116
0.7176	2.8777	2000	1.0434	0.5671
0.8458	3.0216	2100	0.9771	0.5633
0.8266	3.1655	2200	0.9721	0.5576
0.7335	3.3094	2300	0.9698	0.5593
0.6859	3.4532	2400	1.0178	0.5413
0.8357	3.5971	2500	0.9505	0.5409
0.7331	3.7410	2600	0.9960	0.5332
0.8396	3.8849	2700	1.0045	0.5409
0.7528	4.0288	2800	0.9016	0.5456
0.7978	4.1727	2900	0.9620	0.5315
0.6386	4.3165	3000	0.9842	0.5280
0.621	4.4604	3100	0.9586	0.5291
0.6533	4.6043	3200	0.9697	0.5257
0.7107	4.7482	3300	0.9472	0.5271
0.9129	4.8921	3400	0.9544	0.5274

Safetensors

Model size

1.0B params

Tensor type

F32

Base model

Finetuned

(384)

this model