End of training

bdb4d11 verified 8 months ago

2.71 kB

library_name: transformers
language:
  - kh
license: apache-2.0
base_model: openai/whisper-large-v3
tags:
  - generated_from_trainer
datasets:
  - S-Sethisak/KhmerAsrDataset
metrics:
  - wer
model-index:
  - name: Whisper large-v3 kh - Sethisak San
    results:
      - task:
          name: Automatic Speech Recognition
          type: automatic-speech-recognition
        dataset:
          name: KhmerAsrDataset
          type: S-Sethisak/KhmerAsrDataset
          args: 'config: kh, split: test'
        metrics:
          - name: Wer
            type: wer
            value: 81.8018018018018

Whisper large-v3 kh - Sethisak San

This model is a fine-tuned version of openai/whisper-large-v3 on the KhmerAsrDataset dataset. It achieves the following results on the evaluation set:

Loss: 0.0830
Wer: 81.8018
Cer: 20.7231

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 2
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
training_steps: 10000
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Cer	Validation Loss	Wer
0.0232	1.6086	1000	24.9919	0.1027	92.9730
0.0044	3.2157	2000	22.4125	0.0933	88.8288
0.0015	4.8243	3000	22.8354	0.0882	89.5495
0.0001	6.4315	4000	21.4830	0.0924	86.6667
0.2061	8.0499	5000	0.1793	97.1171	33.1714
0.1139	9.6585	6000	0.1184	93.3333	25.9980
0.0739	11.2656	7000	0.0932	87.5676	22.9656
0.0515	12.8742	8000	0.0838	86.4865	22.1825
0.0384	14.4814	9000	0.0823	81.4414	21.5597
0.0131	16.0885	10000	0.0830	81.8018	20.7231

Framework versions

Transformers 4.48.0
Pytorch 2.8.0+cu126
Datasets 2.14.7
Tokenizers 0.21.4