mHubert-basque-ASR / README.md
Ansu's picture
Update README.md
5ffbde3 verified
---
library_name: transformers
license: cc-by-nc-sa-4.0
base_model: utter-project/mHuBERT-147
tags:
- generated_from_trainer
datasets:
- asierhv/composite_corpus_eu_v2.1
language:
- eu
metrics:
- wer
- cer
model-index:
- name: hubert_for_basque
results: []
---
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
# hubert_for_basque
This model is a fine-tuned version of [utter-project/mHuBERT-147](https://huggingface.co/utter-project/mHuBERT-147) on the composite_corpus_eu_v2.1 dataset.
## Training procedure
All the training and evaluation code is on https://github.com/ansuehu/mHubert-basque-ASR
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0001
- train_batch_size: 64
- eval_batch_size: 8
- seed: 42
- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 1000
- num_epochs: 24
- mixed_precision_training: Native AMP
### Framework versions
- Transformers 4.48.3
- Pytorch 2.5.1+cu124
- Datasets 3.3.2
- Tokenizers 0.21.0
### Sample predictions:
Test CV WER: 0.074
Test CV CER: 0.013
Sample predictions:
- Reference: honek garrantzi handia zuen ehun urteko gerran
- Prediction: honek garrantzi handia zuen eun urteko gerran
- Reference: osasuna aurkari zuzena da eta beraz puntuek balio bikoitza dute
- Prediction: osasuna aurkari zuzena da eta beraz puntuek balio bikoitza dute
- Reference: irungo familia boteretsu bat da olazabal familia
- Prediction: irungo familia boteretsu bat da olazabal familia
- Reference: hezkuntzak prestatu zituen probak pisa eta antzekoak eredu
- Prediction: hezkuntzak prestatu zituen probak pisa eta antzekoak eredu
- Reference: bestalde botilek abangoardiako diseinu orijinalak dituzte
- Prediction: bestalde botillek abanbardiako diseinu originalak dituzte
--------------
Test Parl WER: 0.068
Test Parl CER: 0.018
Sample predictions:
- Reference: por iñigo cabacas eskerrik asko eskerrik asko
- Prediction: por inigo cabacas eskerrik asko eskerrik asko
- Reference: eta ikusita obra hau hamar urteetan bueltaka ibili dela eta ikusten da zaharkitutako
- Prediction: eta ikusita obra hau hamar urteetan bueltaka ibili dela eta ikusten da zaharkitutako
- Reference: dena legearen garapen zuzena oztopatzeko helburuarekin ez dut nik esango ez eskatzaile guztiek
- Prediction: dena legearen garapen zuzena oztopatzeko helburuarekin ez dut nik esango ez eskatzaile guztiek
- Reference: eginda da eginikoa da ea gaurko adostasunak
- Prediction: eginda da eginekoa da ea gaurko adostasunak
- Reference: kontatu gabe eta udalen ordezkarien izenean izena joan gabe
- Prediction: kontatu gabe eta udalen ordezkarien izenea izenean joan gabe
--------------
Test OSLR WER: 0.204
Test OSLR CER: 0.042
Sample predictions:
- Reference: new yorkeko aireportuan eskala egin genuen kaliforniara bidean
- Prediction: new yyorkeko aireportua neskala egin genuen kaliforniara bidean
- Reference: janet jackson michael jackson abeslari ospetsuaren arreba da
- Prediction: janez jason mikel jaxon abeslari ospetsuaren arreba da
- Reference: londreseko heathrow aireportua munduko handienetarikoena da
- Prediction: londreseko hitrow aireportua munduko handienetarikoa da
- Reference: hamabietan izango da txupinazoa eta udaletxeko balkoitik botako dute urtero bezala
- Prediction: hamabitan izango da txupinasoa eta udaletxeko palkoitik botako dute urtero bezala
- Reference: motorolaren telefono berria erostekotan nabil
- Prediction: motrolaren telefono berria erostekotan nabil
## How to use
```python
from transformers import AutoProcessor, AutoModelForCTC
import torch
from datasets import load_dataset
# Load model and processor
processor = AutoProcessor.from_pretrained("Ansu/mHubert_basque_ASR")
model = AutoModelForCTC.from_pretrained("Ansu/mHubert_basque_ASR")
# Load audio from dataset
ds = load_dataset("asierhv/composite_corpus_eu_v2.1", split="test")
audio_input = ds[0]["audio"]
#Load audio from local file
audio = AudioSegment.from_file('path/to/audio')
audio = audio.set_frame_rate(16000) # Set frame rate to 16kHz
# Convert to raw PCM audio data
# Create a BytesIO object to simulate an in-memory file
with io.BytesIO() as wav_file:
# Export the audio to the in-memory file
audio.export(wav_file, format='wav')
# Seek to the beginning of the file before reading
wav_file.seek(0)
# Read the audio data as a NumPy array
audio_input = wavfile.read(wav_file)[1] # read data from wave file
# Process audio
inputs = processor(audio_input, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# Decode output
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription[0])
```