Ansu commited on
Commit
076c099
·
verified ·
1 Parent(s): 97a764f

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +164 -0
README.md ADDED
@@ -0,0 +1,164 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: transformers
3
+ license: cc-by-nc-sa-4.0
4
+ base_model: utter-project/mHuBERT-147
5
+ tags:
6
+ - generated_from_trainer
7
+ datasets:
8
+ - asierhv/composite_corpus_eu_v2.1
9
+ language:
10
+ - eu
11
+ metrics:
12
+ - wer
13
+ - cer
14
+ model-index:
15
+ - name: hubert_for_basque
16
+ results: []
17
+ ---
18
+
19
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
20
+ should probably proofread and complete it, then remove this comment. -->
21
+
22
+ # hubert_for_basque
23
+
24
+ This model is a fine-tuned version of [utter-project/mHuBERT-147](https://huggingface.co/utter-project/mHuBERT-147) on the composite_corpus_eu_v2.1 dataset.
25
+
26
+ ## Training procedure
27
+
28
+ All the training and evaluation code is on https://github.com/ansuehu/mHubert-basque-ASR
29
+
30
+ ### Training hyperparameters
31
+
32
+ The following hyperparameters were used during training:
33
+ - learning_rate: 0.0001
34
+ - train_batch_size: 64
35
+ - eval_batch_size: 8
36
+ - seed: 42
37
+ - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
38
+ - lr_scheduler_type: linear
39
+ - lr_scheduler_warmup_steps: 1000
40
+ - num_epochs: 7
41
+ - mixed_precision_training: Native AMP
42
+
43
+ ### Framework versions
44
+
45
+ - Transformers 4.48.3
46
+ - Pytorch 2.5.1+cu124
47
+ - Datasets 3.3.2
48
+ - Tokenizers 0.21.0
49
+
50
+ ## Test results
51
+
52
+ Map: 100%|██████████| 16359/16359 [09:32<00:00, 28.58 examples/s]
53
+
54
+ Test WER: 0.137
55
+
56
+ Test CER: 0.024
57
+
58
+ ### Sample predictions:
59
+
60
+ Test CV WER: 0.074
61
+
62
+ Test CV CER: 0.013
63
+
64
+ Sample predictions:
65
+
66
+ - Reference: honek garrantzi handia zuen ehun urteko gerran
67
+ - Prediction: honek garrantzi handia zuen eun urteko gerran
68
+
69
+ - Reference: osasuna aurkari zuzena da eta beraz puntuek balio bikoitza dute
70
+ - Prediction: osasuna aurkari zuzena da eta beraz puntuek balio bikoitza dute
71
+
72
+ - Reference: irungo familia boteretsu bat da olazabal familia
73
+ - Prediction: irungo familia boteretsu bat da olazabal familia
74
+
75
+ - Reference: hezkuntzak prestatu zituen probak pisa eta antzekoak eredu
76
+ - Prediction: hezkuntzak prestatu zituen probak pisa eta antzekoak eredu
77
+
78
+ - Reference: bestalde botilek abangoardiako diseinu orijinalak dituzte
79
+ - Prediction: bestalde botillek abanbardiako diseinu originalak dituzte
80
+
81
+ --------------
82
+
83
+ Test Parl WER: 0.068
84
+
85
+ Test Parl CER: 0.018
86
+
87
+ Sample predictions:
88
+
89
+ - Reference: por iñigo cabacas eskerrik asko eskerrik asko
90
+ - Prediction: por inigo cabacas eskerrik asko eskerrik asko
91
+
92
+ - Reference: eta ikusita obra hau hamar urteetan bueltaka ibili dela eta ikusten da zaharkitutako
93
+ - Prediction: eta ikusita obra hau hamar urteetan bueltaka ibili dela eta ikusten da zaharkitutako
94
+
95
+ - Reference: dena legearen garapen zuzena oztopatzeko helburuarekin ez dut nik esango ez eskatzaile guztiek
96
+ - Prediction: dena legearen garapen zuzena oztopatzeko helburuarekin ez dut nik esango ez eskatzaile guztiek
97
+
98
+ - Reference: eginda da eginikoa da ea gaurko adostasunak
99
+ - Prediction: eginda da eginekoa da ea gaurko adostasunak
100
+
101
+ - Reference: kontatu gabe eta udalen ordezkarien izenean izena joan gabe
102
+ - Prediction: kontatu gabe eta udalen ordezkarien izenea izenean joan gabe
103
+
104
+ --------------
105
+
106
+ Test OSLR WER: 0.204
107
+
108
+ Test OSLR CER: 0.042
109
+
110
+ Sample predictions:
111
+ - Reference: new yorkeko aireportuan eskala egin genuen kaliforniara bidean
112
+ - Prediction: new yyorkeko aireportua neskala egin genuen kaliforniara bidean
113
+
114
+ - Reference: janet jackson michael jackson abeslari ospetsuaren arreba da
115
+ - Prediction: janez jason mikel jaxon abeslari ospetsuaren arreba da
116
+
117
+ - Reference: londreseko heathrow aireportua munduko handienetarikoena da
118
+ - Prediction: londreseko hitrow aireportua munduko handienetarikoa da
119
+
120
+ - Reference: hamabietan izango da txupinazoa eta udaletxeko balkoitik botako dute urtero bezala
121
+ - Prediction: hamabitan izango da txupinasoa eta udaletxeko palkoitik botako dute urtero bezala
122
+
123
+ - Reference: motorolaren telefono berria erostekotan nabil
124
+ - Prediction: motrolaren telefono berria erostekotan nabil
125
+
126
+ ## How to use
127
+
128
+ ```python
129
+ from transformers import AutoProcessor, AutoModelForCTC
130
+ import torch
131
+ from datasets import load_dataset
132
+
133
+ # Load model and processor
134
+ processor = AutoProcessor.from_pretrained("Ansu/mHubert_basque_ASR")
135
+ model = AutoModelForCTC.from_pretrained("Ansu/mHubert_basque_ASR")
136
+
137
+ # Load audio from dataset
138
+ ds = load_dataset("asierhv/composite_corpus_eu_v2.1", split="test")
139
+ audio_input = ds[0]["audio"]
140
+
141
+ #Load audio from local file
142
+ audio = AudioSegment.from_file('path/to/audio')
143
+ audio = audio.set_frame_rate(16000) # Set frame rate to 16kHz
144
+
145
+ # Convert to raw PCM audio data
146
+ # Create a BytesIO object to simulate an in-memory file
147
+ with io.BytesIO() as wav_file:
148
+ # Export the audio to the in-memory file
149
+ audio.export(wav_file, format='wav')
150
+ # Seek to the beginning of the file before reading
151
+ wav_file.seek(0)
152
+ # Read the audio data as a NumPy array
153
+ audio_input = wavfile.read(wav_file)[1] # read data from wave file
154
+
155
+ # Process audio
156
+ inputs = processor(audio_input, sampling_rate=16000, return_tensors="pt")
157
+ with torch.no_grad():
158
+ logits = model(**inputs).logits
159
+
160
+ # Decode output
161
+ predicted_ids = torch.argmax(logits, dim=-1)
162
+ transcription = processor.batch_decode(predicted_ids)
163
+ print(transcription[0])
164
+ ```