MMS-ASR-Fula

Build error

yaya-sy commited on Dec 6, 2023

Commit

37899af

1 Parent(s): dc08b46

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,11 +6,8 @@ import librosa
 import json
 model_id = "cawoylel/windanam_mms-1b-tts_v2"
-# processor = AutoProcessor.from_pretrained(model_id)
-# model = Wav2Vec2ForCTC.from_pretrained(model_id)
-# model = BetterTransformer.transform(model)
-pipe = pipeline("automatic-speech-recognition", model=model_id) #, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor)
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
@@ -25,7 +22,18 @@ def transcribe(audio_file_mic=None, audio_file_upload=None):
     if sample_rate != 16000:
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
-    return pipe(audio_file)["text"]
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.

 import json
 model_id = "cawoylel/windanam_mms-1b-tts_v2"
+processor = AutoProcessor.from_pretrained(model_id)
+model = Wav2Vec2ForCTC.from_pretrained(model_id)
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
     if sample_rate != 16000:
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
+    # Keep the same model in memory and simply switch out the language adapters by calling load_adapter() for the model and set_target_lang() for the tokenizer
+    processor.tokenizer.set_target_lang("ful")
+    model.load_adapter(language_code)
+    inputs = processor(speech, sampling_rate=16_000, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(**inputs).logits
+    ids = torch.argmax(outputs, dim=-1)[0]
+    transcription = processor.decode(ids)
+    return transcription
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.