MMS-ASR-Fula

Build error

yaya-sy commited on Dec 8, 2023

Commit

da142ce

1 Parent(s): 1b64461

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,25 @@
 import gradio as gr
-from transformers import Wav2Vec2ForCTC, AutoProcessor, pipeline
-from optimum.bettertransformer import BetterTransformer
 import torch
 import librosa
 import json
-model_id = "cawoylel/windanam_mms-1b-tts_v2"
-processor = AutoProcessor.from_pretrained(model_id)
-model = Wav2Vec2ForCTC.from_pretrained(model_id)
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
@@ -22,17 +34,7 @@ def transcribe(audio_file_mic=None, audio_file_upload=None):
     if sample_rate != 16000:
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
-    # Keep the same model in memory and simply switch out the language adapters by calling load_adapter() for the model and set_target_lang() for the tokenizer
-    processor.tokenizer.set_target_lang("ful")
-    inputs = processor(speech, sampling_rate=16_000, return_tensors="pt")
-    with torch.no_grad():
-        outputs = model(**inputs).logits
-    ids = torch.argmax(outputs, dim=-1)[0]
-    transcription = processor.decode(ids)
-    return transcription
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.

 import gradio as gr
+from pipeline
 import torch
 import librosa
 import json
+def load_model(model_name = "cawoylel/windanam_mms-1b-tts_v2"):
+  """
+  Function to load model from hugging face
+  """
+  pipe = pipeline("automatic-speech-recognition", model=model_name)
+  return pipe
+pipeline = load_model()
+st.cache_data(show_spinner=st.session_state.mapping[st.session_state.language]["transcribe"])
+def transcribe_audio(sample):
+  """
+  Transcribe audio
+  """
+  transcription = pipeline(sample)
+  return transcription["text"]
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
     if sample_rate != 16000:
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
+    return transcribe_audio(speech)
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.