Spaces:

MusIre
/

AI_TEST

Runtime error

MusIre commited on Nov 28, 2023

Commit

76264a6

1 Parent(s): 7f2e93f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,28 +1,41 @@
 import subprocess
-subprocess.run(["pip", "install", "-U", "pip"])
-subprocess.run(["pip", "install", "-U", "gradio"])
-subprocess.run(["pip", "install", "whisper"])
 import gradio as gr
-import whisper
-def transcribe_audio(audio_file):
-    model = whisper.load_model("base")
-    result = model.transcribe(audio_file)
-    return result["text"]
-def main():
-    audio_input = gr.Audio(source="upload", type="file")
-    output_text = gr.Textbox()
-    iface = gr.Interface(fn=transcribe_audio, inputs=audio_input,
-                         outputs=output_text, title="Audio Transcription App",
-                         description="Upload an audio file and hit the 'Submit'\
-                             button")
-    iface.launch()
-if __name__ == '__main__':
-    main()

 import subprocess
+subprocess.run(["pip", "install", "gradio", "--upgrade"])
+subprocess.run(["pip", "install", "transformers"])
+subprocess.run(["pip", "install", "torchaudio", "--upgrade"])
+import numpy as np
 import gradio as gr
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+# Load Whisper ASR model and processor
+model_name = "openai/whisper-small"
+processor = WhisperProcessor.from_pretrained(model_name, sampling_rate=44_100)
+model = WhisperForConditionalGeneration.from_pretrained(model_name)
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="italian", task="transcribe")
+def transcribe_audio(input_audio):
+    if isinstance(input_audio, int):
+        # Handle the case where input_audio is an integer (error fallback)
+        input_audio_np = np.array([0.0])  # You can adjust this default value
+    else:
+        input_audio_np = np.array(input_audio.data)
+    input_features = processor(input_audio_np, return_tensors="pt").input_features
+    # Generate token ids
+    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
+    # Decode token ids to text
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
+audio_input = gr.Audio(sources=["microphone"])
+gr.Interface(fn=transcribe_audio, inputs=audio_input, outputs="text").launch()