Spaces:

peterkros
/

transcribeapi

Sleeping

peterkros commited on Aug 20, 2024

Commit

4ca61bc

verified ·

1 Parent(s): 5c867bf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from transformers import WhisperProcessor, WhisperForConditionalGeneration, pipeline
 import torch
 import soundfile as sf
@@ -12,13 +12,14 @@ model = WhisperForConditionalGeneration.from_pretrained(model_name)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
-# Function to handle transcription with language set to English by default
-def transcribe(audio_path):
-    # Load audio from file
-    audio, sampling_rate = sf.read(audio_path)
     # Process the audio to get input features
-    input_features = processor(audio, sampling_rate=sampling_rate, return_tensors="pt").input_features.to(device)
     # Generate transcription with attention_mask and correct input_features
     attention_mask = torch.ones(input_features.shape, dtype=torch.long, device=device)
@@ -35,11 +36,11 @@ def transcribe(audio_path):
 # Create a Gradio Interface
 interface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(sources="upload", type="filepath"),
     outputs="text",
     title="Whisper Speech-to-Text API",
     description="Upload an audio file and get a transcription using OpenAI's Whisper model from Hugging Face."
 )
 # Launch the interface as an API
-interface.launch()

 import gradio as gr
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 import soundfile as sf
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
+def transcribe(audio):
+    # Gradio passes audio as a numpy array, so no need to load from file.
+    # If the input is a file path, load the audio from the file:
+    if isinstance(audio, str):  # Assuming it's a file path
+        audio, sampling_rate = sf.read(audio)
     # Process the audio to get input features
+    input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(device)
     # Generate transcription with attention_mask and correct input_features
     attention_mask = torch.ones(input_features.shape, dtype=torch.long, device=device)
 # Create a Gradio Interface
 interface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(sources="upload", type="numpy"),  # Correct handling of audio as numpy array
     outputs="text",
     title="Whisper Speech-to-Text API",
     description="Upload an audio file and get a transcription using OpenAI's Whisper model from Hugging Face."
 )
 # Launch the interface as an API
+interface.launch()