Spaces:

harshananddev
/

speech-to-text

Build error

harshananddev commited on Jul 24, 2024

Commit

b869493

verified ·

1 Parent(s): f3d5b5b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,40 +1,52 @@
-!pip install transformers
 import gradio as gr
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
 import torch
 import torchaudio
 # Load pre-trained model and tokenizer
 model_name = "facebook/wav2vec2-base-960h"
 tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_name)
 model = Wav2Vec2ForCTC.from_pretrained(model_name)
 def speech_to_text(audio):
-    # Load audio file
-    waveform, rate = torchaudio.load(audio.name)
-    # Ensure the audio is mono
-    if waveform.shape[0] > 1:
-        waveform = torch.mean(waveform, dim=0, keepdim=True)
-    # Resample to 16000 Hz
-    resampler = torchaudio.transforms.Resample(orig_freq=rate, new_freq=16000)
-    waveform = resampler(waveform)
-    # Tokenize the waveform
-    inputs = tokenizer(waveform.squeeze().numpy(), return_tensors="pt", sampling_rate=16000)
-    # Perform inference
-    with torch.no_grad():
-        logits = model(**inputs).logits
-    # Decode the output
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = tokenizer.batch_decode(predicted_ids)[0]
-    return transcription
 # Create Gradio interface
 iface = gr.Interface(

 import gradio as gr
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
 import torch
 import torchaudio
+# Install the necessary packages
+import subprocess
+import sys
+def install(package):
+    subprocess.check_call([sys.executable, "-m", "pip", "install", package])
+install("transformers")
+install("torch")
+install("torchaudio")
+install("gradio")
 # Load pre-trained model and tokenizer
 model_name = "facebook/wav2vec2-base-960h"
 tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_name)
 model = Wav2Vec2ForCTC.from_pretrained(model_name)
 def speech_to_text(audio):
+    try:
+        # Load audio file
+        waveform, rate = torchaudio.load(audio.name)
+        # Ensure the audio is mono
+        if waveform.shape[0] > 1:
+            waveform = torch.mean(waveform, dim=0, keepdim=True)
+        # Resample to 16000 Hz
+        resampler = torchaudio.transforms.Resample(orig_freq=rate, new_freq=16000)
+        waveform = resampler(waveform)
+        # Tokenize the waveform
+        inputs = tokenizer(waveform.squeeze().numpy(), return_tensors="pt", sampling_rate=16000)
+        # Perform inference
+        with torch.no_grad():
+            logits = model(**inputs).logits
+        # Decode the output
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = tokenizer.batch_decode(predicted_ids)[0]
+        return transcription
+    except Exception as e:
+        return str(e)
 # Create Gradio interface
 iface = gr.Interface(