Spaces:

RP-Azul
/

P1

Sleeping

RP-Azul commited on Nov 4, 2024

Commit

c39770b

verified ·

1 Parent(s): d15474b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,9 +11,13 @@ pipe1 = pipeline("automatic-speech-recognition", model="openai/whisper-base")
 #pipe3 = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5")
 #pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
-def audio_to_image(audio):
-    # Load the audio file
-    audio_data, sample_rate = sf.read(audio)
     # Convert to mono if the audio has more than one channel
     if len(audio_data.shape) > 1:
@@ -34,5 +38,6 @@ def audio_to_image(audio):
     print("Transcription:", transcription_text)
     return transcription_text
-demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs="text")
 demo.launch(share=True)

 #pipe3 = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5")
 #pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
+def audio_to_text(audio):
+    # Check if audio is a file path or a tuple of (sample_rate, numpy_array)
+    if isinstance(audio, tuple):
+        sample_rate, audio_data = audio  # Unpack sample rate and data
+    else:
+        # If it's a file path, load the audio
+        audio_data, sample_rate = librosa.load(audio, sr=16000)  # Load and resample to 16kHz directly
     # Convert to mono if the audio has more than one channel
     if len(audio_data.shape) > 1:
     print("Transcription:", transcription_text)
     return transcription_text
+demo = gr.Interface(fn=audio_to_text, inputs=gr.Audio(source="microphone", type="numpy"), outputs="text")
 demo.launch(share=True)