Spaces:

hellokawei
/

image

Runtime error

hellokawei commited on Apr 21, 2025

Commit

7960641

verified ·

1 Parent(s): 76362b7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ from transformers import pipeline, WhisperProcessor, WhisperForConditionalGenera
 from diffusers import StableDiffusionPipeline
 import torch
 import numpy as np
-import soundfile as sf
 # Step 1: Prompt-to-Prompt Generation using BART (or any LLM except GPT or DeepSeek)
 prompt_generator = pipeline("text2text-generation", model="facebook/bart-large-cnn")
@@ -37,11 +36,8 @@ processor = WhisperProcessor.from_pretrained("openai/whisper-large")
 model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
 def transcribe_audio(audio: np.ndarray, sampling_rate: int) -> str:
-    # Save the audio as a temporary WAV file
-    sf.write("temp_audio.wav", audio, sampling_rate)
-    # Convert audio to text using Whisper
-    audio_input = processor("temp_audio.wav", return_tensors="pt").input_features
     predicted_ids = model.generate(audio_input)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription

 from diffusers import StableDiffusionPipeline
 import torch
 import numpy as np
 # Step 1: Prompt-to-Prompt Generation using BART (or any LLM except GPT or DeepSeek)
 prompt_generator = pipeline("text2text-generation", model="facebook/bart-large-cnn")
 model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
 def transcribe_audio(audio: np.ndarray, sampling_rate: int) -> str:
+    # Directly process the numpy array audio input
+    audio_input = processor(audio, sampling_rate=sampling_rate, return_tensors="pt").input_features
     predicted_ids = model.generate(audio_input)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription