Spaces:

EdmundYi
/

homework

Sleeping

App Files Files Community

EdmundYi commited on Apr 21, 2025

Commit

b144d59

verified ·

1 Parent(s): 60fe297

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -15

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 from transformers import pipeline, WhisperProcessor, WhisperForConditionalGeneration
 from diffusers import StableDiffusionPipeline
 import torch
-import librosa
 # Step 1: Prompt-to-Prompt Generation using BART (or any LLM except GPT or DeepSeek)
 prompt_generator = pipeline("text2text-generation", model="facebook/bart-large-cnn")
@@ -24,25 +24,13 @@ def generate_image(prompt: str):
 processor = WhisperProcessor.from_pretrained("openai/whisper-large")
 model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
-import librosa  # For handling audio files
 def transcribe_audio(audio):
     # Convert audio to text using Whisper
-    # Check if audio is a numpy array (for recordings)
-    if isinstance(audio, np.ndarray):
-        audio_input = processor(audio, return_tensors="pt").input_features
-    else:
-        # If it's a file path (upload), use librosa to load the file
-        audio_input, _ = librosa.load(audio, sr=16000)  # Load audio with 16kHz sample rate
-        audio_input = processor(audio_input, return_tensors="pt").input_features
-    # Transcribe the audio
     predicted_ids = model.generate(audio_input)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription
 # Step 3: Gradio Interface with Multiple Controllers (Textbox, Slider, Checkbox, Audio)
 def process_input(description: str, creativity: float, include_background: bool):
     # Generate a detailed prompt
@@ -72,7 +60,6 @@ background_checkbox = gr.Checkbox(label="Include Background", value=True)
 audio_input = gr.Audio(type="numpy", label="Speak your Description")
 # Create interface with both text and audio inputs
 interface = gr.Interface(
     fn=process_input,

 from transformers import pipeline, WhisperProcessor, WhisperForConditionalGeneration
 from diffusers import StableDiffusionPipeline
 import torch
 # Step 1: Prompt-to-Prompt Generation using BART (or any LLM except GPT or DeepSeek)
 prompt_generator = pipeline("text2text-generation", model="facebook/bart-large-cnn")
 processor = WhisperProcessor.from_pretrained("openai/whisper-large")
 model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
 def transcribe_audio(audio):
     # Convert audio to text using Whisper
+    audio_input = processor(audio, return_tensors="pt").input_features
     predicted_ids = model.generate(audio_input)
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
     return transcription
 # Step 3: Gradio Interface with Multiple Controllers (Textbox, Slider, Checkbox, Audio)
 def process_input(description: str, creativity: float, include_background: bool):
     # Generate a detailed prompt
 audio_input = gr.Audio(type="numpy", label="Speak your Description")
 # Create interface with both text and audio inputs
 interface = gr.Interface(
     fn=process_input,