Spaces:

LiKenun
/

ai-building-blocks

Sleeping

LiKenun commited on Nov 3, 2025

Commit

bb6107f

1 Parent(s): 0fea237

Enable audio file retrieval by URL for automatic speech recognition (ASR) sample

Files changed (2) hide show

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ from image_classification import image_classification
 from image_to_text import image_to_text
 from text_to_image import text_to_image
 from text_to_speech import text_to_speech
-from utils import request_image
 class App:
@@ -74,9 +74,16 @@ class App:
                         inputs=text_to_speech_text,
                         outputs=text_to_speech_output
                     )
-                with gr.Tab("Audio Transcription or Automatic Speech Recognition (ASR)"):
                     gr.Markdown("Transcribe audio to text.")
                     audio_transcription_audio_input = gr.Audio(label="Audio")
                     audio_transcription_generate_button = gr.Button("Transcribe")
                     audio_transcription_output = gr.Textbox(label="Text")
                     audio_transcription_generate_button.click(

 from image_to_text import image_to_text
 from text_to_image import text_to_image
 from text_to_speech import text_to_speech
+from utils import request_image, request_audio
 class App:
                         inputs=text_to_speech_text,
                         outputs=text_to_speech_output
                     )
+                with gr.Tab("Automatic Speech Recognition (ASR)"):
                     gr.Markdown("Transcribe audio to text.")
+                    audio_transcription_url_input = gr.Textbox(label="Audio URL")
+                    audio_transcription_audio_request_button = gr.Button("Get Audio")
                     audio_transcription_audio_input = gr.Audio(label="Audio")
+                    audio_transcription_audio_request_button.click(
+                        fn=request_audio,
+                        inputs=audio_transcription_url_input,
+                        outputs=audio_transcription_audio_input
+                    )
                     audio_transcription_generate_button = gr.Button("Transcribe")
                     audio_transcription_output = gr.Textbox(label="Text")
                     audio_transcription_generate_button.click(

utils.py CHANGED Viewed

@@ -27,7 +27,7 @@ def get_pytorch_device() -> str:
 def request_image(url: str) -> Image:
     try:
-        response = requests.get(url, timeout=int(getenv("REQUEST_TIMEOUT")))
         response.raise_for_status()
         return open_image(BytesIO(response.content))
     except requests.HTTPError as e:
@@ -37,6 +37,21 @@ def request_image(url: str) -> Image:
     except requests.RequestException as e:
         raise gr.Error(f"Failed to fetch image from URL: {str(e)}")
 def save_image_to_temp_file(image: Image) -> str:
     image_format = image.format if image.format else 'PNG'
     format_extension = image_format.lower() if image_format else 'png'

 def request_image(url: str) -> Image:
     try:
+        response = requests.get(url, timeout=int(getenv("REQUEST_TIMEOUT", "45")))
         response.raise_for_status()
         return open_image(BytesIO(response.content))
     except requests.HTTPError as e:
     except requests.RequestException as e:
         raise gr.Error(f"Failed to fetch image from URL: {str(e)}")
+def request_audio(url: str) -> tuple[int, np.ndarray]:
+    try:
+        response = requests.get(url, timeout=int(getenv("REQUEST_TIMEOUT", "45")))
+        response.raise_for_status()
+        audio_array, sample_rate = librosa.load(BytesIO(response.content), sr=None)
+        return (sample_rate, audio_array)
+    except requests.HTTPError as e:
+        raise gr.Error(f"Failed to fetch audio from URL because of HTTP error: {e.response.status_code} {e.response.text}")
+    except requests.Timeout as e:
+        raise gr.Error(f"Failed to fetch audio from URL because the request timed out.")
+    except requests.RequestException as e:
+        raise gr.Error(f"Failed to fetch audio from URL: {str(e)}")
+    except Exception as e:
+        raise gr.Error(f"Failed to load audio file: {str(e)}")
 def save_image_to_temp_file(image: Image) -> str:
     image_format = image.format if image.format else 'PNG'
     format_extension = image_format.lower() if image_format else 'png'