Spaces:

FineToon
/

Ai-Audio-Text-To-Text

Running

App Files Files Community

AiCoderv2 commited on Sep 15, 2025

Commit

913772f

verified ·

1 Parent(s): 08bdda0

Create app.py

Browse files

Files changed (1) hide show

app.py +71 -0

app.py ADDED Viewed

	@@ -0,0 +1,71 @@

+from transformers import pipeline
+import gradio as gr
+import numpy as np
+# Initialize automatic speech recognition pipeline
+asr = pipeline("automatic-speech-recognition", model="openai/whisper-tiny")
+def transcribe_audio(audio):
+    if audio is None:
+        return "No audio provided. Please upload an audio file or record using the microphone."
+    try:
+        # Convert audio to numpy array
+        sr, data = audio
+        if len(data.shape) > 1:
+            # If stereo, convert to mono
+            data = np.mean(data, axis=1)
+        # Normalize audio data
+        data = data.astype(np.float32) / np.iinfo(data.dtype).max
+        # Transcribe audio
+        result = asr(data, sampling_rate=sr)
+        return result["text"]
+    except Exception as e:
+        return f"Error during transcription: {str(e)}"
+# Gradio interface
+with gr.Blocks(title="Speech to Text") as demo:
+    gr.Markdown("# 🎵 Speech to Text Transcription")
+    gr.Markdown("Convert audio to text using OpenAI's Whisper model")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(
+                sources=["upload", "microphone"],
+                type="numpy",
+                label="Audio Input"
+            )
+            transcribe_btn = gr.Button("Transcribe Audio", variant="primary")
+        with gr.Column():
+            text_output = gr.Textbox(
+                lines=10,
+                label="Transcription",
+                interactive=False
+            )
+    transcribe_btn.click(
+        transcribe_audio,
+        inputs=audio_input,
+        outputs=text_output
+    )
+    gr.Examples(
+        examples=[
+            ["example_audio_1.wav"],
+            ["example_audio_2.wav"]
+        ],
+        inputs=[audio_input],
+    )
+    gr.Markdown("### About This Model")
+    gr.Markdown("- **Model**: [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny)")
+    gr.Markdown("- **Task**: Automatic Speech Recognition (ASR)")
+    gr.Markdown("- **Capabilities**: Transcribes speech to text in multiple languages")
+    gr.Markdown("- **Note**: First transcription may take 10-20 seconds (model loading)")
+    gr.Markdown("- **Supported Formats**: WAV, MP3, M4A, FLAC")
+if __name__ == "__main__":
+    demo.launch()