Spaces:

poompengcharoen
/

typhoon-asr-api

Sleeping

App Files Files Community

poompengcharoen commited on Oct 7, 2025

Commit

fe95a59

1 Parent(s): a618605

Refactor audio transcription logic and improve user interface. Added clear transcription functionality and updated requirements for dependencies.

Browse files

Files changed (2) hide show

app.py +78 -60
requirements.txt +13 -2

app.py CHANGED Viewed

@@ -1,91 +1,109 @@
 import gradio as gr
 from typhoon_asr import transcribe
-import tempfile
 import os
-def transcribe_audio(audio_file):
-    """Transcribe audio file using Typhoon ASR"""
-    print(f"DEBUG: Audio file received: {audio_file}")
-    if audio_file is None:
-        return "❌ Please upload an audio file"
-    if not os.path.exists(audio_file):
-        return f"❌ File not found: {audio_file}"
     try:
-        print(f"DEBUG: Starting transcription of {audio_file}")
-        # Check file size
-        file_size = os.path.getsize(audio_file)
-        print(f"DEBUG: File size: {file_size} bytes")
-        # Transcribe using Typhoon ASR
-        print("DEBUG: Calling transcribe function...")
-        result = transcribe(audio_file, with_timestamps=True)
         print(f"DEBUG: Transcription result: {result}")
-        # Format the result
-        text = result['text']
-        timestamps = result.get('timestamps', [])
-        # Create formatted output
-        output = f"**✅ Transcription Complete:**\n{text}\n\n"
-        if timestamps:
-            output += "**Word-level Timestamps:**\n"
-            for ts in timestamps:
-                output += f"[{ts['start']:.2f}s - {ts['end']:.2f}s] {ts['word']}\n"
-        print("DEBUG: Transcription successful")
-        return output
     except Exception as e:
-        error_msg = f"❌ Error: {str(e)}"
         print(f"DEBUG: Error occurred: {error_msg}")
-        return error_msg
-# Create Gradio interface
 with gr.Blocks(title="Typhoon ASR API") as demo:
     gr.Markdown("# 🎤 Typhoon ASR Real-Time Transcription")
-    gr.Markdown("Upload an audio file to get Thai speech transcription with word-level timestamps")
     with gr.Row():
-        with gr.Column():
-            audio_input = gr.Audio(
-                label="Upload Audio File",
-                type="filepath",
-                sources=["upload", "microphone"]
-            )
-            transcribe_btn = gr.Button("🎯 Transcribe", variant="primary", size="lg")
-        with gr.Column():
-            output = gr.Markdown(label="Transcription Result")
-    # Add a test button
-    test_btn = gr.Button("🧪 Test Connection", variant="secondary")
-    def test_connection():
-        return "✅ Connection test successful! The app is working."
-    # Connect the buttons
     transcribe_btn.click(
         fn=transcribe_audio,
         inputs=[audio_input],
-        outputs=[output]
-    )
-    test_btn.click(
-        fn=test_connection,
-        inputs=[],
-        outputs=[output]
     )
-    # Add examples
-    gr.Examples(
-        examples=[],
-        inputs=[audio_input],
-        label="Example audio files (upload your own)"
     )
 # For API access - this function can be called externally

 import gradio as gr
 from typhoon_asr import transcribe
 import os
+# Global variable to store transcription results
+last_transcription = None
+def transcribe_audio(audio_path):
+    """Transcribe the audio using typhoon_asr"""
+    global last_transcription
+    if not audio_path:
+        return "❌ No audio to transcribe. Please upload or record audio first.", ""
     try:
+        # Show loading message
+        status_msg = "🔄 Transcribing audio..."
+        # Perform transcription (basic only)
+        print(f"DEBUG: Starting transcription of {audio_path}")
+        result = transcribe(audio_path)
         print(f"DEBUG: Transcription result: {result}")
+        last_transcription = result
+        # Handle different result formats
+        if isinstance(result, dict) and 'text' in result:
+            if hasattr(result['text'], 'text'):
+                transcription_text = result['text'].text
+            else:
+                transcription_text = result['text']
+        else:
+            transcription_text = str(result)
+        status_msg = "✅ Transcription completed!"
+        return status_msg, transcription_text
     except Exception as e:
+        error_msg = f"❌ Transcription failed: {str(e)}"
         print(f"DEBUG: Error occurred: {error_msg}")
+        return error_msg, ""
+def clear_transcription():
+    """Clear the transcription"""
+    global last_transcription
+    last_transcription = None
+    return "🗑️ Transcription cleared", ""
+def audio_uploaded(audio_path):
+    """Called when audio is uploaded - update status and enable button"""
+    if audio_path:
+        return f"✅ Audio uploaded! Ready to transcribe.", gr.Button(interactive=True)
+    else:
+        return "❌ No audio uploaded", gr.Button(interactive=False)
+# Create the Gradio interface
 with gr.Blocks(title="Typhoon ASR API") as demo:
     gr.Markdown("# 🎤 Typhoon ASR Real-Time Transcription")
+    gr.Markdown("Upload an audio file or record to get Thai speech transcription")
+    # Audio input component
+    audio_input = gr.Audio(
+        sources=["upload", "microphone"],
+        type="filepath",
+        label="Upload Audio File or Record"
+    )
+    # Status display
+    status_text = gr.Textbox(
+        label="Status",
+        value="Upload or record audio to get started",
+        interactive=False
+    )
+    # Transcription buttons
+    gr.Markdown("### Transcription")
     with gr.Row():
+        transcribe_btn = gr.Button("🎯 Transcribe", variant="primary", interactive=False)
+        clear_btn = gr.Button("🗑️ Clear Result", variant="secondary")
+    # Transcription result
+    transcription_output = gr.Textbox(
+        label="Transcription Result",
+        lines=10,
+        placeholder="Transcription will appear here after uploading/recording and clicking transcribe...",
+        interactive=False
+    )
+    # Event handlers
+    # When audio changes (uploaded/recorded), update status and enable button
+    audio_input.change(
+        fn=audio_uploaded,
+        inputs=[audio_input],
+        outputs=[status_text, transcribe_btn]
+    )
+    # Transcription button click
     transcribe_btn.click(
         fn=transcribe_audio,
         inputs=[audio_input],
+        outputs=[status_text, transcription_output]
     )
+    clear_btn.click(
+        fn=clear_transcription,
+        outputs=[status_text, transcription_output]
     )
 # For API access - this function can be called externally

requirements.txt CHANGED Viewed

@@ -1,2 +1,13 @@
-typhoon-asr
-gradio>=4.0.0

+typhoon-asr==0.1.0
+gradio==5.44.1
+torch==2.8.0
+nemo-toolkit==2.4.0
+librosa==0.11.0
+soundfile==0.13.1
+numpy==1.26.4
+scipy==1.15.3
+transformers==4.51.3
+huggingface-hub==0.34.4
+fastapi==0.116.1
+uvicorn==0.35.0
+python-multipart==0.0.20