Spaces:

LT4Ryan
/

AudioDog

Sleeping

App Files Files Community

LT4Ryan commited on Aug 20, 2025

Commit

5286b5d

verified ·

1 Parent(s): 805b912

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -38

app.py CHANGED Viewed

@@ -191,7 +191,7 @@ def play_segment(evt: gr.SelectData, raw_ts_list, current_audio_path):
 article = (
     "<div style='font-size: 1.1em;'>"
-    "<p>AudioDog uses <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2'>parakeet-tdt-0.6b-v2</a></code>, a 600-million-parameter model designed for high-quality English speech recognition.</p>"
     "<p><strong style='color: red; font-size: 1.2em;'>Key Features:</strong></p>"
     "<ul>"
     "<li>Automatic punctuation and capitalization</li>"
@@ -202,9 +202,7 @@ article = (
     "</div>"
 )
-examples = [
-    ["data/example-yt_saTD1u8PorI.mp3"],
-]
 # Define an NVIDIA-inspired theme
@@ -226,57 +224,100 @@ nvidia_theme = gr_themes.Default(
     font=[gr_themes.GoogleFont("Inter"), "ui-sans-serif", "system-ui", "sans-serif"],
 ).set()
 # Apply the custom theme
 with gr.Blocks(theme='nvidia-theme') as demo:
     with gr.Row():
         with gr.Column(scale=1):
-            gr.Image("pics/AD.jpg", show_label=False, show_download_button=False)
-        with gr.Column(scale=3):
-            model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
-            gr.Markdown(f"<h1 style='text-align: left;'>AudioDog, powered by {model_display_name}</h1>")
-            gr.HTML(article)
     current_audio_path_state = gr.State(None)
     raw_timestamps_list_state = gr.State([])
-    with gr.Tabs():
-        with gr.TabItem("Audio File"):
-            file_input = gr.Audio(sources=["upload"], type="filepath", label="Upload Audio File")
-            gr.Examples(examples=examples, inputs=[file_input], label="Example Audio Files (Click to Load)")
-            file_transcribe_btn = gr.Button("Transcribe Uploaded File", variant="primary")
-        with gr.TabItem("Microphone"):
-            mic_input = gr.Audio(sources=["microphone"], type="filepath", label="Record Audio")
-            mic_transcribe_btn = gr.Button("Transcribe Microphone Input", variant="primary")
-    gr.Markdown("---")
-    gr.Markdown("<p><strong style='color: #FF0000; font-size: 1.2em;'>Transcription Results (Click row to play segment)</strong></p>")
-    # Define the DownloadButton *before* the DataFrame
-    download_btn = gr.DownloadButton(label="Download Transcript (CSV)", visible=False)
-    vis_timestamps_df = gr.DataFrame(
-        headers=["Start (s)", "End (s)", "Segment"],
-        datatype=["number", "number", "str"],
-        wrap=True,
-        label="Transcription Segments"
-    )
-    # selected_segment_player was defined after download_btn previously, keep it after df for layout
-    selected_segment_player = gr.Audio(label="Selected Segment", interactive=False)
     mic_transcribe_btn.click(
-        fn=get_transcripts_and_raw_times,
         inputs=[mic_input],
-        outputs=[vis_timestamps_df, raw_timestamps_list_state, current_audio_path_state, download_btn],
         api_name="transcribe_mic"
     )
     file_transcribe_btn.click(
-        fn=get_transcripts_and_raw_times,
         inputs=[file_input],
-        outputs=[vis_timestamps_df, raw_timestamps_list_state, current_audio_path_state, download_btn],
         api_name="transcribe_file"
     )
@@ -286,6 +327,13 @@ with gr.Blocks(theme='nvidia-theme') as demo:
         outputs=[selected_segment_player],
     )
 if __name__ == "__main__":
     print("Launching AudioDog...")
     demo.queue()

 article = (
     "<div style='font-size: 1.1em;'>"
+    "<p>AudioDog uses <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2'>parakeet-tdt-0.6b-v2</a></code>.</p>"
     "<p><strong style='color: red; font-size: 1.2em;'>Key Features:</strong></p>"
     "<ul>"
     "<li>Automatic punctuation and capitalization</li>"
     "</div>"
 )
 # Define an NVIDIA-inspired theme
     font=[gr_themes.GoogleFont("Inter"), "ui-sans-serif", "system-ui", "sans-serif"],
 ).set()
+# Helper to concatenate transcript segments
+def get_full_transcript(vis_data):
+    if not vis_data:
+        return ""
+    return " ".join([row[2] for row in vis_data if len(row) == 3])
+# Simple summary function (replace with a real model if needed)
+def summarize_transcript(transcript):
+    if not transcript:
+        return "No transcript available to summarize."
+    # Placeholder: just return first 2 sentences or 200 chars
+    import re
+    sentences = re.split(r'(?<=[.!?]) +', transcript)
+    summary = " ".join(sentences[:2])
+    if len(summary) < 40:
+        summary = transcript[:200] + ("..." if len(transcript) > 200 else "")
+    return summary
 # Apply the custom theme
 with gr.Blocks(theme='nvidia-theme') as demo:
+    model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
+    # Embed image in description HTML, left-justified and 75% width
+    # Replace the original description_html variable with this one
+    description_html = f"""
+    <div style='display: flex; align-items: flex-start;'>
+        <img src='file=pics/AD.jpg' style='width: 75%; max-width: 300px; margin-right: 20px; float: left;' alt='AudioDog logo'>
+        <div>
+            <h1 style='text-align: left;'>AudioDog, powered by {model_display_name}</h1>
+            {article}
+        </div>
+    </div>
+    """
     with gr.Row():
+        # Left: description text with embedded image and upload audio
+        with gr.Column(scale=2):
+            gr.HTML(description_html)
+            with gr.Tabs():
+                with gr.TabItem("Audio File"):
+                    file_input = gr.Audio(sources=["upload"], type="filepath", label="Upload Audio File")
+                    file_transcribe_btn = gr.Button("Transcribe Uploaded File", variant="primary")
+                with gr.TabItem("Microphone"):
+                    mic_input = gr.Audio(sources=["microphone"], type="filepath", label="Record Audio")
+                    mic_transcribe_btn = gr.Button("Transcribe Microphone Input", variant="primary")
+        # Right: transcript
         with gr.Column(scale=1):
+            transcript_box = gr.Textbox(label="Full Transcript", lines=15, interactive=False)
     current_audio_path_state = gr.State(None)
     raw_timestamps_list_state = gr.State([])
+    vis_data_state = gr.State([])
+    transcript_state = gr.State("")
+    with gr.Row():
+        # Left column: transcription results
+        with gr.Column(scale=2):
+            gr.Markdown("---")
+            gr.Markdown("<p><strong style='color: #FF0000; font-size: 1.2em;'>Transcription Results (Click row to play segment)</strong></p>")
+            download_btn = gr.DownloadButton(label="Download Transcript (CSV)", visible=False)
+            vis_timestamps_df = gr.DataFrame(
+                headers=["Start (s)", "End (s)", "Segment"],
+                datatype=["number", "number", "str"],
+                wrap=True,
+                label="Transcription Segments"
+            )
+            selected_segment_player = gr.Audio(label="Selected Segment", interactive=False)
+        # Right column: summary controls
+        with gr.Column(scale=1):
+            summary_btn = gr.Button("Summarize Transcript", variant="primary")
+            summary_box = gr.Textbox(label="Summary", lines=5, interactive=False)
+    # Transcribe button logic
+    def handle_transcribe(audio_path):
+        vis_data, raw_times, audio_path, download_btn_obj = get_transcripts_and_raw_times(audio_path)
+        transcript = get_full_transcript(vis_data)
+        return vis_data, raw_times, audio_path, download_btn_obj, vis_data, transcript
     mic_transcribe_btn.click(
+        fn=handle_transcribe,
         inputs=[mic_input],
+        outputs=[vis_timestamps_df, raw_timestamps_list_state, current_audio_path_state, download_btn, vis_data_state, transcript_box],
         api_name="transcribe_mic"
     )
     file_transcribe_btn.click(
+        fn=handle_transcribe,
         inputs=[file_input],
+        outputs=[vis_timestamps_df, raw_timestamps_list_state, current_audio_path_state, download_btn, vis_data_state, transcript_box],
         api_name="transcribe_file"
     )
         outputs=[selected_segment_player],
     )
+    # Summary button logic
+    summary_btn.click(
+        fn=summarize_transcript,
+        inputs=[transcript_box],
+        outputs=[summary_box],
+    )
 if __name__ == "__main__":
     print("Launching AudioDog...")
     demo.queue()