Spaces:

David-Chew-HL
/

Transcriber-2.0

Sleeping

App Files Files Community

David-Chew-HL commited on Jul 19, 2025

Commit

e186284

verified ·

1 Parent(s): b7feb76

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -7

app.py CHANGED Viewed

@@ -6,13 +6,16 @@ import uuid
 from pydub import AudioSegment
 import os
-# Load the model
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
 model.eval().to(device).to(torch.bfloat16)
 def transcribe_to_docx(audio_path):
-    # Convert to mono + 16kHz wav
     audio = AudioSegment.from_file(audio_path)
     audio = audio.set_channels(1).set_frame_rate(16000)
     tmp_wav = f"/tmp/{uuid.uuid4()}.wav"
@@ -20,9 +23,9 @@ def transcribe_to_docx(audio_path):
     # Transcribe
     output = model.transcribe([tmp_wav])
-    transcript = output[0]
-    # Create Word doc
     doc = Document()
     doc.add_heading("Transcription", level=1)
     doc.add_paragraph(transcript)
@@ -34,16 +37,26 @@ def transcribe_to_docx(audio_path):
 # UI
 with gr.Blocks() as demo:
     gr.Markdown("## 🎙️ Upload Audio and Download Word Transcription")
     audio_input = gr.Audio(type="filepath", label="Upload Audio File")
-    transcribe_button = gr.Button("Transcribe")
     transcript_output = gr.Textbox(label="Transcript")
     docx_file_output = gr.File(label="Download .docx")
     transcribe_button.click(
         fn=transcribe_to_docx,
         inputs=audio_input,
-        outputs=[transcript_output, docx_file_output]
     )
 demo.launch()

 from pydub import AudioSegment
 import os
+# Load model
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
 model.eval().to(device).to(torch.bfloat16)
 def transcribe_to_docx(audio_path):
+    if not os.path.exists(audio_path):
+        raise FileNotFoundError(f"File not found: {audio_path}")
+    # Convert to mono 16kHz wav
     audio = AudioSegment.from_file(audio_path)
     audio = audio.set_channels(1).set_frame_rate(16000)
     tmp_wav = f"/tmp/{uuid.uuid4()}.wav"
     # Transcribe
     output = model.transcribe([tmp_wav])
+    transcript = output[0].text
+    # Save to Word
     doc = Document()
     doc.add_heading("Transcription", level=1)
     doc.add_paragraph(transcript)
 # UI
 with gr.Blocks() as demo:
     gr.Markdown("## 🎙️ Upload Audio and Download Word Transcription")
     audio_input = gr.Audio(type="filepath", label="Upload Audio File")
+    transcribe_button = gr.Button("Transcribe", variant="primary")
     transcript_output = gr.Textbox(label="Transcript")
     docx_file_output = gr.File(label="Download .docx")
+    download_button = gr.Button("Ready to Download", visible=False, variant="secondary")
+    def enable_download(transcript, file):
+        return gr.update(visible=True, variant="primary"), transcript, file
     transcribe_button.click(
         fn=transcribe_to_docx,
         inputs=audio_input,
+        outputs=[transcript_output, docx_file_output],
+        show_progress=True,
+        api_name="transcribe"
+    ).then(
+        fn=enable_download,
+        inputs=[transcript_output, docx_file_output],
+        outputs=[download_button, transcript_output, docx_file_output]
     )
 demo.launch()