Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 23, 2025

Commit

836768f

verified ·

1 Parent(s): f01f2d6

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -13

app.py CHANGED Viewed

@@ -20,10 +20,6 @@ import base64
 import threading
 from pytube import YouTube
-# Initialize the speaker diarization pipeline
-pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token="YOUR_HF_AUTH_TOKEN")
-print("Speaker diarization pipeline initialized successfully")
 # Check if CUDA is available and set the device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
@@ -89,7 +85,7 @@ def format_transcript_with_speakers(transcript, diarization):
             formatted_transcript.append(f"{segment_text}\n")
     return "".join(formatted_transcript)
-def transcribe_audio(audio_file):
     try:
         print("Loading audio file...")
         audio_input, sr = librosa.load(audio_file, sr=16000)
@@ -125,7 +121,7 @@ def transcribe_audio(audio_file):
         print(f"Error in transcribe_audio: {str(e)}")
         raise
-def transcribe_video(url):
     try:
         print(f"Attempting to download audio from URL: {url}")
         audio_bytes = download_audio_from_url(url)
@@ -142,7 +138,7 @@ def transcribe_video(url):
             temp_audio_path = temp_audio.name
         print("Starting audio transcription...")
-        transcript = transcribe_audio(temp_audio_path)
         print(f"Transcription completed. Transcript length: {len(transcript)} characters")
         # Clean up the temporary file
@@ -165,6 +161,7 @@ app.layout = dbc.Container([
             html.H1("Video Transcription", className="text-center mb-4"),
             dbc.Card([
                 dbc.CardBody([
                     dbc.Input(id="video-url", type="text", placeholder="Enter video URL"),
                     dbc.Button("Transcribe", id="transcribe-button", color="primary", className="mt-3"),
                     dbc.Spinner(html.Div(id="transcription-output", className="mt-3")),
@@ -179,16 +176,24 @@ app.layout = dbc.Container([
     Output("transcription-output", "children"),
     Output("download-transcript", "data"),
     Input("transcribe-button", "n_clicks"),
     State("video-url", "value"),
     prevent_initial_call=True
 )
-def update_transcription(n_clicks, url):
-    if not url:
         raise PreventUpdate
     def transcribe():
-        transcript = transcribe_video(url)
-        return transcript
     # Run transcription in a separate thread
     thread = threading.Thread(target=transcribe)
@@ -197,7 +202,7 @@ def update_transcription(n_clicks, url):
     transcript = transcribe()
-    if transcript:
         download_data = dict(content=transcript, filename="transcript.txt")
         return dbc.Card([
             dbc.CardBody([
@@ -207,7 +212,7 @@ def update_transcription(n_clicks, url):
             ])
         ]), download_data
     else:
-        return "Failed to transcribe video.", None
 if __name__ == '__main__':
     app.run(debug=True, host='0.0.0.0', port=7860)

 import threading
 from pytube import YouTube
 # Check if CUDA is available and set the device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
             formatted_transcript.append(f"{segment_text}\n")
     return "".join(formatted_transcript)
+def transcribe_audio(audio_file, pipeline):
     try:
         print("Loading audio file...")
         audio_input, sr = librosa.load(audio_file, sr=16000)
         print(f"Error in transcribe_audio: {str(e)}")
         raise
+def transcribe_video(url, pipeline):
     try:
         print(f"Attempting to download audio from URL: {url}")
         audio_bytes = download_audio_from_url(url)
             temp_audio_path = temp_audio.name
         print("Starting audio transcription...")
+        transcript = transcribe_audio(temp_audio_path, pipeline)
         print(f"Transcription completed. Transcript length: {len(transcript)} characters")
         # Clean up the temporary file
             html.H1("Video Transcription", className="text-center mb-4"),
             dbc.Card([
                 dbc.CardBody([
+                    dbc.Input(id="hf-token", type="password", placeholder="Enter Hugging Face Token", className="mb-3"),
                     dbc.Input(id="video-url", type="text", placeholder="Enter video URL"),
                     dbc.Button("Transcribe", id="transcribe-button", color="primary", className="mt-3"),
                     dbc.Spinner(html.Div(id="transcription-output", className="mt-3")),
     Output("transcription-output", "children"),
     Output("download-transcript", "data"),
     Input("transcribe-button", "n_clicks"),
+    State("hf-token", "value"),
     State("video-url", "value"),
     prevent_initial_call=True
 )
+def update_transcription(n_clicks, hf_token, url):
+    if not url or not hf_token:
         raise PreventUpdate
     def transcribe():
+        try:
+            # Initialize the speaker diarization pipeline with the provided token
+            pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token=hf_token)
+            print("Speaker diarization pipeline initialized successfully")
+            transcript = transcribe_video(url, pipeline)
+            return transcript
+        except Exception as e:
+            return f"An error occurred: {str(e)}"
     # Run transcription in a separate thread
     thread = threading.Thread(target=transcribe)
     transcript = transcribe()
+    if transcript and not transcript.startswith("An error occurred"):
         download_data = dict(content=transcript, filename="transcript.txt")
         return dbc.Card([
             dbc.CardBody([
             ])
         ]), download_data
     else:
+        return transcript, None
 if __name__ == '__main__':
     app.run(debug=True, host='0.0.0.0', port=7860)