Spaces:

shukdevdatta123
/

Video-Transcriber

Paused

App Files Files Community

shukdevdatta123 commited on May 28, 2025

Commit

0064167

verified ·

1 Parent(s): c4a62d5

Update app.py

Browse files

Files changed (1) hide show

app.py +92 -43

app.py CHANGED Viewed

@@ -5,11 +5,27 @@ from pydub import AudioSegment
 import tempfile
 import os
 import io
 from transformers import pipeline
 import matplotlib.pyplot as plt
 import librosa
 import numpy as np
 # Function to convert video to audio
 def video_to_audio(video_file):
     video = mp.VideoFileClip(video_file)
@@ -83,58 +99,91 @@ def plot_waveform(audio_data, duration=10):
 # Streamlit app layout
 st.title("Video and Audio to Text Transcription with Emotion Detection and Visualization")
-st.write("Upload a video or audio file to transcribe it, detect emotions, and visualize the audio waveform.")
-st.write("**Note:** To upload files up to 1GB, run the app with: `streamlit run app.py --server.maxUploadSize=1024`")
 tab = st.selectbox("Select file type", ["Video", "Audio"])
 if tab == "Video":
-    uploaded_video = st.file_uploader("Upload Video", type=["mp4", "mov", "avi"])
-    if uploaded_video:
-        with tempfile.NamedTemporaryFile(delete=False) as tmp_video:
-            tmp_video.write(uploaded_video.read())
-            tmp_video_path = tmp_video.name
-        if st.button("Analyze Video"):
-            with st.spinner("Processing video..."):
-                audio_file = video_to_audio(tmp_video_path)
-                wav_audio_file = convert_mp3_to_wav(audio_file)
-                transcription = transcribe_audio(wav_audio_file)
-                st.text_area("Transcription", transcription, height=300)
-                emotions = detect_emotion(transcription)
-                st.write(f"Detected Emotions: {emotions}")
-                with open(wav_audio_file, "rb") as f:
-                    audio_data = io.BytesIO(f.read())
-                    st.session_state.wav_audio_file = audio_data
-                plot_waveform(st.session_state.wav_audio_file)
-                os.remove(tmp_video_path)
-                os.remove(audio_file)
-                os.remove(wav_audio_file)
     if 'wav_audio_file' in st.session_state:
         st.audio(st.session_state.wav_audio_file, format='audio/wav')
-        st.download_button("Download Transcription", st.session_state.transcription, "transcription.txt", "text/plain")
         st.download_button("Download Audio", st.session_state.wav_audio_file, "converted_audio.wav", "audio/wav")
 elif tab == "Audio":
-    uploaded_audio = st.file_uploader("Upload Audio", type=["wav", "mp3"])
-    if uploaded_audio:
-        with tempfile.NamedTemporaryFile(delete=False) as tmp_audio:
-            tmp_audio.write(uploaded_audio.read())
-            tmp_audio_path = tmp_audio.name
-        if st.button("Analyze Audio"):
-            with st.spinner("Processing audio..."):
-                wav_audio_file = convert_mp3_to_wav(tmp_audio_path) if uploaded_audio.type == "audio/mpeg" else tmp_audio_path
-                transcription = transcribe_audio(wav_audio_file)
-                st.text_area("Transcription", transcription, height=300)
-                emotions = detect_emotion(transcription)
-                st.write(f"Detected Emotions: {emotions}")
-                with open(wav_audio_file, "rb") as f:
-                    audio_data = io.BytesIO(f.read())
-                    st.session_state.wav_audio_file_audio = audio_data
-                plot_waveform(st.session_state.wav_audio_file_audio)
-                if uploaded_audio.type == "audio/mpeg":
-                    os.remove(wav_audio_file)
-                os.remove(tmp_audio_path)
     if 'wav_audio_file_audio' in st.session_state:
         st.audio(st.session_state.wav_audio_file_audio, format='audio/wav')
-        st.download_button("Download Transcription", st.session_state.transcription_audio, "transcription_audio.txt", "text/plain")
         st.download_button("Download Audio", st.session_state.wav_audio_file_audio, "converted_audio_audio.wav", "audio/wav")

 import tempfile
 import os
 import io
+import requests
 from transformers import pipeline
 import matplotlib.pyplot as plt
 import librosa
 import numpy as np
+# Function to download file from URL
+def download_file(url):
+    try:
+        extension = os.path.splitext(url)[1]
+        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=extension)
+        with requests.get(url, stream=True) as r:
+            r.raise_for_status()
+            for chunk in r.iter_content(chunk_size=8192):
+                temp_file.write(chunk)
+        temp_file.close()
+        return temp_file.name
+    except Exception as e:
+        st.error(f"Failed to download file: {e}")
+        return None
 # Function to convert video to audio
 def video_to_audio(video_file):
     video = mp.VideoFileClip(video_file)
 # Streamlit app layout
 st.title("Video and Audio to Text Transcription with Emotion Detection and Visualization")
+st.write("Upload a video or audio file, or provide a URL to a large file (up to 1GB).")
+st.write("**Note:** Direct file uploads are limited to 200MB. For larger files, please provide a URL.")
 tab = st.selectbox("Select file type", ["Video", "Audio"])
 if tab == "Video":
+    method = st.radio("Choose how to provide the video file:", ["Upload file", "Provide URL"])
+    if method == "Upload file":
+        uploaded_file = st.file_uploader("Upload Video", type=["mp4", "mov", "avi"])
+    elif method == "Provide URL":
+        url = st.text_input("Enter video URL")
+    if st.button("Analyze Video"):
+        if method == "Upload file" and uploaded_file:
+            with tempfile.NamedTemporaryFile(delete=False, suffix='.mp4') as tmp_file:
+                tmp_file.write(uploaded_file.read())
+                file_path = tmp_file.name
+        elif method == "Provide URL" and url:
+            with st.spinner("Downloading video... This may take a while for large files."):
+                file_path = download_file(url)
+                if file_path is None:
+                    st.error("Failed to download the file. Please check the URL and try again.")
+                    st.stop()
+        else:
+            st.error("Please provide a file or URL.")
+            st.stop()
+        # Process the video file
+        with st.spinner("Processing video..."):
+            audio_file = video_to_audio(file_path)
+            wav_audio_file = convert_mp3_to_wav(audio_file)
+            transcription = transcribe_audio(wav_audio_file)
+            st.text_area("Transcription", transcription, height=300)
+            emotions = detect_emotion(transcription)
+            st.write(f"Detected Emotions: {emotions}")
+            with open(wav_audio_file, "rb") as f:
+                audio_data = io.BytesIO(f.read())
+                st.session_state.wav_audio_file = audio_data
+            plot_waveform(st.session_state.wav_audio_file)
+            # Cleanup
+            os.remove(file_path)
+            os.remove(audio_file)
+            os.remove(wav_audio_file)
     if 'wav_audio_file' in st.session_state:
         st.audio(st.session_state.wav_audio_file, format='audio/wav')
+        st.download_button("Download Transcription", transcription, "transcription.txt", "text/plain")
         st.download_button("Download Audio", st.session_state.wav_audio_file, "converted_audio.wav", "audio/wav")
 elif tab == "Audio":
+    method = st.radio("Choose how to provide the audio file:", ["Upload file", "Provide URL"])
+    if method == "Upload file":
+        uploaded_file = st.file_uploader("Upload Audio", type=["wav", "mp3"])
+    elif method == "Provide URL":
+        url = st.text_input("Enter audio URL")
+    if st.button("Analyze Audio"):
+        if method == "Upload file" and uploaded_file:
+            with tempfile.NamedTemporaryFile(delete=False, suffix='.mp3' if uploaded_file.type == "audio/mpeg" else '.wav') as tmp_file:
+                tmp_file.write(uploaded_file.read())
+                file_path = tmp_file.name
+        elif method == "Provide URL" and url:
+            with st.spinner("Downloading audio... This may take a while for large files."):
+                file_path = download_file(url)
+                if file_path is None:
+                    st.error("Failed to download the file. Please check the URL and try again.")
+                    st.stop()
+        else:
+            st.error("Please provide a file or URL.")
+            st.stop()
+        # Process the audio file
+        with st.spinner("Processing audio..."):
+            if file_path.endswith('.mp3'):
+                wav_audio_file = convert_mp3_to_wav(file_path)
+            else:
+                wav_audio_file = file_path
+            transcription = transcribe_audio(wav_audio_file)
+            st.text_area("Transcription", transcription, height=300)
+            emotions = detect_emotion(transcription)
+            st.write(f"Detected Emotions: {emotions}")
+            with open(wav_audio_file, "rb") as f:
+                audio_data = io.BytesIO(f.read())
+                st.session_state.wav_audio_file_audio = audio_data
+            plot_waveform(st.session_state.wav_audio_file_audio)
+            # Cleanup
+            if file_path != wav_audio_file:
+                os.remove(file_path)
+            os.remove(wav_audio_file)
     if 'wav_audio_file_audio' in st.session_state:
         st.audio(st.session_state.wav_audio_file_audio, format='audio/wav')
+        st.download_button("Download Transcription", transcription, "transcription_audio.txt", "text/plain")
         st.download_button("Download Audio", st.session_state.wav_audio_file_audio, "converted_audio_audio.wav", "audio/wav")