Spaces:

Mpavan45
/

AI_Powered_Subtitle_Generator

Sleeping

App Files Files Community

Mpavan45 commited on Mar 23, 2025

Commit

1c604f5

verified ·

1 Parent(s): 9fe52a7

Create app.py

Browse files

Files changed (1) hide show

app.py +59 -0

app.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import streamlit as st
+st.title("🎥 Video Subtitle Generator with Chroma DB and Cosine Similarity")
+# Upload video
+uploaded_file = st.file_uploader("Upload a video", type=["mp4", "avi", "mov", "mkv"])
+if uploaded_file:
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp4") as temp_video:
+        temp_video.write(uploaded_file.getbuffer())
+        video_path = temp_video.name
+    audio_path = "temp_audio.wav"
+    # Extract audio
+    st.info("Extracting audio...")
+    extract_audio(video_path, audio_path)
+    # Transcribe audio
+    st.info("Transcribing audio...")
+    transcribed_text = transcribe_audio(audio_path)
+    st.text_area("Transcribed Text", transcribed_text, height=150)
+    # Initialize Chroma DB client
+    chroma_client = chromadb.Client()
+    # Load subtitle database into Chroma DB
+    subtitle_db_path = "database.csv"
+    collection, df = load_subtitle_db_chroma(subtitle_db_path, chroma_client)
+    # Find matching subtitles with Chroma DB
+    st.info("Finding matching subtitles...")
+    matching_subtitles, subtitle_embeddings = find_chroma_subtitles(transcribed_text, collection)
+    # Generate query embedding for cosine similarity
+    query_embedding = generate_embedding(transcribed_text)
+    # Compute cosine similarity
+    cosine_similarities = compute_cosine_similarity(query_embedding, subtitle_embeddings)
+    # Sort by cosine similarity
+    for i, sub in enumerate(matching_subtitles):
+        sub['cosine_similarity'] = cosine_similarities[i]
+    # Sort by similarity score
+    matching_subtitles = sorted(matching_subtitles, key=lambda x: x['cosine_similarity'], reverse=True)
+    # Display video
+    st.video(video_path)
+    # Display matching subtitles with similarity scores
+    st.subheader("📜 Matching Subtitles (Chroma DB + Cosine Similarity)")
+    for sub in matching_subtitles:
+        st.write(f"**Subtitle:** {sub['text']}")
+        st.write(f"**Cosine Similarity:** {sub['cosine_similarity']:.4f}")
+        st.write("---")
+    # Cleanup
+    os.remove(video_path)
+    os.remove(audio_path)