Spaces:

Daksh0505
/

Youtube-Chatbot

Sleeping

App Files Files Community

Daksh0505 commited on Oct 6, 2025

Commit

70402ce

verified ·

1 Parent(s): 2b0fa65

Update app.py

Browse files

Files changed (1) hide show

app.py +81 -30

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from langchain_community.vectorstores import FAISS
 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFacePipeline
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
 import torch
 import os
 import requests
@@ -16,28 +17,39 @@ if not RAPIDAPI_KEY:
     st.error("❌ RAPIDAPI_KEY not set. Please add it in your environment variables.")
-# 📼 Transcript Fetcher
 @st.cache_data
 def get_transcript(video_id, language_code="en"):
-    url = "https://youtube-transcript3.p.rapidapi.com/api/transcript"
-    querystring = {"videoId": video_id, "lang": language_code}
-    headers = {
-        "x-rapidapi-key": RAPIDAPI_KEY,
-        "x-rapidapi-host": "youtube-transcript3.p.rapidapi.com"
-    }
     try:
-        response = requests.get(url, headers=headers, params=querystring, timeout=10)
-        if response.status_code != 200:
-            st.error(f"API Error: {response.status_code}")
-            return None
-        data = response.json()
-        if data.get("success") and "transcript" in data:
-            return ' '.join([item.get('text', '') for item in data["transcript"]])
-        else:
-            st.warning("Unexpected API response format")
-            return None
     except Exception as e:
-        st.error(f"Error: {str(e)}")
         return None
@@ -53,7 +65,7 @@ def create_vector_store(transcript):
     return FAISS.from_documents(docs, embeddings)
-# 🤖 Load Free Flan-T5 locally (Better than BLOOM)
 @st.cache_resource
 def load_flan_t5():
     model_name = "google/flan-t5-base"
@@ -71,10 +83,10 @@ def load_flan_t5():
     return HuggingFacePipeline(pipeline=pipe)
-# 🧩 Build model (handles endpoints + free local model)
 def build_model(model_choice, temperature=0.7):
     if model_choice == "DeepSeek":
-        repo_id = "deepseek-ai/DeepSeek-V3.2-Exp"  # paid
         llm = HuggingFaceEndpoint(
             repo_id=repo_id,
             huggingfacehub_api_token=api_key,
@@ -83,7 +95,7 @@ def build_model(model_choice, temperature=0.7):
         )
         return ChatHuggingFace(llm=llm, temperature=temperature)
     elif model_choice == "OpenAI":
-        repo_id = "openai/gpt-oss-20b"  # paid
         llm = HuggingFaceEndpoint(
             repo_id=repo_id,
             huggingfacehub_api_token=api_key,
@@ -92,10 +104,10 @@ def build_model(model_choice, temperature=0.7):
         )
         return ChatHuggingFace(llm=llm, temperature=temperature)
     else:
-        return load_flan_t5()  # free local Flan-T5
-# 🧾 Prompt Template (Simplified for T5)
 prompt_template = PromptTemplate(
     template=(
         "Answer the question based on the context below.\n\n"
@@ -108,19 +120,48 @@ prompt_template = PromptTemplate(
 # 🚀 Streamlit UI
-st.title("🎥 YouTube Transcript Chatbot (Hybrid: Free + Paid)")
-video_id = st.text_input("YouTube Video ID", value="lv1_-RER4_I")
-query = st.text_area("Your Query", value="What is RAG?")
 model_choice = st.radio("Model to Use", ["Flan-T5 (Free)", "DeepSeek", "OpenAI"])
-temperature = st.slider("Temperature", 0, 100, value=50) / 100.0
 if st.button("🚀 Run Chatbot"):
     if not video_id or not query:
         st.warning("Please fill in all fields.")
     else:
         with st.spinner("Fetching transcript..."):
-            transcript = get_transcript(video_id)
             if not transcript:
                 st.error("Could not fetch transcript.")
             else:
@@ -144,4 +185,14 @@ if st.button("🚀 Run Chatbot"):
                         response_obj = model.invoke(prompt)
                         response = response_obj.content if hasattr(response_obj, 'content') else str(response_obj)
-                    st.text_area("Model Response", value=response, height=400)

 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFacePipeline
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
+from youtube_transcript_api import YouTubeTranscriptApi
 import torch
 import os
 import requests
     st.error("❌ RAPIDAPI_KEY not set. Please add it in your environment variables.")
+# 📋 List Available Languages
+@st.cache_data
+def list_available_languages(video_id):
+    """Fetch all available transcript languages for a video"""
+    try:
+        api = YouTubeTranscriptApi()
+        transcript_list = api.list(video_id)
+        languages = []
+        for transcript in transcript_list:
+            lang_code = transcript.language_code
+            lang_name = transcript.language
+            is_generated = transcript.is_generated
+            label = f"{lang_name} ({lang_code})" + (" - Auto-generated" if is_generated else " - Manual")
+            languages.append((lang_code, label))
+        return languages
+    except Exception as e:
+        st.warning(f"Could not fetch available languages: {e}")
+        return [("en", "English (en) - Default")]
+# 📼 Transcript Fetcher (Using youtube_transcript_api)
 @st.cache_data
 def get_transcript(video_id, language_code="en"):
+    """Fetch transcript using youtube_transcript_api"""
     try:
+        api = YouTubeTranscriptApi()
+        transcript_list = api.fetch(video_id, languages=[language_code])
+        transcript = ' '.join([snippet.text for snippet in transcript_list])
+        return transcript
     except Exception as e:
+        st.error(f"Error fetching transcript: {str(e)}")
         return None
     return FAISS.from_documents(docs, embeddings)
+# 🤖 Load Free Flan-T5 locally
 @st.cache_resource
 def load_flan_t5():
     model_name = "google/flan-t5-base"
     return HuggingFacePipeline(pipeline=pipe)
+# 🧩 Build model
 def build_model(model_choice, temperature=0.7):
     if model_choice == "DeepSeek":
+        repo_id = "deepseek-ai/DeepSeek-V3.2-Exp"
         llm = HuggingFaceEndpoint(
             repo_id=repo_id,
             huggingfacehub_api_token=api_key,
         )
         return ChatHuggingFace(llm=llm, temperature=temperature)
     elif model_choice == "OpenAI":
+        repo_id = "openai/gpt-oss-20b"
         llm = HuggingFaceEndpoint(
             repo_id=repo_id,
             huggingfacehub_api_token=api_key,
         )
         return ChatHuggingFace(llm=llm, temperature=temperature)
     else:
+        return load_flan_t5()
+# 🧾 Prompt Template
 prompt_template = PromptTemplate(
     template=(
         "Answer the question based on the context below.\n\n"
 # 🚀 Streamlit UI
+st.title("🎥 YouTube Transcript Chatbot")
+# Video ID input
+video_id = st.text_input("YouTube Video ID", value="lv1_-RER4_I", help="Enter the video ID from YouTube URL")
+# Language selection
+language_code = "en"
+if video_id:
+    with st.spinner("Checking available transcripts..."):
+        available_langs = list_available_languages(video_id)
+    if available_langs:
+        st.success(f"Found {len(available_langs)} available transcript(s)")
+        # Create dropdown with available languages
+        lang_options = {label: code for code, label in available_langs}
+        selected_label = st.selectbox(
+            "Select Transcript Language",
+            options=list(lang_options.keys()),
+            help="Choose from available transcripts for this video"
+        )
+        language_code = lang_options[selected_label]
+    else:
+        st.info("Using default English transcript")
+        language_code = "en"
+# Query input
+query = st.text_area("Your Query", value="What is RAG?", help="Ask a question about the video content")
+# Model selection
 model_choice = st.radio("Model to Use", ["Flan-T5 (Free)", "DeepSeek", "OpenAI"])
+# Temperature slider
+temperature = st.slider("Temperature", 0, 100, value=50, help="Higher = more creative, Lower = more focused") / 100.0
+# Run button
 if st.button("🚀 Run Chatbot"):
     if not video_id or not query:
         st.warning("Please fill in all fields.")
     else:
         with st.spinner("Fetching transcript..."):
+            transcript = get_transcript(video_id, language_code)
             if not transcript:
                 st.error("Could not fetch transcript.")
             else:
                         response_obj = model.invoke(prompt)
                         response = response_obj.content if hasattr(response_obj, 'content') else str(response_obj)
+                    st.text_area("Model Response", value=response, height=400)
+# Sidebar with info
+with st.sidebar:
+    st.header("ℹ️ About")
+    st.write("This chatbot analyzes YouTube videos using their transcripts.")
+    st.write("**Features:**")
+    st.write("- Auto-detect available languages")
+    st.write("- RAG-based Q&A")
+    st.write("- Multiple model options")
+    st.write("- Cached for performance")