Spaces:

Daksh0505
/

Youtube-Chatbot

Sleeping

App Files Files Community

Daksh0505 commited on Oct 5

Commit

e0df4a5

verified ·

1 Parent(s): 6edb192

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -37

app.py CHANGED Viewed

@@ -1,35 +1,56 @@
 import streamlit as st
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint, HuggingFaceEmbeddings
-from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
 from langchain.prompts import PromptTemplate
 import os
 api_key = os.getenv("HF_API_KEY")
-# 📼 Transcript Language Options
 @st.cache_data
-def get_available_languages(video_id):
-    transcriber = YouTubeTranscriptApi()
     try:
-        transcript_info = transcriber.list(video_id)
-        return [(t.language_code, t.language) for t in transcript_info]
-    except Exception:
-        return []
-# 📼 Transcript Fetcher
-@st.cache_data
-def get_transcript(video_id, language_code):
-    transcriber = YouTubeTranscriptApi()
-    try:
-        transcript_list = transcriber.fetch(video_id, languages=[language_code])
-        return ' '.join([d.text for d in transcript_list])
-    except (NoTranscriptFound, TranscriptsDisabled):
-        return None
-    except Exception:
         return None
 # 🧠 Embedding Loader
 @st.cache_resource
 def load_embeddings():
@@ -73,32 +94,49 @@ prompt_template = PromptTemplate(
 # 🚀 App UI
 st.title("🎥 YouTube Transcript Chatbot")
-video_id = st.text_input("YouTube Video ID", value="lv1_-RER4_I")
-if video_id:
-    langs = get_available_languages(video_id)
-    lang_options = [f"{name} ({code})" for code, name in langs] if langs else ["No transcript available"]
-    selected_lang = st.selectbox("Transcript Language", lang_options)
-    language_code = selected_lang.split("(")[-1].strip(")") if langs else None
-else:
-    language_code = None
 query = st.text_area("Your Query", value="What is RAG?")
 model_choice = st.radio("Model to Use", ["DeepSeek", "OpenAI"])
 temperature = st.slider("Temperature", 0, 100, value=50)
 if st.button("🚀 Run Chatbot"):
-    if not video_id or not query or not language_code:
         st.warning("Please fill in all fields.")
     else:
-        with st.spinner("Fetching transcript and generating response..."):
             transcript = get_transcript(video_id, language_code)
             if not transcript:
-                st.error("Transcript not available or disabled.")
             else:
-                retriever = create_vector_store(transcript).as_retriever(search_type="mmr", search_kwargs={"k": 5})
-                relevant_docs = retriever.invoke(query)
-                context_text = "\n\n".join(doc.page_content for doc in relevant_docs)
-                prompt = prompt_template.invoke({"context": context_text, "question": query})
-                model = build_model(model_choice, temperature / 100.0)
-                response = model.invoke(prompt)
-                st.text_area("Model Response", value=response.content, height=400)

 import streamlit as st
 from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint, HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
 from langchain.prompts import PromptTemplate
 import os
+import requests
 api_key = os.getenv("HF_API_KEY")
+RAPIDAPI_KEY = os.getenv("RAPIDAPI_KEY", "your-rapidapi-key-here")
+# 📼 Transcript Fetcher using RapidAPI
 @st.cache_data
+def get_transcript(video_id, language_code="en"):
+    url = "https://youtube-transcript3.p.rapidapi.com/api/transcript"
+    querystring = {"video_id": video_id, "lang": language_code}
+    headers = {
+        "x-rapidapi-key": RAPIDAPI_KEY,
+        "x-rapidapi-host": "youtube-transcript3.p.rapidapi.com"
+    }
     try:
+        response = requests.get(url, headers=headers, params=querystring, timeout=10)
+        if response.status_code == 200:
+            data = response.json()
+            # Combine transcript text
+            if isinstance(data, list):
+                return ' '.join([item.get('text', '') for item in data])
+            return None
+        else:
+            st.error(f"API Error: {response.status_code}")
+            return None
+    except Exception as e:
+        st.error(f"Error: {str(e)}")
         return None
+# 📼 Get Available Languages (simplified - try common ones)
+def get_available_languages():
+    return [
+        ("en", "English"),
+        ("es", "Spanish"),
+        ("fr", "French"),
+        ("de", "German"),
+        ("hi", "Hindi"),
+        ("zh", "Chinese"),
+        ("ja", "Japanese"),
+        ("ko", "Korean"),
+        ("pt", "Portuguese"),
+        ("ru", "Russian")
+    ]
 # 🧠 Embedding Loader
 @st.cache_resource
 def load_embeddings():
 # 🚀 App UI
 st.title("🎥 YouTube Transcript Chatbot")
+with st.sidebar:
+    st.subheader("⚙️ API Setup")
+    st.info("Using RapidAPI for transcripts")
+    st.markdown("[Get your free API key](https://rapidapi.com/ytjar/api/youtube-transcript3)")
+video_id = st.text_input("YouTube Video ID", value="lv1_-RER4_I",
+                          help="Example: dQw4w9WgXcQ from youtube.com/watch?v=dQw4w9WgXcQ")
+langs = get_available_languages()
+lang_options = [f"{name} ({code})" for code, name in langs]
+selected_lang = st.selectbox("Transcript Language", lang_options)
+language_code = selected_lang.split("(")[-1].strip(")")
 query = st.text_area("Your Query", value="What is RAG?")
 model_choice = st.radio("Model to Use", ["DeepSeek", "OpenAI"])
 temperature = st.slider("Temperature", 0, 100, value=50)
 if st.button("🚀 Run Chatbot"):
+    if not video_id or not query:
         st.warning("Please fill in all fields.")
     else:
+        with st.spinner("Fetching transcript..."):
             transcript = get_transcript(video_id, language_code)
             if not transcript:
+                st.error("Could not fetch transcript. Make sure the video ID is correct and has captions.")
             else:
+                st.success(f"✅ Transcript fetched! ({len(transcript)} characters)")
+                with st.spinner("Generating response..."):
+                    retriever = create_vector_store(transcript).as_retriever(
+                        search_type="mmr",
+                        search_kwargs={"k": 5}
+                    )
+                    relevant_docs = retriever.invoke(query)
+                    context_text = "\n\n".join(doc.page_content for doc in relevant_docs)
+                    prompt = prompt_template.invoke({
+                        "context": context_text,
+                        "question": query
+                    })
+                    model = build_model(model_choice, temperature / 100.0)
+                    response = model.invoke(prompt)
+                    st.text_area("Model Response", value=response.content, height=400)