Spaces:

ilsa15
/

chatbot

Sleeping

App Files Files Community

ilsa15 commited on Jul 27, 2025

Commit

4d9037a

verified ·

1 Parent(s): 6a159ac

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -18

app.py CHANGED Viewed

@@ -311,6 +311,10 @@
 # if __name__ == "__main__":
 #     main()
 import nest_asyncio
 import streamlit as st
 import os
@@ -321,6 +325,7 @@ from bs4 import BeautifulSoup
 from sentence_transformers import SentenceTransformer
 import chromadb
 from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction
 import json
 nest_asyncio.apply()
@@ -332,21 +337,36 @@ channel_id = "UCsv3kmQ5k1eIRG2R9mWN"  # iCodeGuru
 BASE_URL = "https://icode.guru"
 groq_client = Groq(api_key=GROQ_API_KEY)
-embedding_function = SentenceTransformerEmbeddingFunction("all-MiniLM-L6-v2")
 chroma_client = chromadb.Client()
-collection = chroma_client.get_or_create_collection(
-    "icodeguru_knowledge", embedding_function=embedding_function
-)
-# --- Search stored vector DB ---
-def search_vector_data(query):
     results = collection.query(query_texts=[query], n_results=3)
     if results and results["documents"]:
-        return "\n\n".join(results["documents"][0])
     return None
-# --- Fetch recent videos from YouTube channel ---
 def get_latest_video_ids(channel_id, max_results=5):
     url = f"https://www.googleapis.com/youtube/v3/search?key={YOUTUBE_API_KEY}&channelId={channel_id}&part=snippet,id&order=date&maxResults={max_results}"
     response = requests.get(url)
@@ -425,19 +445,22 @@ def main():
     st.title("🎓 EduBot for @icodeguru0")
     st.markdown("Ask anything based on the latest YouTube videos and website content of [icode.guru](https://icode.guru).")
     user_question = st.text_input("💬 Ask your question:")
     if user_question:
-        # 1. Try vector DB first
-        vector_context = search_vector_data(user_question)
         if vector_context:
-            with st.spinner("🧠 Answering from stored vector knowledge..."):
                 answer = ask_groq(vector_context, user_question)
                 st.success(answer)
         else:
-            # 2. Fallback to real-time data
-            with st.spinner("📺 Fetching latest iCodeGuru YouTube videos..."):
-                video_info = get_latest_video_ids(channel_id)
                 transcripts = get_video_transcripts(video_info)
             yt_context = ""
@@ -447,8 +470,8 @@ def main():
                 if user_question.lower() in vid['transcript'].lower():
                     relevant_links.append(vid['link'])
-            with st.spinner("🌐 Scraping iCodeGuru website..."):
-                site_blocks = scrape_icodeguru()
                 site_context = "\n\n".join(site_blocks)
             full_context = yt_context + "\n\n" + site_context
@@ -467,4 +490,3 @@ def main():
 if __name__ == "__main__":
     main()

 # if __name__ == "__main__":
 #     main()
 import nest_asyncio
 import streamlit as st
 import os
 from sentence_transformers import SentenceTransformer
 import chromadb
 from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction
 import json
 nest_asyncio.apply()
 BASE_URL = "https://icode.guru"
 groq_client = Groq(api_key=GROQ_API_KEY)
+embed_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+embedding_function = SentenceTransformerEmbeddingFunction(embed_model)
 chroma_client = chromadb.Client()
+collection = chroma_client.get_or_create_collection("icodeguru_knowledge", embedding_function=embedding_function)
+# --- Upload + load files as vector DB ---
+def load_uploaded_vectors(uploaded_files):
+    data = []
+    for file in uploaded_files:
+        if file.name.endswith(".txt"):
+            text = file.read().decode()
+            data.append({"id": file.name, "content": text})
+        elif file.name.endswith(".json"):
+            content = json.load(file)
+            for i, chunk in enumerate(content):
+                data.append({"id": f"{file.name}-{i}", "content": chunk})
+    return data
+def search_vector_data(query, data):
+    if not data:
+        return None
+    collection = chroma_client.get_or_create_collection("temp_query", embedding_function=embedding_function)
+    collection.add(documents=[d["content"] for d in data], ids=[d["id"] for d in data])
     results = collection.query(query_texts=[query], n_results=3)
     if results and results["documents"]:
+        return "\n\n".join([doc for doc in results["documents"][0]])
     return None
+# --- Fetch recent video IDs from YouTube channel ---
 def get_latest_video_ids(channel_id, max_results=5):
     url = f"https://www.googleapis.com/youtube/v3/search?key={YOUTUBE_API_KEY}&channelId={channel_id}&part=snippet,id&order=date&maxResults={max_results}"
     response = requests.get(url)
     st.title("🎓 EduBot for @icodeguru0")
     st.markdown("Ask anything based on the latest YouTube videos and website content of [icode.guru](https://icode.guru).")
+    uploaded_files = st.file_uploader("📁 Optionally upload your knowledge files (txt or json)", type=['txt', 'json'], accept_multiple_files=True)
     user_question = st.text_input("💬 Ask your question:")
     if user_question:
+        vector_data = load_uploaded_vectors(uploaded_files) if uploaded_files else []
+        # Try vector DB first
+        vector_context = search_vector_data(user_question, vector_data)
         if vector_context:
+            with st.spinner("🧠 Answering from uploaded knowledge..."):
                 answer = ask_groq(vector_context, user_question)
                 st.success(answer)
         else:
+            # Fallback to real-time data
+            with st.spinner("📺 Fetching YouTube videos..."):
+                video_info = get_latest_video_ids(channel_id, max_results=5)
                 transcripts = get_video_transcripts(video_info)
             yt_context = ""
                 if user_question.lower() in vid['transcript'].lower():
                     relevant_links.append(vid['link'])
+            with st.spinner("🌐 Scraping icode.guru..."):
+                site_blocks = scrape_icodeguru(BASE_URL, max_pages=5)
                 site_context = "\n\n".join(site_blocks)
             full_context = yt_context + "\n\n" + site_context
 if __name__ == "__main__":
     main()