Spaces:

ilsa15
/

chatbot

Sleeping

App Files Files Community

ilsa15 commited on Jul 27, 2025

Commit

ff730fe

verified ·

1 Parent(s): 3ab93d5

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -50

app.py CHANGED Viewed

@@ -649,66 +649,76 @@
 # if __name__ == "__main__":
 #     main()
-import nest_asyncio
 import streamlit as st
 import os
-from groq import Groq
-from sentence_transformers import SentenceTransformer
 import chromadb
-from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction
-nest_asyncio.apply()
-# --- CONFIGURATION ---
-GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
 groq_client = Groq(api_key=GROQ_API_KEY)
-embedding_function = SentenceTransformerEmbeddingFunction("all-MiniLM-L6-v2")
-chroma_client = chromadb.Client()
-collection = chroma_client.get_or_create_collection("icodeguru_knowledge", embedding_function=embedding_function)
-# --- Search persistent vector DB ---
-def search_vector_data(query):
-    results = collection.query(query_texts=[query], n_results=3)
-    if results and results["documents"]:
-        return "\n\n".join([doc for doc in results["documents"][0]])
-    return None
-# --- Ask Groq ---
-def ask_groq(context, question):
-    messages = [
-        {"role": "system", "content": "You are a helpful assistant. Answer only using the provided context."},
-        {"role": "user", "content": f"Context:\n{context}\n\nQuestion: {question}\nAnswer:"}
-    ]
-    chat_completion = groq_client.chat.completions.create(
-        model="llama3-8b-8192",
-        messages=messages,
-    )
-    return chat_completion.choices[0].message.content.strip()
-# --- Streamlit App ---
-def main():
-    st.set_page_config(page_title="EduBot for iCodeGuru", layout="wide")
-    st.title("🎓 EduBot for @icodeguru0")
-    st.markdown("Ask anything based on pre-loaded iCodeGuru knowledge (YouTube, JSON, and site data).")
-    user_question = st.text_input("💬 Ask your question:")
-    if user_question:
-        with st.spinner("🔍 Searching knowledge base..."):
-            context = search_vector_data(user_question)
-        if context:
-            with st.spinner("🤖 Generating answer..."):
-                answer = ask_groq(context, user_question)
-                st.success(answer)
-        else:
-            st.warning("⚠️ No relevant answer found in the embedded knowledge.")
-    st.markdown("---")
-    st.caption("Powered by ChromaDB 🧠 and Groq ⚡")
-if __name__ == "__main__":
-    main()

 # if __name__ == "__main__":
 #     main()
 import streamlit as st
 import os
+import json
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
 import chromadb
+from chromadb.config import Settings
+from langchain.vectorstores import Chroma
+from groq import Groq
+# ---- Config ----
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+MODEL_NAME = "mixtral-8x7b-32768"
+DATA_PATH = "data"  # local folder with all files from GitHub repo
+# ---- Setup ----
 groq_client = Groq(api_key=GROQ_API_KEY)
+embed_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")
+chroma_client = chromadb.Client(Settings(persist_directory="chromadb_store", anonymized_telemetry=False))
+# ---- Load and Embed ----
+@st.cache_resource
+def load_vector_db():
+    docs = []
+    for fname in os.listdir(DATA_PATH):
+        fpath = os.path.join(DATA_PATH, fname)
+        if fname.endswith(".txt"):
+            with open(fpath, 'r', encoding='utf-8') as f:
+                text = f.read()
+        elif fname.endswith(".json"):
+            with open(fpath, 'r', encoding='utf-8') as f:
+                content = json.load(f)
+                text = json.dumps(content)
+        else:
+            continue
+        splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=50)
+        docs.extend(splitter.create_documents([text]))
+    # Save to ChromaDB
+    vectordb = Chroma.from_documents(
+        documents=docs,
+        embedding=embed_model,
+        persist_directory="chromadb_store"
+    )
+    vectordb.persist()
+    return vectordb
+db = load_vector_db()
+# ---- RAG QA ----
+def answer_with_rag(query):
+    docs = db.similarity_search(query, k=3)
+    if not docs:
+        return "⚠️ No relevant answer found in embedded knowledge."
+    context = "\n".join([doc.page_content for doc in docs])
+    prompt = f"Answer the following using only the provided context:\n\nContext:\n{context}\n\nQuestion: {query}"
+    chat_completion = groq_client.chat.completions.create(
+        messages=[{"role": "user", "content": prompt}],
+        model=MODEL_NAME,
+    )
+    return chat_completion.choices[0].message.content
+# ---- Streamlit UI ----
+st.title("📚 iCodeGuru ChatBot (RAG + Chroma + Groq)")
+user_query = st.text_input("Ask me something about iCodeGuru:")
+if user_query:
+    with st.spinner("Thinking..."):
+        response = answer_with_rag(user_query)
+        st.success(response)