Spaces:

Mahrukhh
/

pdf-rag-chatbot

Sleeping

App Files Files Community

Mahrukhh commited on Jul 18, 2025

Commit

02dfc5a

verified ·

1 Parent(s): dd0aec1

Create app.py

Browse files

Files changed (1) hide show

app.py +70 -0

app.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import streamlit as st
+import faiss
+from PyPDF2 import PdfReader
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+from groq import Groq
+import os
+# 🗝️ Use secret in Hugging Face Spaces
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+if not GROQ_API_KEY:
+    st.error("❌ GROQ_API_KEY not found. Please add it in the Hugging Face Space secrets.")
+    st.stop()
+client = Groq(api_key=GROQ_API_KEY)
+embedder = SentenceTransformer('all-MiniLM-L6-v2')
+# --- Helper Functions ---
+def extract_text_from_pdf(uploaded_file):
+    reader = PdfReader(uploaded_file)
+    return "\n".join([page.extract_text() for page in reader.pages if page.extract_text()])
+def chunk_text(text, chunk_size=500, overlap=100):
+    words = text.split()
+    return [" ".join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size - overlap)]
+def vectorize_chunks(chunks):
+    return embedder.encode(chunks)
+def store_embeddings(vectors):
+    dim = vectors.shape[1]
+    index = faiss.IndexFlatL2(dim)
+    index.add(vectors)
+    return index
+def get_relevant_chunk(query, chunks, embeddings):
+    query_vec = embedder.encode([query])
+    scores = cosine_similarity(query_vec, embeddings)[0]
+    return chunks[scores.argmax()]
+# --- Streamlit UI ---
+st.set_page_config(page_title="RAG PDF Q&A with Groq", layout="wide")
+st.title("📄 Ask Questions from Your PDF")
+uploaded_file = st.file_uploader("Upload a PDF", type="pdf")
+if uploaded_file:
+    text = extract_text_from_pdf(uploaded_file)
+    chunks = chunk_text(text)
+    embeddings = vectorize_chunks(chunks)
+    index = store_embeddings(embeddings)
+    st.success("✅ PDF processed successfully!")
+    user_query = st.text_input("💬 Ask a question:")
+    if user_query:
+        relevant = get_relevant_chunk(user_query, chunks, embeddings)
+        response = client.chat.completions.create(
+            model="llama3-8b-8192",
+            messages=[
+                {
+                    "role": "user",
+                    "content": f"Use this context to answer:\n\n{relevant}\n\nQuestion: {user_query}"
+                }
+            ],
+        )
+        st.markdown("### ✅ Answer")
+        st.write(response.choices[0].message.content)