Spaces:

PranavReddy18
/

BioRAG

No application file

App Files Files Community

PranavReddy18 commited on May 6, 2025

Commit

ca767c0

verified ·

1 Parent(s): faa5248

Upload 8 files

Browse files

Files changed (9) hide show

.gitattributes +2 -0
app.py +28 -0
backend.Dockerfile +13 -0
data/ix biology em.pdf +3 -0
data/x biology em.pdf +3 -0
docker-compose.yml +22 -0
frontend.Dockerfile +12 -0
main.py +86 -0
requirements.txt +13 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/ix[[:space:]]biology[[:space:]]em.pdf filter=lfs diff=lfs merge=lfs -text
+data/x[[:space:]]biology[[:space:]]em.pdf filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,28 @@

+import streamlit as st
+import requests
+st.set_page_config(page_title="BioRAG Assistant 🧬", page_icon="🧪", layout="wide")
+st.markdown("<h1 style='text-align: center;'>🧠 BioRAG: Biology Learning Assistant</h1>", unsafe_allow_html=True)
+st.markdown("<p style='text-align: center; color: gray;'>Ask your biology questions and get accurate, syllabus-based answers.</p>", unsafe_allow_html=True)
+with st.form("chat_form", clear_on_submit=True):
+    question = st.text_input("Ask your question:", placeholder="e.g. What is the function of mitochondria?")
+    submitted = st.form_submit_button("Ask")
+API_URL = "http://backend:2000/predict"
+if submitted and question:
+    with st.spinner("Thinking..."):
+        try:
+            response = requests.post(API_URL, json={"question": question})
+            answer = response.json().get("answer", "Sorry, no answer found.")
+        except Exception as e:
+            answer = f"⚠️ Error: {e}"
+    st.markdown(f"**🧑 You:** {question}")
+    st.markdown(
+        f"<div style='background-color: #f1f1f1; padding: 15px; border-radius: 10px;'><strong>🧬 BioRAG:</strong><br>{answer}</div>",
+        unsafe_allow_html=True
+    )

backend.Dockerfile ADDED Viewed

	@@ -0,0 +1,13 @@

+# Dockerfile.backend
+FROM python:3.10-slim
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY main.py .
+COPY data /app/data
+EXPOSE 2000
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "2000"]

data/ix biology em.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72fb3a53a523375e6fca8a90707dadecd04a482f744a3965f435b5820e1dc5c6
+size 16715077

data/x biology em.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4590d0f7c59f1965d42932feb4eeed6a1f7517fc470ed79c488641d6f82509f9
+size 10402338

docker-compose.yml ADDED Viewed

	@@ -0,0 +1,22 @@

+version: '3.8'
+services:
+  backend:
+    build:
+      context: .
+      dockerfile: backend.Dockerfile
+    ports:
+      - "2000:2000"
+    environment:
+      - GROQ_API_KEY=${GROQ_API_KEY}
+    restart: always
+  frontend:
+    build:
+      context: .
+      dockerfile: frontend.Dockerfile
+    ports:
+      - "8501:8501"
+    depends_on:
+      - backend
+    restart: always

frontend.Dockerfile ADDED Viewed

	@@ -0,0 +1,12 @@

+FROM python:3.10-slim
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY app.py .
+COPY data /app/data
+EXPOSE 8501
+CMD ["streamlit", "run", "app.py", "--server.port=8501", "--server.address=0.0.0.0"]

main.py ADDED Viewed

	@@ -0,0 +1,86 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+from typing import List
+from dotenv import load_dotenv
+import os
+import uvicorn
+load_dotenv()
+app = FastAPI(title="A RAG-Driven Learning Assistant for Biology")
+from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+from langchain.schema import Document, BaseRetriever
+from sentence_transformers import CrossEncoder
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferWindowMemory
+from langchain.prompts import ChatPromptTemplate
+from langchain_groq import ChatGroq
+loader = DirectoryLoader('data/', glob="**/*.pdf", show_progress=True, loader_cls=PyPDFLoader)
+documents = loader.load()
+splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+chunks = splitter.split_documents(documents)
+embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+vectorstore = FAISS.from_documents(chunks, embeddings)
+GROQ_API_KEY = os.getenv('GROQ_API_KEY')
+if not GROQ_API_KEY:
+    raise ValueError("GROQ_API_KEY is not set in the environment variables")
+llm = ChatGroq(api_key=GROQ_API_KEY, model='llama-3.3-70b-versatile')
+prompt = ChatPromptTemplate.from_messages([
+    ("system", "You are a helpful and knowledgeable biology tutor. Answer clearly and accurately. If the query is out of syllabus, just respond with 'Out of syllabus'."),
+    ("human", "Context:\n{context}\n\nQuestion: {question}")
+])
+memory = ConversationBufferWindowMemory(
+    memory_key="chat_history",
+    return_messages=True,
+    k=3
+)
+reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
+def rerank_documents(query: str, retrieved_docs: List[Document]) -> List[Document]:
+    docs_texts = [doc.page_content for doc in retrieved_docs]
+    pairs = [(query, doc_text) for doc_text in docs_texts]
+    scores = reranker.predict(pairs)
+    sorted_docs = [doc for _, doc in sorted(zip(scores, retrieved_docs), key=lambda x: x[0], reverse=True)]
+    return sorted_docs
+class RerankRetriever(BaseRetriever, BaseModel):
+    base_retriever: BaseRetriever
+    top_k: int = 5
+    def _get_relevant_documents(self, query: str) -> List[Document]:
+        initial_docs = self.base_retriever.invoke(query)
+        reranked_docs = rerank_documents(query, initial_docs)
+        return reranked_docs[:self.top_k]
+base_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})
+custom_retriever = RerankRetriever(base_retriever=base_retriever, top_k=5)
+qa_chain = ConversationalRetrievalChain.from_llm(
+    llm=llm,
+    retriever=custom_retriever,
+    memory=memory,
+    combine_docs_chain_kwargs={"prompt": prompt}
+)
+class QuestionInput(BaseModel):
+    question: str
+@app.post("/predict")
+def predict(input: QuestionInput):
+    result = qa_chain({"question": input.question})
+    return {"answer": result["answer"]}
+if __name__ == "__main__":
+    uvicorn.run(app, host='0.0.0.0', port=2000)

requirements.txt ADDED Viewed

	@@ -0,0 +1,13 @@

+langchain
+langchain-groq
+langchain-huggingface
+langchain-community
+python-dotenv
+pypdf
+faiss-cpu
+fastapi
+uvicorn
+pydantic
+streamlit
+pytest
+huggingface_hub[hf_xet]