AsyncRAG

Sleeping

App Files Files Community

Zubaish commited on Jan 27

Commit

9797354

1 Parent(s): 22fa804

Fix: resolve LangChain dependency conflict

Browse files

Files changed (2) hide show

rag.py +87 -38
requirements.txt +0 -1

rag.py CHANGED Viewed

@@ -1,52 +1,104 @@
-from transformers import AutoTokenizer, AutoModelForCausalLM
-from langchain_huggingface import HuggingFaceEmbeddings
-from langchain_chroma import Chroma
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-from langchain_community.document_loaders import PyPDFLoader
 import os
-MODEL_ID = "microsoft/Phi-3-mini-4k-instruct"
-print("⏳ Loading embeddings...")
 embeddings = HuggingFaceEmbeddings(
-    model_name="sentence-transformers/all-MiniLM-L6-v2"
 )
-print("⏳ Loading documents...")
-docs = []
-if os.path.exists("kb_docs"):
-    for f in os.listdir("kb_docs"):
-        if f.endswith(".pdf"):
-            loader = PyPDFLoader(os.path.join("kb_docs", f))
             docs.extend(loader.load())
-splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
-splits = splitter.split_documents(docs)
-vectorstore = Chroma.from_documents(
-    splits,
-    embedding=embeddings,
-    persist_directory="./chroma_db"
-)
 print("⏳ Loading LLM...")
 tokenizer = AutoTokenizer.from_pretrained(
-    MODEL_ID,
     trust_remote_code=True
 )
 model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    trust_remote_code=True
-)  # 👈 NO device_map, NO low_cpu_mem_usage
 def ask_rag_with_status(question: str):
-    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
     docs = retriever.get_relevant_documents(question)
-    context = "\n\n".join(d.page_content for d in docs)
-    prompt = f"""Use the context below to answer the question.
 Context:
 {context}
@@ -54,18 +106,15 @@ Context:
 Question:
 {question}
-Answer:"""
-    inputs = tokenizer(prompt, return_tensors="pt")
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=256,
-        do_sample=True,
-        temperature=0.7
-    )
-    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {
         "answer": answer,
-        "status": ["✅ Answer generated"]
     }

 import os
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import Chroma
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from config import (
+    KB_DIR,
+    PERSIST_DIR,
+    EMBEDDING_MODEL,
+    LLM_MODEL,
+    CHUNK_SIZE,
+    CHUNK_OVERLAP,
+    TOP_K,
+)
+# -----------------------------
+# Load embeddings
+# -----------------------------
 embeddings = HuggingFaceEmbeddings(
+    model_name=EMBEDDING_MODEL
 )
+# -----------------------------
+# Load or build vector DB
+# -----------------------------
+if not os.path.exists(PERSIST_DIR):
+    os.makedirs(PERSIST_DIR, exist_ok=True)
+if not os.listdir(PERSIST_DIR):
+    print("⏳ Loading documents...")
+    docs = []
+    for filename in os.listdir(KB_DIR):
+        if filename.lower().endswith(".pdf"):
+            loader = PyPDFLoader(os.path.join(KB_DIR, filename))
             docs.extend(loader.load())
+    splitter = RecursiveCharacterTextSplitter(
+        chunk_size=CHUNK_SIZE,
+        chunk_overlap=CHUNK_OVERLAP
+    )
+    splits = splitter.split_documents(docs)
+    vectorstore = Chroma.from_documents(
+        documents=splits,
+        embedding=embeddings,
+        persist_directory=PERSIST_DIR
+    )
+    vectorstore.persist()
+else:
+    vectorstore = Chroma(
+        persist_directory=PERSIST_DIR,
+        embedding_function=embeddings
+    )
+retriever = vectorstore.as_retriever(search_kwargs={"k": TOP_K})
+# -----------------------------
+# Load LLM (NON-INTERACTIVE)
+# -----------------------------
 print("⏳ Loading LLM...")
 tokenizer = AutoTokenizer.from_pretrained(
+    LLM_MODEL,
     trust_remote_code=True
 )
 model = AutoModelForCausalLM.from_pretrained(
+    LLM_MODEL,
+    trust_remote_code=True,
+    low_cpu_mem_usage=False
+)
+generator = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    max_new_tokens=512,
+    do_sample=True,
+    temperature=0.3,
+)
+# -----------------------------
+# RAG Query Function
+# -----------------------------
 def ask_rag_with_status(question: str):
+    status = []
+    status.append("🔍 Searching knowledge base...")
     docs = retriever.get_relevant_documents(question)
+    context = "\n\n".join(doc.page_content for doc in docs)
+    prompt = f"""
+You are a helpful assistant.
+Answer the question using ONLY the context below.
+If the answer is not in the context, say you don't know.
 Context:
 {context}
 Question:
 {question}
+Answer:
+"""
+    status.append("🧠 Generating answer...")
+    output = generator(prompt)[0]["generated_text"]
+    answer = output.split("Answer:")[-1].strip()
     return {
         "answer": answer,
+        "status": status
     }

requirements.txt CHANGED Viewed

@@ -4,7 +4,6 @@ python-dotenv
 langchain==0.2.17
 langchain-community==0.2.17
-langchain-huggingface==0.1.0
 langchain-text-splitters==0.2.4
 chromadb==0.5.5

 langchain==0.2.17
 langchain-community==0.2.17
 langchain-text-splitters==0.2.4
 chromadb==0.5.5