AsyncRAG

Sleeping

Zubaish commited on 23 days ago

Commit

e598db4

1 Parent(s): 3f76bb4

Fix dependency conflict; switch to transformers LLM

Files changed (2) hide show

rag.py CHANGED Viewed

@@ -1,7 +1,10 @@
 from langchain_community.vectorstores import Chroma
-from langchain_huggingface import HuggingFaceEmbeddings, ChatHuggingFace
 from langchain.schema import SystemMessage, HumanMessage
 from ingest import load_and_split_docs
 print("⏳ Loading documents...")
@@ -21,13 +24,28 @@ if documents:
 else:
     retriever = None
-llm = ChatHuggingFace(
-    repo_id="microsoft/Phi-4-mini-instruct",
-    temperature=0.2
 )
 print("✅ RAG initialized.")
 def ask_rag_with_status(question: str):
     if not retriever:
         return {
@@ -38,14 +56,22 @@ def ask_rag_with_status(question: str):
     docs = retriever.get_relevant_documents(question)
     context = "\n\n".join(d.page_content for d in docs)
-    messages = [
-        SystemMessage(content="Answer using only the provided context."),
-        HumanMessage(content=f"Context:\n{context}\n\nQuestion: {question}")
-    ]
-    response = llm.invoke(messages)
     return {
-        "status": ["🔍 Retrieved documents", "🧠 Generating answer"],
-        "answer": response.content
     }

 from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.schema import SystemMessage, HumanMessage
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
 from ingest import load_and_split_docs
 print("⏳ Loading documents...")
 else:
     retriever = None
+print("⏳ Loading LLM...")
+tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")
+model = AutoModelForCausalLM.from_pretrained(
+    "microsoft/Phi-3-mini-4k-instruct",
+    torch_dtype=torch.float32,
+    device_map="cpu"
 )
 print("✅ RAG initialized.")
+def generate(prompt: str) -> str:
+    inputs = tokenizer(prompt, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=300,
+            temperature=0.2,
+            do_sample=True
+        )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
 def ask_rag_with_status(question: str):
     if not retriever:
         return {
     docs = retriever.get_relevant_documents(question)
     context = "\n\n".join(d.page_content for d in docs)
+    prompt = f"""
+You are a helpful assistant.
+Answer ONLY using the context below.
+Context:
+{context}
+Question:
+{question}
+Answer:
+"""
+    answer = generate(prompt)
     return {
+        "status": ["🔍 Retrieved documents", "🧠 Generated answer"],
+        "answer": answer
     }

requirements.txt CHANGED Viewed

@@ -5,10 +5,11 @@ python-dotenv
 langchain==0.2.17
 langchain-community==0.2.17
-langchain-huggingface==0.1.0
 chromadb==0.5.5
 sentence-transformers
 pypdf
 huggingface_hub>=0.33.4,<1.0.0

 langchain==0.2.17
 langchain-community==0.2.17
 chromadb==0.5.5
 sentence-transformers
+transformers==4.39.3
+torch
 pypdf
 huggingface_hub>=0.33.4,<1.0.0