Spaces:

Subha95
/

Harry_potter_wiki

Sleeping

Subha95 commited on Sep 3, 2025

Commit

abd8f5a

verified ·

1 Parent(s): 9087b24

Update chatbot_rag.py

Files changed (1) hide show

chatbot_rag.py CHANGED Viewed

@@ -10,34 +10,39 @@ from langchain_huggingface import HuggingFacePipeline, HuggingFaceEmbeddings
 from langchain_chroma import Chroma
 def build_qa():
-    """Builds and returns the RAG QA pipeline."""
-    # 1. Load embeddings + DB
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vectorstore = Chroma(
         persist_directory="db",
         collection_name="rag-docs",
         embedding_function=embeddings,
     )
-    # 2. LLM (instruction-tuned preferred)
     model_id = "microsoft/phi-3-mini-4k-instruct"
-    tokenizer = AutoTokenizer.from_pretrained(model_id)
-    model = AutoModelForCausalLM.from_pretrained(model_id)
-    pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512)
-    llm = HuggingFacePipeline(pipeline=pipe)
-    # 3. QA Chain
-    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
-    qa = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, return_source_documents=False)
-    return qa
-# Build once (so Hugging Face loads at startup)
-qa_pipeline = build_qa()
-def get_answer(query: str) -> str:
-    """Takes user query and returns chatbot response."""
-    return qa_pipeline.run(query)

 from langchain_chroma import Chroma
 def build_qa():
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vectorstore = Chroma(
         persist_directory="db",
         collection_name="rag-docs",
         embedding_function=embeddings,
     )
+    # 🔹 Use Phi-3 Mini (smaller, faster)
     model_id = "microsoft/phi-3-mini-4k-instruct"
+    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        device_map="auto",             # ✅ auto place on GPU if available
+        torch_dtype="auto"             # ✅ better memory handling
+    )
+    pipe = pipeline(
+        "text-generation",
+        model=model,
+        tokenizer=tokenizer,
+        max_new_tokens=256,            # ✅ smaller output (faster)
+        temperature=0.2,               # ✅ more focused answers
+    )
+    llm = HuggingFacePipeline(pipeline=pipe)
+    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
+    qa = RetrievalQA.from_chain_type(
+        llm=llm,
+        retriever=retriever,
+        return_source_documents=False
+    )
+    return qa