Spaces:

Subha95
/

Harry_potter_wiki

Sleeping

Subha95 commited on Sep 4, 2025

Commit

52fa7cc

verified ·

1 Parent(s): b6660a5

Update chatbot_rag.py

Files changed (1) hide show

chatbot_rag.py CHANGED Viewed

@@ -38,28 +38,28 @@ def build_qa():
     print("📂 Docs in DB:", vectorstore._collection.count())
     # 3. Load LLM (Phi-3 mini)
-    print("🔹 Loading LLM...")
-    model_id = "meta-llama/Llama-3.2-1B"
-    tokenizer = AutoTokenizer.from_pretrained(model_id)
-    model = AutoModelForCausalLM.from_pretrained(
-        model_id,
-        device_map="auto",
-        trust_remote_code=True # ensures it runs on available CPU
-    )
-    pipe = pipeline(
-        "text-generation",
-        model=model,
-        tokenizer=tokenizer,
-        max_new_tokens=256,
-        temperature=0.2, # keeps answers deterministic but less rigid than 0
-        do_sample=True, # allow some randomness
-        top_p=0.9, # nucleus sampling to avoid loops
-        repetition_penalty=1.2, # 🚀 penalize repeats
-        eos_token_id=tokenizer.eos_token_id, # stop at EOS
-        return_full_text=False
-    )
     llm = HuggingFacePipeline(pipeline=pipe)
     # 4. Retriever
     retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

     print("📂 Docs in DB:", vectorstore._collection.count())
     # 3. Load LLM (Phi-3 mini)
+    print("🔹 Loading LLM...")
+    model_id = "openai-community/gpt2-xl"   # ~1.5B GPT-2
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        device_map="auto"
+    )
+    pipe = pipeline(
+        "text-generation",
+        model=model,
+        tokenizer=tokenizer,
+        max_new_tokens=256,
+        temperature=0.2,
+        do_sample=False,
+        repetition_penalty=1.2,
+        return_full_text=False
+    )
     llm = HuggingFacePipeline(pipeline=pipe)
     # 4. Retriever
     retriever = vectorstore.as_retriever(search_kwargs={"k": 3})