Spaces:

Sandei
/

tech-support-helpdesk-chatbot

Sleeping

Sandei commited on Feb 3

Commit

28cd2e3

1 Parent(s): a5d886c

history error temp fix

Files changed (4) hide show

__pycache__/app.cpython-314.pyc CHANGED Viewed

Binary files a/__pycache__/app.cpython-314.pyc and b/__pycache__/app.cpython-314.pyc differ

app.py CHANGED Viewed

@@ -152,7 +152,7 @@ def query_endpoint(req: QueryRequest):
     categories, urgency = classify_text(req.query)
     # RAG
-    answer = generate_answer(req.query,history)
     # Update conversation memory
     add_message(req.user_id, "user", req.query)

     categories, urgency = classify_text(req.query)
     # RAG
+    answer = generate_answer(req.query,"1")
     # Update conversation memory
     add_message(req.user_id, "user", req.query)

service/__pycache__/llm_service.cpython-314.pyc CHANGED Viewed

Binary files a/service/__pycache__/llm_service.cpython-314.pyc and b/service/__pycache__/llm_service.cpython-314.pyc differ

service/llm_service.py CHANGED Viewed

@@ -6,21 +6,30 @@ class LLMService:
         model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
         self.tokenizer = AutoTokenizer.from_pretrained(model_id)
         self.model = AutoModelForCausalLM.from_pretrained(
             model_id,
-            torch_dtype=torch.float16,
-            device_map="auto"
         )
-    def generate(self, prompt: str) -> str:
-        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
-        output = self.model.generate(
-            **inputs,
-            max_new_tokens=200,
-            temperature=0.3,
-            top_p=0.9,
-            do_sample=True
         )
         return self.tokenizer.decode(output[0], skip_special_tokens=True)

         model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
         self.tokenizer = AutoTokenizer.from_pretrained(model_id)
         self.model = AutoModelForCausalLM.from_pretrained(
             model_id,
+            torch_dtype=torch.float32,   # IMPORTANT
         )
+        self.model.to("cpu")
+        self.model.eval()
+    def generate(self, prompt: str) -> str:
+        inputs = self.tokenizer(
+            prompt,
+            return_tensors="pt",
+            truncation=True,
+            max_length=2048
         )
+        with torch.no_grad():
+            output = self.model.generate(
+                **inputs,
+                max_new_tokens=200,
+                temperature=0.3,
+                top_p=0.9,
+                do_sample=True
+            )
         return self.tokenizer.decode(output[0], skip_special_tokens=True)