Spaces:

Sandei
/

tech-support-helpdesk-chatbot

Sleeping

App Files Files Community

Sandei commited on Feb 6

Commit

ad0633b

1 Parent(s): fbcd161

<s> response issue

Browse files

Files changed (1) hide show

service/llm_service.py +18 -9

service/llm_service.py CHANGED Viewed

@@ -9,11 +9,13 @@ class LLMService:
         # torch.set_num_threads(...)
         # torch.set_num_interop_threads(...)
         self.tokenizer = AutoTokenizer.from_pretrained(
             self.model_name,
             use_fast=True
         )
         self.model = AutoModelForCausalLM.from_pretrained(
             self.model_name,
             torch_dtype=torch.float32
@@ -23,30 +25,37 @@ class LLMService:
         print("LLM loaded | dtype:", next(self.model.parameters()).dtype)
-    def generate(self, prompt: str) -> str:
         inputs = self.tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
-            max_length=640      # ⬅️ important
         )
         with torch.no_grad():
             output = self.model.generate(
                 **inputs,
-                max_new_tokens=96,     # ⬅️ enough for helpdesk
-                do_sample=False,
-                eos_token_id=self.tokenizer.eos_token_id
             )
-        text = self.tokenizer.decode(
-            output[0],
-            skip_special_tokens=False
-        )
         return self._clean(text)
     def _clean(self, text: str) -> str:
         if "<|assistant|>" in text:
             text = text.split("<|assistant|>")[-1]

         # torch.set_num_threads(...)
         # torch.set_num_interop_threads(...)
+        # Tokenizer
         self.tokenizer = AutoTokenizer.from_pretrained(
             self.model_name,
             use_fast=True
         )
+        # Model in FP32 on CPU
         self.model = AutoModelForCausalLM.from_pretrained(
             self.model_name,
             torch_dtype=torch.float32
         print("LLM loaded | dtype:", next(self.model.parameters()).dtype)
+    def generate(self, user_query: str) -> str:
+        # Wrap user input with role tokens for TinyLlama
+        prompt = f"<|user|>{user_query}<|assistant|>"
         inputs = self.tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
+            max_length=640  # maintain context window
         )
         with torch.no_grad():
             output = self.model.generate(
                 **inputs,
+                max_new_tokens=120,        # slightly higher for complete answer
+                do_sample=False,           # deterministic + faster
+                eos_token_id=self.tokenizer.eos_token_id,
+                use_cache=True
             )
+        # Decode and remove special tokens
+        text = self.tokenizer.decode(output[0], skip_special_tokens=True)
         return self._clean(text)
     def _clean(self, text: str) -> str:
+        """
+        Maintains your previous cleaning logic:
+        - Extract after <|assistant|>
+        - Stop at <|system|> or <|user|>
+        """
         if "<|assistant|>" in text:
             text = text.split("<|assistant|>")[-1]