JustiGuide
/

DoloresAI-Merged

@@ -52,12 +52,12 @@ class EndpointHandler:
         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
-        # Default generation parameters
         max_new_tokens = parameters.get("max_new_tokens", 512)
-        temperature = parameters.get("temperature", 0.7)
-        top_p = parameters.get("top_p", 0.9)
         do_sample = parameters.get("do_sample", True)
-        repetition_penalty = parameters.get("repetition_penalty", 1.1)
         # Tokenize input
         input_ids = self.tokenizer(
@@ -67,17 +67,20 @@ class EndpointHandler:
             max_length=self.model.config.max_position_embeddings - max_new_tokens
         ).input_ids.to(self.model.device)
-        # Generate response
         with torch.no_grad():
             outputs = self.model.generate(
                 input_ids,
                 max_new_tokens=max_new_tokens,
                 temperature=temperature,
                 top_p=top_p,
                 do_sample=do_sample,
                 repetition_penalty=repetition_penalty,
-                pad_token_id=self.tokenizer.eos_token_id,
                 eos_token_id=self.tokenizer.eos_token_id,
             )
         # Decode output

         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
+        # Default generation parameters with safe values
         max_new_tokens = parameters.get("max_new_tokens", 512)
+        temperature = max(0.1, min(parameters.get("temperature", 0.8), 2.0))  # Clamp between 0.1 and 2.0
+        top_p = max(0.1, min(parameters.get("top_p", 0.95), 1.0))  # Clamp between 0.1 and 1.0
         do_sample = parameters.get("do_sample", True)
+        repetition_penalty = max(1.0, min(parameters.get("repetition_penalty", 1.05), 2.0))  # Clamp between 1.0 and 2.0
         # Tokenize input
         input_ids = self.tokenizer(
             max_length=self.model.config.max_position_embeddings - max_new_tokens
         ).input_ids.to(self.model.device)
+        # Generate response with safe parameters
         with torch.no_grad():
             outputs = self.model.generate(
                 input_ids,
                 max_new_tokens=max_new_tokens,
                 temperature=temperature,
                 top_p=top_p,
+                top_k=50,  # Add top_k for stability
                 do_sample=do_sample,
                 repetition_penalty=repetition_penalty,
+                pad_token_id=self.tokenizer.pad_token_id if self.tokenizer.pad_token_id is not None else self.tokenizer.eos_token_id,
                 eos_token_id=self.tokenizer.eos_token_id,
+                bad_words_ids=None,  # Ensure no bad words restriction causing issues
+                min_length=1,  # Ensure at least 1 token is generated
             )
         # Decode output