0chanly
/

consequentialist-constitutional

@@ -1,5 +1,6 @@
 """
-Custom handler for Constitutional AI models
 """
 from typing import Dict, List, Any
@@ -45,14 +46,14 @@ class EndpointHandler:
         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
-        # Set default parameters to match local chatbot
         max_new_tokens = parameters.get("max_new_tokens", 180)
         temperature = parameters.get("temperature", 0.7)
         do_sample = parameters.get("do_sample", True)
         top_p = parameters.get("top_p", 0.9)
         top_k = parameters.get("top_k", 50)
         repetition_penalty = parameters.get("repetition_penalty", 1.2)
-        no_repeat_ngram_size = parameters.get("no_repeat_ngram_size", 3)
         # Tokenize
         input_ids = self.tokenizer.encode(inputs, return_tensors="pt")
@@ -61,7 +62,7 @@ class EndpointHandler:
         if torch.cuda.is_available():
             input_ids = input_ids.cuda()
-        # Generate with parameters matching local chatbot
         with torch.no_grad():
             outputs = self.model.generate(
                 input_ids,
@@ -71,7 +72,7 @@ class EndpointHandler:
                 top_p=top_p,
                 top_k=top_k,
                 repetition_penalty=repetition_penalty,
-                no_repeat_ngram_size=no_repeat_ngram_size,
                 pad_token_id=self.tokenizer.pad_token_id,
                 eos_token_id=self.tokenizer.eos_token_id
             )

 """
+Custom handler for Constitutional AI models - Fixed version
+Removed no_repeat_ngram_size which may not be supported
 """
 from typing import Dict, List, Any
         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
+        # Set default parameters to match local chatbot (without no_repeat_ngram_size)
         max_new_tokens = parameters.get("max_new_tokens", 180)
         temperature = parameters.get("temperature", 0.7)
         do_sample = parameters.get("do_sample", True)
         top_p = parameters.get("top_p", 0.9)
         top_k = parameters.get("top_k", 50)
         repetition_penalty = parameters.get("repetition_penalty", 1.2)
+        # REMOVED: no_repeat_ngram_size - may not be supported
         # Tokenize
         input_ids = self.tokenizer.encode(inputs, return_tensors="pt")
         if torch.cuda.is_available():
             input_ids = input_ids.cuda()
+        # Generate with parameters matching local chatbot (minus unsupported params)
         with torch.no_grad():
             outputs = self.model.generate(
                 input_ids,
                 top_p=top_p,
                 top_k=top_k,
                 repetition_penalty=repetition_penalty,
+                # REMOVED: no_repeat_ngram_size
                 pad_token_id=self.tokenizer.pad_token_id,
                 eos_token_id=self.tokenizer.eos_token_id
             )