llada-8b-instruct-duplicate

@@ -13,9 +13,7 @@ class EndpointHandler:
         self.model = AutoModel.from_pretrained(
             model_dir,
             torch_dtype=torch.bfloat16,
-            low_cpu_mem_usage=True,
             trust_remote_code=True,
-            device_map="auto",
         ).eval()
         self.tokenizer = AutoTokenizer.from_pretrained(
@@ -23,9 +21,25 @@ class EndpointHandler:
         )
     def __call__(self, data: Dict[str, Any]) -> Any:
-        logger.info(f"Received incoming request with {data=}")
 if __name__ == "__main__":
     handler = EndpointHandler(model_dir="GSAI-ML/LLaDA-8B-Instruct")
-    print(handler)

         self.model = AutoModel.from_pretrained(
             model_dir,
             torch_dtype=torch.bfloat16,
             trust_remote_code=True,
         ).eval()
         self.tokenizer = AutoTokenizer.from_pretrained(
         )
     def __call__(self, data: Dict[str, Any]) -> Any:
+        logger.info(f"Received incoming request with {data}")
+        # Extract input text from the request data
+        input_text = data.get("inputs", "")
+        if not input_text:
+            logger.warning("No input text provided")
+            return [{"generated_text": ""}]  # Return empty result but in valid format
+        # Tokenize the input
+        inputs = self.tokenizer(input_text, return_tensors="pt").to(self.model.device)
+        # Generate embeddings
+        with torch.no_grad():
+            outputs = self.model(**inputs)
+        # Process outputs - this depends on your specific model and requirements
+        # For now, we'll just return the input as the output to fix the array format issue
+        return [{"input_text": input_text, "generated_text": outputs}]
 if __name__ == "__main__":
     handler = EndpointHandler(model_dir="GSAI-ML/LLaDA-8B-Instruct")

__call__ return values