MLGResearch
/

cleaver_t5g_ss

@@ -1,36 +1,4 @@
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-import torch
-class EndpointHandler:
-    def __init__(self, path=""):
-        print(f"Loading model from: {path}")
-        # Use the exact same approach as your local inference script
-        self.tokenizer = AutoTokenizer.from_pretrained(path)
-        self.model = AutoModelForSeq2SeqLM.from_pretrained(
-            path,
-            torch_dtype=torch.bfloat16
-        )
-        print("Model loaded successfully")
-    def __call__(self, data):
-        inputs = data.pop("inputs", data)
-        messages = [{"role": "user", "content": inputs}]
-        input_ids = self.tokenizer.apply_chat_template(
-            messages,
-            add_generation_prompt=True,
-            return_tensors="pt"
-        )
-        outputs = self.model.generate(
-            input_ids,
-            max_new_tokens=1024,
-            temperature=0.1,
-            do_sample=True
-        )
-        return {
-            "generated_text": self.tokenizer.decode(outputs[0], skip_special_tokens=True)
-        }

+torch>=2.6.0
+git+https://github.com/huggingface/transformers.git
+sentencepiece>=0.1.99
+accelerate>=0.21.0