golyuval
/

SciGuru-beta

Model card Files Files and versions

golyuval commited on Apr 21, 2025

Commit

e5a785e

·

verified ·

1 Parent(s): 3ff3fca

Upload 2 files

Files changed (2) hide show

handler.py +58 -0
requirements.txt +4 -0

handler.py ADDED Viewed

	@@ -0,0 +1,58 @@

+# handler.py
+# Hugging Face Inference Endpoint custom handler — April 2025 edition
+from pathlib import Path
+from typing import Dict, Any
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from peft import PeftModel
+_BASE_MODEL = "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit"   # 4‑bit quantised base
+class EndpointHandler:
+    """
+    Loads the 8 B LLama‑3.1 base in 4‑bit and stitches the PEFT adapter
+    found in the repository root onto it. Supports standard text‑gen kwargs.
+    """
+    def __init__(self, path: str = "."):
+        repo = Path(path)
+        # 1️⃣  Tokeniser
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            repo if (repo / "tokenizer_config.json").exists() else _BASE_MODEL,
+            padding_side="left",
+            trust_remote_code=True,
+        )
+        self.tokenizer.pad_token = self.tokenizer.eos_token
+        # 2️⃣  Base model in 4‑bit
+        self.model = AutoModelForCausalLM.from_pretrained(
+            _BASE_MODEL,
+            load_in_4bit=True,                     # bitsandbytes
+            device_map="auto",
+            torch_dtype=torch.float16,
+            trust_remote_code=True,
+        )
+        # 3️⃣  Attach LoRA / QLoRA adapter if present
+        if (repo / "adapter_config.json").exists():
+            self.model = PeftModel.from_pretrained(self.model, repo, is_trainable=False)
+        self.model.eval()
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, str]:
+        prompt    = data.get("inputs") or data                       # raw string or nested JSON
+        gen_cfg   = data.get("parameters", {})
+        tok_in    = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
+        with torch.inference_mode():
+            out = self.model.generate(
+                **tok_in,
+                max_new_tokens = gen_cfg.get("max_new_tokens", 256),
+                temperature    = gen_cfg.get("temperature", 0.7),
+                top_p          = gen_cfg.get("top_p", 0.9),
+                do_sample      = gen_cfg.get("do_sample", True),
+                repetition_penalty = gen_cfg.get("repetition_penalty", 1.1),
+            )
+        return {"generated_text": self.tokenizer.decode(out[0], skip_special_tokens=True)}

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+transformers>=4.42.0
+peft>=0.11.1
+accelerate>=0.29.3
+bitsandbytes==0.43.2