Spaces:

suyash94
/

slm-function-calling

Sleeping

App Files Files Community

slm-function-calling / inferencer.py

suyash94

Upload folder using huggingface_hub

d46efc1 verified about 2 months ago

raw

history blame contribute delete

8.51 kB

	"""Self-contained inference for SLM Function Calling on HuggingFace Spaces."""

	from __future__ import annotations

	import json
	import os
	from pathlib import Path
	from typing import Any

	import torch
	from huggingface_hub import snapshot_download
	from peft import PeftModel
	from transformers import AutoModelForCausalLM, AutoTokenizer, PreTrainedTokenizer


	# System prompt for function calling
	SYSTEM_PROMPT = (
	"You are a helpful assistant. You have to either provide a way to answer "
	"user's request or answer user's query."
	)


	def parse_function_call(response: str) -> dict[str, Any]:
	"""Parse model output to extract function call.

	Parses the model's response in the format:
	<functioncall> {"name": "...", "arguments": "..."} <\|im_end\|>

	:param response: Raw model output string
	:return: Dict with 'fn_name' and 'properties' keys, or 'error' key if parsing fails
	"""
	try:
	# Define delimiters
	start_delim = "<functioncall> "
	end_delim = "<\|im_end\|>"

	# Find the JSON portion between delimiters
	start_idx = response.find(start_delim)
	if start_idx == -1:
	return {"error": "Start delimiter '<functioncall> ' not found"}

	start_idx += len(start_delim)
	end_idx = response.find(end_delim, start_idx)

	if end_idx == -1:
	return {"error": "End delimiter '<\|im_end\|>' not found"}

	# Extract the JSON string
	json_str = response[start_idx:end_idx].strip()

	# Parse the outer JSON (contains name and arguments)
	function_call_dict = json.loads(json_str)

	# Extract function name and arguments
	fn_name = function_call_dict.get("name")
	if fn_name is None:
	return {"error": "Function name not found in response"}

	arguments_str = function_call_dict.get("arguments", "{}")

	# Handle arguments - convert Python-style to JSON-style
	if isinstance(arguments_str, str):
	# Replace Python boolean/None syntax with JSON syntax
	arguments_str = arguments_str.replace("'", '"')
	arguments_str = arguments_str.replace("True", "true")
	arguments_str = arguments_str.replace("False", "false")
	arguments_str = arguments_str.replace("None", "null")

	properties = json.loads(arguments_str)
	elif isinstance(arguments_str, dict):
	properties = arguments_str
	else:
	properties = {}

	return {"fn_name": fn_name, "properties": properties}

	except json.JSONDecodeError as e:
	return {"error": f"JSON parsing error: {e}"}
	except Exception as e:
	return {"error": str(e)}


	class Inferencer:
	"""Inference class for SLM Function Calling model.

	Downloads LoRA adapter from HuggingFace Hub on initialization,
	or loads from a local directory if specified.

	Configuration via environment variables:
	- HF_MODEL_REPO: HuggingFace Hub repo ID (e.g., 'username/gpt2-fc-adapter')
	- LOCAL_CHECKPOINT_DIR: Local directory path (overrides HF_MODEL_REPO)
	- BASE_MODEL: Base model name (default: 'gpt2')

	Example::

	# Set environment variable
	os.environ["HF_MODEL_REPO"] = "suyash94/gpt2-fc-adapter"

	inferencer = Inferencer()
	result = inferencer.predict("Set the temperature to 22 degrees")
	print(result["parsed"]) # {"fn_name": "set_temperature", "properties": {...}}
	"""

	def __init__(
	self,
	repo_id: str \| None = None,
	local_dir: str \| Path \| None = None,
	base_model: str \| None = None,
	device: torch.device \| str \| None = None,
	cache_dir: str \| None = None,
	) -> None:
	"""Initialize the inferencer.

	:param repo_id: HuggingFace Hub repo ID for LoRA adapter
	:param local_dir: Local directory containing adapter files
	:param base_model: Base model name (default: gpt2)
	:param device: Device for inference (auto-detected if None)
	:param cache_dir: Cache directory for downloaded files
	"""
	# Configuration from params or environment
	self.local_dir = local_dir or os.environ.get("LOCAL_CHECKPOINT_DIR")
	self.repo_id = repo_id or os.environ.get("HF_MODEL_REPO", "suyash94/gpt2-fc-adapter")
	self.base_model = base_model or os.environ.get("BASE_MODEL", "gpt2")

	if self.local_dir:
	self.local_dir = Path(self.local_dir)

	# Set device
	if device is None:
	self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	else:
	self.device = torch.device(device) if isinstance(device, str) else device

	self._model: torch.nn.Module \| None = None
	self._tokenizer: PreTrainedTokenizer \| None = None

	# Load model and tokenizer
	self._load_model(cache_dir)

	def _load_model(self, cache_dir: str \| None = None) -> None:
	"""Load base model, tokenizer, and LoRA adapter.

	:param cache_dir: Cache directory for HuggingFace downloads
	"""
	# Get adapter path (local or download from Hub)
	if self.local_dir:
	print(f"Loading adapter from local: {self.local_dir}")
	adapter_path = self.local_dir
	else:
	print(f"Downloading adapter from {self.repo_id}...")
	adapter_path = Path(
	snapshot_download(
	repo_id=self.repo_id,
	cache_dir=cache_dir,
	)
	)

	# Load tokenizer from adapter (includes special tokens)
	print(f"Loading tokenizer from adapter...")
	self._tokenizer = AutoTokenizer.from_pretrained(
	adapter_path,
	trust_remote_code=True,
	)

	# Ensure pad token is set
	if self._tokenizer.pad_token is None:
	self._tokenizer.pad_token = self._tokenizer.eos_token

	# Load base model
	print(f"Loading base model: {self.base_model}...")
	base_model = AutoModelForCausalLM.from_pretrained(
	self.base_model,
	torch_dtype=torch.float32, # CPU-friendly
	trust_remote_code=True,
	)

	# Resize embeddings if tokenizer has more tokens than model
	if len(self._tokenizer) > base_model.get_input_embeddings().num_embeddings:
	print(f"Resizing embeddings: {base_model.get_input_embeddings().num_embeddings} -> {len(self._tokenizer)}")
	base_model.resize_token_embeddings(len(self._tokenizer))

	# Load LoRA adapter
	print(f"Loading LoRA adapter...")
	self._model = PeftModel.from_pretrained(
	base_model,
	adapter_path,
	)

	# Move to device and set eval mode
	self._model.to(self.device)
	self._model.eval()

	print(f"Model loaded on device: {self.device}")

	def predict(self, user_query: str, max_new_tokens: int = 128) -> dict[str, Any]:
	"""Generate a function call prediction for a user query.

	:param user_query: User's natural language command
	:param max_new_tokens: Maximum new tokens to generate
	:return: Dict with 'response' and 'parsed' (function call info)
	"""
	if self._model is None or self._tokenizer is None:
	raise RuntimeError("Model not loaded")

	# Format as chat
	messages = [
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": user_query},
	]

	# Apply chat template
	input_text = self._tokenizer.apply_chat_template(messages, tokenize=False)

	# Tokenize
	inputs = self._tokenizer(input_text, return_tensors="pt")
	inputs = {k: v.to(self.device) for k, v in inputs.items()}

	# Generate
	with torch.no_grad():
	outputs = self._model.generate(
	**inputs,
	max_new_tokens=max_new_tokens,
	pad_token_id=self._tokenizer.pad_token_id,
	eos_token_id=self._tokenizer.eos_token_id,
	do_sample=False, # Deterministic
	)

	# Decode response (only the generated part)
	full_response = self._tokenizer.decode(outputs[0], skip_special_tokens=False)
	response = full_response[len(input_text):]

	# Parse function call
	parsed = parse_function_call(response)

	return {
	"response": response,
	"parsed": parsed,
	}