Spaces:

MSGEncrypted
/

lesson-agent-dev

Sleeping

lesson-agent-dev / apps /gradio-space /src /gradio_space /model_loading.py

MSG

Feat/monday sprint 2 (#19)

727cb75 18 days ago

4.99 kB

	from gradio_space.spaces_runtime import gpu_task
	from inference.config import get_app_config, get_model_config
	from inference.factory import get_backend, reset_backend
	from inference.response_clean import strip_reasoning_output

	_app_config = get_app_config()
	_runtime_model_key: str \| None = None
	_current_model_key: str \| None = None
	_load_state: dict[str, bool] = {}
	_load_errors: dict[str, str] = {}


	def get_active_model_key() -> str:
	return _runtime_model_key or _app_config.active_model


	def set_runtime_model_key(key: str) -> str:
	"""Pin the active preset for all tabs until process restart."""
	global _runtime_model_key, _current_model_key

	model = get_model_config(key)
	previous = get_active_model_key()
	if key != previous:
	reset_backend()
	_current_model_key = None
	_load_state.pop(previous, None)
	_load_errors.pop(previous, None)
	_runtime_model_key = key
	return model.label


	def ensure_model_loaded(model_key: str) -> str \| None:
	global _current_model_key

	if model_key != _current_model_key:
	reset_backend()
	_current_model_key = model_key

	if _load_state.get(model_key):
	return None

	if model_key in _load_errors:
	return _load_errors[model_key]

	try:
	get_backend(model_key).load()
	_load_state[model_key] = True
	return None
	except Exception as exc: # noqa: BLE001 — surface model load failures in the UI
	message = f"Failed to load model: {exc}"
	_load_errors[model_key] = message
	return message


	def runtime_device_hint(model_key: str) -> str:
	model = get_model_config(model_key)
	if model.backend == "transformers":
	try:
	import torch

	if torch.cuda.is_available():
	return f"GPU ({torch.cuda.get_device_name(0)})"
	except ImportError:
	pass
	return "CPU"
	if model.n_gpu_layers > 0:
	return f"llama.cpp GPU offload ({model.n_gpu_layers} layers)"
	return "CPU"


	def warmup(model_key: str \| None = None) -> str:
	key = model_key or get_active_model_key()
	model = get_model_config(key)

	if _load_state.get(key):
	backend = get_backend(key)
	device = (
	backend.device_label
	if hasattr(backend, "device_label")
	else runtime_device_hint(key)
	)
	return f"Model ready: {model.label} on {device}"

	if key in _load_errors:
	return _load_errors[key]

	device_hint = runtime_device_hint(key)
	return (
	f"Preset `{key}` selected ({model.backend}, {device_hint}). "
	"Loading weights…"
	)


	@gpu_task(duration=120)
	def reload_model(model_key: str) -> str:
	"""Clear cached backend and reload weights for settings panel."""
	global _current_model_key

	key = model_key or get_active_model_key()
	set_runtime_model_key(key)
	reset_backend()
	_current_model_key = None
	_load_state.pop(key, None)
	_load_errors.pop(key, None)
	error = ensure_model_loaded(key)
	if error:
	return error
	return warmup(key)


	def select_and_reload_model(model_key: str) -> str:
	"""Switch runtime preset and load weights (Settings dropdown)."""
	return reload_model(model_key)


	def preload_active_model() -> str:
	"""Load the active preset at startup so the first request is fast."""
	key = get_active_model_key()
	print(f"[startup] Loading model preset `{key}`…", flush=True)
	error = ensure_model_loaded(key)
	if error:
	print(f"[startup] {error}", flush=True)
	return error
	status = warmup(key)
	print(f"[startup] {status}", flush=True)
	return status


	def model_status(model_key: str) -> str:
	model = get_model_config(model_key)
	notes = ""
	if model.backend == "llama_cpp" and model.multimodal:
	notes = (
	"\n- Note: text-only on llama.cpp; use transformers preset for image/video input."
	)
	return (
	f"{model.label}\n\n"
	f"- Backend: `{model.backend}`\n"
	f"- {warmup(model_key)}{notes}"
	)


	def _history_to_messages(history: list) -> list[dict[str, str]]:
	messages: list[dict[str, str]] = []
	for item in history:
	if isinstance(item, dict):
	messages.append({"role": item["role"], "content": item["content"]})
	else:
	user_msg, assistant_msg = item
	messages.append({"role": "user", "content": user_msg})
	if assistant_msg:
	messages.append({"role": "assistant", "content": assistant_msg})
	return messages


	@gpu_task(duration=60)
	def chat(message: str, history: list, model_key: str) -> str:
	load_error = ensure_model_loaded(model_key)
	if load_error:
	return load_error

	messages = _history_to_messages(history)
	messages.append({"role": "user", "content": message})
	reply = get_backend(model_key).chat(messages)
	return strip_reasoning_output(reply)