Spaces:

umyunsang
/

govon-runtime

Paused

govon-runtime / src /inference /runtime_config.py

github-actions

sync: c7bf804

43117af 4 days ago

26.7 kB

	"""GovOn Runtime serving profile and model configuration.

	Defines profiles for local development, single-server (production), and
	air-gapped installations based on environment variables. Standardises
	generation defaults and timeout settings.

	Usage:
	config = RuntimeConfig.from_env()
	config.log_summary()

	# Unified hyperparameter config (YAML + env var overrides):
	govon_config = GovOnConfig.load()
	"""

	import os
	from dataclasses import dataclass, field
	from enum import Enum
	from pathlib import Path
	from typing import Any, Dict, List, Optional

	from loguru import logger

	# Project root path (src/inference/runtime_config.py → ../../..)
	_PROJECT_ROOT = Path(__file__).resolve().parent.parent.parent


	class ServingProfile(str, Enum):
	"""서빙 프로필. SERVING_PROFILE 환경변수로 선택한다."""

	LOCAL = "local" # 로컬 개발 환경
	SINGLE = "single" # 단일 서버 프로덕션
	CONTAINER = "container" # Docker / Cloud Run / 오프라인 패키지
	AIRGAP = "airgap" # 폐쇄망 설치


	# ---------------------------------------------------------------------------
	# 프로필별 기본값 정의
	# ---------------------------------------------------------------------------

	_PROFILE_DEFAULTS: Dict[ServingProfile, Dict] = {
	ServingProfile.LOCAL: {
	"host": "127.0.0.1",
	"port": 8000,
	"workers": 1,
	"gpu_utilization": 0.7,
	"max_model_len": 4096,
	"log_level": "DEBUG",
	"reload": True,
	"rate_limit_enabled": False,
	"request_timeout_sec": 120,
	"cors_origins": ["http://localhost:3000", "http://127.0.0.1:3000"],
	},
	ServingProfile.SINGLE: {
	"host": "0.0.0.0",
	"port": 8000,
	"workers": 1,
	"gpu_utilization": 0.85,
	"max_model_len": 8192,
	"log_level": "INFO",
	"reload": False,
	"rate_limit_enabled": True,
	"request_timeout_sec": 60,
	"cors_origins": [],
	},
	ServingProfile.CONTAINER: {
	"host": "0.0.0.0",
	"port": 8000,
	"workers": 1,
	"gpu_utilization": 0.85,
	"max_model_len": 8192,
	"log_level": "INFO",
	"reload": False,
	"rate_limit_enabled": True,
	"request_timeout_sec": 60,
	"cors_origins": [],
	},
	ServingProfile.AIRGAP: {
	"host": "0.0.0.0",
	"port": 8000,
	"workers": 1,
	"gpu_utilization": 0.8,
	"max_model_len": 8192,
	"log_level": "INFO",
	"reload": False,
	"rate_limit_enabled": True,
	"request_timeout_sec": 90,
	"cors_origins": [],
	},
	}

	_CONTAINER_PLATFORM_ENV_MARKERS = (
	"K_SERVICE",
	"K_REVISION",
	"K_CONFIGURATION",
	"KUBERNETES_SERVICE_HOST",
	"SPACE_ID", # HuggingFace Spaces
	)


	def _resolve_serving_profile() -> ServingProfile:
	"""환경과 명시값을 기준으로 서빙 프로필을 결정한다."""
	profile_name = os.getenv("SERVING_PROFILE")
	if profile_name:
	try:
	return ServingProfile(profile_name.lower())
	except ValueError:
	logger.warning(f"알 수 없는 SERVING_PROFILE '{profile_name}', 기본값 'local' 사용")
	return ServingProfile.LOCAL

	if any(os.getenv(marker) for marker in _CONTAINER_PLATFORM_ENV_MARKERS):
	logger.info("컨테이너 런타임 환경을 감지하여 'container' 프로필을 사용합니다.")
	return ServingProfile.CONTAINER

	return ServingProfile.LOCAL


	# ---------------------------------------------------------------------------
	# Generation Defaults
	# ---------------------------------------------------------------------------


	@dataclass(frozen=True)
	class GenerationDefaults:
	"""텍스트 생성 기본 파라미터. 엔드포인트 요청에 값이 없을 때 사용된다."""

	max_tokens: int = 512
	temperature: float = 0.7
	top_p: float = 0.9
	repetition_penalty: float = 1.1
	stop_sequences: List[str] = field(default_factory=lambda: ["[\|endofturn\|]"])

	@classmethod
	def from_env(cls) -> "GenerationDefaults":
	return cls(
	max_tokens=int(os.getenv("GEN_MAX_TOKENS", "512")),
	temperature=float(os.getenv("GEN_TEMPERATURE", "0.7")),
	top_p=float(os.getenv("GEN_TOP_P", "0.9")),
	repetition_penalty=float(os.getenv("GEN_REPETITION_PENALTY", "1.1")),
	)


	# ---------------------------------------------------------------------------
	# Model Configuration
	# ---------------------------------------------------------------------------


	@dataclass(frozen=True)
	class ModelConfig:
	"""모델 및 어댑터 설정.

	베이스 모델: LGAI-EXAONE/EXAONE-4.0-32B-AWQ (단일 vLLM 인스턴스, ~20GB VRAM)
	- tool calling 네이티브 지원 (BFCL 65.2)
	- vLLM 서빙 옵션: --enable-auto-tool-choice --tool-call-parser hermes

	Multi-LoRA 어댑터:
	- public_admin-adapter (LoRA #1): domain_adapter 용도
	학습 데이터: umyunsang/govon-civil-response-data (74K건), QLoRA on AWQ base
	HF Hub: umyunsang/GovOn-EXAONE-LoRA-v2
	- legal-adapter (LoRA #2): domain_adapter 용도
	학습 데이터: umyunsang/govon-legal-response-data (243K건), QLoRA on AWQ base
	HuggingFace: siwo/govon-legal-adapter
	- 나머지 capability (api_lookup, synthesis 등)는 LoRA 없이 base model 사용

	adapter_paths: Dict[str, str] 형식의 어댑터 이름-경로 매핑.
	환경변수 ADAPTER_PATHS="public_admin=/path/to/public_admin,legal=/path/to/legal" 형식으로 설정.
	예: {"public_admin": "/path/to/public_admin", "legal": "/path/to/legal"}
	"""

	model_path: str = "LGAI-EXAONE/EXAONE-4.0-32B-AWQ"
	trust_remote_code: bool = True
	dtype: str = "half"
	enforce_eager: bool = True
	# Multi-LoRA 어댑터 경로: {"public_admin": "/path/to/public_admin", "legal": "/path/to/legal"}
	# 환경변수 ADAPTER_PATHS="public_admin=/path/to/public_admin,legal=/path/to/legal" 형식으로 설정
	adapter_paths: Dict[str, str] = field(default_factory=dict)

	@classmethod
	def from_env(cls) -> "ModelConfig":
	adapter_paths = cls._parse_adapter_paths(os.getenv("ADAPTER_PATHS", ""))
	return cls(
	model_path=os.getenv("MODEL_PATH", "LGAI-EXAONE/EXAONE-4.0-32B-AWQ"),
	trust_remote_code=os.getenv("TRUST_REMOTE_CODE", "true").lower()
	in ("true", "1", "yes"),
	dtype=os.getenv("MODEL_DTYPE", "half"),
	enforce_eager=os.getenv("ENFORCE_EAGER", "true").lower() in ("true", "1", "yes"),
	adapter_paths=adapter_paths,
	)

	@staticmethod
	def _parse_adapter_paths(raw: str) -> Dict[str, str]:
	"""ADAPTER_PATHS 환경변수를 파싱한다.

	형식: "public_admin=/path/to/public_admin,legal=/path/to/legal"
	반환: {"public_admin": "/path/to/public_admin", "legal": "/path/to/legal"}
	잘못된 항목은 경고 후 무시한다.
	"""
	if not raw or not raw.strip():
	return {}
	result: Dict[str, str] = {}
	for entry in raw.split(","):
	entry = entry.strip()
	if not entry:
	continue
	if "=" not in entry:
	logger.warning(f"ADAPTER_PATHS 항목 형식 오류 (name=path 필요): {entry!r}")
	continue
	name, path = entry.split("=", 1)
	name, path = name.strip(), path.strip()
	if not name or not path:
	logger.warning(f"ADAPTER_PATHS 항목에 빈 이름 또는 경로: {entry!r}")
	continue
	result[name] = path
	return result


	# ---------------------------------------------------------------------------
	# Path Configuration
	# ---------------------------------------------------------------------------


	@dataclass
	class PathConfig:
	"""데이터·인덱스·로그 경로 설정."""

	data_path: str = ""
	index_path: str = ""
	faiss_index_dir: str = ""
	bm25_index_dir: str = ""
	local_docs_root: str = ""
	agents_dir: str = ""
	log_dir: str = ""
	cache_dir: str = ""

	@classmethod
	def from_env(cls) -> "PathConfig":
	project_root = str(_PROJECT_ROOT)
	return cls(
	data_path=os.getenv("DATA_PATH", ""),
	index_path=os.getenv("INDEX_PATH", "models/faiss_index/complaints.index"),
	faiss_index_dir=os.getenv("FAISS_INDEX_DIR", "models/faiss_index"),
	bm25_index_dir=os.getenv("BM25_INDEX_DIR", "models/bm25_index"),
	local_docs_root=os.getenv("LOCAL_DOCS_ROOT", ""),
	agents_dir=os.getenv("AGENTS_DIR", os.path.join(project_root, "agents")),
	log_dir=os.getenv("LOG_DIR", os.path.join(project_root, "logs")),
	cache_dir=os.getenv("CACHE_DIR", os.path.join(project_root, ".cache")),
	)


	# ---------------------------------------------------------------------------
	# Healthcheck Configuration
	# ---------------------------------------------------------------------------


	@dataclass(frozen=True)
	class HealthcheckConfig:
	"""헬스체크 설정. shell client readiness probe 용도."""

	endpoint: str = "/health"
	interval_sec: int = 30
	timeout_sec: int = 10
	startup_probe_path: str = "/health"
	readiness_probe_path: str = "/health"

	@classmethod
	def from_env(cls) -> "HealthcheckConfig":
	return cls(
	interval_sec=int(os.getenv("HEALTH_INTERVAL_SEC", "30")),
	timeout_sec=int(os.getenv("HEALTH_TIMEOUT_SEC", "10")),
	)


	# ---------------------------------------------------------------------------
	# RuntimeConfig (통합 설정)
	# ---------------------------------------------------------------------------


	@dataclass
	class RuntimeConfig:
	"""GovOn Runtime 통합 설정.

	SERVING_PROFILE 환경변수에 따라 프로필별 기본값을 로드하고,
	개별 환경변수로 오버라이드할 수 있다.
	"""

	# 서빙 프로필
	profile: ServingProfile = ServingProfile.LOCAL

	# 서버 설정
	host: str = "127.0.0.1"
	port: int = 8000
	workers: int = 1
	log_level: str = "DEBUG"
	reload: bool = True

	# GPU / vLLM 설정
	gpu_utilization: float = 0.7
	max_model_len: int = 4096
	skip_model_load: bool = False

	# 보안
	api_key: Optional[str] = None
	cors_origins: List[str] = field(default_factory=list)
	rate_limit_enabled: bool = False

	# 타임아웃
	request_timeout_sec: int = 120

	# 하위 설정 객체
	model: ModelConfig = field(default_factory=ModelConfig)
	paths: PathConfig = field(default_factory=PathConfig)
	generation: GenerationDefaults = field(default_factory=GenerationDefaults)
	healthcheck: HealthcheckConfig = field(default_factory=HealthcheckConfig)

	@classmethod
	def from_env(cls) -> "RuntimeConfig":
	"""환경변수에서 전체 런타임 설정을 로드한다.

	1. SERVING_PROFILE에 따른 프로필 기본값 적용
	2. 개별 환경변수로 오버라이드
	"""
	profile = _resolve_serving_profile()
	defaults = _PROFILE_DEFAULTS[profile]

	skip_model_load = os.getenv("SKIP_MODEL_LOAD", "false").lower() in (
	"true",
	"1",
	"yes",
	)

	# CORS: 환경변수가 있으면 우선, 없으면 프로필 기본값
	cors_env = os.getenv("CORS_ORIGINS", "")
	if cors_env:
	cors_origins = [o.strip() for o in cors_env.split(",") if o.strip()]
	else:
	cors_origins = defaults["cors_origins"]

	return cls(
	profile=profile,
	host=os.getenv("HOST", defaults["host"]),
	port=int(os.getenv("PORT", str(defaults["port"]))),
	workers=int(os.getenv("WORKERS", str(defaults["workers"]))),
	log_level=os.getenv("LOG_LEVEL", defaults["log_level"]),
	reload=os.getenv("RELOAD", str(defaults["reload"])).lower() in ("true", "1", "yes"),
	gpu_utilization=float(os.getenv("GPU_UTILIZATION", str(defaults["gpu_utilization"]))),
	max_model_len=int(os.getenv("MAX_MODEL_LEN", str(defaults["max_model_len"]))),
	skip_model_load=skip_model_load,
	api_key=os.getenv("API_KEY"),
	cors_origins=cors_origins,
	rate_limit_enabled=os.getenv(
	"RATE_LIMIT_ENABLED", str(defaults["rate_limit_enabled"])
	).lower()
	in ("true", "1", "yes"),
	request_timeout_sec=int(
	os.getenv("REQUEST_TIMEOUT_SEC", str(defaults["request_timeout_sec"]))
	),
	model=ModelConfig.from_env(),
	paths=PathConfig.from_env(),
	generation=GenerationDefaults.from_env(),
	healthcheck=HealthcheckConfig.from_env(),
	)

	def log_summary(self) -> None:
	"""현재 설정 요약을 로그로 출력한다."""
	logger.info("=" * 60)
	logger.info("GovOn Runtime Configuration")
	logger.info("=" * 60)
	logger.info(f" Profile : {self.profile.value}")
	logger.info(f" Host : {self.host}:{self.port}")
	logger.info(f" Workers : {self.workers}")
	logger.info(f" Log Level : {self.log_level}")
	logger.info(f" GPU Util : {self.gpu_utilization}")
	logger.info(f" Max Model Len : {self.max_model_len}")
	logger.info(f" Model Path : {self.model.model_path}")
	logger.info(f" Adapter Paths : {self.model.adapter_paths or '(none)'}")
	logger.info(f" Skip Model : {self.skip_model_load}")
	logger.info(f" Request Timeout: {self.request_timeout_sec}s")
	logger.info(f" Rate Limit : {self.rate_limit_enabled}")
	logger.info(f" CORS Origins : {self.cors_origins}")
	logger.info(f" Healthcheck : {self.healthcheck.endpoint}")
	logger.info(f" Data Path : {self.paths.data_path}")
	logger.info(f" Index Path : {self.paths.index_path}")
	logger.info(f" Local Docs : {self.paths.local_docs_root or '(disabled)'}")
	logger.info(f" Log Dir : {self.paths.log_dir}")
	logger.info("=" * 60)

	def to_uvicorn_kwargs(self) -> Dict:
	"""uvicorn.run()에 전달할 키워드 인자를 반환한다."""
	kwargs = {
	"host": self.host,
	"port": self.port,
	"workers": self.workers,
	"log_level": self.log_level.lower(),
	"timeout_keep_alive": self.request_timeout_sec,
	}
	if self.reload:
	kwargs["reload"] = True
	return kwargs


	# ---------------------------------------------------------------------------
	# GovOnConfig — unified hyperparameter config (YAML + env var overrides)
	# ---------------------------------------------------------------------------

	_GOVON_YAML_PATH = _PROJECT_ROOT / "config" / "govon.yaml"


	def _load_yaml(path: Path) -> Dict[str, Any]:
	"""Load a YAML file and return its contents as a dict.

	Returns an empty dict if the file does not exist or PyYAML is not installed.
	"""
	if not path.exists():
	logger.warning(f"[GovOnConfig] config file not found: {path}. Using defaults.")
	return {}
	try:
	import yaml # type: ignore

	with open(path, "r", encoding="utf-8") as f:
	data = yaml.safe_load(f) or {}
	logger.debug(f"[GovOnConfig] loaded config from {path}")
	return data
	except ImportError:
	logger.warning("[GovOnConfig] PyYAML not installed; falling back to defaults.")
	return {}
	except Exception as exc:
	logger.warning(f"[GovOnConfig] failed to load {path}: {exc}. Using defaults.")
	return {}


	def _env(key: str, default: Any, cast=None) -> Any:
	"""Read an environment variable and cast it to the required type.

	Returns default when the variable is absent or empty.
	"""
	raw = os.getenv(key)
	if raw is None or raw == "":
	return default
	if cast is not None:
	try:
	return cast(raw)
	except (ValueError, TypeError) as exc:
	logger.warning(f"[GovOnConfig] invalid env {key}={raw!r}: {exc}. Using default.")
	return default
	return raw


	@dataclass(frozen=True)
	class _GenerationConfig:
	"""LLM generation hyperparameters."""

	max_tokens: int = 512
	temperature: float = 0.7
	top_p: float = 0.9
	repetition_penalty: float = 1.1
	stop_sequences: List[str] = field(default_factory=lambda: ["[\|endofturn\|]"])
	agent_temperature: float = 0.0


	@dataclass(frozen=True)
	class _ServingConfig:
	"""vLLM / GPU serving hyperparameters."""

	gpu_memory_utilization: float = 0.90
	max_model_len: int = 8192
	max_loras: int = 4
	max_lora_rank: int = 64
	kv_cache_dtype: str = "auto"
	vllm_request_timeout: float = 300.0
	vllm_connect_timeout: float = 30.0
	vllm_startup_max_wait: int = 900
	health_check_timeout: int = 10


	@dataclass(frozen=True)
	class _ContextConfig:
	"""Context window management hyperparameters."""

	agent_input_budget: int = 4500
	max_message_tokens: int = 4500
	keep_recent_messages: int = 6
	summary_threshold_ratio: float = 0.6
	max_tool_result_chars: int = 3000
	system_prompt_overhead: int = 2000
	max_consecutive_rejections: int = 2
	tool_clear_after_iteration: int = 2
	tool_keep_recent: int = 2
	max_iterations: int = 10


	@dataclass(frozen=True)
	class _ToolDefaultConfig:
	"""Default timeout and retry settings for a single tool."""

	timeout_sec: float = 10.0
	max_retries: int = 0


	@dataclass(frozen=True)
	class _ToolsConfig:
	"""Tool execution hyperparameters."""

	defaults: _ToolDefaultConfig = field(default_factory=_ToolDefaultConfig)
	overrides: Dict[str, _ToolDefaultConfig] = field(default_factory=dict)

	def for_tool(self, name: str) -> _ToolDefaultConfig:
	"""Return per-tool config, falling back to defaults."""
	return self.overrides.get(name, self.defaults)


	@dataclass(frozen=True)
	class _RateLimitConfig:
	"""API rate limiting configuration."""

	default: str = "30/minute"


	@dataclass(frozen=True)
	class _ValidationConfig:
	"""Request validation limits."""

	max_prompt_length: int = 4096
	max_tokens_ceiling: int = 4096


	@dataclass(frozen=True)
	class GovOnConfig:
	"""Unified hyperparameter configuration for GovOn.

	Load via :meth:`GovOnConfig.load` which reads ``config/govon.yaml`` and
	applies environment variable overrides on top.

	Environment variables follow the ``GOVON_<SECTION>_<KEY>`` naming convention
	(e.g. ``GOVON_GENERATION_MAX_TOKENS``). Legacy ``GEN_*`` variables are also
	supported for backward compatibility.
	"""

	generation: _GenerationConfig = field(default_factory=_GenerationConfig)
	serving: _ServingConfig = field(default_factory=_ServingConfig)
	context: _ContextConfig = field(default_factory=_ContextConfig)
	tools: _ToolsConfig = field(default_factory=_ToolsConfig)
	rate_limit: _RateLimitConfig = field(default_factory=_RateLimitConfig)
	validation: _ValidationConfig = field(default_factory=_ValidationConfig)

	@classmethod
	def load(cls, path: Optional[Path] = None) -> "GovOnConfig":
	"""Load config from YAML and apply environment variable overrides.

	Priority (highest first):
	1. Environment variables (GOVON_* or legacy GEN_*)
	2. config/govon.yaml values
	3. Dataclass defaults (hardcoded fallbacks)
	"""
	raw = _load_yaml(path or _GOVON_YAML_PATH)
	gen_raw = raw.get("generation", {})
	srv_raw = raw.get("serving", {})
	ctx_raw = raw.get("context", {})
	tls_raw = raw.get("tools", {})
	rl_raw = raw.get("rate_limit", {})
	val_raw = raw.get("validation", {})

	# --- generation ---
	gen = _GenerationConfig(
	max_tokens=_env(
	"GOVON_GENERATION_MAX_TOKENS",
	_env("GEN_MAX_TOKENS", gen_raw.get("max_tokens", 512), int),
	int,
	),
	temperature=_env(
	"GOVON_GENERATION_TEMPERATURE",
	_env("GEN_TEMPERATURE", gen_raw.get("temperature", 0.7), float),
	float,
	),
	top_p=_env(
	"GOVON_GENERATION_TOP_P",
	_env("GEN_TOP_P", gen_raw.get("top_p", 0.9), float),
	float,
	),
	repetition_penalty=_env(
	"GOVON_GENERATION_REPETITION_PENALTY",
	_env(
	"GEN_REPETITION_PENALTY",
	gen_raw.get("repetition_penalty", 1.1),
	float,
	),
	float,
	),
	stop_sequences=gen_raw.get("stop_sequences", ["[\|endofturn\|]"]),
	agent_temperature=_env(
	"GOVON_GENERATION_AGENT_TEMPERATURE",
	gen_raw.get("agent_temperature", 0.0),
	float,
	),
	)

	# --- serving ---
	srv = _ServingConfig(
	gpu_memory_utilization=_env(
	"GOVON_SERVING_GPU_MEMORY_UTILIZATION",
	srv_raw.get("gpu_memory_utilization", 0.90),
	float,
	),
	max_model_len=_env(
	"GOVON_SERVING_MAX_MODEL_LEN",
	srv_raw.get("max_model_len", 8192),
	int,
	),
	max_loras=_env(
	"GOVON_SERVING_MAX_LORAS",
	_env("MAX_LORAS", srv_raw.get("max_loras", 4), int),
	int,
	),
	max_lora_rank=_env(
	"GOVON_SERVING_MAX_LORA_RANK",
	_env("MAX_LORA_RANK", srv_raw.get("max_lora_rank", 64), int),
	int,
	),
	kv_cache_dtype=_env(
	"GOVON_SERVING_KV_CACHE_DTYPE",
	srv_raw.get("kv_cache_dtype", "auto"),
	),
	vllm_request_timeout=_env(
	"GOVON_SERVING_VLLM_REQUEST_TIMEOUT",
	srv_raw.get("vllm_request_timeout", 300.0),
	float,
	),
	vllm_connect_timeout=_env(
	"GOVON_SERVING_VLLM_CONNECT_TIMEOUT",
	srv_raw.get("vllm_connect_timeout", 30.0),
	float,
	),
	vllm_startup_max_wait=_env(
	"GOVON_SERVING_VLLM_STARTUP_MAX_WAIT",
	srv_raw.get("vllm_startup_max_wait", 900),
	int,
	),
	health_check_timeout=_env(
	"GOVON_SERVING_HEALTH_CHECK_TIMEOUT",
	srv_raw.get("health_check_timeout", 10),
	int,
	),
	)

	# --- context ---
	ctx = _ContextConfig(
	agent_input_budget=_env(
	"GOVON_CONTEXT_AGENT_INPUT_BUDGET",
	ctx_raw.get("agent_input_budget", 4500),
	int,
	),
	max_message_tokens=_env(
	"GOVON_CONTEXT_MAX_MESSAGE_TOKENS",
	ctx_raw.get("max_message_tokens", 4500),
	int,
	),
	keep_recent_messages=_env(
	"GOVON_CONTEXT_KEEP_RECENT_MESSAGES",
	ctx_raw.get("keep_recent_messages", 6),
	int,
	),
	summary_threshold_ratio=_env(
	"GOVON_CONTEXT_SUMMARY_THRESHOLD_RATIO",
	ctx_raw.get("summary_threshold_ratio", 0.6),
	float,
	),
	max_tool_result_chars=_env(
	"GOVON_CONTEXT_MAX_TOOL_RESULT_CHARS",
	ctx_raw.get("max_tool_result_chars", 3000),
	int,
	),
	system_prompt_overhead=_env(
	"GOVON_CONTEXT_SYSTEM_PROMPT_OVERHEAD",
	ctx_raw.get("system_prompt_overhead", 2000),
	int,
	),
	max_consecutive_rejections=_env(
	"GOVON_CONTEXT_MAX_CONSECUTIVE_REJECTIONS",
	ctx_raw.get("max_consecutive_rejections", 2),
	int,
	),
	tool_clear_after_iteration=_env(
	"GOVON_CONTEXT_TOOL_CLEAR_AFTER_ITERATION",
	ctx_raw.get("tool_clear_after_iteration", 2),
	int,
	),
	tool_keep_recent=_env(
	"GOVON_CONTEXT_TOOL_KEEP_RECENT",
	ctx_raw.get("tool_keep_recent", 2),
	int,
	),
	max_iterations=_env(
	"GOVON_CONTEXT_MAX_ITERATIONS",
	ctx_raw.get("max_iterations", 10),
	int,
	),
	)

	# --- tools ---
	tls_defaults_raw = tls_raw.get("defaults", {})
	tls_overrides_raw = tls_raw.get("overrides", {})
	tls_defaults = _ToolDefaultConfig(
	timeout_sec=_env(
	"GOVON_TOOLS_DEFAULT_TIMEOUT_SEC",
	tls_defaults_raw.get("timeout_sec", 10.0),
	float,
	),
	max_retries=_env(
	"GOVON_TOOLS_DEFAULT_MAX_RETRIES",
	tls_defaults_raw.get("max_retries", 0),
	int,
	),
	)
	tls_overrides: Dict[str, _ToolDefaultConfig] = {}
	for tool_name, override_raw in tls_overrides_raw.items():
	tls_overrides[tool_name] = _ToolDefaultConfig(
	timeout_sec=override_raw.get("timeout_sec", tls_defaults.timeout_sec),
	max_retries=override_raw.get("max_retries", tls_defaults.max_retries),
	)
	tls = _ToolsConfig(defaults=tls_defaults, overrides=tls_overrides)

	# --- rate_limit ---
	rl = _RateLimitConfig(
	default=_env(
	"GOVON_RATE_LIMIT_DEFAULT",
	rl_raw.get("default", "30/minute"),
	),
	)

	# --- validation ---
	val = _ValidationConfig(
	max_prompt_length=_env(
	"GOVON_VALIDATION_MAX_PROMPT_LENGTH",
	val_raw.get("max_prompt_length", 4096),
	int,
	),
	max_tokens_ceiling=_env(
	"GOVON_VALIDATION_MAX_TOKENS_CEILING",
	val_raw.get("max_tokens_ceiling", 4096),
	int,
	),
	)

	return cls(
	generation=gen,
	serving=srv,
	context=ctx,
	tools=tls,
	rate_limit=rl,
	validation=val,
	)


	# Module-level singleton — imported by other modules.
	govon_config: GovOnConfig = GovOnConfig.load()