Spaces:

petermutwiri
/

analytics-engine

Paused

App Files Files Community

Peter Mutwiri commited on Nov 18, 2025

Commit

4eed1ee

1 Parent(s): 305eb68

fix: lazy load Mistral-7B for fast startup

Browse files

Files changed (1) hide show

app/service/llm_service.py +26 -13

app/service/llm_service.py CHANGED Viewed

@@ -2,59 +2,72 @@
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from app.deps import HF_API_TOKEN
 class LocalLLMService:
     def __init__(self):
-        # FREE, permissive license, fits in T4 GPU
         self.model_id = "mistralai/Mistral-7B-Instruct-v0.3"
-        self.tokenizer = AutoTokenizer.from_pretrained(
             self.model_id,
             token=HF_API_TOKEN,
             trust_remote_code=True
         )
-        self.tokenizer.pad_token = self.tokenizer.eos_token
-        # Load to GPU automatically
-        self.model = AutoModelForCausalLM.from_pretrained(
             self.model_id,
             token=HF_API_TOKEN,
             torch_dtype=torch.float16,
             device_map="auto"
         )
-        self.pipe = pipeline(
             "text-generation",
-            model=self.model,
-            tokenizer=self.tokenizer,
             device_map="auto"
         )
     def generate(self, prompt: str, max_tokens: int = 500, temperature: float = 0.3) -> str:
-        """Generate text using local model"""
         messages = [
             {"role": "system", "content": "You are a data analytics assistant. Respond with valid JSON only."},
             {"role": "user", "content": prompt}
         ]
-        formatted_prompt = self.tokenizer.apply_chat_template(
             messages,
             tokenize=False,
             add_generation_prompt=True
         )
-        outputs = self.pipe(
             formatted_prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True
         )
-        # Extract response after [/INST]
         response = outputs[0]["generated_text"]
         if "[/INST]" in response:
             return response.split("[/INST]")[-1].strip()
         return response.strip()
-# Singleton instance
 llm_service = LocalLLMService()

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from app.deps import HF_API_TOKEN
+import logging
+logger = logging.getLogger(__name__)
 class LocalLLMService:
     def __init__(self):
         self.model_id = "mistralai/Mistral-7B-Instruct-v0.3"
+        self._model = None
+        self._tokenizer = None
+        self._pipe = None
+    def _load_model(self):
+        """Lazy load model on first use - cached by HF hub"""
+        if self._model is not None:
+            return  # Already loaded
+        logger.info(f"🤖 Loading LLM: {self.model_id}...")
+        self._tokenizer = AutoTokenizer.from_pretrained(
             self.model_id,
             token=HF_API_TOKEN,
             trust_remote_code=True
         )
+        self._tokenizer.pad_token = self._tokenizer.eos_token
+        self._model = AutoModelForCausalLM.from_pretrained(
             self.model_id,
             token=HF_API_TOKEN,
             torch_dtype=torch.float16,
             device_map="auto"
         )
+        self._pipe = pipeline(
             "text-generation",
+            model=self._model,
+            tokenizer=self._tokenizer,
             device_map="auto"
         )
+        logger.info("✅ LLM loaded successfully")
     def generate(self, prompt: str, max_tokens: int = 500, temperature: float = 0.3) -> str:
+        """Generate text (triggers model load on first call)"""
+        self._load_model()  # Lazy load
         messages = [
             {"role": "system", "content": "You are a data analytics assistant. Respond with valid JSON only."},
             {"role": "user", "content": prompt}
         ]
+        formatted_prompt = self._tokenizer.apply_chat_template(
             messages,
             tokenize=False,
             add_generation_prompt=True
         )
+        outputs = self._pipe(
             formatted_prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True
         )
         response = outputs[0]["generated_text"]
         if "[/INST]" in response:
             return response.split("[/INST]")[-1].strip()
         return response.strip()
+# Singleton instance (lightweight at import time)
 llm_service = LocalLLMService()