Spaces:

KinetoLabs
/

SmokeScan

Paused

KinetoLabs Claude Opus 4.5 commited on Jan 10

Commit

5f0db1e

1 Parent(s): c190082

Implement lazy model loading to prevent CUDA OOM on 4xL4 GPUs

Problem: All 3 models (~92GB) loaded at startup exceeded 88GB VRAM.

Solution: Sequential loading - vision model during Stage 2, RAG models
during Stage 3+. Vision is unloaded before RAG loads. Peak: ~60GB.

Changes:
- models/real.py: Add load_vision(), unload_vision(), load_rag() with
proper hook removal per HuggingFace accelerate docs
- models/loader.py: Real models now use lazy loading (no load_all)
- pipeline/main.py: Load/unload at appropriate pipeline stages
- rag/vectorstore.py: Use SharedEmbeddingFunction (no duplicate load)
- rag/retriever.py: Use SharedReranker (no duplicate load)
- models/mock.py: Add is_vision_loaded(), is_rag_loaded() for API parity

Memory profile:
- Phase A (Vision): 30B model ~60GB
- Transition: Unload + gc + empty_cache
- Phase B (RAG): 8B + 8B ~32GB
- Peak never exceeds 60GB (fits in 88GB)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (6) hide show

models/loader.py +26 -6
models/mock.py +14 -1
models/real.py +134 -19
pipeline/main.py +15 -0
rag/retriever.py +21 -55
rag/vectorstore.py +21 -79

models/loader.py CHANGED Viewed

@@ -1,4 +1,14 @@
-"""Model loading with mock/real switching based on environment."""
 import logging
 import time
@@ -16,7 +26,11 @@ _model_stack: ModelStack | None = None
 def get_model_stack() -> ModelStack:
-    """Get model stack based on environment configuration."""
     start_time = time.time()
     if settings.mock_models:
@@ -28,20 +42,26 @@ def get_model_stack() -> ModelStack:
         logger.info(f"Mock model stack loaded in {elapsed:.2f}s")
         return stack
     else:
-        logger.info("Loading REAL model stack (production mode)")
         logger.info(f"Vision model: {settings.vision_model}")
         logger.info(f"Embedding model: {settings.embedding_model}")
         logger.info(f"Reranker model: {settings.reranker_model}")
         from models.real import RealModelStack
-        stack = RealModelStack().load_all()
         elapsed = time.time() - start_time
-        logger.info(f"Real model stack loaded in {elapsed:.2f}s")
         return stack
 def get_models() -> ModelStack:
-    """Get or create the singleton model stack."""
     global _model_stack
     if _model_stack is None:
         logger.debug("Model stack not initialized, creating new stack")

+"""Model loading with mock/real switching based on environment.
+Supports two loading modes:
+- MOCK_MODELS=true: Loads all mock models at startup (fast, for local dev)
+- MOCK_MODELS=false: Uses LAZY LOADING (models loaded on-demand by pipeline)
+Lazy Loading Strategy (for 4xL4 GPUs with 88GB total):
+- Vision 30B (~60GB) loaded before Stage 2, unloaded after
+- RAG models (~32GB) loaded before Stage 3
+- Peak usage ~60GB, never both simultaneously
+"""
 import logging
 import time
 def get_model_stack() -> ModelStack:
+    """Get model stack based on environment configuration.
+    For mock models: Loads all models immediately (fast, for local dev).
+    For real models: Returns uninitialized stack for lazy loading.
+    """
     start_time = time.time()
     if settings.mock_models:
         logger.info(f"Mock model stack loaded in {elapsed:.2f}s")
         return stack
     else:
+        logger.info("Creating REAL model stack (production mode - lazy loading)")
         logger.info(f"Vision model: {settings.vision_model}")
         logger.info(f"Embedding model: {settings.embedding_model}")
         logger.info(f"Reranker model: {settings.reranker_model}")
+        logger.info("NOTE: Models will be loaded on-demand by pipeline stages")
         from models.real import RealModelStack
+        # Don't load models yet - pipeline will call load_vision() and load_rag()
+        stack = RealModelStack()
         elapsed = time.time() - start_time
+        logger.info(f"Real model stack initialized in {elapsed:.2f}s (no models loaded yet)")
         return stack
 def get_models() -> ModelStack:
+    """Get or create the singleton model stack.
+    For real models, this returns an uninitialized stack.
+    Call stack.load_vision() or stack.load_rag() as needed.
+    """
     global _model_stack
     if _model_stack is None:
         logger.debug("Model stack not initialized, creating new stack")

models/mock.py CHANGED Viewed

@@ -186,7 +186,12 @@ class MockRerankerModel:
 class MockModelStack:
-    """Mock model stack for local development."""
     def __init__(self):
         self.vision = MockVisionModel()
@@ -207,3 +212,11 @@ class MockModelStack:
     def is_loaded(self) -> bool:
         """Check if models are loaded."""
         return self.loaded

 class MockModelStack:
+    """Mock model stack for local development.
+    Unlike RealModelStack, mock models are always loaded together.
+    The is_vision_loaded() and is_rag_loaded() methods are provided
+    for API compatibility with the lazy loading pipeline.
+    """
     def __init__(self):
         self.vision = MockVisionModel()
     def is_loaded(self) -> bool:
         """Check if models are loaded."""
         return self.loaded
+    def is_vision_loaded(self) -> bool:
+        """Check if vision model is loaded (always True when loaded)."""
+        return self.loaded
+    def is_rag_loaded(self) -> bool:
+        """Check if RAG models are loaded (always True when loaded)."""
+        return self.loaded

models/real.py CHANGED Viewed

@@ -1,7 +1,13 @@
 """Real model loading for production (HuggingFace Spaces with 4xL4 GPUs).
 This module loads the actual Qwen3-VL models for production use.
-Requires ~90GB VRAM (4xL4 with 96GB total).
 Model Loading:
 - Vision: Qwen3VLMoeForConditionalGeneration (standard transformers)
@@ -9,6 +15,7 @@ Model Loading:
 - Reranker: Qwen3VLReranker (official scripts from QwenLM/Qwen3-VL-Embedding)
 """
 import json
 import logging
 import re
@@ -24,27 +31,48 @@ logger = logging.getLogger(__name__)
 class RealModelStack:
-    """Real model stack for production on HuggingFace Spaces."""
     def __init__(self):
         self.models: dict[str, Any] = {}
         self.processors: dict[str, Any] = {}
-        self.loaded = False
-    def load_all(self) -> "RealModelStack":
-        """Load all models with device_map='auto' for multi-GPU distribution."""
-        from transformers import AutoProcessor
-        device_type = 'cuda' if torch.cuda.is_available() else 'cpu'
-        logger.info(f"Loading models on {device_type}")
         if torch.cuda.is_available():
             gpu_count = torch.cuda.device_count()
-            logger.info(f"CUDA devices available: {gpu_count}")
             for i in range(gpu_count):
-                mem_gb = torch.cuda.get_device_properties(i).total_memory / (1024**3)
-                logger.info(f"  GPU {i}: {torch.cuda.get_device_name(i)} ({mem_gb:.1f} GB)")
-        # Vision model (~58GB in BF16)
         logger.info(f"Loading vision model: {settings.vision_model}")
         vision_start = time.time()
         try:
@@ -64,6 +92,8 @@ class RealModelStack:
         except Exception as e:
             logger.warning(f"Failed to load 30B vision model: {e}")
             logger.info(f"Falling back to {settings.vision_model_fallback}")
             self.models["vision"] = Qwen3VLMoeForConditionalGeneration.from_pretrained(
                 settings.vision_model_fallback,
                 torch_dtype=torch.bfloat16,
@@ -76,6 +106,66 @@ class RealModelStack:
             )
             logger.info(f"Fallback vision model loaded in {time.time() - vision_start:.2f}s")
         # Embedding model (~16GB in BF16) - Using official Qwen3VLEmbedder
         logger.info(f"Loading embedding model: {settings.embedding_model}")
         embed_start = time.time()
@@ -85,7 +175,6 @@ class RealModelStack:
             model_name_or_path=settings.embedding_model,
             torch_dtype=torch.bfloat16,
         )
-        # Processor is internal to Qwen3VLEmbedder, but store reference for compatibility
         self.processors["embedding"] = self.models["embedding"].processor
         logger.info(f"Embedding model loaded in {time.time() - embed_start:.2f}s")
@@ -98,31 +187,57 @@ class RealModelStack:
             model_name_or_path=settings.reranker_model,
             torch_dtype=torch.bfloat16,
         )
-        # Processor is internal to Qwen3VLReranker, but store reference for compatibility
         self.processors["reranker"] = self.models["reranker"].processor
         logger.info(f"Reranker model loaded in {time.time() - reranker_start:.2f}s")
-        self.loaded = True
-        logger.info("All models loaded successfully")
         return self
     def is_loaded(self) -> bool:
-        """Check if models are loaded."""
-        return self.loaded
     @property
     def vision(self) -> "RealVisionModel":
         """Return vision model wrapped for pipeline consumption."""
         return RealVisionModel(self.models["vision"], self.processors["vision"])
     @property
     def embedding(self) -> "RealEmbeddingModel":
         """Return embedding model wrapped for pipeline consumption."""
         return RealEmbeddingModel(self.models["embedding"], self.processors["embedding"])
     @property
     def reranker(self) -> "RealRerankerModel":
         """Return reranker model wrapped for pipeline consumption."""
         return RealRerankerModel(self.models["reranker"], self.processors["reranker"])

 """Real model loading for production (HuggingFace Spaces with 4xL4 GPUs).
 This module loads the actual Qwen3-VL models for production use.
+Uses LAZY LOADING to fit within 88GB VRAM (4xL4 with ~22GB each).
+Memory Strategy:
+- Vision 30B (~60GB): Loaded ONLY during Stage 2 (Vision Analysis)
+- Embedding 8B (~16GB): Loaded ONLY during Stages 3+ (RAG)
+- Reranker 8B (~16GB): Loaded ONLY during Stages 3+ (RAG)
+- Peak usage: ~60GB (never all three simultaneously)
 Model Loading:
 - Vision: Qwen3VLMoeForConditionalGeneration (standard transformers)
 - Reranker: Qwen3VLReranker (official scripts from QwenLM/Qwen3-VL-Embedding)
 """
+import gc
 import json
 import logging
 import re
 class RealModelStack:
+    """Real model stack for production on HuggingFace Spaces.
+    Uses LAZY LOADING to prevent OOM errors on 4xL4 (88GB total):
+    - Vision 30B (~60GB) and RAG models (~32GB) are never loaded simultaneously
+    - Pipeline calls load_vision() before Stage 2, unload_vision() after
+    - Pipeline calls load_rag() before Stage 3
+    """
     def __init__(self):
         self.models: dict[str, Any] = {}
         self.processors: dict[str, Any] = {}
+        self._vision_loaded = False
+        self._rag_loaded = False
+    def _log_gpu_status(self):
+        """Log current GPU memory status."""
         if torch.cuda.is_available():
             gpu_count = torch.cuda.device_count()
+            logger.info(f"GPU memory status ({gpu_count} devices):")
             for i in range(gpu_count):
+                total = torch.cuda.get_device_properties(i).total_memory / (1024**3)
+                allocated = torch.cuda.memory_allocated(i) / (1024**3)
+                cached = torch.cuda.memory_reserved(i) / (1024**3)
+                free = total - allocated
+                logger.info(f"  GPU {i}: {allocated:.1f}GB allocated, {cached:.1f}GB cached, {free:.1f}GB free / {total:.1f}GB total")
+    def load_vision(self) -> "RealModelStack":
+        """Load only the vision model (~60GB in BF16).
+        Call this before Stage 2 (Vision Analysis).
+        Must call unload_vision() before load_rag() to free memory.
+        """
+        if self._vision_loaded:
+            logger.debug("Vision model already loaded, skipping")
+            return self
+        from transformers import AutoProcessor
+        device_type = 'cuda' if torch.cuda.is_available() else 'cpu'
+        logger.info(f"Loading vision model on {device_type}")
+        self._log_gpu_status()
         logger.info(f"Loading vision model: {settings.vision_model}")
         vision_start = time.time()
         try:
         except Exception as e:
             logger.warning(f"Failed to load 30B vision model: {e}")
             logger.info(f"Falling back to {settings.vision_model_fallback}")
+            from transformers import Qwen3VLMoeForConditionalGeneration
             self.models["vision"] = Qwen3VLMoeForConditionalGeneration.from_pretrained(
                 settings.vision_model_fallback,
                 torch_dtype=torch.bfloat16,
             )
             logger.info(f"Fallback vision model loaded in {time.time() - vision_start:.2f}s")
+        self._vision_loaded = True
+        self._log_gpu_status()
+        return self
+    def unload_vision(self):
+        """Unload vision model and free CUDA memory.
+        Uses accelerate's remove_hook_from_module per HuggingFace docs.
+        Call this after Stage 2 (Vision Analysis) to free memory for RAG.
+        """
+        if not self._vision_loaded or "vision" not in self.models:
+            logger.debug("Vision model not loaded, skipping unload")
+            return
+        logger.info("Unloading vision model to free memory for RAG...")
+        self._log_gpu_status()
+        try:
+            from accelerate.hooks import remove_hook_from_module
+            # CRITICAL: Remove hooks before deleting (required for device_map="auto")
+            model = self.models["vision"]
+            if hasattr(model, 'model'):
+                # Some wrappers have nested model
+                remove_hook_from_module(model.model, recurse=True)
+            remove_hook_from_module(model, recurse=True)
+            logger.debug("Accelerate hooks removed from vision model")
+        except ImportError:
+            logger.warning("accelerate.hooks not available, proceeding with basic cleanup")
+        except Exception as e:
+            logger.warning(f"Hook removal failed (continuing anyway): {e}")
+        # Delete model and processor
+        del self.models["vision"]
+        del self.processors["vision"]
+        self._vision_loaded = False
+        # Clear CUDA cache (may not free 100% but sufficient for sequential loading)
+        gc.collect()
+        torch.cuda.empty_cache()
+        logger.info("Vision model unloaded, CUDA cache cleared")
+        self._log_gpu_status()
+    def load_rag(self) -> "RealModelStack":
+        """Load embedding and reranker models (~32GB total in BF16).
+        Call this before Stage 3 (RAG Retrieval).
+        Must call unload_vision() first to have enough memory.
+        """
+        if self._rag_loaded:
+            logger.debug("RAG models already loaded, skipping")
+            return self
+        if self._vision_loaded:
+            logger.warning("Vision model still loaded! Call unload_vision() first to avoid OOM.")
+        logger.info("Loading RAG models (embedding + reranker)...")
+        self._log_gpu_status()
         # Embedding model (~16GB in BF16) - Using official Qwen3VLEmbedder
         logger.info(f"Loading embedding model: {settings.embedding_model}")
         embed_start = time.time()
             model_name_or_path=settings.embedding_model,
             torch_dtype=torch.bfloat16,
         )
         self.processors["embedding"] = self.models["embedding"].processor
         logger.info(f"Embedding model loaded in {time.time() - embed_start:.2f}s")
             model_name_or_path=settings.reranker_model,
             torch_dtype=torch.bfloat16,
         )
         self.processors["reranker"] = self.models["reranker"].processor
         logger.info(f"Reranker model loaded in {time.time() - reranker_start:.2f}s")
+        self._rag_loaded = True
+        logger.info("RAG models loaded successfully")
+        self._log_gpu_status()
+        return self
+    def load_all(self) -> "RealModelStack":
+        """Load all models (DEPRECATED - use lazy loading instead).
+        This method is kept for backward compatibility but will cause OOM
+        on 4xL4 GPUs. Use load_vision() and load_rag() sequentially instead.
+        """
+        logger.warning("load_all() is deprecated - use load_vision() and load_rag() for lazy loading")
+        self.load_vision()
+        # Note: This WILL cause OOM on 4xL4 as vision (60GB) + RAG (32GB) > 88GB
+        self.load_rag()
         return self
     def is_loaded(self) -> bool:
+        """Check if any models are loaded."""
+        return self._vision_loaded or self._rag_loaded
+    def is_vision_loaded(self) -> bool:
+        """Check if vision model is loaded."""
+        return self._vision_loaded
+    def is_rag_loaded(self) -> bool:
+        """Check if RAG models are loaded."""
+        return self._rag_loaded
     @property
     def vision(self) -> "RealVisionModel":
         """Return vision model wrapped for pipeline consumption."""
+        if not self._vision_loaded:
+            raise RuntimeError("Vision model not loaded. Call load_vision() first.")
         return RealVisionModel(self.models["vision"], self.processors["vision"])
     @property
     def embedding(self) -> "RealEmbeddingModel":
         """Return embedding model wrapped for pipeline consumption."""
+        if not self._rag_loaded:
+            raise RuntimeError("Embedding model not loaded. Call load_rag() first.")
         return RealEmbeddingModel(self.models["embedding"], self.processors["embedding"])
     @property
     def reranker(self) -> "RealRerankerModel":
         """Return reranker model wrapped for pipeline consumption."""
+        if not self._rag_loaded:
+            raise RuntimeError("Reranker model not loaded. Call load_rag() first.")
         return RealRerankerModel(self.models["reranker"], self.processors["reranker"])

pipeline/main.py CHANGED Viewed

@@ -199,6 +199,11 @@ class FDAMPipeline:
         logger.info(f"Stage 2/6: Vision Analysis ({len(session.images)} images)")
         report_progress(2, "Analyzing images with AI...")
         model_stack = get_models()
         vision_results = {}
         annotated_images = []
         room_mapping = {}
@@ -259,10 +264,20 @@ class FDAMPipeline:
         logger.info(f"Stage 2 completed in {time.time() - stage_start:.2f}s: "
                    f"{len(vision_results)} images analyzed")
         # Stage 3: RAG Retrieval
         stage_start = time.time()
         logger.info("Stage 3/6: RAG Retrieval")
         report_progress(3, "Retrieving FDAM methodology context...")
         # RAG is integrated into disposition engine, just verify connection
         try:
             test_results = self.retriever.retrieve("test connection", top_k=1)

         logger.info(f"Stage 2/6: Vision Analysis ({len(session.images)} images)")
         report_progress(2, "Analyzing images with AI...")
         model_stack = get_models()
+        # Lazy load vision model (for real models only - mock models are already loaded)
+        if hasattr(model_stack, 'load_vision') and not model_stack.is_vision_loaded():
+            logger.info("Lazy loading vision model...")
+            model_stack.load_vision()
         vision_results = {}
         annotated_images = []
         room_mapping = {}
         logger.info(f"Stage 2 completed in {time.time() - stage_start:.2f}s: "
                    f"{len(vision_results)} images analyzed")
+        # Unload vision model to free memory for RAG (for real models only)
+        if hasattr(model_stack, 'unload_vision') and model_stack.is_vision_loaded():
+            logger.info("Unloading vision model to free memory for RAG...")
+            model_stack.unload_vision()
         # Stage 3: RAG Retrieval
         stage_start = time.time()
         logger.info("Stage 3/6: RAG Retrieval")
         report_progress(3, "Retrieving FDAM methodology context...")
+        # Lazy load RAG models (for real models only - mock models are already loaded)
+        if hasattr(model_stack, 'load_rag') and not model_stack.is_rag_loaded():
+            logger.info("Lazy loading RAG models (embedding + reranker)...")
+            model_stack.load_rag()
         # RAG is integrated into disposition engine, just verify connection
         try:
             test_results = self.retriever.retrieve("test connection", top_k=1)

rag/retriever.py CHANGED Viewed

@@ -84,84 +84,50 @@ class MockReranker:
         return scores
-class RealReranker:
-    """Real reranker using Qwen3-VL-Reranker-8B.
-    Loaded on-demand when MOCK_MODELS=false.
     """
-    def __init__(self):
-        self.model = None
-        self.tokenizer = None
-    def _load_model(self):
-        """Lazy load the reranker model."""
-        if self.model is not None:
-            return
-        import torch
-        from transformers import AutoModelForSequenceClassification, AutoTokenizer
-        model_name = "Qwen/Qwen3-VL-Reranker-8B"
-        logger.info(f"Loading reranker model: {model_name}")
-        self.tokenizer = AutoTokenizer.from_pretrained(
-            model_name,
-            trust_remote_code=True,
-        )
-        self.model = AutoModelForSequenceClassification.from_pretrained(
-            model_name,
-            torch_dtype=torch.bfloat16,
-            device_map="auto",
-            trust_remote_code=True,
-        )
-        self.model.eval()
     def rerank(
         self,
         query: str,
         documents: list[str],
     ) -> list[float]:
-        """Score documents using the reranker model.
         Args:
             query: Query text
             documents: List of document texts
         Returns:
-            List of scores for each document
         """
-        self._load_model()
-        import torch
-        scores = []
-        with torch.no_grad():
-            for doc in documents:
-                inputs = self.tokenizer(
-                    query,
-                    doc,
-                    return_tensors="pt",
-                    truncation=True,
-                    max_length=512,
-                    padding=True,
-                )
-                # Note: With device_map="auto", transformers handles device routing internally
-                # Do NOT call .to(device) - it breaks distributed models
-                outputs = self.model(**inputs)
-                # Sigmoid to get 0-1 score
-                score = torch.sigmoid(outputs.logits).squeeze().item()
-                scores.append(score)
-        return scores
 def get_reranker():
-    """Get appropriate reranker based on settings."""
     if settings.mock_models:
         return MockReranker()
-    return RealReranker()
 class FDAMRetriever:

         return scores
+class SharedReranker:
+    """Reranker that uses the shared model from RealModelStack.
+    This avoids loading a duplicate reranker model - instead uses the
+    model already loaded by the pipeline via model_stack.load_rag().
     """
     def rerank(
         self,
         query: str,
         documents: list[str],
     ) -> list[float]:
+        """Score documents using the shared reranker model.
         Args:
             query: Query text
             documents: List of document texts
         Returns:
+            List of scores (0-1) for each document
         """
+        from models.loader import get_models
+        model_stack = get_models()
+        # Check if RAG models are loaded
+        if not model_stack.is_rag_loaded():
+            logger.warning("RAG models not loaded yet - reranking may fail")
+            # Return neutral scores as fallback
+            return [0.5] * len(documents)
+        # Use the shared reranker model
+        return model_stack.reranker.rerank(query, documents)
 def get_reranker():
+    """Get appropriate reranker based on settings.
+    For real models, uses SharedReranker which wraps the
+    model stack's reranker model (no duplicate loading).
+    """
     if settings.mock_models:
         return MockReranker()
+    return SharedReranker()
 class FDAMRetriever:

rag/vectorstore.py CHANGED Viewed

@@ -58,100 +58,42 @@ class MockEmbeddingFunction:
         return embedding
-class RealEmbeddingFunction:
-    """Real embedding function using Qwen3-VL-Embedding-8B.
-    Uses last-token pooling per official Qwen3-VL-Embedding implementation.
-    Loaded on-demand when MOCK_MODELS=false.
-    Reference: https://github.com/QwenLM/Qwen3-VL-Embedding
     """
     EMBEDDING_DIM = 4096  # Per Qwen3-VL-Embedding-8B hidden_size
-    def __init__(self):
-        self.model = None
-        self.tokenizer = None
-    def _load_model(self):
-        """Lazy load the embedding model."""
-        if self.model is not None:
-            return
-        import torch
-        from transformers import AutoModel, AutoTokenizer
-        model_name = "Qwen/Qwen3-VL-Embedding-8B"
-        logger.info(f"Loading embedding model: {model_name}")
-        self.tokenizer = AutoTokenizer.from_pretrained(
-            model_name,
-            trust_remote_code=True,
-        )
-        self.model = AutoModel.from_pretrained(
-            model_name,
-            torch_dtype=torch.bfloat16,
-            device_map="auto",
-            trust_remote_code=True,
-        )
-        self.model.eval()
-    @staticmethod
-    def _pooling_last(hidden_state, attention_mask):
-        """Extract the last valid token's hidden state.
-        Official pooling method from Qwen3-VL-Embedding.
-        Finds the last position where attention_mask == 1 and extracts that token.
-        """
-        import torch
-        flipped_tensor = attention_mask.flip(dims=[1])
-        last_one_positions = flipped_tensor.argmax(dim=1)
-        col = attention_mask.shape[1] - last_one_positions - 1
-        row = torch.arange(hidden_state.shape[0], device=hidden_state.device)
-        return hidden_state[row, col]
     def __call__(self, input: list[str]) -> list[list[float]]:
-        """Generate embeddings for a list of texts using last-token pooling."""
-        self._load_model()
-        import torch
-        embeddings = []
-        with torch.no_grad():
-            for text in input:
-                inputs = self.tokenizer(
-                    text,
-                    return_tensors="pt",
-                    truncation=True,
-                    max_length=512,
-                    padding=True,
-                )
-                # Note: With device_map="auto", transformers handles device routing internally
-                # Do NOT call .to(device) - it breaks distributed models
-                outputs = self.model(**inputs)
-                # Use last-token pooling (official Qwen3-VL-Embedding method)
-                attention_mask = inputs.get("attention_mask")
-                if attention_mask is not None:
-                    embedding = self._pooling_last(outputs.last_hidden_state, attention_mask)
-                else:
-                    # Fallback: use last token if no attention mask
-                    embedding = outputs.last_hidden_state[:, -1, :]
-                # L2 normalize (per official implementation)
-                embedding = torch.nn.functional.normalize(embedding, p=2, dim=-1)
-                embeddings.append(embedding.squeeze().cpu().float().tolist())
-        return embeddings
 def get_embedding_function():
-    """Get appropriate embedding function based on settings."""
     if settings.mock_models:
         return MockEmbeddingFunction()
-    return RealEmbeddingFunction()
 class ChromaVectorStore:

         return embedding
+class SharedEmbeddingFunction:
+    """Embedding function that uses the shared model from RealModelStack.
+    This avoids loading a duplicate embedding model - instead uses the
+    model already loaded by the pipeline via model_stack.load_rag().
+    For ChromaDB compatibility, this wraps the model stack's embedding model.
     """
     EMBEDDING_DIM = 4096  # Per Qwen3-VL-Embedding-8B hidden_size
     def __call__(self, input: list[str]) -> list[list[float]]:
+        """Generate embeddings using the shared model from model stack."""
+        from models.loader import get_models
+        model_stack = get_models()
+        # Check if RAG models are loaded
+        if not model_stack.is_rag_loaded():
+            logger.warning("RAG models not loaded yet - embeddings may fail")
+            # Return zero vectors as fallback
+            return [[0.0] * self.EMBEDDING_DIM for _ in input]
+        # Use the shared embedding model
+        return model_stack.embedding.embed_batch(input)
 def get_embedding_function():
+    """Get appropriate embedding function based on settings.
+    For real models, uses SharedEmbeddingFunction which wraps the
+    model stack's embedding model (no duplicate loading).
+    """
     if settings.mock_models:
         return MockEmbeddingFunction()
+    return SharedEmbeddingFunction()
 class ChromaVectorStore: