Spaces:

xce009
/

embeddings-api

Running

App Files Files Community

Soumik Bose commited on Feb 13

Commit

4f9495d

1 Parent(s): 58f4a9c

ok

Browse files

Files changed (2) hide show

Dockerfile +1 -2
model_service.py +11 -4

Dockerfile CHANGED Viewed

@@ -5,8 +5,7 @@ FROM python:3.11-slim
 ENV PYTHONDONTWRITEBYTECODE=1 \
     PYTHONUNBUFFERED=1 \
     PYTHONIOENCODING=UTF-8 \
-    HF_HOME=/app/cache \
-    TRANSFORMERS_CACHE=/app/cache
 # Install system dependencies
 RUN apt-get update && apt-get install -y --no-install-recommends curl \

 ENV PYTHONDONTWRITEBYTECODE=1 \
     PYTHONUNBUFFERED=1 \
     PYTHONIOENCODING=UTF-8 \
+    HF_HOME=/app/cache
 # Install system dependencies
 RUN apt-get update && apt-get install -y --no-install-recommends curl \

model_service.py CHANGED Viewed

@@ -7,6 +7,7 @@ logger = logging.getLogger("EmbedService")
 class MultiEmbeddingService:
     def __init__(self):
         self.models = {}
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         # Map dimensions to local folders (downloaded in Dockerfile)
@@ -17,25 +18,31 @@ class MultiEmbeddingService:
         }
     def load_all_models(self):
-        """Loads all defined models into memory."""
         for dim, path in self.model_map.items():
             try:
                 logger.info(f"Loading {dim}-dimension model from {path}...")
                 model = SentenceTransformer(path, device=self.device)
-                model.eval() # Set to evaluation mode
                 self.models[dim] = model
                 logger.info(f"✅ Loaded model for dimension {dim}")
             except Exception as e:
                 logger.error(f"❌ Failed to load {dim}-dim model: {e}")
-                # We don't raise here, so partial failures don't crash the whole app
     def generate_embedding(self, text: str | list[str], dimension: int):
         """Generates embeddings using the specific model for the requested dimension."""
         if dimension not in self.models:
             raise ValueError(f"Dimension {dimension} not supported. Available: {list(self.models.keys())}")
         return self.models[dimension].encode(
             text,
             normalize_embeddings=True,
-            convert_to_numpy=True
         ).tolist()

 class MultiEmbeddingService:
     def __init__(self):
         self.models = {}
+        # Auto-detect GPU, otherwise use CPU
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         # Map dimensions to local folders (downloaded in Dockerfile)
         }
     def load_all_models(self):
+        """Loads all defined models into memory ONCE at startup."""
+        logger.info(f"🚀 Acceleration Device: {self.device.upper()}")
         for dim, path in self.model_map.items():
             try:
                 logger.info(f"Loading {dim}-dimension model from {path}...")
                 model = SentenceTransformer(path, device=self.device)
+                model.eval() # Set to evaluation mode (faster inference)
                 self.models[dim] = model
                 logger.info(f"✅ Loaded model for dimension {dim}")
             except Exception as e:
                 logger.error(f"❌ Failed to load {dim}-dim model: {e}")
     def generate_embedding(self, text: str | list[str], dimension: int):
         """Generates embeddings using the specific model for the requested dimension."""
         if dimension not in self.models:
             raise ValueError(f"Dimension {dimension} not supported. Available: {list(self.models.keys())}")
+        # --- OPTIMIZATION FIX ---
+        # show_progress_bar=False prevents the logs you saw
+        # batch_size=32 ensures efficient processing for lists
         return self.models[dimension].encode(
             text,
             normalize_embeddings=True,
+            convert_to_numpy=True,
+            show_progress_bar=False,  # <--- THIS STOPS THE LOG SPAM
+            batch_size=32
         ).tolist()