Spaces:

majorSeaweed
/

atlan

Sleeping

Aditya commited on Sep 12, 2025

Commit

8223ae9

1 Parent(s): 594b780

Fix: Force embedding model update to paraphrase-MiniLM-L3-v2

- Prevent loading old model name from saved database
- Auto-regenerate embeddings when model mismatch detected
- Ensure new smaller model is used consistently
- This will reduce memory usage from ~80MB to ~17MB

Files changed (1) hide show

vector_db.py +13 -2

vector_db.py CHANGED Viewed

@@ -186,9 +186,20 @@ class SimpleVectorDB:
             self.documents = db_data['documents']
             self.embeddings = db_data['embeddings']
-            self.model_name = db_data['model_name']
-            logger.info(f"Loaded vector database with {len(self.documents)} documents")
             return True
         except FileNotFoundError:

             self.documents = db_data['documents']
             self.embeddings = db_data['embeddings']
+            # Keep the current model_name (don't overwrite with old saved model)
+            # This allows us to use a different model than what was saved
+            saved_model = db_data.get('model_name', 'unknown')
+            logger.info(f"Loaded vector database with {len(self.documents)} documents (original model: {saved_model}, using: {self.model_name})")
+            # If the saved model is different from current, regenerate embeddings
+            if saved_model != self.model_name:
+                logger.warning(f"Model mismatch: saved={saved_model}, current={self.model_name}. Regenerating embeddings with new model.")
+                # Force regeneration of embeddings with new model
+                self._load_embedding_model()
+                self.create_embeddings()
+                self.save_database()  # Save with new model
+                logger.info(f"Embeddings regenerated and saved with new model: {self.model_name}")
             return True
         except FileNotFoundError: