Spaces:

Shubham170793
/

enterprise-knowledge-assistant

Sleeping

Shubham170793 commited on Oct 2

Commit

83f6641

verified ·

1 Parent(s): 0c81fa1

Update src/embeddings.py

Files changed (1) hide show

src/embeddings.py CHANGED Viewed

@@ -1,28 +1,40 @@
 import os
-import shutil
-from sentence_transformers import SentenceTransformer
-print("✅ embeddings.py loaded from:", __file__)
-# Always use a writable cache directory
 CACHE_DIR = "/tmp/huggingface"
-MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
-MODEL_PATH = os.path.join(CACHE_DIR, MODEL_NAME)
 os.environ["HF_HOME"] = CACHE_DIR
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
 os.environ["HF_DATASETS_CACHE"] = CACHE_DIR
-# If model not already cached → download once into /tmp
-if not os.path.exists(MODEL_PATH):
-    print(f"⬇️ Downloading model {MODEL_NAME} to {MODEL_PATH}")
-    _model = SentenceTransformer(MODEL_NAME, cache_folder=CACHE_DIR)
-    # Force save a copy into MODEL_PATH
-    _model.save(MODEL_PATH)
-else:
-    print(f"✅ Loading model from local path {MODEL_PATH}")
-    _model = SentenceTransformer(MODEL_PATH)
 def generate_embeddings(chunks: list) -> list:
-    embeddings = _model.encode(chunks, convert_to_numpy=True)
-    return embeddings.tolist()

 import os
+# ----------------------------
+# Force Hugging Face to use /tmp for cache
+# ----------------------------
 CACHE_DIR = "/tmp/huggingface"
+os.makedirs(CACHE_DIR, exist_ok=True)
 os.environ["HF_HOME"] = CACHE_DIR
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
 os.environ["HF_DATASETS_CACHE"] = CACHE_DIR
+# ----------------------------
+# Imports AFTER env vars
+# ----------------------------
+from sentence_transformers import SentenceTransformer
+print("✅ embeddings.py loaded from:", __file__)
+# ----------------------------
+# Load embedding model once
+# ----------------------------
+_model = SentenceTransformer(
+    "sentence-transformers/all-MiniLM-L6-v2",
+    cache_folder=CACHE_DIR
+)
+# ----------------------------
+# Function: generate embeddings
+# ----------------------------
 def generate_embeddings(chunks: list) -> list:
+    """
+    📌 Generate embeddings for a list of text chunks.
+    Args:
+        chunks (list): List of text chunks.
+    Returns:
+        list: List of embedding vectors (plain Python lists).
+    """
+    embeddings = _model.encode(chunks, convert_to_numpy=True)   # numpy array
+    return embeddings.tolist()   # convert to lists for FAISS / JSON