Spaces:

vivekchakraverty
/

gdscript-assistant

Running on Zero

vivekchakraverty commited on 2 days ago

Commit

e48654b

verified ·

1 Parent(s): 0f4aa1b

Fix ZeroGPU retrieval: pin jina query embedder to CPU

Files changed (1) hide show

rag.py CHANGED Viewed

@@ -58,8 +58,11 @@ def _chunks() -> dict[int, dict]:
 @lru_cache(maxsize=1)
 def _embedder():
     # transformers ~=4.45 (pinned) loads jina's remote code without shims.
     from sentence_transformers import SentenceTransformer
-    return SentenceTransformer(EMBED_MODEL, trust_remote_code=True)
 def _embed_query(query: str) -> np.ndarray:

 @lru_cache(maxsize=1)
 def _embedder():
     # transformers ~=4.45 (pinned) loads jina's remote code without shims.
+    # device="cpu" is REQUIRED on ZeroGPU: query embedding runs in retrieve(),
+    # outside the @spaces.GPU block, so CUDA isn't really allocated there — left
+    # on auto it lands on a phantom cuda device and returns zero vectors.
     from sentence_transformers import SentenceTransformer
+    return SentenceTransformer(EMBED_MODEL, trust_remote_code=True, device="cpu")
 def _embed_query(query: str) -> np.ndarray: