Spaces:

1337XCode
/

personabot-embedder

Running

GitHub Actions commited on Feb 28

Commit

a99846a

1 Parent(s): e82be7a

Deploy d8ad462

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,11 +14,17 @@ from sentence_transformers import SentenceTransformer
 _MAX_TEXTS = 64
 _MAX_TEXT_LEN = 2000
 class EmbedRequest(BaseModel):
     texts: list[Annotated[str, Field(max_length=_MAX_TEXT_LEN)]] = Field(
         ..., max_length=_MAX_TEXTS
     )
 class EmbedResponse(BaseModel):
@@ -58,9 +64,14 @@ async def health() -> dict[str, str]:
 async def embed(request: EmbedRequest) -> EmbedResponse:
     if not request.texts:
         return EmbedResponse(embeddings=[])
     # encode with batch_size=32, returns numpy array shape (N, 384)
     vectors: Any = app.state.model.encode(
-        request.texts,
         batch_size=32,
         normalize_embeddings=True,
         show_progress_bar=False,

 _MAX_TEXTS = 64
 _MAX_TEXT_LEN = 2000
+# BGE model card specifies this prefix for query embeddings in asymmetric retrieval.
+# Document embeddings must NOT use this prefix — only query-time calls set is_query=True.
+# Paper shows 2-4% NDCG improvement over no-prefix symmetric mode.
+_BGE_QUERY_PREFIX = "Represent this sentence for searching relevant passages: "
 class EmbedRequest(BaseModel):
     texts: list[Annotated[str, Field(max_length=_MAX_TEXT_LEN)]] = Field(
         ..., max_length=_MAX_TEXTS
     )
+    is_query: bool = False  # True → prepend BGE asymmetric query instruction
 class EmbedResponse(BaseModel):
 async def embed(request: EmbedRequest) -> EmbedResponse:
     if not request.texts:
         return EmbedResponse(embeddings=[])
+    texts = (
+        [_BGE_QUERY_PREFIX + t for t in request.texts]
+        if request.is_query
+        else request.texts
+    )
     # encode with batch_size=32, returns numpy array shape (N, 384)
     vectors: Any = app.state.model.encode(
+        texts,
         batch_size=32,
         normalize_embeddings=True,
         show_progress_bar=False,