Spaces:

dssjon
/

biblos-api

Running

rdmlx Claude Opus 4.6 commited on Mar 27

Commit

5763d3f

1 Parent(s): d9c155c

Add BGE instruction prefix for query embeddings

BGE models are designed to use instruction prefixes for queries
(not documents). Adding the prefix improves retrieval quality by
better aligning query embeddings with pre-computed document
embeddings. Addresses dssjon/biblos#35.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

app.py +2 -0

app.py CHANGED Viewed

@@ -141,6 +141,8 @@ async def load_model_and_data():
 def generate_embedding(text: str) -> np.ndarray:
     """Generate embedding for input text using loaded model"""
     # Tokenize
     inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)

 def generate_embedding(text: str) -> np.ndarray:
     """Generate embedding for input text using loaded model"""
+    # BGE instruction prefix for queries (improves retrieval quality)
+    text = "Represent this sentence for searching relevant passages: " + text
     # Tokenize
     inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)