Alibaba-NLP
/

gte-multilingual-reranker-base

@@ -136,6 +136,45 @@ michaelf34/infinity:0.0.68 \
 v2 --model-id Alibaba-NLP/gte-multilingual-reranker-base --revision "main" --dtype bfloat16 --batch-size 32 --device cuda --engine torch --port 7997
 ```
 ## Evaluation
 Results of reranking based on multiple text retreival datasets

 v2 --model-id Alibaba-NLP/gte-multilingual-reranker-base --revision "main" --dtype bfloat16 --batch-size 32 --device cuda --engine torch --port 7997
 ```
+Usage with [Text Embeddings Inference (TEI)](https://github.com/huggingface/text-embeddings-inference):
+- CPU:
+```bash
+docker run --platform linux/amd64 \
+  -p 8080:80 \
+  -v $PWD/data:/data \
+  --pull always \
+  ghcr.io/huggingface/text-embeddings-inference:cpu-1.7 \
+  --model-id Alibaba-NLP/gte-multilingual-reranker-base
+```
+- GPU:
+```
+docker run --gpus all \
+  -p 8080:80 \
+  -v $PWD/data:/data \
+  --pull always \
+  ghcr.io/huggingface/text-embeddings-inference:1.7 \
+  --model-id Alibaba-NLP/gte-multilingual-reranker-base
+```
+Then you can send requests to the deployed API via the `/rerank` route (see the [Text Embeddings Inference OpenAPI Specification](https://huggingface.github.io/text-embeddings-inference/) for more details):
+```bash
+curl https://0.0.0.0:8080/rerank \
+  -H "Content-Type: application/json" \
+  -d '{
+    "query": "中国的首都在哪儿",
+    "raw_scores": false,
+    "return_text": false,
+    "texts": [ "北京" ],
+    "truncate": true,
+    "truncation_direction": "right"
+  }'
+```
 ## Evaluation
 Results of reranking based on multiple text retreival datasets