gte-multilingual-base (ONNX)

This repository contains the ONNX export of Alibaba-NLP/gte-multilingual-base, a multilingual embedding model.

The model was converted from Hugging Face Transformers to ONNX format for faster and lighter inference using ONNX Runtime.

Model Details

Base model: Alibaba-NLP/gte-multilingual-base
Format: ONNX
Opset: 17
Quantization: (if you applied --quantize, specify here, e.g. QInt8, Float16, otherwise None)

Usage

You can run inference with onnxruntime:

import onnxruntime as ort
from transformers import AutoTokenizer

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained("your-username/gte-multilingual-base-onnx")

# Load ONNX model
session = ort.InferenceSession("model.onnx", providers=["CPUExecutionProvider"])

# Encode inputs
text = "Hello, ONNX world!"
inputs = tokenizer(text, return_tensors="np")

# Run inference
outputs = session.run(None, dict(inputs))

print("Model output:", outputs)

Downloads last month: 1

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support