maxiboch
/

MiA-Emb-8B-onnx

Feature Extraction

sentence-similarity

Model card Files Files and versions

MiA-Emb-8B ONNX

ONNX conversion of MindscapeRAG/MiA-Emb-8B for fast CPU/GPU inference.

Model Info

Parameters: 8B
Embedding Dimension: 4096
Max Sequence Length: 8192

Usage with ONNX Runtime

import onnxruntime as ort
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("maxiboch/MiA-Emb-8B-onnx")
session = ort.InferenceSession("model.onnx", providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])

inputs = tokenizer("Your text here", return_tensors="np", padding=True, truncation=True)
outputs = session.run(None, dict(inputs))
embeddings = outputs[0]

Conversion

Converted to ONNX by @maxiboch.

Original Model

Source: MindscapeRAG/MiA-Emb-8B
License: Apache 2.0

Downloads last month: 11

Model tree for maxiboch/MiA-Emb-8B-onnx

Base model

Qwen/Qwen3-8B-Base

Finetuned

Qwen/Qwen3-Embedding-8B

Finetuned

MindscapeRAG/MiA-Emb-8B

Quantized

(2)

this model

Collection including maxiboch/MiA-Emb-8B-onnx

MiA-Emb-ONNX

ONNX conversions of MindscapeRAG MiA embedding models • 3 items • Updated 4 days ago