Qwen3-Embedding-0.6B Int8 ONNX

Qwen3-Embedding 0.6B 参数量的 Int8 量化 ONNX 版本，用于文本嵌入（embedding）任务。

模型来源

原始模型：Qwen/Qwen3-Embedding 系列（具体参考官方 Qwen3-Embedding-0.6B）
量化方式：Int8 静态量化
导出格式：ONNX Runtime 兼容

使用方式（Python + ONNX Runtime）

import onnxruntime as ort
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("你的用户名/Qwen3-Embedding-0.6B-Int8-ONNX")
session = ort.InferenceSession("Qwen3-Embedding-0.6B.int8.onnx")

text = "这是一个测试句子"
inputs = tokenizer(text, return_tensors="np")
outputs = session.run(None, dict(inputs))
embedding = outputs[0]          # 通常是 last_hidden_state 或 pooler_output

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support