Qwen3-Embedding-0.6B Int8 ONNX

Qwen3-Embedding 0.6B 参数量的 Int8 量化 ONNX 版本,用于文本嵌入(embedding)任务。

模型来源

  • 原始模型:Qwen/Qwen3-Embedding 系列(具体参考官方 Qwen3-Embedding-0.6B)
  • 量化方式:Int8 静态量化
  • 导出格式:ONNX Runtime 兼容

使用方式(Python + ONNX Runtime)

import onnxruntime as ort
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("你的用户名/Qwen3-Embedding-0.6B-Int8-ONNX")
session = ort.InferenceSession("Qwen3-Embedding-0.6B.int8.onnx")

text = "这是一个测试句子"
inputs = tokenizer(text, return_tensors="np")
outputs = session.run(None, dict(inputs))
embedding = outputs[0]          # 通常是 last_hidden_state 或 pooler_output
Downloads last month
7
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support