Qwen3-Embedding-0.6B Int8 ONNX
Qwen3-Embedding 0.6B 参数量的 Int8 量化 ONNX 版本,用于文本嵌入(embedding)任务。
模型来源
- 原始模型:Qwen/Qwen3-Embedding 系列(具体参考官方 Qwen3-Embedding-0.6B)
- 量化方式:Int8 静态量化
- 导出格式:ONNX Runtime 兼容
使用方式(Python + ONNX Runtime)
import onnxruntime as ort
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("你的用户名/Qwen3-Embedding-0.6B-Int8-ONNX")
session = ort.InferenceSession("Qwen3-Embedding-0.6B.int8.onnx")
text = "这是一个测试句子"
inputs = tokenizer(text, return_tensors="np")
outputs = session.run(None, dict(inputs))
embedding = outputs[0] # 通常是 last_hidden_state 或 pooler_output
- Downloads last month
- 7
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support