prudant/Qwen3-Reranker-4B-seq-cls-vllm-fixed-W4A16

Qwen3 4b reranker full vllm adapted 🚀

This is a compressed version of danielchalef/Qwen3-Reranker-4B-seq-cls-vllm-fixed using llm-compressor with the following scheme: W4A16

Serving

python3 -m vllm.entrypoints.openai.api_server --model 'dolfsai/Qwen3-Reranker-4B-seq-cls-vllm-W4A16' --task classify

Important: You MUST read the following guide for correct usage of this model here Guide

Safetensors

Model size

4B params

Tensor type

I64

I32

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

Quantized

(55)

this model