dengcao commited on
Commit
37fb2be
·
verified ·
1 Parent(s): 4679932

Upload 2 files

Browse files
Files changed (2) hide show
  1. README.md +10 -4
  2. docker-compose.yaml +18 -20
README.md CHANGED
@@ -1,11 +1,17 @@
1
- # 2025年6月20日 更新说明
2
 
3
- 本项目旨在解决Qwen3-Reranker-4B模型无法通过Vllm平台直接部署的问题。
4
 
5
- 自从Qwen3-Reranker系列模型发布以来,迅速在向量模型和重排模型中掀起了使用热潮,但遗憾的是,无法正常使用Vllm部署Qwen3-Reranker-4B模型,截止目前,Vllm官方也没有更新补丁支持,预计官方最快在Vllm v0.9.2中才支持Qwen3-Reranker。作为过渡,于是做了这个版本供大家暂时使用。
 
 
 
 
6
 
7
- ### 注意:2025年6月20日之前已下载本项目的,请删除后重新使用此方法部署,即可完美在Vllm上运行Qwen3-Reranker-4B模型。
8
 
 
 
 
9
 
10
  ## Docker desktop(Windows用户)使用方法如下:
11
 
 
1
+ # 2025年6月26日 更新说明
2
 
3
+ ·本项目旨在解决Qwen3-Reranker-4B模型无法通过Vllm平台直接部署的问题。
4
 
5
+ ·采用vllm最新的开发版制作了Docker镜像dengcao/vllm-openai : v0.9.2-dev,经测试正常,可放心使用。
6
+
7
+ ·修复了Qwen3-Reranker-4B排序结果可能不准确的问题。
8
+
9
+ ### 注意:2025年6月26日之前已下载本项目的,请删除对应的docker容器和文件后重新使用此方法部署,即可完美在Vllm上运行Qwen3-Reranker-4B模型。
10
 
 
11
 
12
+ # 2025年6月20日 更新说明
13
+
14
+ 自从Qwen3-Reranker系列模型发布以来,迅速在向量模型和重排模型中掀起了使用热潮,但遗憾的是,无法正常使用Vllm部署Qwen3-Reranker-4B模型,截止目前,Vllm官方也没有更新补丁支持,预计官方最快在Vllm v0.9.2中才支持Qwen3-Reranker。作为过渡,于是做了这个版本供大家暂时使用。
15
 
16
  ## Docker desktop(Windows用户)使用方法如下:
17
 
docker-compose.yaml CHANGED
@@ -1,20 +1,18 @@
1
- services:
2
- Qwen3-Reranker-4B:
3
- container_name: Qwen3-Reranker-4B
4
- restart: no
5
- #image: vllm/vllm-openai:v0.9.0.1 #经测试v0.9.0.1也可以正常启动,但为了保持兼容性采用最新版v0.9.1
6
- image: vllm/vllm-openai:v0.9.1
7
- ipc: host
8
- volumes:
9
- - ./models:/models
10
- - ./model_executor/models/:/usr/local/lib/python3.12/dist-packages/vllm/model_executor/models/
11
- command: ['--model', '/models/Qwen3-Reranker-4B', '--served-model-name', 'Qwen3-Reranker-4B', '--gpu-memory-utilization', '0.90']
12
- ports:
13
- - 8011:8000
14
- deploy:
15
- resources:
16
- reservations:
17
- devices:
18
- - driver: nvidia
19
- count: all
20
- capabilities: [gpu]
 
1
+ services:
2
+ Qwen3-Reranker-4B:
3
+ container_name: Qwen3-Reranker-4B
4
+ restart: no
5
+ image: dengcao/vllm-openai:v0.9.2-dev #采用vllm最新的开发版制作的镜像,经在NVIDIA RTX3060平台主机上测试正常,可放心使用
6
+ ipc: host
7
+ volumes:
8
+ - ./models:/models
9
+ command: ['--model', '/models/Qwen3-Reranker-4B', '--served-model-name', 'Qwen3-Reranker-4B', '--gpu-memory-utilization', '0.90', '--hf_overrides','{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}']
10
+ ports:
11
+ - 8011:8000
12
+ deploy:
13
+ resources:
14
+ reservations:
15
+ devices:
16
+ - driver: nvidia
17
+ count: all
18
+ capabilities: [gpu]