File size: 2,066 Bytes
0ad4cbc |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 |
# Aligner 模型部署指南
[[Aligner Github]](https://github.com/PKU-Alignment/aligner)
[[Aligner Website]](https://pku-aligner.github.io/)
## 前提条件
- CUDA环境
- vLLM 安装完成
- 至少8张GPU (0-7)
- 足够的GPU内存用于加载模型
## 配置说明
在运行部署脚本前,需要配置以下环境变量:
1. `BASE_MODEL_PATH` - 基础模型路径
2. `ALIGNER_MODEL_PATH` - Aligner模型路径
3. `BASE_PORT` - 基础模型服务端口(默认8011)
4. `ALIGNER_PORT` - Aligner模型服务端口(默认8013)
## 部署步骤
1. 打开`deploy_aligner.sh`脚本,填写所需的模型路径:
```bash
export BASE_MODEL_PATH='您的基础模型路径'
export ALIGNER_MODEL_PATH='您的Aligner模型路径'
```
2. 如需要,可修改默认端口:
```bash
export BASE_PORT=8011
export ALIGNER_PORT=8013
```
3. 运行部署脚本:
```bash
bash deploy_aligner.sh
```
## 部署详情
该脚本会启动两个vLLM服务:
1. 基础模型服务:
- 使用GPU 0-3
- 4路张量并行
- 监听`0.0.0.0:$BASE_PORT`
- 最大序列长度2048
2. Aligner模型服务:
- 使用GPU 4-7
- 4路张量并行
- 监听`0.0.0.0:$ALIGNER_PORT`
- 最大序列长度2048
两个服务都配置了以下共同参数:
- API密钥:jiayi # 不重要,仅用于初始化
- 信任远程代码
- 自动数据类型
- 强制使用eager模式
- 1GB交换空间
## 验证部署
脚本运行完成后,可通过以下方式验证服务是否成功启动:
```bash
curl -X GET http://localhost:$BASE_PORT/v1/models
curl -X GET http://localhost:$ALIGNER_PORT/v1/models
```
或者使用`netstat`查看端口是否被监听:
```bash
netstat -tuln | grep $BASE_PORT
netstat -tuln | grep $ALIGNER_PORT
```
## 运行推理
更改`aligner_inference_demo.py`中的模型路径,需要与`deploy_aligner.sh`中的模型路径保持一致
```
aligner_model = ""
base_model = ""
```
运行 `aligner_inference_demo.py` 启动Gradio-based的部署脚本
```
python aligner_inference_demo.py
``` |