File size: 2,066 Bytes
0ad4cbc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93

# Aligner 模型部署指南

[[Aligner Github]](https://github.com/PKU-Alignment/aligner)

[[Aligner Website]](https://pku-aligner.github.io/)

## 前提条件

- CUDA环境
- vLLM 安装完成
- 至少8张GPU (0-7)
- 足够的GPU内存用于加载模型

## 配置说明

在运行部署脚本前,需要配置以下环境变量:

1. `BASE_MODEL_PATH` - 基础模型路径
2. `ALIGNER_MODEL_PATH` - Aligner模型路径
3. `BASE_PORT` - 基础模型服务端口(默认8011)
4. `ALIGNER_PORT` - Aligner模型服务端口(默认8013)

## 部署步骤

1. 打开`deploy_aligner.sh`脚本,填写所需的模型路径:
   ```bash
   export BASE_MODEL_PATH='您的基础模型路径'
   export ALIGNER_MODEL_PATH='您的Aligner模型路径'
   ```

2. 如需要,可修改默认端口:
   ```bash
   export BASE_PORT=8011
   export ALIGNER_PORT=8013
   ```

3. 运行部署脚本:
   ```bash
   bash deploy_aligner.sh
   ```

## 部署详情

该脚本会启动两个vLLM服务:

1. 基础模型服务:
   - 使用GPU 0-3
   - 4路张量并行
   - 监听`0.0.0.0:$BASE_PORT`
   - 最大序列长度2048
   
2. Aligner模型服务:
   - 使用GPU 4-7
   - 4路张量并行
   - 监听`0.0.0.0:$ALIGNER_PORT`
   - 最大序列长度2048

两个服务都配置了以下共同参数:
- API密钥:jiayi # 不重要,仅用于初始化
- 信任远程代码
- 自动数据类型
- 强制使用eager模式
- 1GB交换空间

## 验证部署

脚本运行完成后,可通过以下方式验证服务是否成功启动:

```bash
curl -X GET http://localhost:$BASE_PORT/v1/models
curl -X GET http://localhost:$ALIGNER_PORT/v1/models
```

或者使用`netstat`查看端口是否被监听:

```bash
netstat -tuln | grep $BASE_PORT
netstat -tuln | grep $ALIGNER_PORT
```


## 运行推理
更改`aligner_inference_demo.py`中的模型路径,需要与`deploy_aligner.sh`中的模型路径保持一致
```
aligner_model = ""
base_model = ""
```

运行 `aligner_inference_demo.py` 启动Gradio-based的部署脚本
```
python aligner_inference_demo.py
```