| # Aligner 模型部署指南 | |
| [[Aligner Github]](https://github.com/PKU-Alignment/aligner) | |
| [[Aligner Website]](https://pku-aligner.github.io/) | |
| ## 前提条件 | |
| - CUDA环境 | |
| - vLLM 安装完成 | |
| - 至少8张GPU (0-7) | |
| - 足够的GPU内存用于加载模型 | |
| ## 配置说明 | |
| 在运行部署脚本前,需要配置以下环境变量: | |
| 1. `BASE_MODEL_PATH` - 基础模型路径 | |
| 2. `ALIGNER_MODEL_PATH` - Aligner模型路径 | |
| 3. `BASE_PORT` - 基础模型服务端口(默认8011) | |
| 4. `ALIGNER_PORT` - Aligner模型服务端口(默认8013) | |
| ## 部署步骤 | |
| 1. 打开`deploy_aligner.sh`脚本,填写所需的模型路径: | |
| ```bash | |
| export BASE_MODEL_PATH='您的基础模型路径' | |
| export ALIGNER_MODEL_PATH='您的Aligner模型路径' | |
| ``` | |
| 2. 如需要,可修改默认端口: | |
| ```bash | |
| export BASE_PORT=8011 | |
| export ALIGNER_PORT=8013 | |
| ``` | |
| 3. 运行部署脚本: | |
| ```bash | |
| bash deploy_aligner.sh | |
| ``` | |
| ## 部署详情 | |
| 该脚本会启动两个vLLM服务: | |
| 1. 基础模型服务: | |
| - 使用GPU 0-3 | |
| - 4路张量并行 | |
| - 监听`0.0.0.0:$BASE_PORT` | |
| - 最大序列长度2048 | |
| 2. Aligner模型服务: | |
| - 使用GPU 4-7 | |
| - 4路张量并行 | |
| - 监听`0.0.0.0:$ALIGNER_PORT` | |
| - 最大序列长度2048 | |
| 两个服务都配置了以下共同参数: | |
| - API密钥:jiayi # 不重要,仅用于初始化 | |
| - 信任远程代码 | |
| - 自动数据类型 | |
| - 强制使用eager模式 | |
| - 1GB交换空间 | |
| ## 验证部署 | |
| 脚本运行完成后,可通过以下方式验证服务是否成功启动: | |
| ```bash | |
| curl -X GET http://localhost:$BASE_PORT/v1/models | |
| curl -X GET http://localhost:$ALIGNER_PORT/v1/models | |
| ``` | |
| 或者使用`netstat`查看端口是否被监听: | |
| ```bash | |
| netstat -tuln | grep $BASE_PORT | |
| netstat -tuln | grep $ALIGNER_PORT | |
| ``` | |
| ## 运行推理 | |
| 更改`aligner_inference_demo.py`中的模型路径,需要与`deploy_aligner.sh`中的模型路径保持一致 | |
| ``` | |
| aligner_model = "" | |
| base_model = "" | |
| ``` | |
| 运行 `aligner_inference_demo.py` 启动Gradio-based的部署脚本 | |
| ``` | |
| python aligner_inference_demo.py | |
| ``` |