AI4Bread
/

GouMang

@@ -24,7 +24,7 @@
 ## Usage
-## Web DEMO
 Install the dependencies required for the web demo
@@ -45,6 +45,79 @@ pip install 'lmdeploy[all]==v0.4.2'
 由于默认安装的是 runtime 依赖包，但是我们这里还需要部署和量化，所以，这里选择 `[all]`。
 ```bash
 pip install streamlit==1.24.0
 ```

 ## Usage
+## DEMO
 Install the dependencies required for the web demo
 由于默认安装的是 runtime 依赖包，但是我们这里还需要部署和量化，所以，这里选择 `[all]`。
+### Model convert
+Convert  lmdeploy TurboMind
+```bash
+# 转换模型（FastTransformer格式） TurboMind
+lmdeploy convert internlm-chat-7b /path/to/internlm-chat-7b
+```
+这里我们使用我们训练好的提供的模型文件，就在用户根目录执行，如下所示。
+```bash
+lmdeploy convert internlm2-chat-7b /root/autodl-tmp/agri_intern/GouMang --tokenizer-path ./GouMang/tokenizer.json
+```
+执行完成后将会在当前目录生成一个 `workspace` 的文件夹。这里面包含的就是 TurboMind 和 Triton “模型推理”需要到的文件。
+### Chat Locally
+```bash
+lmdeploy chat turbomind ./workspace
+```
+### 2.3 TurboMind推理+API服务
+在上面的部分我们尝试了直接用命令行启动 Client，接下来我们尝试如何运用 lmdepoy 进行服务化。
+”模型推理/服务“目前提供了 Turbomind 和 TritonServer 两种服务化方式。此时，Server 是 TurboMind 或 TritonServer，API Server 可以提供对外的 API 服务。我们推荐使用 TurboMind，TritonServer 使用方式详见《附录1》。
+首先，通过下面命令启动服务。
+```bash
+# ApiServer+Turbomind   api_server => AsyncEngine => TurboMind
+lmdeploy serve api_server ./workspace \
+	--server_name 0.0.0.0 \
+	--server-port 23333 \
+	--instance_num 64 \
+	--tp 1
+```
+上面的参数中 `server_name` 和 `server_port` 分别表示服务地址和端口，`tp` 参数我们之前已经提到过了，表示 Tensor 并行。还剩下一个 `instance_num` 参数，表示实例数，可以理解成 Batch 的大小。执行后如下图所示。
+### 2.4 网页 Demo 演示
+这一部分主要是将 Gradio 作为前端 Demo 演示。在上一节的基础上，我们不执行后面的 `api_client` 或 `triton_client`，而是执行 `gradio`。
+> 由于 Gradio 需要本地访问展示界面，因此也需要通过 ssh 将数据转发到本地。命令如下：
+>
+> ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p <你的 ssh 端口号>
+#### 2.4.1 TurboMind 服务作为后端
+API Server 的启动和上一节一样，这里直接启动作为前端的 Gradio。
+```bash
+# Gradio+ApiServer。必须先开启 Server，此时 Gradio 为 Client
+lmdeploy serve gradio http://0.0.0.0:23333 --server-port 6006
+```
+#### 2.4.2 TurboMind 推理作为后端
+当然，Gradio 也可以直接和 TurboMind 连接，如下所示。
+```bash
+# Gradio+Turbomind(local)
+lmdeploy serve gradio ./workspace
+```
+可以直接启动 Gradio，此时没有 API Server，TurboMind 直接与 Gradio 通信。
 ```bash
 pip install streamlit==1.24.0
 ```