File size: 11,266 Bytes
a814eb3 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 |
# 推断文档
<p align="center"><a href="inference.md">English</a> | 中文</p>
## 目录
* [概念](#概念)
* [下采样比](#下采样比)
* [循环记忆](#循环记忆)
* [PyTorch](#pytorch)
* [TorchHub](#torchhub)
* [TorchScript](#torchscript)
* [ONNX](#onnx)
* [TensorFlow](#tensorflow)
* [TensorFlow.js](#tensorflowjs)
* [CoreML](#coreml)
<br>
## 概念
### 下采样比
该表仅供参考。可根据视频内容进行调节。
| 分辨率 | 人像 | 全身 |
| ------------- | ------------- | -------------- |
| <= 512x512 | 1 | 1 |
| 1280x720 | 0.375 | 0.6 |
| 1920x1080 | 0.25 | 0.4 |
| 3840x2160 | 0.125 | 0.2 |
模型在内部将高分辨率输入缩小做初步的处理,然后再放大做细分处理。
建议设置 `downsample_ratio` 使缩小后的分辨率维持在 256 到 512 像素之间. 例如,`1920x1080` 的输入用 `downsample_ratio=0.25`,缩小后的分辨率 `480x270` 在 256 到 512 像素之间。
根据视频内容调整 `downsample_ratio`。若视频是上身人像,低 `downsample_ratio` 足矣。若视频是全身像,建议尝试更高的 `downsample_ratio`。但注意,过高的 `downsample_ratio` 反而会降低效果。
<br>
### 循环记忆
此模型是循环神经网络(Recurrent Neural Network)。必须按顺序处理视频每帧,并提供网络循环记忆。
**正确用法**
循环记忆输出被传递到下一帧做输入。
```python
rec = [None] * 4 # 初始值设置为 None
for frame in YOUR_VIDEO:
fgr, pha, *rec = model(frame, *rec, downsample_ratio)
```
**错误用法**
没有使用循环记忆。此方法仅可用于处理单独的图片。
```python
for frame in YOUR_VIDEO:
fgr, pha = model(frame, downsample_ratio)[:2]
```
更多技术细节见[论文](https://peterl1n.github.io/RobustVideoMatting/)。
<br><br><br>
## PyTorch
载入模型:
```python
import torch
from model import MattingNetwork
model = MattingNetwork(variant='mobilenetv3').eval().cuda() # 或 variant="resnet50"
model.load_state_dict(torch.load('rvm_mobilenetv3.pth'))
```
推断循环:
```python
rec = [None] * 4 # 初始值设置为 None
for src in YOUR_VIDEO: # src 可以是 [B, C, H, W] 或 [B, T, C, H, W]
fgr, pha, *rec = model(src, *rec, downsample_ratio=0.25)
```
* `src`: 输入帧(Source)。
* 可以是 `[B, C, H, W]` 或 `[B, T, C, H, W]` 的张量。
* 若是 `[B, T, C, H, W]`,可给模型一次 `T` 帧,做一小段一小段地处理,用于更好的并行计算。
* RGB 通道输入,范围为 `0~1`。
* `fgr, pha`: 前景(Foreground)和透明度通道(Alpha)的预测。
* 根据`src`,可为 `[B, C, H, W]` 或 `[B, T, C, H, W]` 的输出。
* `fgr` 是 RGB 三通道,`pha` 为一通道。
* 输出范围为 `0~1`。
* `rec`: 循环记忆(Recurrent States)。
* `List[Tensor, Tensor, Tensor, Tensor]` 类型。
* 初始 `rec` 为 `List[None, None, None, None]`。
* 有四个记忆,因为网络使用四个 `ConvGRU` 层。
* 无论 `src` 的 Rank,所有记忆张量的 Rank 为 4。
* 若一次给予 `T` 帧,只返回处理完最后一帧后的记忆。
完整的推断例子:
```python
from torch.utils.data import DataLoader
from torchvision.transforms import ToTensor
from inference_utils import VideoReader, VideoWriter
reader = VideoReader('input.mp4', transform=ToTensor())
writer = VideoWriter('output.mp4', frame_rate=30)
bgr = torch.tensor([.47, 1, .6]).view(3, 1, 1).cuda() # 绿背景
rec = [None] * 4 # 初始记忆
with torch.no_grad():
for src in DataLoader(reader):
fgr, pha, *rec = model(src.cuda(), *rec, downsample_ratio=0.25) # 将上一帧的记忆给下一帧
writer.write(fgr * pha + bgr * (1 - pha))
```
或者使用提供的视频转换 API:
```python
from inference import convert_video
convert_video(
model, # 模型,可以加载到任何设备(cpu 或 cuda)
input_source='input.mp4', # 视频文件,或图片序列文件夹
input_resize=(1920, 1080), # [可选项] 缩放视频大小
downsample_ratio=0.25, # [可选项] 下采样比,若 None,自动下采样至 512px
output_type='video', # 可选 "video"(视频)或 "png_sequence"(PNG 序列)
output_composition='com.mp4', # 若导出视频,提供文件路径。若导出 PNG 序列,提供文件夹路径
output_alpha="pha.mp4", # [可选项] 输出透明度预测
output_foreground="fgr.mp4", # [可选项] 输出前景预测
output_video_mbps=4, # 若导出视频,提供视频码率
seq_chunk=12, # 设置多帧并行计算
num_workers=1, # 只适用于图片序列输入,读取线程
progress=True # 显示进度条
)
```
也可通过命令行调用转换 API:
```sh
python inference.py \
--variant mobilenetv3 \
--checkpoint "CHECKPOINT" \
--device cuda \
--input-source "input.mp4" \
--downsample-ratio 0.25 \
--output-type video \
--output-composition "composition.mp4" \
--output-alpha "alpha.mp4" \
--output-foreground "foreground.mp4" \
--output-video-mbps 4 \
--seq-chunk 12
```
<br><br><br>
## TorchHub
载入模型:
```python
model = torch.hub.load("PeterL1n/RobustVideoMatting", "mobilenetv3") # or "resnet50"
```
使用转换 API,具体请参考之前对 `convert_video` 的文档。
```python
convert_video = torch.hub.load("PeterL1n/RobustVideoMatting", "converter")
convert_video(model, ...args...)
```
<br><br><br>
## TorchScript
载入模型:
```python
import torch
model = torch.jit.load('rvm_mobilenetv3.torchscript')
```
也可以可选的将模型固化(Freeze)。这会对模型进行优化,例如 BatchNorm Fusion 等。固化的模型更快。
```python
model = torch.jit.freeze(model)
```
然后,可以将 `model` 作为普通的 PyTorch 模型使用。但注意,若用固化模型调用转换 API,必须手动提供 `device` 和 `dtype`:
```python
convert_video(frozen_model, ...args..., device='cuda', dtype=torch.float32)
```
<br><br><br>
## ONNX
模型规格:
* 输入: [`src`, `r1i`, `r2i`, `r3i`, `r4i`, `downsample_ratio`].
* `src`:输入帧,RGB 通道,形状为 `[B, C, H, W]`,范围为`0~1`。
* `rXi`:记忆输入,初始值是是形状为 `[1, 1, 1, 1]` 的零张量。
* `downsample_ratio` 下采样比,张量形状为 `[1]`。
* 只有 `downsample_ratio` 必须是 `FP32`,其他输入必须和加载的模型使用一样的 `dtype`。
* 输出: [`fgr`, `pha`, `r1o`, `r2o`, `r3o`, `r4o`]
* `fgr, pha`:前景和透明度通道输出,范围为 `0~1`。
* `rXo`:记忆输出。
我们只展示用 ONNX Runtime CUDA Backend 在 Python 上的使用范例。
载入模型:
```python
import onnxruntime as ort
sess = ort.InferenceSession('rvm_mobilenetv3_fp16.onnx')
```
简单推断循环,但此方法不是最优化的:
```python
import numpy as np
rec = [ np.zeros([1, 1, 1, 1], dtype=np.float16) ] * 4 # 必须用模型一样的 dtype
downsample_ratio = np.array([0.25], dtype=np.float32) # 必须是 FP32
for src in YOUR_VIDEO: # src 张量是 [B, C, H, W] 形状,必须用模型一样的 dtype
fgr, pha, *rec = sess.run([], {
'src': src,
'r1i': rec[0],
'r2i': rec[1],
'r3i': rec[2],
'r4i': rec[3],
'downsample_ratio': downsample_ratio
})
```
若使用 GPU,上例会将记忆输出传回到 CPU,再在下一帧时传回到 GPU。这种传输是无意义的,因为记忆值可以留在 GPU 上。下例使用 `iobinding` 来杜绝无用的传输。
```python
import onnxruntime as ort
import numpy as np
# 载入模型
sess = ort.InferenceSession('rvm_mobilenetv3_fp16.onnx')
# 创建 io binding.
io = sess.io_binding()
# 在 CUDA 上创建张量
rec = [ ort.OrtValue.ortvalue_from_numpy(np.zeros([1, 1, 1, 1], dtype=np.float16), 'cuda') ] * 4
downsample_ratio = ort.OrtValue.ortvalue_from_numpy(np.asarray([0.25], dtype=np.float32), 'cuda')
# 设置输出项
for name in ['fgr', 'pha', 'r1o', 'r2o', 'r3o', 'r4o']:
io.bind_output(name, 'cuda')
# 推断
for src in YOUR_VIDEO:
io.bind_cpu_input('src', src)
io.bind_ortvalue_input('r1i', rec[0])
io.bind_ortvalue_input('r2i', rec[1])
io.bind_ortvalue_input('r3i', rec[2])
io.bind_ortvalue_input('r4i', rec[3])
io.bind_ortvalue_input('downsample_ratio', downsample_ratio)
sess.run_with_iobinding(io)
fgr, pha, *rec = io.get_outputs()
# 只将 `fgr` 和 `pha` 回传到 CPU
fgr = fgr.numpy()
pha = pha.numpy()
```
注:若你使用其他推断框架,可能有些 ONNX ops 不被支持,需被替换。可以参考 [onnx](https://github.com/PeterL1n/RobustVideoMatting/tree/onnx) 分支的代码做自行导出。
<br><br><br>
### TensorFlow
范例:
```python
import tensorflow as tf
model = tf.keras.models.load_model('rvm_mobilenetv3_tf')
model = tf.function(model)
rec = [ tf.constant(0.) ] * 4 # 初始记忆
downsample_ratio = tf.constant(0.25) # 下采样率,根据视频调整
for src in YOUR_VIDEO: # src 张量是 [B, H, W, C] 的形状,而不是 [B, C, H, W]!
out = model([src, *rec, downsample_ratio])
fgr, pha, *rec = out['fgr'], out['pha'], out['r1o'], out['r2o'], out['r3o'], out['r4o']
```
注意,在 TensorFlow 上,所有张量都是 Channal Last 的格式。
我们提供 TensorFlow 的原始模型代码,请参考 [tensorflow](https://github.com/PeterL1n/RobustVideoMatting/tree/tensorflow) 分支。您可自行将 PyTorch 的权值转到 TensorFlow 模型上。
<br><br><br>
### TensorFlow.js
我们在 [tfjs](https://github.com/PeterL1n/RobustVideoMatting/tree/tfjs) 分支提供范例代码。代码简单易懂,解释如何正确使用模型。
<br><br><br>
### CoreML
我们只展示在 Python 下通过 `coremltools` 使用 CoreML 模型。在部署时,同样逻辑可用于 Swift。模型的循环记忆输入不需要在处理第一帧时提供。CoreML 内部会自动创建零张量作为初始记忆。
```python
import coremltools as ct
model = ct.models.model.MLModel('rvm_mobilenetv3_1920x1080_s0.25_int8.mlmodel')
r1, r2, r3, r4 = None, None, None, None
for src in YOUR_VIDEO: # src 是 PIL.Image.
if r1 is None:
# 初始帧, 不用提供循环记忆
inputs = {'src': src}
else:
# 剩余帧,提供循环记忆
inputs = {'src': src, 'r1i': r1, 'r2i': r2, 'r3i': r3, 'r4i': r4}
outputs = model.predict(inputs)
fgr = outputs['fgr'] # PIL.Image
pha = outputs['pha'] # PIL.Image
r1 = outputs['r1o'] # Numpy array
r2 = outputs['r2o'] # Numpy array
r3 = outputs['r3o'] # Numpy array
r4 = outputs['r4o'] # Numpy array
```
我们的 CoreML 模型只支持固定分辨率。如果你需要其他分辨率,可自行导出。导出代码见 [coreml](https://github.com/PeterL1n/RobustVideoMatting/tree/coreml) 分支。 |