File size: 4,532 Bytes
4464278 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 | # Stream-DiffVSR 4K 视频超分辨率实验报告
## 一、实验概述
| 项目 | 内容 |
|------|------|
| **实验日期** | 2026-03-17 |
| **实验模型** | Stream-DiffVSR (Jamichsu/Stream-DiffVSR) |
| **输入分辨率** | 960×540 (540p) |
| **目标分辨率** | 3840×2160 (4K UHD) |
| **放大倍数** | 4×4 = 16倍像素 |
| **推理步数** | 4步 (快速模式) |
---
## 二、实验环境
### 硬件配置
| 组件 | 规格 |
|------|------|
| GPU | NVIDIA RTX A6000 |
| 显存 | 48 GB |
| CUDA版本 | 12.4 |
### 软件环境
| 组件 | 版本 |
|------|------|
| PyTorch | 2.5.1+cu124 |
| Diffusers | 0.32.2 |
| Transformers | 4.50.3 |
| MMCV | 2.2.0 |
| Python | 3.11 |
---
## 三、输入视频参数
| 参数 | 数值 |
|------|------|
| 文件路径 | `/workspace/new_video_test/7a_downscaled_540p.mp4` |
| 分辨率 | 960 × 540 |
| 像素数 | 518,400 像素/帧 (0.52 MP) |
| 帧率 | 30 fps |
| 总帧数 | 299 帧 |
| 时长 | 9.97 秒 |
| 文件大小 | 3.51 MB |
---
## 四、输出视频参数
| 参数 | 数值 |
|------|------|
| 文件路径 | `/workspace/new_video_test/output_video/7a_upscaled_4K.mp4` |
| **分辨率** | **3840 × 2160** ✓ |
| 像素数 | 8,294,400 像素/帧 (8.29 MP) |
| 帧率 | 30 fps |
| **总帧数** | **299 帧** ✓ |
| 时长 | 9.97 秒 |
| 文件大小 | 65.51 MB |
---
## 五、验证结果
### 5.1 分辨率验证 ✓
- **期望输出**: 3840×2160 (标准4K UHD)
- **实际输出**: 3840×2160
- **结论**: ✓ 完美匹配,无偏差
### 5.2 帧数验证 ✓
- **输入帧数**: 299 帧
- **输出帧数**: 299 帧
- **结论**: ✓ 帧数完全一致,无丢帧、无重复
### 5.3 放大倍数验证 ✓
- 宽度放大: 960 → 3840 = **4.0×**
- 高度放大: 540 → 2160 = **4.0×**
- 面积放大: 0.52 MP → 8.29 MP = **16×**
---
## 六、关键技术参数
### 6.1 显存优化策略
由于 4K 光流计算需要 62GB+ 显存,本实验采用以下优化:
| 优化项 | 设置 | 效果 |
|--------|------|------|
| of_rescale_factor | 4 | 光流计算在 1/4 分辨率下进行 |
| Batch Size | 32帧 | 分批处理,降低峰值显存 |
| xformers | 启用 | 内存高效注意力机制 |
### 6.2 处理流程
```
视频输入 (960×540)
↓
帧提取 (299帧 PNG)
↓
分批超分辨率推理 (每批32帧)
- 光流计算: 240×135 (1/4 分辨率)
- 扩散推理: 3840×2160 (完整4K)
↓
帧合成 (299帧 4K PNG)
↓
视频输出 (3840×2160 30fps MP4)
```
---
## 七、质量评估
### 7.1 视觉对比
选取第 5 秒帧进行对比:
| 版本 | 分辨率 | 文件大小 | 细节表现 |
|------|--------|----------|----------|
| 输入 (540p) | 960×540 | 470 KB | 模糊,锯齿明显 |
| 输出 (4K) | 3840×2160 | 4,787 KB | **清晰,边缘锐利,细节丰富** |
### 7.2 画质改善点
1. **边缘锐化**: 金属结构边缘从模糊变为清晰
2. **纹理重建**: 衣物纹理、火花颗粒感明显提升
3. **降噪效果**: 压缩伪影得到有效抑制
4. **时序一致性**: 视频播放流畅,无闪烁
---
## 八、性能统计
| 指标 | 数值 |
|------|------|
| 处理时间 | ~25分钟 (含模型加载) |
| 平均每帧处理时间 | ~5秒 |
| GPU利用率 | 峰值 90%+ |
| 显存峰值 | ~40GB |
---
## 九、结论
### 9.1 主要成果 ✓
1. **成功将 540p 视频超分辨率至 4K UHD**
2. **帧数保持 299 帧,无丢帧**
3. **在 48GB 显存限制下完成 4K 推理**
### 9.2 技术优势
- 基于扩散模型的生成式超分辨率
- 时序一致性保持(光流引导)
- 仅需 4 步推理即可达到较好效果
### 9.3 适用场景
- 老视频修复与增强
- 低分辨率素材升频至 4K 播放
- 影视后期制作辅助
---
## 十、文件清单
```
/workspace/new_video_test/
├── 7a_downscaled_540p.mp4 # 输入视频 (3.5MB)
├── frames_input/ # 提取的 540p 帧
├── frames_output/ # 生成的 4K 帧
├── output_video/
│ └── 7a_upscaled_4K.mp4 # 输出视频 (65.5MB) ⭐
└── comparison_frames/ # 对比截图
├── frame_1s_input_540p.png
├── frame_1s_output_4K.png
├── frame_3s_input_540p.png
├── frame_3s_output_4K.png
├── frame_5s_input_540p.png
├── frame_5s_output_4K.png
├── frame_7s_input_540p.png
└── frame_7s_output_4K.png
```
---
**报告生成时间**: 2026-03-17
**实验负责人**: AI Assistant (Claude)
|