File size: 4,532 Bytes
4464278
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
# Stream-DiffVSR 4K 视频超分辨率实验报告

## 一、实验概述

| 项目 | 内容 |
|------|------|
| **实验日期** | 2026-03-17 |
| **实验模型** | Stream-DiffVSR (Jamichsu/Stream-DiffVSR) |
| **输入分辨率** | 960×540 (540p) |
| **目标分辨率** | 3840×2160 (4K UHD) |
| **放大倍数** | 4×4 = 16倍像素 |
| **推理步数** | 4步 (快速模式) |

---

## 二、实验环境

### 硬件配置
| 组件 | 规格 |
|------|------|
| GPU | NVIDIA RTX A6000 |
| 显存 | 48 GB |
| CUDA版本 | 12.4 |

### 软件环境
| 组件 | 版本 |
|------|------|
| PyTorch | 2.5.1+cu124 |
| Diffusers | 0.32.2 |
| Transformers | 4.50.3 |
| MMCV | 2.2.0 |
| Python | 3.11 |

---

## 三、输入视频参数

| 参数 | 数值 |
|------|------|
| 文件路径 | `/workspace/new_video_test/7a_downscaled_540p.mp4` |
| 分辨率 | 960 × 540 |
| 像素数 | 518,400 像素/帧 (0.52 MP) |
| 帧率 | 30 fps |
| 总帧数 | 299 帧 |
| 时长 | 9.97 秒 |
| 文件大小 | 3.51 MB |

---

## 四、输出视频参数

| 参数 | 数值 |
|------|------|
| 文件路径 | `/workspace/new_video_test/output_video/7a_upscaled_4K.mp4` |
| **分辨率** | **3840 × 2160** ✓ |
| 像素数 | 8,294,400 像素/帧 (8.29 MP) |
| 帧率 | 30 fps |
| **总帧数** | **299 帧** ✓ |
| 时长 | 9.97 秒 |
| 文件大小 | 65.51 MB |

---

## 五、验证结果

### 5.1 分辨率验证 ✓
- **期望输出**: 3840×2160 (标准4K UHD)
- **实际输出**: 3840×2160
- **结论**: ✓ 完美匹配,无偏差

### 5.2 帧数验证 ✓
- **输入帧数**: 299 帧
- **输出帧数**: 299 帧
- **结论**: ✓ 帧数完全一致,无丢帧、无重复

### 5.3 放大倍数验证 ✓
- 宽度放大: 960 → 3840 = **4.0×**
- 高度放大: 540 → 2160 = **4.0×**
- 面积放大: 0.52 MP → 8.29 MP = **16×**

---

## 六、关键技术参数

### 6.1 显存优化策略
由于 4K 光流计算需要 62GB+ 显存,本实验采用以下优化:

| 优化项 | 设置 | 效果 |
|--------|------|------|
| of_rescale_factor | 4 | 光流计算在 1/4 分辨率下进行 |
| Batch Size | 32帧 | 分批处理,降低峰值显存 |
| xformers | 启用 | 内存高效注意力机制 |

### 6.2 处理流程
```
视频输入 (960×540)

帧提取 (299帧 PNG)

分批超分辨率推理 (每批32帧)
    - 光流计算: 240×135 (1/4 分辨率)
    - 扩散推理: 3840×2160 (完整4K)

帧合成 (299帧 4K PNG)

视频输出 (3840×2160 30fps MP4)
```

---

## 七、质量评估

### 7.1 视觉对比
选取第 5 秒帧进行对比:

| 版本 | 分辨率 | 文件大小 | 细节表现 |
|------|--------|----------|----------|
| 输入 (540p) | 960×540 | 470 KB | 模糊,锯齿明显 |
| 输出 (4K) | 3840×2160 | 4,787 KB | **清晰,边缘锐利,细节丰富** |

### 7.2 画质改善点
1. **边缘锐化**: 金属结构边缘从模糊变为清晰
2. **纹理重建**: 衣物纹理、火花颗粒感明显提升
3. **降噪效果**: 压缩伪影得到有效抑制
4. **时序一致性**: 视频播放流畅,无闪烁

---

## 八、性能统计

| 指标 | 数值 |
|------|------|
| 处理时间 | ~25分钟 (含模型加载) |
| 平均每帧处理时间 | ~5秒 |
| GPU利用率 | 峰值 90%+ |
| 显存峰值 | ~40GB |

---

## 九、结论

### 9.1 主要成果 ✓
1. **成功将 540p 视频超分辨率至 4K UHD**
2. **帧数保持 299 帧,无丢帧**
3. **在 48GB 显存限制下完成 4K 推理**

### 9.2 技术优势
- 基于扩散模型的生成式超分辨率
- 时序一致性保持(光流引导)
- 仅需 4 步推理即可达到较好效果

### 9.3 适用场景
- 老视频修复与增强
- 低分辨率素材升频至 4K 播放
- 影视后期制作辅助

---

## 十、文件清单

```
/workspace/new_video_test/
├── 7a_downscaled_540p.mp4          # 输入视频 (3.5MB)
├── frames_input/                    # 提取的 540p 帧
├── frames_output/                   # 生成的 4K 帧
├── output_video/
│   └── 7a_upscaled_4K.mp4          # 输出视频 (65.5MB) ⭐
└── comparison_frames/               # 对比截图
    ├── frame_1s_input_540p.png
    ├── frame_1s_output_4K.png
    ├── frame_3s_input_540p.png
    ├── frame_3s_output_4K.png
    ├── frame_5s_input_540p.png
    ├── frame_5s_output_4K.png
    ├── frame_7s_input_540p.png
    └── frame_7s_output_4K.png
```

---

**报告生成时间**: 2026-03-17
**实验负责人**: AI Assistant (Claude)