File size: 3,651 Bytes
8fab504
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
# 视频超分模型对比评分任务

## 任务目标
使用 Validator 的评分代码(VMAF + PIE-APP)对4个视频超分模型进行对比评分。

## 文件路径说明(更新后)

### 原始视频(Reference)
- **路径**: `/workspace/video/ori_video/`
- **文件命名**: `1_video.mp4``8_video.mp4`(共8个视频)

### 超分模型输出视频(Distorted)

| 模型名称 | 文件夹路径 | 输出文件名格式 |
|---------|-----------|--------------|
| Anime4K | `/workspace/video/output_anime4k/` | `{i}_video_anime4k.mp4` |
| RealESRGAN | `/workspace/video/output_realesrgan/` | `{i}_video_x2plus.mp4` |
| StreamVSR | `/workspace/video/streamvsr_output_4k/` | `{i}_video_4K.mp4` |
| FlashVSR | `/workspace/video/video_flashvsr/` | `{i}_video_flashvsr.mp4` |

## 评分指标说明

### 1. VMAF (Video Multi-Method Assessment Fusion)
- **说明**: Netflix开发的感知视频质量评估算法,获奖算法
- **范围**: 0-100,越高越好
- **计算方式**: 将参考视频上采样到与超分视频相同的分辨率(4K),然后计算 VMAF 分数

### 2. PIE-APP (Perceptual Image-Error Assessment through Pairwise Preferences)
- **说明**: 基于成对偏好的感知图像误差评估
- **范围**: 0-2,越低越好(实际使用sigmoid转换后的分数)
- **计算方式**: 为降低计算开销,将4K帧下采样到1080p后计算

### 3. Final Score
- **说明**: 基于 PIE-APP 分数通过 sigmoid 变换计算得出的最终得分
- **范围**: 0-1,越高越好

## 当前状态

### 已完成
- [x] VMAF 工具安装 (`vmaf` 命令行工具)
- [x] PIE-APP 模型加载配置
- [x] 评分脚本开发 (`/workspace/compare_upscale_models_fast.py`)

### 待完成
- [ ] 运行评分脚本完成所有8个视频 × 4个模型 = 32个评分类对
- [ ] 生成 `/workspace/new_scored.md` 评分报告

## 遇到的问题及解决方案

### 问题1: 分辨率不匹配
- **现象**: VMAF 和 PIE-APP 要求参考视频和超分视频分辨率相同
- **解决**: VMAF计算时将参考视频上采样到4K;PIE-APP计算时统一下采样到1080p

### 问题2: PIE-APP GPU OOM
- **现象**: 4K分辨率导致CUDA显存不足(需要10GB+显存)
- **解决**: 使用CPU计算PIE-APP,并将帧下采样到1080p以加速

### 问题3: CPU计算过慢
- **现象**: 4K帧在CPU上处理每个视频需要10+分钟
- **解决**: 下采样到1080p后,预计每个视频处理时间降至1-2分钟

## 运行脚本

```bash
cd /workspace
python3 compare_upscale_models_fast.py
```

## 预期输出

评分报告将保存在 `/workspace/new_scored.md`,包含:
1. **Summary Table**: 各模型的平均 VMAF、PIE-APP、Final Score 排名
2. **Detailed Results**: 每个视频各模型的详细得分
3. **Model Analysis**: 各模型的性能分析
4. **Raw Data**: JSON格式的原始数据

## 文件清单

```
/workspace/
├── video/                          # 视频文件根目录
│   ├── ori_video/                  # 原始视频 1-8
│   ├── output_anime4k/             # Anime4K 超分结果
│   ├── output_realesrgan/          # RealESRGAN 超分结果
│   ├── streamvsr_output_4k/        # StreamVSR 超分结果
│   └── video_flashvsr/             # FlashVSR 超分结果
├── compare_upscale_models_fast.py  # 评分脚本(优化版)
└── new_scored.md                   # 评分报告(待生成)
```

## 注意事项

1. PIE-APP 模型首次运行时会自动从 HuggingFace 下载 (~100MB)
2. 评分过程可能需要 30-60 分钟(取决于CPU性能)
3. 随机种子已固定为42,确保结果可复现