Spaces:
Runtime error
Runtime error
File size: 6,148 Bytes
c58a383 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 | # 分組 7(原分組 6)— 資訊系統與開源環境:高速運算電腦科普篇
> **講者**:莊惟然(數值資訊組)
> **頁數**:14
> **原始檔案**:`raw_data/分組6_資訊系統與開源環境.pdf`
---
## 1 什麼是高速運算電腦(HPC)?
**High Performance Computing(HPC)** 的核心特性:
- 由多個計算節點組成,進行**平行運算**
- 每個節點擁有自己的處理器、記憶體與儲存空間
- 提供比單一桌面或伺服器更高的效能
- **優勢**:短時間內處理及分析大量資料
- **算力單位**:PFlops(Peta Floating-point Operations Per Second)
### 1.1 應用領域
大氣科學、物理、化學、數學、工程、生命科學、醫療
### 1.2 臺灣自建 HPC 設施
| 單位 | 設施名稱 |
|------|----------|
| 中央氣象署 | **第 6 代高速運算電腦** |
| 國家高速網路中心 | 晶創 26、臺灣杉二號(TAIWANIA 2)、台灣杉三號(Taiwania 3)、創進一號 |
| NVIDIA | Taipei-1(高雄軟體園區) |
---
## 2 HPC 於氣象領域的應用
```
氣象方程式 → 超級電腦運算 → 預估大氣變化
(表達) (運算) (預估)
```
HPC 是數值天氣預報(NWP)的基石 — 將大氣物理方程式離散化後,以巨量格點進行數值積分。
---
## 3 HPC 四大核心系統
```mermaid
graph TD
HPC[高速運算電腦] --> A[運算單元<br/>CPU + GPU]
HPC --> B[高速網路<br/>節點間即時交換資料]
HPC --> C[儲存平台<br/>輸入/中間/輸出資料]
HPC --> D[冷卻系統<br/>維持溫度穩定]
```
### 3.1 運算單元:CPU vs GPU
| 特性 | CPU(全能型工程師) | GPU(超多工工人團隊) |
|------|---------------------|----------------------|
| 擅長 | 分支預測、條件判斷、複雜演算法、序列計算 | 大規模平行運算、矩陣/向量計算 |
| 用途 | 協調整體系統運作 | AI 模型訓練與推論、科學模擬、圖像處理 |
| 角色 | 處理複雜邏輯 | 專注大量平行運算 |
### 3.2 高速網路:6 大 I/O 介面
AI 驅動資料中心 I/O 加速進化,6 大 I/O 介面同步世代交替(ITHOME 報導)。
### 3.3 儲存系統:三層架構
| 層級 | 技術 | 特性 |
|------|------|------|
| **高速暫存層** | SSD / NVMe 快閃記憶體 | 數 GB/s 讀寫;儲存熱資料與頻繁存取檔案 |
| **快取層** | 中間緩衝層 | 平衡速度與容量,確保存取流暢 |
| **大容量儲存層** | 硬碟陣列 / 磁帶系統 | PB 級容量;長期保存原始資料、歷史紀錄與備份 |
整體儲存能力:
| 指標 | 數值 |
|------|------|
| 平行存取 | 支援數千節點同時讀寫 |
| 讀寫速度 | 高達 TB/s |
| 總容量 | 數 PB 至數十 PB |
| 資料保護 | 多重備份與錯誤修正 |
### 3.4 冷卻系統:浸沒式液冷
- **核心機制**:將伺服器整機或關鍵元件直接浸泡在絕緣冷卻液中
- 適用對象:高功耗 HPC、高效能 GPU、AI 伺服器
- **優點**:
- 降低機房空調需求,減少 **PUE**(Power Usage Effectiveness)
- 降低噪音、減少機械風扇故障
- 延長硬體壽命、提升穩定度
---
## 4 本署高速運算電腦發展歷程
氣象署歷經多代 HPC 升級,從早期系統演進至現行第 6 代高速運算電腦。
---
## 5 第 6 代高速運算電腦規格
### 5.1 CPU 區
| 項目 | 規格 |
|------|------|
| CPU | 台積電 7 nm 製程 **Arm 架構 A64FX** 2.2 GHz / 48 Core |
| 節點數 | 384 Node × 15 櫃 → **5,760 顆 CPU** |
| 算力 | **10 PFlops** |
| 互連 | TofuD(6-Mesh/Torus) |
| 記憶體總量 | 180 TiB |
### 5.2 GPU 區
| 項目 | 規格 |
|------|------|
| GPU | **NVIDIA A100** |
| 數量 | 24 台 × 8 張 = **192 張** |
| 算力 | **2 PFlops** |
| 互連 | InfiniBand HDR200 |
| 網路 | 100 Gbps Ethernet |
### 5.3 高速網路
- NVIDIA InfiniBand 200G × 18 台
- 串接 CPU 與 GPU 於 DDN 上
### 5.4 儲存平台
- **FEFS + DDN 儲存系統**
- Storage Capacity:1 PB × 10 台 OSS/OST
- 提供高效能及高擴展性
### 5.5 冷卻
- **CDU 水冷分熱交換器**
```mermaid
graph LR
subgraph CPU區
A[Arm A64FX × 5,760<br/>10 PFlops<br/>TofuD 互連]
end
subgraph GPU區
B[NVIDIA A100 × 192<br/>2 PFlops<br/>InfiniBand HDR200]
end
subgraph 儲存
C[DDN FEFS<br/>10 PB<br/>TB/s 吞吐]
end
subgraph 冷卻
D[CDU 水冷<br/>熱交換器]
end
A <-->|InfiniBand 200G| C
B <-->|InfiniBand 200G| C
D -.-> A
D -.-> B
```
---
## 6 詞彙表
| 縮寫 | 全稱 | 中文 |
|------|------|------|
| HPC | High Performance Computing | 高速運算電腦 |
| PFlops | Peta Floating-point Operations Per Second | 每秒千兆次浮點運算 |
| CPU | Central Processing Unit | 中央處理器 |
| GPU | Graphics Processing Unit | 圖形處理器 |
| NVMe | Non-Volatile Memory Express | 非揮發性記憶體快速存取協定 |
| SSD | Solid State Drive | 固態硬碟 |
| PUE | Power Usage Effectiveness | 電源使用效率 |
| InfiniBand | — | 高頻寬低延遲互連技術 |
| TofuD | — | Fujitsu 6-Mesh/Torus 互連拓撲 |
| DDN | DataDirect Networks | 高效能儲存供應商 |
| FEFS | Fujitsu Exabyte File System | 富士通 EB 級檔案系統 |
| OSS/OST | Object Storage Server / Target | 物件儲存伺服器 / 目標 |
| CDU | Coolant Distribution Unit | 冷卻液分配單元 |
| A64FX | — | Fujitsu Arm 架構 HPC 處理器 |
---
## 7 總結摘要
本簡報由數值資訊組莊惟然介紹 HPC 科普知識與氣象署第 6 代高速運算電腦。HPC 由四大核心系統組成:**運算單元**(CPU 處理複雜邏輯 + GPU 大量平行運算)、**高速網路**(InfiniBand 200G 互連)、**儲存平台**(三層架構:NVMe 暫存 → 快取 → PB 級大容量)、**冷卻系統**(浸沒式液冷降低 PUE)。
氣象署第 6 代 HPC 採用 Arm 架構 A64FX 處理器 5,760 顆(10 PFlops)搭配 192 張 NVIDIA A100 GPU(2 PFlops),總算力達 **12 PFlops**,儲存容量 10 PB,是數值天氣預報與 AI 模型訓練的運算基石。
|