第1章 基礎設施架構綜述 / 1
1.1 基礎設施的概念 / 1
1.2 基礎設施作為技術驅動力 / 3
1.3 基礎設施的技術價值 / 7
1.3.1 技術安全 / 8
1.3.2 穩定性 / 9
1.3.3 TCO / 10
1.3.4 穩定性、性能、成本的平衡 / 11
1.3.5 追求效率、標準化、規範化 / 11
1.4 基礎設施的核心競爭力特徵 / 12
第2章 TCO建模 / 13
2.1 靜態TCO模型 / 14
2.1.1 資料中心CapEx / 15
2.1.2 伺服器及網路設備CapEx / 16
2.1.3 OpEx / 16
2.1.4 產能/TCO / 16
2.2 動態TCO模型 / 17
2.3 TCO優 / 18
第3章 資料中心能效 / 22
3.1 資料中心電能利用率 / 22
3.2 資料中心伺服器電能利用率 / 30
3.2.1 伺服器電源的能效 / 31
3.2.2 伺服器風扇的能效 / 33
3.3 資料中心基礎設施使用率 / 35
3.4 小結 / 37
第4章 資料中心 / 39
4.1 資料中心面臨的挑戰 / 39
4.1.1 中國能源供給結構對資料中心
的影響 / 39
4.1.2 新政策環境下資料中心面臨的
技術升級挑戰 / 41
4.1.3 雲計算業務給資料中心帶來的
機遇與挑戰 / 41
4.2 資料中心技術的發展趨勢 / 43
4.2.1 資料中心技術演進的路線與
趨勢 / 43
4.2.2 阿里巴巴資料中心的演進路線
與趨勢 / 46
4.3 資料中心能源與供電技術 / 49
4.3.1 資料中心能源的選擇與引入 / 49
4.3.2 資料中心電氣系統架構演進的
趨勢與路線 / 54
4.3.3 資料中心電氣關鍵技術與設備 / 59
4.4 阿里巴巴資料中心供電工程
實踐案例 / 68
4.4.1 分散式不間斷供電和集中式
不間斷供電的比較 / 68
4.4.2 240V+PSU集中電系統 / 70
4.4.3 天蠍BBS / 71
4.4.4 伺服器BBU / 73
4.4.5 機櫃DPS / 74
4.5 資料中心製冷技術 / 76
4.5.1 資料中心製冷系統架構的選擇
與設計 / 76
4.5.2 連續製冷 / 89
4.5.3 製冷系統的節能措施 / 91
4.6 面向下一代IT系統的冷卻技術 / 96
4.6.1 液冷技術簡介 / 96
4.6.2 冷板式液冷技術 / 98
4.6.3 浸沒式液冷技術 / 99
4.6.4 不同冷卻技術對比 / 100
4.7 資料中心製冷技術的發展
趨勢 / 102
4.8 阿里巴巴資料中心冷卻工程
實踐案例 / 103
4.8.1 千島湖資料中心 / 103
4.8.2 張北新風自然冷資料中心 / 105
第5章 資料中心網路架構和關鍵
技術 / 112
5.1 超大規模資料中心網路概述 / 112
5.1.1 超大規模資料中心的網路架構
及其技術演變 / 112
5.1.2 超大規模資料中心網路的未來
發展趨勢 / 115
5.2 阿里巴巴資料中心網路 / 118
5.2.1 雲計算對資料中心網路的核心
要求 / 118
5.2.2 阿里巴巴資料中心網路架構
演進 / 120
5.2.3 阿里巴巴資料中心網路HAIL
架構的設計理念 / 122
5.2.4 阿里巴巴資料中心網路HAIL
架構簡介 / 130
5.2.5 阿里巴巴資料中心交換機 / 131
5.2.6 阿里巴巴 vSwitch / 138
5.2.7 阿里巴巴資料中心網路光互聯
技術 / 141
5.3 資料中心網路通訊協定和高性能
網路 / 142
5.3.1 資料中心網路互聯協定 / 142
5.3.2 高性能網路 RDMA技術 / 145
5.4 可程式設計晶片和高性能閘道
平臺 / 146
5.4.1 基於x86高性能軟體閘道平臺
Netframe / 146
5.4.2 基於可程式設計交換機與SDN技術
的硬體交換平臺 / 147
5.5 網路視覺化技術 / 148
5.5.1 網路視覺化前端技術 / 149
5.5.2 網路視覺化後端技術 / 150
5.6 都會區網路光傳輸技術 / 151
5.6.1 都會區網路架構簡介 / 151
5.6.2 光傳輸技術 / 154
第6章 伺服器技術 / 159
6.1 伺服器簡介 / 159
6.1.1 伺服器系統分級 / 160
6.1.2 伺服器行業生態 / 161
6.1.3 伺服器應用場景 / 162
6.1.4 伺服器面臨的挑戰 / 162
6.1.5 伺服器設計考慮 / 163
6.2 伺服器研發和技術體系 / 164
6.2.1 資料中心伺服器研發模式 / 165
6.2.2 資料中心伺服器工程技術之
主機板 / 167
6.2.3 資料中心伺服器工程技術之
散熱技術 / 170
6.2.4 伺服器結構工程技術 / 174
6.2.5 伺服器監控及運維體系 / 189
6.2.6 伺服器測試及性能評估
體系 / 191
6.3 軟硬體優化 / 197
6.4 伺服器演進展望 / 198
6.4.1 阿里巴巴的伺服器演進 / 198
6.4.2 計算/存儲分離和部件化 / 199
6.4.3 進一步解耦CPU-Storage,
CPU-GPU,CPU-MEM和
架構一體化 / 201
6.5 硬體安全體系 / 203
6.5.1 可信計算 / 204
6.5.2 可信執行環境 / 205
6.5.3 記憶體安全 / 208
6.5.4 構建完善的硬體安全體系 / 209
第7章 計算硬體技術 / 211
7.1 通用計算 / 212
7.1.1 x86 / 212
7.1.2 Non-IA / 215
7.1.3 Non-IA與x86的比較 / 218
7.1.4 典型業務與通用計算 / 219
7.2 異構計算 / 221
7.2.1 GPU / 221
7.2.2 FPGA / 225
7.2.3 ASIC / 227
7.2.4 CPU、GPU、FPGA、ASIC
簡單比較 / 230
7.3 邊緣計算 / 230
7.4 匯流排互聯 / 233
7.4.1 QPI/UPI / 233
7.4.2 NV-Link / 234
7.4.3 CAPI / 234
7.4.4 CCIX / 235
7.5 計算與業務軟硬體結合 / 236
7.6 小結 / 238
第8章 存儲硬體技術 / 239
8.1 記憶體 / 240
8.1.1 DDR / 240
8.1.2 NVDIMM與UltraDIMM / 241
8.1.3 AEP / 243
8.1.4 HBM與HMC / 243
8.2 HDD / 245
8.2.1 基本原理 / 245
8.2.2 大容量硬碟應用 / 247
8.2.3 HDD的發展趨勢 / 251
8.3 SSD / 251
8.3.1 NAND Flash / 254
8.3.2 2D/3D NAND / 254
8.3.3 SSD的使用 / 259
8.4 新型存儲介質 / 261
8.4.1 3D XPoint / 261
8.4.2 ReRAM / 264
8.4.3 NVMe / 265
8.5 新型存儲介質應用 / 265
8.6 自研存儲產品AliFlash / 269
8.6.1 雙模式SSD / 269
8.6.2 開放通道模式 / 270
8.6.3 開放通道模式的應用路徑 / 272
8.6.4 AliFlash與業務軟硬體結合 / 273
8.7 存儲路徑 / 276
8.7.1 傳統檔案系統 / 276
8.7.2 KV存儲 / 278
8.7.3 SPDK / 279
8.8 NVMoF / 280
8.9 近存儲計算 / 283
8.9.1 本地近存儲計算 / 283
8.9.2 遠端近存儲計算 / 285
8.10 小結 / 288
第9章 基礎設施智慧化運營與
自動化運維 / 289
9.1 基礎設施資源運營智慧化 / 290
9.1.1 需求預測 / 291
9.1.2 資料中心機架位元容量規劃 / 293
9.1.3 智慧製造的發展趨勢 / 295
9.2 基礎設施資源交付自動化 / 296
9.2.1 通過帶外網路實現的遠端自動
開關機 / 296
9.2.2 伺服器作業系統自動化安裝 / 297
9.2.3 自動化部署遇到的問題及解決
方案 / 300
9.3 基礎設施智慧監管控 / 300
9.3.1 可用性監控分析 / 301
9.3.2 電熱異常感知 / 301
9.3.3 能效優化 / 304
9.4 物理機自動化維修 / 305
9.4.1 故障發現 / 305
9.4.2 故障預測 / 307
9.4.3 故障維修 / 307
9.5 集群自動化運維 / 309
9.5.1 集群自動化運維的主要設計
思想 / 309
9.5.2 物理機集群智慧自愈系統 / 311
9.6 網路智慧變更系統 / 314
9.6.1 變更穩定性挑戰 / 314
9.6.2 解決方案 / 315
9.6.3 網路智慧化變更系統 / 316
9.7 無人值守的資料中心 / 317
第10章 IDC、網路、伺服器的
一體化 / 319
10.1 基礎設施的優化匹配 / 319
10.1.1 大集群與業務的優匹配 / 319
10.1.2 IDC建築、網路大集群、服務
器的宏觀優化 / 320
10.1.3 機架功耗、伺服器功耗、網
絡埠利用率的微觀優化 / 321
10.2 整機架交付:OCP、天蠍
與AliRack / 322
10.3 面向業務的一體化解決方案:
HPC、超算、AI / 323
10.4 系統技術分層與協作 / 327
10.5 全系統模擬器 / 328
第11章 總結及展望 / 330
11.1 2022年――世界第一的基礎
設施 / 330
11.2 基礎設施5.0――AI、異構、
智能化 / 332
11.3 基礎設施6.0――一體化優
基礎設施架構 / 332
11.4 五年之後的基礎設施――創新
的機制保障 / 333
11.4.1 NASA與達摩院――阿里巴巴
的科技創新 / 333
11.4.2 AIS的創新機制 / 333
11.4.3 前瞻佈局與戰略拖動 / 334
11.5 量子與未來 / 334
11.5.1 量子通信 / 334
11.5.2 量子計算 / 335