Python和HDF 5大數據應用

Python和HDF 5大數據應用
定價:234
NT $ 204
 

內容簡介

隨着Python應用領域的拓展,越來越多的人將Python用於處理大型數值數據集,使用標准格式來進行數據的存儲和通信也顯得越來越重要,而HDF5也正迅速成為人們存儲科學數據的選擇。

本書向任何有Python數據分析基本背景的人介紹如何在Python下使用HDF5。本書將着重於HDF5的本地功能集,而不是Python的高層抽象。熟悉Python和Num Py的讀者,更容易閱讀和掌握本書的內容。

本書適合有一定基礎的Python開發者,尤其適合要使用Python開發數據存儲和處理等相關應用的讀者閱讀參考。

Andrew Collette擁有UCLA的物理學博士,目前是科羅拉多大學的實驗室研究科學家,並且他獲得了UCLA的物理學博士學位。他已經在兩台幾百萬美元的研究設備上用Python-NumPy-HDF5進行過科學分析。他是HDF 5 for Python(h5py)項目的開發領袖。
 

目錄

第1章簡介 1
1.1Python和HDF52
1.1.1數據和元數據的組織 2
1.1.2大數據復制 3
1.2HDF5到底是什麼 4
1.2.1HDF5文件規格 5
1.2.2HDF5標准庫 6
1.2.3HDF5生態系統 6
第2章開始使用 7
2.1HDF基本原理 7
2.2設置 8
2.2.1Python2還是Python38
2.2.2代碼示例 9
2.2.3NumPy 9
2.2.4HDF5和h5py 11
2.2.5IPython 11
2.2.6時間和優化 12
2.3HDF5工具 13
2.3.1HDFView 13
2.3.2ViTables 14
2.3.3命令行工具 15
2.4你的第一個HDF5文件 16
2.4.1使用環境管理器 17
2.4.2文件驅動 18
2.4.3用戶塊 19
第3章使用數據集 20
3.1數據集基礎 20
3.1.1類型和形狀 20
3.1.2讀和寫 21
3.1.3創建空數據集 22
3.1.4顯式指定存儲類型來節省空間 22
3.1.5自動類型轉換和直讀 23
3.1.6用astype讀 24
3.1.7改變形狀 25
3.1.8默認填充值 25
3.2讀寫數據 25
3.2.1高效率切片 26
3.2.2start—stop—step索引 27
3.2.3多維切片和標量切片 28
3.2.4布爾索引 29
3.2.5坐標列表 30
3.2.6自動廣播 31
3.2.7直讀入一個已存在的數組 32
3.2.8數據類型注解 33
3.3改變數據集的形狀 34
3.3.1創建可變形數據集 35
3.3.2用resize重新組織數據 36
3.3.3何時以及如何進行resize 37
第4章讓分塊和壓縮來幫忙 38
4.1連續存儲 38
4.2分塊存儲 40
4.3設置分塊形狀 41
4.3.1自動分塊 41
4.3.2手動選擇一個形狀 42
4.4性能實例:可變形數據集 43
4.5過濾器和壓縮 44
4.5.1過濾器流水線 45
4.5.2壓縮過濾器 45
4.5.3GZIP/DEFLATE壓縮器 46
4.5.4SZIP壓縮器 46
4.5.5LZF壓縮器 47
4.5.6性能 47
4.6其他過濾器 48
4.6.1SHUFFLE過濾器 48
4.6.2FLETCHER32過濾器 49
4.7第三方過濾器 50
第5章組、鏈接和迭代:HDF5的層次性 51
5.1根組和子組 51
5.2組的基本原理 52
5.2.1字典風格的訪問 52
5.2.2特殊屬性 53
5.3使用鏈接 53
5.3.1硬鏈接 53
5.3.2剩余空間和重新打包 55
5.3.3軟鏈接 55
5.3.4外部鏈接 56
5.3.5對象名字注解 58
5.3.6用get決定對象類型 58
5.3.7用require簡化你的應用程序 59
5.4迭代和容器 60
5.4.1組如何存儲 61
5.4.2字典風格的遍歷 61
5.4.3測試存在性 62
5.5用Visitor模式多級遍歷 63
5.5.1以名字訪問 63
5.5.2多個鏈接和visit 64
5.5.3訪問對象 65
5.5.4遍歷中止:一個簡單的搜索策略 66
5.6復制對象 66
5.7對象比較和哈希 67
第6章用特征存儲元數據 69
6.1特征基本原理 69
6.1.1類型猜測 70
6.1.2字符串和文件匹配 72
6.1.3Python對象 73
6.1.4顯式指定類型 74
6.2真實世界的例子:粒子加速數據庫 76
6.2.1基於HDF5的應用格式 76
6.2.2數據分析 77
第7章更多關於類型 79
7.1HDF5類型系統 79
7.2整型和浮點 80
7.3定長字符串 81
7.4變長字符串 81
7.4.1變長字符串的數據類型 82
7.4.2變長字符串數據集的使用 83
7.4.3字節字符串和Unicode字符串 83
7.4.4使用Unicode字符串 84
7.4.5不要在字符串中保存二進制數據 85
7.4.6確保你Python2程序的未來 85
7.5復合類型 85
7.6復數類型 87
7.7枚舉類型 87
7.8布爾類型 88
7.9數組類型 89
7.10不透明類型 90
7.11日期和時間 91
第8章通過引用、類型和維度標尺來組織數據 92
8.1對象引用 92
8.1.1創建和解引用 92
8.1.2引用是一種「永不失效」的鏈接 93
8.1.3引用是一種數據 94
8.2區域引用 95
8.2.1創建和讀取區域引用 95
8.2.2復雜索引 96
8.2.3用區域引用獲得數據集 96
8.3命名類型 97
8.3.1數據類型對象 97
8.3.2鏈接命名類型 98
8.3.3管理命名類型 98
8.4維度標尺 98
8.4.1創建維度標尺 99
8.4.2在數據集上添加標尺 100
第9章HDF5並發性:多線程和多進程 102
9.1Python並發的基本概念 102
9.2多線程 103
9.3多進程 105
9.4MPI和並發HDF5108
9.4.1一個非常快速的MPI介紹 108
9.4.2基於MPI的HDF5程序 109
9.4.3集體操作和獨立操作 110
9.4.4原子操作模式 111
第10章下一步 114
10.1尋求幫助 114
10.2做出貢獻 115
網路書店 類別 折扣 價格
  1. 新書
    87
    $204