何勇、陳曉峰所著的《Greenplum企業應用實戰 》是國內首本Greenplum著作,國內最早開始使用 GreenpIum的企業是阿里巴巴,本書的兩位作者是阿 里巴巴最早負責使用和維護GreenpIum的技術工程師 ,權威性毋庸置疑。
本書完全立足於阿里巴巴的企業 應用實踐,不僅系統介紹GreenpIum的功能特性、使用方法、高級應用,而且還詳細講解GreenpIum的系統架構、運維管理、性能優化和各種技巧。最重要的是,包含大量企業級應用案例,並且對每個案例都進行了詳盡的講解和實操指導。
全書一共15章,分為三個部分:基礎篇(第1~3 章)首先介紹了GreenpIum的應用場景、功能特性以 及與PostgreSQL的關系,然后講解了GreenpIum的安 裝配置、語法以及相關操作,最后通過兩個具體的數 據倉庫ETL案例加強讀者對GreenpIum的功能特性的了 解和操作能力:進階篇(第4—7章)圍繞數據字典、 執行計划、系統架構、高級特性等主題對GreenpIum
進行了更深入的講解,不僅能讓讀者更深入理解 Greenplum的工作原理,也能讓讀者游刀有余地應對 各種日常操作:管理篇(第8~15章)從運維和管理 的角度講解了Greenplum的線上部署、數據庫管理、 腳本維護、監控、權限控制、容災/擴容、備份恢復 、性能調優、常用技巧和常見問題等。
目錄
上篇 基礎篇
第1章 Greenplum簡介
1.1 Greenplum的起源和發展歷程
1.2 OLTP與OLAP
1.3 PostgreSQL與Greenplum的關系
1.3.1 PostgreSQL
1.3.2 Greenplum
1.4 Greenplum特性及應用場景
1.4.1 Greenplum特性
1.4.2 Greenplum應用場景
1.5 小結
第2章 Greenplum快速入門
2.1 軟件安裝及數據庫初始化
2.1.1 Greenplum架構
2.1.2 環境搭建
2.1.3 Greenplum安裝
2.1.4 創建數據庫
2.1.5 數據庫啟動與關閉
2.2 安裝Greenplum的常見問題
2.2.1 /etc/hosts配置錯誤
2.2.2 MASTER_DATA_DIRECTORY設置錯誤
2.3 暢游Greenplum
2.3.1 如何訪問Greenplum
2.3.2 數據庫整體概況
2.3.3 基本語法介紹
2.3.4 常用數據類型
2.3.5 常用函數
2.3.6 分析函數
2.3.7 分區表
2.3.8 外部表
2.3.9 COPY命令
2.4 小結
第3章 Greenplum實戰
3.1 歷史拉鏈表
3.1.1 應用場景描述
3.1.2 原理及步驟
3.1.3 表結構
3.1.4 Demo數據准備
3.1.5 數據加載
3.1.6 數據刷新
3.1.7 分區裁剪
3.1.8 數據導出
3.2 日志分析
3.2.1 應用場景描述
3.2.2 數據Demo
3.2.3 日志分析實戰
3.3 數據分布
3.3.1 數據分散情況查看
3.3.2 數據加載速度影響
3.3.3 數據查詢速度影響
3.4 數據壓縮
3.4.1 數據加載速度影響
3.4.2 數據查詢速度影響
3.5 索引
3.6 小結
中篇 進階篇
第4章 數據字典詳解
4.1 oid無處不在
4.2 數據庫集群信息
4.2.1 Gp_configuration和gp_segment_configuration
4.2.2 Gp_id
4.2.3 Gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置信息表轉化
4.3 常用數據字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分區表信息
4.4.1 如何實現分區表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions視圖及其優化
4.5 自定義類型以及類型轉換
4.6 主、備節點同步的相關數據字典
4.7 數據字典應用示例
4.7.1 獲取表的字段信息
4.7.2 獲取表的分布鍵
4.7.3 獲取一個視圖的定義
4.7.4 查詢comment(備注信息)
4.7.5 獲取數據庫建表語句
4.7.6 查詢表上的視圖
4.7.7 查詢表的數據文件創建時間
4.7.8 分區表總大小
4.7.9 如何分析數據字典變化
4.7.10 獲取數據庫鎖信息
4.8 Gp_toolkit介紹
4.9 小結
第5章 執行計划詳解
5.1 執行計划入門
5.1.1 什麼是執行計划
5.1.2 查看執行計划
5.2 分布式執行計划概述
5.2.1 架構
5.2.2 重分布與廣播
5.2.3 Greenplum Master的工作
5.3 Greenplum執行計划中的術語
5.3.1 數據掃描方式
5.3.2 分布式執行
5.3.3 兩種聚合方式
5.3.4 關聯
5.3.5 SQL消耗
5.3.6 其他術語
5.4 數據庫統計信息收集
5.4.1 Analyze分析
5.4.2 固定執行計划
5.5 控制執行計划的參數介紹
5.6 規划器開銷的計算方法
5.7 各種執行計划原理分析
5.7.1 詳解關聯的廣播與重分布
5.7.2 HashAggregate與GroupAggregate
5.7.3 Nestloop Join 、 Hash Join 與Merge Join
5.7.4 分析函數:開窗函數和grouping sets
5.8 案例
5.8.1 關聯鍵強制類型轉換,導致重分布
5.8.2 統計信息過期
5.8.3 執行計划出錯
5.8.4 分布鍵選擇不恰當
5.8.5 計算distinct
5.8.6 union與union all
5.8.7 子查詢not in
5.8.8 聚合函數太多導致內存不足
5.9 小結
第6章 Greenplum高級應用
6.1 Appendonly表與壓縮表
6.1.1 應用場景及語法介紹
6.1.2 壓縮表的性能差異
6.1.3 Appendonly表特性
6.1.4 相關數據字典
6.2 列存儲
6.2.1 應用場景
6.2.2 數據文件存儲特性
6.2.3 如何使用列存儲
6.2.4 性能比較
6.3 外部表高級應用
6.3.1 外部表實現原理
6.3.2 可寫外部表
6.3.3 HDFS外部表
6.3.4 可執行外部表
6.4 自定義函數-各個編程接口
6.4.1 pl/pgsql
6.4.2 C語言接口
6.4.3 plpython
6.5 Greenplum MapReduce
6.6 小結
第7章 Greenplum架構介紹
7.1 並行和分布式計算
7.2 並行數據庫
7.3 Greenplum架構分析
7.4 冗余與故障切換
7.5 數據分布及負載均衡
7.6 跨庫關聯
7.7 分布式事務
7.8 其他大數據分析方案
7.9 小結
下篇 管理篇
第8章 Greenplum線上環境部署
8.1 服務器硬件選型
8.1.1 CPU
8.1.2 內存
8.1.3 磁盤及硬盤接口
8.1.4 網絡
8.2 服務器系統參數調整
8.2.1 Solaris參數修改
8.2.2 Linux參數修改
8.2.3 系統參數及性能驗證
8.3 計算節點分配技巧
8.4 數據庫參數介紹
8.5 數據庫集群基准測試
8.6 小結
第9章 數據庫管理
9.1 用戶及權限管理
9.1.1 Greenplum數據庫邏輯結構
9.1.2 Grant語法
9.2 登錄權限控制
9.3 資源隊列及並發控制
9.4 Greenplum鎖機制
9.5 數據目錄結構
9.6 數據文件存儲分布
9.7 表空間管理
9.8 小結
第10章 數據庫監控及調優
10.1 Linux監控工具介紹
10.1.1 監控磁盤
10.1.2 監控網絡
10.1.3 監控CPU
10.1.4 監控內存
10.2 安裝Performance Monitor
10.3 監控Segment是否正常
10.4 VACUUM系統表
10.5 數據傾斜排查
10.6 查看子節點的SQL運行狀態
10.7 自動加分區
10.8 自動賦權
10.9 清理過期數據
10.10 小結
第11章 解讀Greenplum維護腳本
11.1 添加Greenplum Contrib模塊
11.2 啟動和關閉腳本gpstart和gpstop
11.3 初始化系統腳本gpinitsystem
11.4 集群操作腳本gpssh和gpscp
11.5 數據庫狀態檢查腳本gpstate
11.6 數據庫升級腳本gpmigrate
11.7 參數修改腳本gpconfig
11.8 數據庫一致性檢查腳本gpcheckcat
11.9 小結
第12章 備份及恢復策略
12.1 Greenplum 3.x
12.2 Greenplum 4.x
12.3 gp_dump和pg_dump
12.4 Greenplum Master備份策略
12.4.1 增加Standby Master
12.4.2 重新同步Standby Master
12.4.3 啟用Standby Master
12.5 小結
第13章 數據庫擴容
13.1 遷移計算節點
13.1.1 兩種備份方案
13.1.2 數據遷移實戰
13.2 增加計算節點
13.3 小結
第14章 基於Greenplum的海量數據實時分析服務平台
14.1 需求概述
14.2 典型方案
14.2.1 NoSQL
14.2.2 分布式數據庫/集群
14.2.3 分表分庫
14.2.4 方案優劣分析
14.3 基於Greenplum的混合架構
14.3.1 架構分析
14.3.2 實施要點
14.4 小結
第15章 使用Greenplum的常見報錯及小技巧
15.1 分析常見報錯
15.2 常見問題及解決辦法
15.3 常用的一些小技巧
15.4 小結
第1章 Greenplum簡介
1.1 Greenplum的起源和發展歷程
1.2 OLTP與OLAP
1.3 PostgreSQL與Greenplum的關系
1.3.1 PostgreSQL
1.3.2 Greenplum
1.4 Greenplum特性及應用場景
1.4.1 Greenplum特性
1.4.2 Greenplum應用場景
1.5 小結
第2章 Greenplum快速入門
2.1 軟件安裝及數據庫初始化
2.1.1 Greenplum架構
2.1.2 環境搭建
2.1.3 Greenplum安裝
2.1.4 創建數據庫
2.1.5 數據庫啟動與關閉
2.2 安裝Greenplum的常見問題
2.2.1 /etc/hosts配置錯誤
2.2.2 MASTER_DATA_DIRECTORY設置錯誤
2.3 暢游Greenplum
2.3.1 如何訪問Greenplum
2.3.2 數據庫整體概況
2.3.3 基本語法介紹
2.3.4 常用數據類型
2.3.5 常用函數
2.3.6 分析函數
2.3.7 分區表
2.3.8 外部表
2.3.9 COPY命令
2.4 小結
第3章 Greenplum實戰
3.1 歷史拉鏈表
3.1.1 應用場景描述
3.1.2 原理及步驟
3.1.3 表結構
3.1.4 Demo數據准備
3.1.5 數據加載
3.1.6 數據刷新
3.1.7 分區裁剪
3.1.8 數據導出
3.2 日志分析
3.2.1 應用場景描述
3.2.2 數據Demo
3.2.3 日志分析實戰
3.3 數據分布
3.3.1 數據分散情況查看
3.3.2 數據加載速度影響
3.3.3 數據查詢速度影響
3.4 數據壓縮
3.4.1 數據加載速度影響
3.4.2 數據查詢速度影響
3.5 索引
3.6 小結
中篇 進階篇
第4章 數據字典詳解
4.1 oid無處不在
4.2 數據庫集群信息
4.2.1 Gp_configuration和gp_segment_configuration
4.2.2 Gp_id
4.2.3 Gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置信息表轉化
4.3 常用數據字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分區表信息
4.4.1 如何實現分區表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions視圖及其優化
4.5 自定義類型以及類型轉換
4.6 主、備節點同步的相關數據字典
4.7 數據字典應用示例
4.7.1 獲取表的字段信息
4.7.2 獲取表的分布鍵
4.7.3 獲取一個視圖的定義
4.7.4 查詢comment(備注信息)
4.7.5 獲取數據庫建表語句
4.7.6 查詢表上的視圖
4.7.7 查詢表的數據文件創建時間
4.7.8 分區表總大小
4.7.9 如何分析數據字典變化
4.7.10 獲取數據庫鎖信息
4.8 Gp_toolkit介紹
4.9 小結
第5章 執行計划詳解
5.1 執行計划入門
5.1.1 什麼是執行計划
5.1.2 查看執行計划
5.2 分布式執行計划概述
5.2.1 架構
5.2.2 重分布與廣播
5.2.3 Greenplum Master的工作
5.3 Greenplum執行計划中的術語
5.3.1 數據掃描方式
5.3.2 分布式執行
5.3.3 兩種聚合方式
5.3.4 關聯
5.3.5 SQL消耗
5.3.6 其他術語
5.4 數據庫統計信息收集
5.4.1 Analyze分析
5.4.2 固定執行計划
5.5 控制執行計划的參數介紹
5.6 規划器開銷的計算方法
5.7 各種執行計划原理分析
5.7.1 詳解關聯的廣播與重分布
5.7.2 HashAggregate與GroupAggregate
5.7.3 Nestloop Join 、 Hash Join 與Merge Join
5.7.4 分析函數:開窗函數和grouping sets
5.8 案例
5.8.1 關聯鍵強制類型轉換,導致重分布
5.8.2 統計信息過期
5.8.3 執行計划出錯
5.8.4 分布鍵選擇不恰當
5.8.5 計算distinct
5.8.6 union與union all
5.8.7 子查詢not in
5.8.8 聚合函數太多導致內存不足
5.9 小結
第6章 Greenplum高級應用
6.1 Appendonly表與壓縮表
6.1.1 應用場景及語法介紹
6.1.2 壓縮表的性能差異
6.1.3 Appendonly表特性
6.1.4 相關數據字典
6.2 列存儲
6.2.1 應用場景
6.2.2 數據文件存儲特性
6.2.3 如何使用列存儲
6.2.4 性能比較
6.3 外部表高級應用
6.3.1 外部表實現原理
6.3.2 可寫外部表
6.3.3 HDFS外部表
6.3.4 可執行外部表
6.4 自定義函數-各個編程接口
6.4.1 pl/pgsql
6.4.2 C語言接口
6.4.3 plpython
6.5 Greenplum MapReduce
6.6 小結
第7章 Greenplum架構介紹
7.1 並行和分布式計算
7.2 並行數據庫
7.3 Greenplum架構分析
7.4 冗余與故障切換
7.5 數據分布及負載均衡
7.6 跨庫關聯
7.7 分布式事務
7.8 其他大數據分析方案
7.9 小結
下篇 管理篇
第8章 Greenplum線上環境部署
8.1 服務器硬件選型
8.1.1 CPU
8.1.2 內存
8.1.3 磁盤及硬盤接口
8.1.4 網絡
8.2 服務器系統參數調整
8.2.1 Solaris參數修改
8.2.2 Linux參數修改
8.2.3 系統參數及性能驗證
8.3 計算節點分配技巧
8.4 數據庫參數介紹
8.5 數據庫集群基准測試
8.6 小結
第9章 數據庫管理
9.1 用戶及權限管理
9.1.1 Greenplum數據庫邏輯結構
9.1.2 Grant語法
9.2 登錄權限控制
9.3 資源隊列及並發控制
9.4 Greenplum鎖機制
9.5 數據目錄結構
9.6 數據文件存儲分布
9.7 表空間管理
9.8 小結
第10章 數據庫監控及調優
10.1 Linux監控工具介紹
10.1.1 監控磁盤
10.1.2 監控網絡
10.1.3 監控CPU
10.1.4 監控內存
10.2 安裝Performance Monitor
10.3 監控Segment是否正常
10.4 VACUUM系統表
10.5 數據傾斜排查
10.6 查看子節點的SQL運行狀態
10.7 自動加分區
10.8 自動賦權
10.9 清理過期數據
10.10 小結
第11章 解讀Greenplum維護腳本
11.1 添加Greenplum Contrib模塊
11.2 啟動和關閉腳本gpstart和gpstop
11.3 初始化系統腳本gpinitsystem
11.4 集群操作腳本gpssh和gpscp
11.5 數據庫狀態檢查腳本gpstate
11.6 數據庫升級腳本gpmigrate
11.7 參數修改腳本gpconfig
11.8 數據庫一致性檢查腳本gpcheckcat
11.9 小結
第12章 備份及恢復策略
12.1 Greenplum 3.x
12.2 Greenplum 4.x
12.3 gp_dump和pg_dump
12.4 Greenplum Master備份策略
12.4.1 增加Standby Master
12.4.2 重新同步Standby Master
12.4.3 啟用Standby Master
12.5 小結
第13章 數據庫擴容
13.1 遷移計算節點
13.1.1 兩種備份方案
13.1.2 數據遷移實戰
13.2 增加計算節點
13.3 小結
第14章 基於Greenplum的海量數據實時分析服務平台
14.1 需求概述
14.2 典型方案
14.2.1 NoSQL
14.2.2 分布式數據庫/集群
14.2.3 分表分庫
14.2.4 方案優劣分析
14.3 基於Greenplum的混合架構
14.3.1 架構分析
14.3.2 實施要點
14.4 小結
第15章 使用Greenplum的常見報錯及小技巧
15.1 分析常見報錯
15.2 常見問題及解決辦法
15.3 常用的一些小技巧
15.4 小結
網路書店
類別
折扣
價格
-
新書87折$360