譚磊、范磊編着的《Hadoop應用實戰》全面地講述了Hadoop相關領域的重要知識和最新的技術及應用。書中首先介紹了數據挖掘的基礎知識、Hadoop的基本框架和相關信息,然后系統地描述了如何在各類行業中用好Hadoop來做數據挖掘。
本書面向的主要讀者人群是想了解Hadoop與大數據的技術人員,無論他們是在互聯網企業,還是在傳統企業;無論他們從事的是技術或者運維工作,專業做數據分析,還是企業的策略官、市場官和運營官,都能從本書中找到各自所需要的內容。
本書可以幫助讀者開闊眼界和找到方法,讓他們知道如何分析實際商業場景和業務問題,構建基於Hadoop的大數據系統,通過使用數據運營,對公司業務運營帶來直接的效益。當然對於學生、教師和有志於從業大數據運營的人員來說,也是一本實用的教材。
譚磊,全球互聯網技術、數據運營、數據分析挖掘領域的專家。復旦大學計算機學士,美國杜克大學計算機碩士。中國工業設計協會CIO,曾經在美國微軟總部服務13年。在數據分析、數據挖掘、雲計算、產品研發及管理、互聯網廣告等方面有豐富的經驗。《New Internet:大數據挖掘》、《數據掘金:電商數據運營》等七本專業書的作者和譯者。
范磊,前英特爾亞太區大數據總監,知名大數據專家,星環科技聯合創始人兼CEO。
目錄
第1章 大數據概念的老調重彈
1.1 互聯網和物聯網上的數據
1.1.1 互聯網上越來越多的數據被存儲
1.1.2 物聯網帶來更多的數據
1.2 數據能為我們做的事
1.2.1 用戶畫像和任何企業都需要關注的數據
1.2.2 大數據的3V、4V和N個
1.2.3 從數據分析到數據挖掘
1.2.4 大數據處理的三個維度
1.3 數據挖掘中的一些基本概念
1.3.1 分類算法
1.3.2 聚類算法
1.3.3 關聯算法
1.3.4 序列算法
1.3.5 估測和預測
1.3.6 A/B Test
1.4 數據倉庫
1.4.1 數據倉庫是解決大數據存儲的基礎設施
1.4.2 4種不同類型的數據倉庫
1.4.3 國內外數據倉庫的不同使用方式
1.5 不包含在本書中的內容
1.6 這本書都講些啥
第2章 Hadoop的前世今生
2.1 Google的計算框架
2.1.1 Google公司的三篇論文
2.1.2 GFS文件系統
2.1.3 MapReduce的模型和框架
2.1.4 BigTable數據庫
2.2 Hadoop的誕生
2.2.1 從GFS到HDFS
2.2.2 Hadoop的基礎計算框架MapReduce
2.2.3 從BigTable到
2.3 Hadoop的今天
2.4 Hadoop大事記
第3章 等同於大數據的Hadoop
3.1 Hadoop理念
3.2 Hadoop核心基礎架構
3.2.1 Namenode和Datanode
3.2.2 Hadoop底層的文件系統HDFS
3.2.3 Hadoop上的數據庫HBase
3.3 Hadoop上的各種其他組件
3.3.1 資源分配系統YARN
3.3.2 靈活的編程語言pig
3.3.3 數據挖掘工具Mahout
3.3.4 專注於數據挖掘的R語言
3.3.5 數據倉庫工具Hive
3.3.6 數據采集系統Flume
3.4 Spark和Hadoop
3.4.1 閃電俠出現了
3.4.2 大數據領域的Taylor Swift
3.4.3 Spark的架構
3.4.4 Spark和流處理
第4章 Hadoop的價值
4.1 大數據時代需要新的架構
4.1.1 企業IT面臨的挑戰
4.1.2 數據分析要考慮的問題
4.1.3 新的IT架構的需求
4.2 Hadoop能解決的問題
4.2.1 Hadoop適合做的事情
4.2.2 Hadoop對系統數據安全性的保障
4.2.3 數據流與數據流處理
4.3 去IOE
4.4 7種最常見的Hadoop和Spark項目
第5章 Hadoop系統速成
5.1 Hadoop系統搭建速成
5.1.1 Hadoop系統的三種運行模式
5.1.2 單點搭建Hadoop系統
5.1.3 全分布式(多節點)搭建Hadoop系統
5.1.4 在Hadoop上編程
5.1.5 Hadoop系統的典型配置
5.2 在雲上運行
5.2.1 在金山雲上運行Hadoop
5.2.2 微軟的HDInsight
5.3 Hadoop信息大全
第6章 數據倉庫和Hadoop
6.1 大數據時代的數據系統設計
6.1.1 分布式系統上的CAP原理
6.1.2 ACID和BASE概念的區別
6.1.3 NoSQL
6.1.4 各種數據源的整合
6.2 傳統數據倉庫的瓶頸
6.2.1 傳統數據倉庫的瓶頸之一:數據量的問題
6.2.2 傳統數據倉庫的瓶頸之二:數據類型的問題
6.2.3 傳統數據倉庫的瓶頸之三:數據處理的延時問題
6.2.4 傳統數據倉庫的瓶頸之四:數據模型的變化問題
6.3 Hadoop是解決數據倉庫瓶頸的方法
6.3.1 解決數據量的問題
6.3.2 解決數據類型的問題
6.3.3 數據處理的速度問題
6.3.4 數據模型的變化問題
6.4 基於Hadoop和Spark的數據倉庫解決方案
6.4.1 基於Hadoop/Spark結構的數據倉庫系統架構
6.4.2 分布式計算引擎
6.4.3 標准化的編程模型
6.4.4 數據操作方式的多樣性
6.4.5 OLAP交互式統計分析能力
6.4.6 多類型數據的處理能力
6.4.7 實時計算與企業數據總線
6.4.8 數據探索與挖掘能力
6.4.9 安全性和權限管理
6.4.10 混合負載管理
第7章 在不同應用環境下的H
7.1 在存儲密集型環境中的Hadoop
7.2 在網絡密集型環境中的Hadoop
7.3 在運算密集型環境中的Hadoop
7.4 Hadoop平台的對比和選擇
7.4.1 為什麼會選擇商用的Hadoop系統
7.4.2 商用Hadoop系統之間的選擇
第8章 Hadoop在互聯網公司的應用
8.1 Hadoop在騰訊
8.2 Hadoop在Facebook的應用
8.3 金山的Hadoop
8.4 迅雷公司對Hadoop的應用
第9章 Hadoop和行業應用之一
9.1 Hadoop和運營商
9.2 Hadoop和公用事業
9.3 Hadoop和「智慧工商」
9.4 Hadoop和政務雲
第10章 Hadoop與「衣食住行」中的「食」和「行」
10.1 Hadoop和「食」
10.2 Hadoop和「行」
第11章 Hadoop和行業應用之三
11.1 Hadoop和金融
11.1.1 金融的大數據屬性
11.1.2 金融企業的風險控制
11.2 Hadoop和醫療
11.3 Hadoop和物流
11.4 Hadoop和媒體
第12章 特殊場景下的Hadoop系統
12.1 Hadoop和實時系統
12.2 Hadoop平台的一些特殊場景實現
第13章 Hadoop系統的挑戰和應對
13.1 Hadoop系統使用須知
13.2 Hadoop平台風險點預估
13.2.1 Namenode 的單點故障和系統的可用性
13.2.2 集群硬件故障導致平台可靠性與可用性大幅降低
13.2.3 Hadoop集群大數據安全和隱私問題
13.3 Hadoop平台硬件故障的應對機制
13.3.1 監控軟硬件故障的應對機制
13.3.2 斷電處理
13.4 Hadoop平台如何真正做到高可用性
13.4.1 Hadoop系統的高可用性冗余性保障
13.4.2 Facebook的Namenode HA的方案
13.4.3 TDH的Namenode 高可用性冗余解決方案
13.5 Hadoop平台安全性和隱私性的應對機制
13.5.1 關於安全和隱私問題的7個事項
13.5.2 星環的4A級統一安全管理解決方案
13.5.3 Hadoop系統安全Checklist
第14章 Hadoop的未來
14.1 Hadoop未來的發展趨勢
14.1.1 對數據系統的不斷升級
14.1.2 機器學習
14.2 Hadoop和區塊鏈
附錄A 專業詞匯表
附錄B 引用文獻
附錄C 參考網站一覽
附錄D HDFS命令行列表
附錄E 本書引用案例索引
1.1 互聯網和物聯網上的數據
1.1.1 互聯網上越來越多的數據被存儲
1.1.2 物聯網帶來更多的數據
1.2 數據能為我們做的事
1.2.1 用戶畫像和任何企業都需要關注的數據
1.2.2 大數據的3V、4V和N個
1.2.3 從數據分析到數據挖掘
1.2.4 大數據處理的三個維度
1.3 數據挖掘中的一些基本概念
1.3.1 分類算法
1.3.2 聚類算法
1.3.3 關聯算法
1.3.4 序列算法
1.3.5 估測和預測
1.3.6 A/B Test
1.4 數據倉庫
1.4.1 數據倉庫是解決大數據存儲的基礎設施
1.4.2 4種不同類型的數據倉庫
1.4.3 國內外數據倉庫的不同使用方式
1.5 不包含在本書中的內容
1.6 這本書都講些啥
第2章 Hadoop的前世今生
2.1 Google的計算框架
2.1.1 Google公司的三篇論文
2.1.2 GFS文件系統
2.1.3 MapReduce的模型和框架
2.1.4 BigTable數據庫
2.2 Hadoop的誕生
2.2.1 從GFS到HDFS
2.2.2 Hadoop的基礎計算框架MapReduce
2.2.3 從BigTable到
2.3 Hadoop的今天
2.4 Hadoop大事記
第3章 等同於大數據的Hadoop
3.1 Hadoop理念
3.2 Hadoop核心基礎架構
3.2.1 Namenode和Datanode
3.2.2 Hadoop底層的文件系統HDFS
3.2.3 Hadoop上的數據庫HBase
3.3 Hadoop上的各種其他組件
3.3.1 資源分配系統YARN
3.3.2 靈活的編程語言pig
3.3.3 數據挖掘工具Mahout
3.3.4 專注於數據挖掘的R語言
3.3.5 數據倉庫工具Hive
3.3.6 數據采集系統Flume
3.4 Spark和Hadoop
3.4.1 閃電俠出現了
3.4.2 大數據領域的Taylor Swift
3.4.3 Spark的架構
3.4.4 Spark和流處理
第4章 Hadoop的價值
4.1 大數據時代需要新的架構
4.1.1 企業IT面臨的挑戰
4.1.2 數據分析要考慮的問題
4.1.3 新的IT架構的需求
4.2 Hadoop能解決的問題
4.2.1 Hadoop適合做的事情
4.2.2 Hadoop對系統數據安全性的保障
4.2.3 數據流與數據流處理
4.3 去IOE
4.4 7種最常見的Hadoop和Spark項目
第5章 Hadoop系統速成
5.1 Hadoop系統搭建速成
5.1.1 Hadoop系統的三種運行模式
5.1.2 單點搭建Hadoop系統
5.1.3 全分布式(多節點)搭建Hadoop系統
5.1.4 在Hadoop上編程
5.1.5 Hadoop系統的典型配置
5.2 在雲上運行
5.2.1 在金山雲上運行Hadoop
5.2.2 微軟的HDInsight
5.3 Hadoop信息大全
第6章 數據倉庫和Hadoop
6.1 大數據時代的數據系統設計
6.1.1 分布式系統上的CAP原理
6.1.2 ACID和BASE概念的區別
6.1.3 NoSQL
6.1.4 各種數據源的整合
6.2 傳統數據倉庫的瓶頸
6.2.1 傳統數據倉庫的瓶頸之一:數據量的問題
6.2.2 傳統數據倉庫的瓶頸之二:數據類型的問題
6.2.3 傳統數據倉庫的瓶頸之三:數據處理的延時問題
6.2.4 傳統數據倉庫的瓶頸之四:數據模型的變化問題
6.3 Hadoop是解決數據倉庫瓶頸的方法
6.3.1 解決數據量的問題
6.3.2 解決數據類型的問題
6.3.3 數據處理的速度問題
6.3.4 數據模型的變化問題
6.4 基於Hadoop和Spark的數據倉庫解決方案
6.4.1 基於Hadoop/Spark結構的數據倉庫系統架構
6.4.2 分布式計算引擎
6.4.3 標准化的編程模型
6.4.4 數據操作方式的多樣性
6.4.5 OLAP交互式統計分析能力
6.4.6 多類型數據的處理能力
6.4.7 實時計算與企業數據總線
6.4.8 數據探索與挖掘能力
6.4.9 安全性和權限管理
6.4.10 混合負載管理
第7章 在不同應用環境下的H
7.1 在存儲密集型環境中的Hadoop
7.2 在網絡密集型環境中的Hadoop
7.3 在運算密集型環境中的Hadoop
7.4 Hadoop平台的對比和選擇
7.4.1 為什麼會選擇商用的Hadoop系統
7.4.2 商用Hadoop系統之間的選擇
第8章 Hadoop在互聯網公司的應用
8.1 Hadoop在騰訊
8.2 Hadoop在Facebook的應用
8.3 金山的Hadoop
8.4 迅雷公司對Hadoop的應用
第9章 Hadoop和行業應用之一
9.1 Hadoop和運營商
9.2 Hadoop和公用事業
9.3 Hadoop和「智慧工商」
9.4 Hadoop和政務雲
第10章 Hadoop與「衣食住行」中的「食」和「行」
10.1 Hadoop和「食」
10.2 Hadoop和「行」
第11章 Hadoop和行業應用之三
11.1 Hadoop和金融
11.1.1 金融的大數據屬性
11.1.2 金融企業的風險控制
11.2 Hadoop和醫療
11.3 Hadoop和物流
11.4 Hadoop和媒體
第12章 特殊場景下的Hadoop系統
12.1 Hadoop和實時系統
12.2 Hadoop平台的一些特殊場景實現
第13章 Hadoop系統的挑戰和應對
13.1 Hadoop系統使用須知
13.2 Hadoop平台風險點預估
13.2.1 Namenode 的單點故障和系統的可用性
13.2.2 集群硬件故障導致平台可靠性與可用性大幅降低
13.2.3 Hadoop集群大數據安全和隱私問題
13.3 Hadoop平台硬件故障的應對機制
13.3.1 監控軟硬件故障的應對機制
13.3.2 斷電處理
13.4 Hadoop平台如何真正做到高可用性
13.4.1 Hadoop系統的高可用性冗余性保障
13.4.2 Facebook的Namenode HA的方案
13.4.3 TDH的Namenode 高可用性冗余解決方案
13.5 Hadoop平台安全性和隱私性的應對機制
13.5.1 關於安全和隱私問題的7個事項
13.5.2 星環的4A級統一安全管理解決方案
13.5.3 Hadoop系統安全Checklist
第14章 Hadoop的未來
14.1 Hadoop未來的發展趨勢
14.1.1 對數據系統的不斷升級
14.1.2 機器學習
14.2 Hadoop和區塊鏈
附錄A 專業詞匯表
附錄B 引用文獻
附錄C 參考網站一覽
附錄D HDFS命令行列表
附錄E 本書引用案例索引
網路書店
類別
折扣
價格
-
新書87折$251