Hadoop大數據挖掘從入門到進階實戰(視頻教學版)

Hadoop大數據挖掘從入門到進階實戰(視頻教學版)
定價:594
NT $ 517
  • 作者:鄧傑
  • 出版社:機械工業出版社
  • 出版日期:2018-06-01
  • 語言:簡體中文
  • ISBN10:711160010X
  • ISBN13:9787111600107
  • 裝訂:平裝 / 402頁 / 16k / 19 x 26 cm / 普通級 / 單色印刷 / 1-1
 

內容簡介

本書採用“理論+實戰”的形式編寫,全面介紹了Hadoop大資料採擷的相關知識。本書秉承循序漸進、易於理解、學以致用和便於查詢的講授理念,講解時結合了大量實例和作者多年積累的一線開發經驗。本書作者擁有豐富的視頻製作與線上教學經驗,曾經與極客學院合作開設過線上視頻教學課程。為了説明讀者高效、直觀地學習本書內容,作者特意為本書錄製了配套教學視頻,這些教學視頻和本書配套原始程式碼檔讀者都可以免費獲取。
 

目錄

前言

第1章 集群及開發環境搭建1
1.1 環境準備1
1.1.1 基礎軟體下載1
1.1.2 準備Linux作業系統2
1.2 安裝Hadoop4
1.2.1 基礎環境配置4
1.2.2 Zookeeper部署7
1.2.3 Hadoop部署9
1.2.4 效果驗證21
1.2.5 集群架構詳解24
1.3 Hadoop版Hello World25
1.3.1 Hadoop Shell介紹25
1.3.2 WordCount初體驗27
1.4 開發環境28
1.4.1 搭建本地開發環境28
1.4.2 運行及調試預覽31
1.5 小結34

第2章 實戰:快速構建一個Hadoop項目並線上運行35
2.1 構建一個簡單的專案工程35
2.1.1 構建Java Project結構工程35
2.1.2 構建Maven結構工程36
2.2 操作分散式檔案系統(HDFS)39
2.2.1 基本的應用介面操作39
2.2.2 在高可用平臺上的使用方法42
2.3 利用IDE提交MapReduce作業43
2.3.1 在單點上的操作43
2.3.2 在高可用平臺上的操作46
2.4 編譯應用程式並打包51
2.4.1 編譯Java Project工程並打包51
2.4.2 編譯Maven工程並打包55
2.5 部署與調度58
2.5.1 部署應用58
2.5.2 調度任務59
2.6 小結60

第3章 Hadoop套件實戰61
3.1 Sqoop——資料傳輸工具61
3.1.1 背景概述61
3.1.2 安裝及基本使用62
3.1.3 實戰:在關係型數據庫與分散式檔案系統之間傳輸資料64
3.2 Flume——日誌收集工具66
3.2.1 背景概述67
3.2.2 安裝與基本使用67
3.2.3 實戰:收集系統日誌並上傳到分散式檔案系統(HDFS)上72
3.3 HBase——分散式資料庫74
3.3.1 背景概述74
3.3.2 存儲架構介紹75
3.3.3 安裝與基本使用75
3.3.4 實戰:對HBase業務表進行增、刪、改、查操作79
3.4 Zeppelin——資料集分析工具85
3.4.1 背景概述85
3.4.2 安裝與基本使用85
3.4.3 實戰:使用解譯器操作不同的資料處理引擎88
3.5 Drill——低延時SQL查詢引擎92
3.5.1 背景概述93
3.5.2 安裝與基本使用93
3.5.3 實戰:對分散式檔案系統(HDFS)使用SQL進行查詢95
3.5.4 實戰:使用SQL查詢HBase資料庫99
3.5.5 實戰:對資料倉庫(Hive)使用類即時統計、查詢操作101
3.6 Spark——即時流資料計算104
3.6.1 背景概述104
3.6.2 安裝部署及使用105
3.6.3 實戰:對接Kafka消息資料,消費、計算及落地108
3.7 小結114

第4章 Hive程式設計——使用SQL提交MapReduce任務到Hadoop集群115
4.1 環境準備與Hive初識115
4.1.1 背景介紹115
4.1.2 基礎環境準備116
4.1.3 Hive結構初識116
4.1.4 Hive與關係型數據庫(RDBMS)118
4.2 安裝與配置Hive118
4.2.1 Hive集群基礎架構119
4.2.2 利用HAProxy實現Hive Server負載均衡120
4.2.3 安裝分散式Hive集群123
4.3 可程式設計方式126
4.3.1 資料類型126
4.3.2 存儲格式128
4.3.3 基礎命令129
4.3.4 Java程式設計語言操作資料倉庫(Hive)131
4.3.5 實踐Hive Streaming134
4.4 運維和監控138
4.4.1 基礎命令138
4.4.2 監控工具Hive Cube140
4.5 小結143

第5章 遊戲玩家的使用者行為分析——特徵提取144
5.1 專案應用概述144
5.1.1 場景介紹144
5.1.2 平臺架構與資料獲取145
5.1.3 準備系統環境和軟體147
5.2 分析與設計148
5.2.1 整體分析148
5.2.2 指標與資料來源分析149
5.2.3 整體設計151
5.3 技術選型153
5.3.1 套件選取簡述154
5.3.2 套件使用簡述154
5.4 編碼實踐157
5.4.1 實現代碼157
5.4.2 統計結果處理163
5.4.3 應用調度169
5.5 小結174

第6章 Hadoop平臺管理與維護175
6.1 Hadoop分散式檔案系統(HDFS)175
6.1.1 HDFS特性175
6.1.2 基礎命令詳解176
6.1.3 解讀NameNode Standby179
6.2 Hadoop平臺監控182
6.2.1 Hadoop日誌183
6.2.2 常用分散式監控工具187
6.3 平臺維護196
6.3.1 安全模式196
6.3.2 節點管理198
6.3.3 HDFS快照200
6.4 小結203

第7章 Hadoop異常處理解決方案204
7.1 定位異常204
7.1.1 跟蹤日誌204
7.1.2 分析異常資訊208
7.1.3 閱讀開發業務代碼209
7.2 解決問題的方式210
7.2.1 搜索關鍵字211
7.2.2 查看Hadoop JIRA212
7.2.3 閱讀相關源碼213
7.3 實戰案例分析216
7.3.1 案例分析1:啟動HBase失敗216
7.3.2 案例分析2:HBase表查詢失敗219
7.3.3 案例分析3:Spark的臨時資料不自動清理222
7.4 小結223

第8章 初識Hadoop核心源碼224
8.1 基礎準備與源碼編譯224
8.1.1 準備環境224
8.1.2 載入源碼228
8.1.3 編譯源碼230
8.2 初識Hadoop 2233
8.2.1 Hadoop的起源233
8.2.2 Hadoop 2源碼結構圖234
8.2.3 Hadoop模組包235
8.3 MapReduce框架剖析236
8.3.1 第一代MapReduce框架236
8.3.2 第二代MapReduce框架238
8.3.3 兩代MapReduce框架的區別239
8.3.4 第二代MapReduce框架的重構思路240
8.4 序列化241
8.4.1 序列化的由來242
8.4.2 Hadoop序列化243
8.4.3 Writable實現類245
8.5 小結247

第9章 Hadoop通信機制和內部協議248
9.1 Hadoop RPC概述248
9.1.1 通信模型248
9.1.2 Hadoop RPC特點250
9.2 Hadoop R
 
網路書店 類別 折扣 價格
  1. 新書
    87
    $517