本書將涵蓋以下比較重要的挖掘和分析知識點:概率、統計和分布、多維向量空間、回歸、聚類、分類、關聯分析、協同過濾、文本挖掘、神經網絡。同時,講解了大數據相關的人才需求、行業情況、大數據變現與產品發布、系統調優等讀者需要了解的內容。
高揚,金山軟件西山居資深大數據架構師與大數據專家,有多年編程經驗(多年日本和澳洲工作經驗)和多年大數據架構設計與數據分析、處理經驗,目前負責西山居大數據產品的市場戰略。專注於大數據系統架構以及變現研究。擅長數據挖掘、數據建模、關系型數據庫應用以及大數據框架HadooD、Spark、Cassandra、Presto
DB等的應用。負責西山居紫霞系統——大數據日志處理系統的系統架構與設計工作。
衛崢,西山居軟件架構師,多年的軟件開發和架構經驗,精通C/C++、Python、Golang、JavaScript等多門編程語言,近幾年專注於數據處理、機器學算法的研究、應用與服務研發。曾在新浪網平台架構部負責音視頻轉碼平台的架構和研發工作,為新浪微博,新浪微盤,秒拍等提供視頻在線觀看服務。
目錄
前言
第1章大數據產業1
1.1大數據產業現狀1
1.2對大數據產業的理解2
1.3大數據人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環節和工具5
1.3.4門檻障礙6
1.4小結8
第2章步入數據之門9
2.1什麼是數據9
2.2什麼是信息10
2.3什麼是算法12
2.4統計、概率和數據挖掘13
2.5什麼是商業智能13
2.6小結14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應用示例18
3.2.1雙色球彩票18
3.2.2購車搖號20
3.2.3德州撲克21
3.3小結25
第4章統計與分布27
4.1加和值、平均值和標准差27
4.1.1加和值28
4.1.2平均值29
4.1.3標准差30
4.2加權均值32
4.2.1混合物定價32
4.2.2決策權衡34
4.3眾數、中位數35
4.3.1眾數36
4.3.2中位數37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結54
第5章指標55
5.1什麼是指標55
5.2指標化運營58
5.2.1指標的選擇58
5.2.2指標體系的構建62
5.3小結63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計算65
6.2.2信息量的理解66
6.3香農公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計算80
7.3數據立方體83
7.4上卷和下鑽85
7.5小結86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過擬合99
8.5欠擬合100
8.6曲線擬合轉化為線性擬合101
8.7小結104
第9章聚類105
9.1K—Means算法106
9.2有趣模式109
9.3孤立點110
9.4層次聚類110
9.5密度聚類113
9.6聚類評估116
9.6.1聚類趨勢117
9.6.2簇數確定119
9.6.3測定聚類質量121
9.7小結124
第10章分類125
10.1朴素貝葉斯126
10.1.1天氣的預測128
10.1.2疾病的預測130
10.1.3小結132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續型變量137
10.3隨機森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機SVM154
10.5.1年齡和好壞154
10.5.2「下刀」不容易157
10.5.3距離有多遠158
10.5.4N維度空間中的距離159
10.5.5超平面怎麼畫160
10.5.6分不開怎麼辦160
10.5.7示例163
10.5.8小結164
10.6遺傳算法164
10.6.1進化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結181
第11章關聯分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關聯分析與相關性分析192
11.3稀有模式和負模式193
11.4小結194
第12章用戶畫像195
12.1標簽195
12.2畫像的方法196
12.2.1結構化標簽196
12.2.2非結構化標簽198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底「像不像」204
12.4小結205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜索記錄207
13.2User—basedCF209
13.3Item—basedCF211
13.4優化問題215
13.5小結217
第14章文本挖掘218
14.1文本挖掘的領域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2朴素貝葉斯算法223
14.2.3K—近鄰算法225
14.2.4支持向量機SVM算法226
14.3小結227
第15章人工神經網絡228
15.1人的神經網絡228
15.1.1神經網絡結構229
15.1.2結構模擬230
15.1.3訓練與工作231
15.2FANN庫簡介233
15.3常見的神經網絡235
15.4BP神經網絡235
15.4.1結構和原理236
15.4.2訓練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機244
15.5.1退火模型244
15.5.2玻爾茲曼機245
15.6卷積神經網絡247
15.6.1卷積248
15.6.2圖像識別249
15.7深度學習255
15.8小結256
第16章大數據框架簡介257
16.1著名的大數據框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計算WordCount271
16.4分布式列存儲框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什麼那麼快273
16.5.2安裝Presto274
16.6小結277
第17章系統架構和調優278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優化279
17.1.2思路二:容器層面的優化279
17.1.3思路三:存儲結構層面的優化280
17.1.4思路四:環節層面的優化280
17.1.5資源不足281
17.2穩定——資源的可用282
17.2.1借助雲服務282
17.2.2鎖分散282
17.2.3排隊283
17.2.4謹防「雪崩」283
17.3小結285
第18章數據解讀與數據的價值286
18.1運營指標286
18.1.1互聯網類型公司常用指標287
18.1.2注意事項288
18.2AB測試289
18.2.1網頁測試290
18.2.2方案測試290
18.2.3灰度發布292
18.2.4注意事項293
18.3數據可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數據的靈魂299
18.4.1多大算大299
18.4.2大數據網絡300
18.4.3去中心化才能活躍301
18.4.4數據會過剩嗎302
18.5數據變現的場景303
18.5.1數據價值的衡量的討論303
18.5.2場景1:征信數據307
18.5.3場景2:宏觀數據308
18.5.4場景3:畫像數據309
18.6小結310
附錄AVMware Workstation的安裝311
附錄BCentOS虛擬機的安裝方法314
附錄CPython語言簡介318
附錄DScikit—learn庫簡介323
附錄EFANN for Python安裝324
附錄F群眾眼中的大數據325
寫作花絮327
參考文獻329
第1章大數據產業1
1.1大數據產業現狀1
1.2對大數據產業的理解2
1.3大數據人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環節和工具5
1.3.4門檻障礙6
1.4小結8
第2章步入數據之門9
2.1什麼是數據9
2.2什麼是信息10
2.3什麼是算法12
2.4統計、概率和數據挖掘13
2.5什麼是商業智能13
2.6小結14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應用示例18
3.2.1雙色球彩票18
3.2.2購車搖號20
3.2.3德州撲克21
3.3小結25
第4章統計與分布27
4.1加和值、平均值和標准差27
4.1.1加和值28
4.1.2平均值29
4.1.3標准差30
4.2加權均值32
4.2.1混合物定價32
4.2.2決策權衡34
4.3眾數、中位數35
4.3.1眾數36
4.3.2中位數37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結54
第5章指標55
5.1什麼是指標55
5.2指標化運營58
5.2.1指標的選擇58
5.2.2指標體系的構建62
5.3小結63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計算65
6.2.2信息量的理解66
6.3香農公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計算80
7.3數據立方體83
7.4上卷和下鑽85
7.5小結86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過擬合99
8.5欠擬合100
8.6曲線擬合轉化為線性擬合101
8.7小結104
第9章聚類105
9.1K—Means算法106
9.2有趣模式109
9.3孤立點110
9.4層次聚類110
9.5密度聚類113
9.6聚類評估116
9.6.1聚類趨勢117
9.6.2簇數確定119
9.6.3測定聚類質量121
9.7小結124
第10章分類125
10.1朴素貝葉斯126
10.1.1天氣的預測128
10.1.2疾病的預測130
10.1.3小結132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續型變量137
10.3隨機森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機SVM154
10.5.1年齡和好壞154
10.5.2「下刀」不容易157
10.5.3距離有多遠158
10.5.4N維度空間中的距離159
10.5.5超平面怎麼畫160
10.5.6分不開怎麼辦160
10.5.7示例163
10.5.8小結164
10.6遺傳算法164
10.6.1進化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結181
第11章關聯分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關聯分析與相關性分析192
11.3稀有模式和負模式193
11.4小結194
第12章用戶畫像195
12.1標簽195
12.2畫像的方法196
12.2.1結構化標簽196
12.2.2非結構化標簽198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底「像不像」204
12.4小結205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜索記錄207
13.2User—basedCF209
13.3Item—basedCF211
13.4優化問題215
13.5小結217
第14章文本挖掘218
14.1文本挖掘的領域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2朴素貝葉斯算法223
14.2.3K—近鄰算法225
14.2.4支持向量機SVM算法226
14.3小結227
第15章人工神經網絡228
15.1人的神經網絡228
15.1.1神經網絡結構229
15.1.2結構模擬230
15.1.3訓練與工作231
15.2FANN庫簡介233
15.3常見的神經網絡235
15.4BP神經網絡235
15.4.1結構和原理236
15.4.2訓練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機244
15.5.1退火模型244
15.5.2玻爾茲曼機245
15.6卷積神經網絡247
15.6.1卷積248
15.6.2圖像識別249
15.7深度學習255
15.8小結256
第16章大數據框架簡介257
16.1著名的大數據框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計算WordCount271
16.4分布式列存儲框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什麼那麼快273
16.5.2安裝Presto274
16.6小結277
第17章系統架構和調優278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優化279
17.1.2思路二:容器層面的優化279
17.1.3思路三:存儲結構層面的優化280
17.1.4思路四:環節層面的優化280
17.1.5資源不足281
17.2穩定——資源的可用282
17.2.1借助雲服務282
17.2.2鎖分散282
17.2.3排隊283
17.2.4謹防「雪崩」283
17.3小結285
第18章數據解讀與數據的價值286
18.1運營指標286
18.1.1互聯網類型公司常用指標287
18.1.2注意事項288
18.2AB測試289
18.2.1網頁測試290
18.2.2方案測試290
18.2.3灰度發布292
18.2.4注意事項293
18.3數據可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數據的靈魂299
18.4.1多大算大299
18.4.2大數據網絡300
18.4.3去中心化才能活躍301
18.4.4數據會過剩嗎302
18.5數據變現的場景303
18.5.1數據價值的衡量的討論303
18.5.2場景1:征信數據307
18.5.3場景2:宏觀數據308
18.5.4場景3:畫像數據309
18.6小結310
附錄AVMware Workstation的安裝311
附錄BCentOS虛擬機的安裝方法314
附錄CPython語言簡介318
附錄DScikit—learn庫簡介323
附錄EFANN for Python安裝324
附錄F群眾眼中的大數據325
寫作花絮327
參考文獻329
網路書店
類別
折扣
價格
-
新書87折$360