本書主要分為三個部分,基礎篇、建模應用篇和Rattle篇。
基礎篇(第1~5章)介紹了有關R語言的安裝與使用、R語言中的數據結構、常用操作和繪圖功能等基礎功能。
建模應用篇(第6~10章)主要介紹了目前在數據挖掘中的常用的建模方法在R語言中的實現函數,並對輸出結果進行了解釋,有助於讀者快速掌握應用R語言進行分析挖掘建模的方法。Rattle篇(第11章)介紹了一個R語言的圖形界面工具。
圖書配套提供了程序代碼及數據,讀者可通過上機實驗,快速掌握書中所介紹的R語言的使用方法。
張良均,資深大數據挖掘專家和模式識別專家,有10多年的大數據挖掘應用、咨詢經驗,10余年數據倉庫系統管理與實施經驗,超過10年的系統開發與設計經驗。為電信、電力、互聯網、生產制造、零售、銀行、生物、化工、醫藥等多個行業上百家大型企業提供過數據挖掘應用與咨詢服務,實踐經驗非常豐富。此外,他精通Java
EE企業級應用開發,是廣東工業大學和華南師范大學兼職教授,著有《神經網絡實用教程》、《數據挖掘:實用案例分析》等暢銷書。謝佳標,資深R語言專家,多次於中國R語言大會發表演講,具有十余年的數據挖掘實戰經驗。目前於某上市互聯網游戲公司,任高級數據分析師,負責大數據挖掘及可視化。培訓過的精品課程有:《R語言基礎訓練》《數據分析之R語言實戰》《機器學習與R語言實踐》等。
目錄
前 言
第一部分 基礎篇
第1章 R語言的安裝與使用 2
1.1 R安裝與升級 3
1.2 R使用入門 4
1.2.1 R操作界面 4
1.2.2 RStudio窗口介紹 5
1.2.3 R常用操作 6
1.3 R數據分析包 8
1.4 配套資源使用說明 10
1.5 小結 10
1.6 上機實驗 10
第2章 數據對象與數據讀寫 12
2.1 數據類型 12
2.2 數據結構 16
2.2.1 向量 16
2.2.2 矩陣 19
2.2.3 數組 24
2.2.4 數據框 25
2.2.5 因子 28
2.2.6 列表 31
2.3 數據文件的讀寫 34
2.3.1 鍵盤輸入數據 34
2.3.2 讀取不同格式的數據 35
2.3.3 從其他統計軟件獲取數據 37
2.3.4 從數據庫獲取數據 37
2.3.5 從網頁獲取數據 39
2.4 小結 40
2.5 上機實驗 40
第3章 R語言常用數據管理 42
3.1 變量的重命名 42
3.2 缺失值分析 45
3.3 數據排序 46
3.4 隨機抽樣 48
3.5 數值運算函數 49
3.6 字符串處理 52
3.7 文本分詞 56
3.8 apply函數族 62
3.9 數據整合 65
3.10 控制流 68
3.11 函數的編寫 71
3.12 小結 72
3.13 上機實驗 73
第4章 圖形探索 75
4.1 圖形元素 76
4.1.1 顏色 76
4.1.2 點 80
4.1.3 文本 82
4.1.4 線條 86
4.1.5 圖例 91
4.1.6 坐標軸 92
4.2 圖形組合 94
4.3 圖形保存 97
4.4 圖形函數 98
4.5 小結 116
4.6 上機實驗 116
第5章 高級繪圖工具 117
5.1 lattice包繪圖工具 117
5.1.1 繪圖特色 117
5.1.2 基本圖形 122
5.2 ggplot2包繪圖工具 135
5.2.1 從qplot開始 135
5.2.2 ggplot作圖 137
5.3 交互式繪圖工具簡介 142
5.3.1 rCharts包 143
5.3.2 recharts包 147
5.3.3 googleVis包 147
5.3.4 htmlwidgets包 148
5.3.5 shiny包 153
5.4 小結 163
5.5 上機實驗 163
第二部分 建模應用篇
第6章 分類與預測 166
6.1 回歸分析 166
6.2 決策樹 175
6.2.1 C4.5算法 176
6.2.2 CART算法 178
6.2.3 C5.0算法 180
6.3 人工神經網絡 181
6.4 KNN算法 183
6.5 朴素貝葉斯分類 185
6.6 其他分類與預測算法函數 187
6.7 分類與預測算法評價 192
6.8 小結 196
6.9 上機實驗 196
第7章 聚類分析 198
7.1 K-Means聚類分析函數 199
7.2 層次聚類算法 204
7.3 其他聚類分析函數 207
7.4 小結 211
7.5 上機實驗 212
第8章 關聯規則 213
8.1 Apriori關聯規則 214
8.2 小結 226
8.3 上機實驗 226
第9章 智能推薦 228
9.1 智能推薦模型構建 228
9.2 智能推薦模型評價 232
9.3 小結 235
9.4 上機實驗 235
第10章 時間序列 237
10.1 ARIMA模型 237
10.2 其他時間序列模型 245
10.3 小結 250
10.4 上機實驗 251
第三部分 Rattle篇
第11章 可視化數據挖掘工具Rattle 254
11.1 Rattle簡介及其安裝 254
11.1.1 Rattle簡介 254
11.1.2 Rattle安裝 254
11.2 功能預覽 255
11.3 數據導入 256
11.3.1 導入CSV數據 256
11.3.2 導入ARFF數據 261
11.3.3 導入ODBC數據 262
11.3.4 R Dataset--導入其他數據源 264
11.3.5 導入RData File數據集 267
11.3.6 導入Library數據 268
11.4 數據探索 269
11.4.1 數據總體概況 269
11.4.2 數據分布探索 272
11.4.3 相關性 275
11.4.4 主成分 277
11.4.5 交互圖 278
11.5 數據建模 283
11.5.1 聚類分析 283
11.5.2 關聯規則 288
11.5.3 決策樹 291
11.5.4 隨機森林 293
11.6 模型評估 296
11.6.1 混淆矩陣 296
11.6.2 風險圖 296
11.6.3 ROC圖及相關圖表 297
11.6.4 模型得分數據集 298
11.7 小結 299
11.8 上機實驗 299
參考資料 301
第一部分 基礎篇
第1章 R語言的安裝與使用 2
1.1 R安裝與升級 3
1.2 R使用入門 4
1.2.1 R操作界面 4
1.2.2 RStudio窗口介紹 5
1.2.3 R常用操作 6
1.3 R數據分析包 8
1.4 配套資源使用說明 10
1.5 小結 10
1.6 上機實驗 10
第2章 數據對象與數據讀寫 12
2.1 數據類型 12
2.2 數據結構 16
2.2.1 向量 16
2.2.2 矩陣 19
2.2.3 數組 24
2.2.4 數據框 25
2.2.5 因子 28
2.2.6 列表 31
2.3 數據文件的讀寫 34
2.3.1 鍵盤輸入數據 34
2.3.2 讀取不同格式的數據 35
2.3.3 從其他統計軟件獲取數據 37
2.3.4 從數據庫獲取數據 37
2.3.5 從網頁獲取數據 39
2.4 小結 40
2.5 上機實驗 40
第3章 R語言常用數據管理 42
3.1 變量的重命名 42
3.2 缺失值分析 45
3.3 數據排序 46
3.4 隨機抽樣 48
3.5 數值運算函數 49
3.6 字符串處理 52
3.7 文本分詞 56
3.8 apply函數族 62
3.9 數據整合 65
3.10 控制流 68
3.11 函數的編寫 71
3.12 小結 72
3.13 上機實驗 73
第4章 圖形探索 75
4.1 圖形元素 76
4.1.1 顏色 76
4.1.2 點 80
4.1.3 文本 82
4.1.4 線條 86
4.1.5 圖例 91
4.1.6 坐標軸 92
4.2 圖形組合 94
4.3 圖形保存 97
4.4 圖形函數 98
4.5 小結 116
4.6 上機實驗 116
第5章 高級繪圖工具 117
5.1 lattice包繪圖工具 117
5.1.1 繪圖特色 117
5.1.2 基本圖形 122
5.2 ggplot2包繪圖工具 135
5.2.1 從qplot開始 135
5.2.2 ggplot作圖 137
5.3 交互式繪圖工具簡介 142
5.3.1 rCharts包 143
5.3.2 recharts包 147
5.3.3 googleVis包 147
5.3.4 htmlwidgets包 148
5.3.5 shiny包 153
5.4 小結 163
5.5 上機實驗 163
第二部分 建模應用篇
第6章 分類與預測 166
6.1 回歸分析 166
6.2 決策樹 175
6.2.1 C4.5算法 176
6.2.2 CART算法 178
6.2.3 C5.0算法 180
6.3 人工神經網絡 181
6.4 KNN算法 183
6.5 朴素貝葉斯分類 185
6.6 其他分類與預測算法函數 187
6.7 分類與預測算法評價 192
6.8 小結 196
6.9 上機實驗 196
第7章 聚類分析 198
7.1 K-Means聚類分析函數 199
7.2 層次聚類算法 204
7.3 其他聚類分析函數 207
7.4 小結 211
7.5 上機實驗 212
第8章 關聯規則 213
8.1 Apriori關聯規則 214
8.2 小結 226
8.3 上機實驗 226
第9章 智能推薦 228
9.1 智能推薦模型構建 228
9.2 智能推薦模型評價 232
9.3 小結 235
9.4 上機實驗 235
第10章 時間序列 237
10.1 ARIMA模型 237
10.2 其他時間序列模型 245
10.3 小結 250
10.4 上機實驗 251
第三部分 Rattle篇
第11章 可視化數據挖掘工具Rattle 254
11.1 Rattle簡介及其安裝 254
11.1.1 Rattle簡介 254
11.1.2 Rattle安裝 254
11.2 功能預覽 255
11.3 數據導入 256
11.3.1 導入CSV數據 256
11.3.2 導入ARFF數據 261
11.3.3 導入ODBC數據 262
11.3.4 R Dataset--導入其他數據源 264
11.3.5 導入RData File數據集 267
11.3.6 導入Library數據 268
11.4 數據探索 269
11.4.1 數據總體概況 269
11.4.2 數據分布探索 272
11.4.3 相關性 275
11.4.4 主成分 277
11.4.5 交互圖 278
11.5 數據建模 283
11.5.1 聚類分析 283
11.5.2 關聯規則 288
11.5.3 決策樹 291
11.5.4 隨機森林 293
11.6 模型評估 296
11.6.1 混淆矩陣 296
11.6.2 風險圖 296
11.6.3 ROC圖及相關圖表 297
11.6.4 模型得分數據集 298
11.7 小結 299
11.8 上機實驗 299
參考資料 301
網路書店
類別
折扣
價格
-
新書79折$280