譯者序
作者簡介
審校者簡介
前言
第1章 獲取並准備好材料—數據 1
1.1 引言 1
1.2 從csv文件中讀取數據 1
1.3 讀取XML數據 4
1.4 讀取JSON數據 6
1.5 從定寬格式文件中讀取數據 7
1.6 從R數據文件和R庫中讀取數據 8
1.7 刪除帶有缺失值的樣本 10
1.8 用均值填充缺失值 11
1.9 刪除重復樣本 13
1.10 將變量縮放至[0,1]區間 14
1.11 對數據框中的數據做正則化或標准化 15
1.12 為數值數據分箱 17
1.13 為分類變量創建啞變量 18
第2章 那里面有什麼——探索性數據分析 21
2.1 引言 21
2.2 創建標准化數據概覽 21
2.3 抽取數據集的子集 23
2.4 分割數據集 25
2.5 創建隨機數據分塊 26
2.6 創建直方圖、箱線圖、散點圖等標准化圖像 29
2.7 在網格窗口上創建多個圖像 37
2.8 選擇圖形設備 38
2.9 用lattice包繪圖 39
2.10 用ggplot2包繪圖 42
2.11 創建便於比較的圖表 47
2.12 創建有助於發現因果關系的圖表 51
2.13 創建多元圖像 53
第3章 它屬於哪兒——分類技術 55
3.1 引言 55
3.2 創建誤差/分類–混淆矩陣 55
3.3 創建ROC圖 58
3.4 構建、繪制和評估—分類樹 61
3.5 用隨機森林模型分類 66
3.6 用支持向量機分類 69
3.7 用朴素貝葉斯分類 72
3.8 用K最近鄰分類 74
3.9 用神經網絡分類 77
3.10 用線性判別函數分類 79
3.11 用邏輯回歸分類 80
3.12 用AdaBoost來整合分類樹模型 83
第4章 給我一個數——回歸分析 86
4.1 引言 86
4.2 計算均方根誤差 86
4.3 建立用於回歸的KNN模型 88
4.4 運用線性回歸 94
4.5 在線性回歸中運用變量選擇 99
4.6 建立回歸樹 102
4.7 建立用於回歸的隨機森林模型 108
4.8 用神經網絡做回歸 112
4.9 運用K-折交叉驗證 114
4.10 運用留一交叉驗證來限制過度擬合 116
第5章 你能化簡它嗎——數據簡化技術 118
5.1 引言 118
5.2 用K-均值聚類法實現聚類分析 118
5.3 用系統聚類法實現聚類分析 124
5.4 用主成分分析降低維度 127
第6章 從歷史中學習——時間序列分析 134
6.1 引言 134
6.2 創建並檢查日期對象 134
6.3 對日期對象進行操作 138
6.4 對時間序列數據做初步分析 140
6.5 使用時間序列對象 143
6.6 分解時間序列 149
6.7 對時間序列數據做濾波 151
6.8 用HoltWinters 方法實現平滑和預測 152
6.9 創建自動的ARIMA模型 155
第7章 這都是你的關系——社交網絡分析 157
7.1 引言 157
7.2 通過公共API下載社交網絡數據 157
7.3 創建鄰接矩陣和連邊列表 161
7.4 繪制社交網絡數據 164
7.5 計算重要的網絡度量指標 176
第8章 展現你最好的一面——制作文檔和呈現分析報告 182
8.1 引言 182
8.2 用R Markdown 和 knitR創建數據分析報告 182
8.3 用shiny創建交互式Web應用 191
8.4 用R Presentation為分析報告創建PDF幻燈片 196
第9章 事半功倍——高效且簡潔的R代碼 201
9.1 引言 201
9.2 利用向量化操作 201
9.3 用apply函數操作整行或整列 203
9.4 用lapply和sapply將函數應用於整組元素 206
9.5 在向量的一個子集上應用函數 208
9.6 用plyr完成分割–應用–組合策略 210
9.7 用數據表對數據進行切片、切塊和組合 213
第10章 在哪兒——地理空間信息數據分析 219
10.1 引言 219
10.2 下載並繪制一個地區的谷歌地圖 219
10.3 在已下載的谷歌地圖上疊加數據 222
10.4 將ESRI形狀文件導入到R中 224
10.5 使用sp包繪制地理數據 226
10.6 從maps包中獲取地圖 228
10.7 從包含空間及其他數據的普通數據框中創建空間數據框 229
10.8 通過合並普通數據框和空間對象生成空間數據框 230
10.9 為已有的空間數據框添加變量 234
第11章 友好協作——連接到其他系統 237
11.1 引言 237
11.2 在R中使用Java對象 237
11.3 從Java中用JRI調用R函數 243
11.4 從Java中用Rserve調用R函數 245
11.5 從Java中執行R腳本 248
11.6 使用xlsx包連接到Excel 249
11.7 從關系型數據庫—MySQL中讀取數據 252
11.8 從非關系型數據庫—MongoDB中讀取數據 256