數據挖掘技術已經廣泛用於政府機關、銀行、保險、零售、電信、醫藥和研究領域。最近。越來越多的數據挖掘工作開始使用R工具來完成,R是一個用於統計計算和制圖的免費軟件。在最近的調查中,R已經被評為數據挖掘領域最流行的工具。
趙彥昌編著的《R語言與數據挖掘最佳實踐和經典案例》介紹將R語言用於數據挖掘應用(從學術研究到工業應用),從大量數據中提取出有用知識的各種實用方法。
本書面向數據挖掘領域的研究人員、數據挖掘方向的研究生,以及數據挖掘工程師和分析師,對於學習數據挖掘課程的學生來說具有巨大的參考價值,對於參加數據挖掘與分析的行業培訓課程的人來說是非常有用的資料。
目錄
出版者的話
譯者序
縮寫詞表
第1章 簡介
1.1 數據挖掘
1.3 數據集
1.3.1 iris數據集
1.3.2 bodyfat數據集
第2章 數據的導入與導出
2.1 R數據的保存與加載
2.2 .CSV文件的導入與導出
2.3 從SAS中導入數據
2.4 通過ODBC導入與導出數據
2.4.1 從數據庫中讀取數據
2.4.2 從Excel文件中導入與導出數據
第3章 數據探索
3.1 查看數據
3.2 探索單個變量
3.3 探索多個變量
3.4 更多探索
3.5 將圖表保存到文件中
第4章 決策樹與隨機森林
4.1 使用party包構建決策樹
4.2 使用rpart包構建決策樹
4.3 隨機森林
第5章 回歸分析
5.1 線性回歸
5.2 邏輯回歸
5.3 廣義線性回歸
5.4 非線性回歸
第6章 聚類
6.1 k-means聚類
6.2 k-medoids聚類
6.3 層次聚類
6.4 基於密度的聚類
第7章 離群點檢測
7.1 單變量的離群點檢測
7.2 局部離群點因子檢測
7.3 用聚類方法進行離群點檢測
7.4 時間序列數據的離群點檢測
7.5 討論
第8章 時間序列分析與挖掘
8.1 R中的時間序列數據
8.2 時間序列分解
8.3 時間序列預測
8.4 時間序列聚類
8.4.1 動態時間規整
8.4.2 合成控制圖的時間序列數據
8.4.3 基於歐氏距離的層次聚類
8.4.4 基於DTW距離的層次聚類
8.5 時間序列分類
8.5.1 基於原始數據的分類
8.5.2 基於特征提取的分類
8.5.3 k-NN分類
8.6 討論
8.7 延伸閱讀
第9章 關聯規則
9.1 關聯規則的基本概念
9.2 Titanic數據集
9.3 關聯規則挖掘
9.4 消除冗余
9.5 解釋規則
9.6 關聯規則的可視化
9.7 討論與延伸閱讀
第10章 文本挖掘
10.1 Twitter的文本檢索
10.2 轉換文本
10.3 提取詞干
10.4 建立詞項-文檔矩陣
10.5 頻繁詞項與關聯
10.6 詞雲
10.7 詞項聚類
10.8 推文聚類
10.8.1 基於k-means算法的推文聚類
10.8.2 基於k-medoids算法的推文聚類
10.9 程序包、延伸閱讀與討論
第11章 社交網絡分析
11.1 詞項網絡
11.2 推文網絡
11.3 雙模式網絡
11.4 討論與延伸閱讀
第12章 案例Ⅰ:房價指數的分析與預測
12.1 HPI數據導入
12.2 HPI數據探索
12.3 HPI趨勢與季節性成分
12.4 HPI預測
12.5 房地產估價
12.6 討論
第13章 案例Ⅱ:客戶回復預測與效益最大化
13.1 簡介
13.2 KDD Cup 1998的數據
13.3 數據探索
13.4 訓練決策樹
13.5 模型評估
13.6 選擇最優決策樹
13.7 評分
13.8 討論與總結
第14章 案例Ⅲ:內存受限的大數據預測模型
14.1 簡介
14.2 研究方法
14.3 數據與變量
14.4 隨機森林
14.5 內存問題
14.6 樣本數據的訓練模型
14.7 使用已選變量建立模型
14.8 評分
14.9 輸出規則
14.9.1 以文本格式輸出規則
14.9.2 輸出SAS規則的得分
14.10 總結與討論
第15章 在線資源
15.1 R參考文檔
1
15.3 數據挖掘
15.4 R的數據挖掘
15.5 R的分類與預測
15.6 R的時間序列分析
15.7 R的關聯規則挖掘
15.8 R的空間數據分析
15.9 R的文本挖掘
15.10 R的社交網絡分析
15.11 R的數據清洗與轉換
15.12 R的大數據與並行計算
R語言數據挖掘參考文檔
參考資料
通用索引
包索引
函數索引
譯者序
縮寫詞表
第1章 簡介
1.1 數據挖掘
1.3 數據集
1.3.1 iris數據集
1.3.2 bodyfat數據集
第2章 數據的導入與導出
2.1 R數據的保存與加載
2.2 .CSV文件的導入與導出
2.3 從SAS中導入數據
2.4 通過ODBC導入與導出數據
2.4.1 從數據庫中讀取數據
2.4.2 從Excel文件中導入與導出數據
第3章 數據探索
3.1 查看數據
3.2 探索單個變量
3.3 探索多個變量
3.4 更多探索
3.5 將圖表保存到文件中
第4章 決策樹與隨機森林
4.1 使用party包構建決策樹
4.2 使用rpart包構建決策樹
4.3 隨機森林
第5章 回歸分析
5.1 線性回歸
5.2 邏輯回歸
5.3 廣義線性回歸
5.4 非線性回歸
第6章 聚類
6.1 k-means聚類
6.2 k-medoids聚類
6.3 層次聚類
6.4 基於密度的聚類
第7章 離群點檢測
7.1 單變量的離群點檢測
7.2 局部離群點因子檢測
7.3 用聚類方法進行離群點檢測
7.4 時間序列數據的離群點檢測
7.5 討論
第8章 時間序列分析與挖掘
8.1 R中的時間序列數據
8.2 時間序列分解
8.3 時間序列預測
8.4 時間序列聚類
8.4.1 動態時間規整
8.4.2 合成控制圖的時間序列數據
8.4.3 基於歐氏距離的層次聚類
8.4.4 基於DTW距離的層次聚類
8.5 時間序列分類
8.5.1 基於原始數據的分類
8.5.2 基於特征提取的分類
8.5.3 k-NN分類
8.6 討論
8.7 延伸閱讀
第9章 關聯規則
9.1 關聯規則的基本概念
9.2 Titanic數據集
9.3 關聯規則挖掘
9.4 消除冗余
9.5 解釋規則
9.6 關聯規則的可視化
9.7 討論與延伸閱讀
第10章 文本挖掘
10.1 Twitter的文本檢索
10.2 轉換文本
10.3 提取詞干
10.4 建立詞項-文檔矩陣
10.5 頻繁詞項與關聯
10.6 詞雲
10.7 詞項聚類
10.8 推文聚類
10.8.1 基於k-means算法的推文聚類
10.8.2 基於k-medoids算法的推文聚類
10.9 程序包、延伸閱讀與討論
第11章 社交網絡分析
11.1 詞項網絡
11.2 推文網絡
11.3 雙模式網絡
11.4 討論與延伸閱讀
第12章 案例Ⅰ:房價指數的分析與預測
12.1 HPI數據導入
12.2 HPI數據探索
12.3 HPI趨勢與季節性成分
12.4 HPI預測
12.5 房地產估價
12.6 討論
第13章 案例Ⅱ:客戶回復預測與效益最大化
13.1 簡介
13.2 KDD Cup 1998的數據
13.3 數據探索
13.4 訓練決策樹
13.5 模型評估
13.6 選擇最優決策樹
13.7 評分
13.8 討論與總結
第14章 案例Ⅲ:內存受限的大數據預測模型
14.1 簡介
14.2 研究方法
14.3 數據與變量
14.4 隨機森林
14.5 內存問題
14.6 樣本數據的訓練模型
14.7 使用已選變量建立模型
14.8 評分
14.9 輸出規則
14.9.1 以文本格式輸出規則
14.9.2 輸出SAS規則的得分
14.10 總結與討論
第15章 在線資源
15.1 R參考文檔
1
15.3 數據挖掘
15.4 R的數據挖掘
15.5 R的分類與預測
15.6 R的時間序列分析
15.7 R的關聯規則挖掘
15.8 R的空間數據分析
15.9 R的文本挖掘
15.10 R的社交網絡分析
15.11 R的數據清洗與轉換
15.12 R的大數據與並行計算
R語言數據挖掘參考文檔
參考資料
通用索引
包索引
函數索引
網路書店
類別
折扣
價格
-
新書87折$256