內容簡介

本書旨在為已有一定基礎的R用戶提供現成的方法來實現重要的數據分析任務。全書共分為11章。第1章涵蓋了進行真正的數據分析任務之前的准備工作。第2章討論了數據分析師在實施特定的分析手段之前常用的理解數據的做法。第3章涵蓋了運用分類技術肚餓方法。第4章是關於回歸技術的方法。第5章介紹數據簡化。第6章介紹時間序列分析。第7章討論了社交網絡分析。第8章介紹制作文檔和呈現分析的方法。第9章解決了面對大型數據如何書寫高效且簡潔的R代碼的問題。第10章討論了R在處理空間數據上的強大功能。第11章介紹了R與其他系統的連接。

Viswa Viswanathan是西頓霍爾大學斯蒂爾曼商學院計算和決策科學系的一名副教授。在獲得人工智能領域的博士學位之后,Viswa先從事了十多年學術工作,接下來的十幾年在軟件行業高就。在這段時間中,他曾就職於Infosys、Igate和Starbase公司。他於2011年重新回歸學術界。

Viswa在非常廣泛的領域中開展教學,包括運籌學、計算機科學、軟件工程、管理信息系統,以及企業系統。除了在大學中教學之外,Viswa還負責專業人 士的培訓項目。他有多篇同行評議的研究論文發表在《Operations Research》《IEEE Software》《Computers and Industrial Engineering》以及《International Journal of Artificial Intelligence in Education》等期刊上。他也編寫了《Data Analytics with R: A hands-on approach》一書。

Viswa非常享受親自動手開發軟件的過程,並且獨立構思、搭建、開發、部署了幾個基於網絡的應用程序。

除了對數據分析、人工智能、計算機科學、軟件工程等技術領域有深厚的興趣之外,Viswa也對教育有濃厚的興趣,特別關注學習的根源和培養更深入學習的方法。他已經在這個領域做了不少研究並希望在未來繼續研究這一學科。

Viswa想對Amitava Bagchi和Anup Sen教授表示由衷的感激,他們在Viswa的早期研究生涯中鼓舞了他。同時,他也很感激幾個非常聰明的同事,比如Rajesh Venkatesh、Dan Richner和Sriram Bala,他們極大地影響了他的思想。他的嬸嬸Analdavalli,他的姐妹Sankari,以及他的妻子Shanthi,在辛勤工作上教會了他很 多,即便他只吸收了一點皮毛也覺得受益匪淺。他的兒子Nitin和Siddarth也在很多主題上給出了不計其數的深刻評論。

Shanthi Viswanathan是一位經驗豐富的技術專家,她為許多企業客戶提供技術管理和企業結構咨詢。她曾工作於Infosys、Oracle和 Accenture公司。作為一名顧問,Shanthi為一些大型機構,比如Canon、Cisco、Celgene、Amway、Time Warner Cable和GE等,在數據架構和分析,高級數據管理,面向服務的架構,商業流程管理,以及建模等方面提供幫助。當她空閑時,Shanthi會在紐約州和新澤西州的郊 外徒步旅行,擺弄園藝,以及教授瑜伽。

Shanthi想要感謝她的丈夫Viswa,在他們一起徒步旅行時關於各種主題展開的深入討論;以及將她帶入R和Java的世界。她也要感謝她的兒子Nitin 和 Siddarth使她進入了數據分析領域。
 

目錄

譯者序
作者簡介
審校者簡介
前言
第1章 獲取並准備好材料—數據 1
1.1 引言 1
1.2 從csv文件中讀取數據 1
1.3 讀取XML數據 4
1.4 讀取JSON數據 6
1.5 從定寬格式文件中讀取數據 7
1.6 從R數據文件和R庫中讀取數據 8
1.7 刪除帶有缺失值的樣本 10
1.8 用均值填充缺失值 11
1.9 刪除重復樣本 13
1.10 將變量縮放至[0,1]區間 14
1.11 對數據框中的數據做正則化或標准化 15
1.12 為數值數據分箱 17
1.13 為分類變量創建啞變量 18
第2章 那里面有什麼——探索性數據分析 21
2.1 引言 21
2.2 創建標准化數據概覽 21
2.3 抽取數據集的子集 23
2.4 分割數據集 25
2.5 創建隨機數據分塊 26
2.6 創建直方圖、箱線圖、散點圖等標准化圖像 29
2.7 在網格窗口上創建多個圖像 37
2.8 選擇圖形設備 38
2.9 用lattice包繪圖 39
2.10 用ggplot2包繪圖 42
2.11 創建便於比較的圖表 47
2.12 創建有助於發現因果關系的圖表 51
2.13 創建多元圖像 53
第3章 它屬於哪兒——分類技術 55
3.1 引言 55
3.2 創建誤差/分類–混淆矩陣 55
3.3 創建ROC圖 58
3.4 構建、繪制和評估—分類樹 61
3.5 用隨機森林模型分類 66
3.6 用支持向量機分類 69
3.7 用朴素貝葉斯分類 72
3.8 用K最近鄰分類 74
3.9 用神經網絡分類 77
3.10 用線性判別函數分類 79
3.11 用邏輯回歸分類 80
3.12 用AdaBoost來整合分類樹模型 83
第4章 給我一個數——回歸分析 86
4.1 引言 86
4.2 計算均方根誤差 86
4.3 建立用於回歸的KNN模型 88
4.4 運用線性回歸 94
4.5 在線性回歸中運用變量選擇 99
4.6 建立回歸樹 102
4.7 建立用於回歸的隨機森林模型 108
4.8 用神經網絡做回歸 112
4.9 運用K-折交叉驗證 114
4.10 運用留一交叉驗證來限制過度擬合 116
第5章 你能化簡它嗎——數據簡化技術 118
5.1 引言 118
5.2 用K-均值聚類法實現聚類分析 118
5.3 用系統聚類法實現聚類分析 124
5.4 用主成分分析降低維度 127
第6章 從歷史中學習——時間序列分析 134
6.1 引言 134
6.2 創建並檢查日期對象 134
6.3 對日期對象進行操作 138
6.4 對時間序列數據做初步分析 140
6.5 使用時間序列對象 143
6.6 分解時間序列 149
6.7 對時間序列數據做濾波 151
6.8 用HoltWinters 方法實現平滑和預測 152
6.9 創建自動的ARIMA模型 155
第7章 這都是你的關系——社交網絡分析 157
7.1 引言 157
7.2 通過公共API下載社交網絡數據 157
7.3 創建鄰接矩陣和連邊列表 161
7.4 繪制社交網絡數據 164
7.5 計算重要的網絡度量指標 176
第8章 展現你最好的一面——制作文檔和呈現分析報告 182
8.1 引言 182
8.2 用R Markdown 和 knitR創建數據分析報告 182
8.3 用shiny創建交互式Web應用 191
8.4 用R Presentation為分析報告創建PDF幻燈片 196
第9章 事半功倍——高效且簡潔的R代碼 201
9.1 引言 201
9.2 利用向量化操作 201
9.3 用apply函數操作整行或整列 203
9.4 用lapply和sapply將函數應用於整組元素 206
9.5 在向量的一個子集上應用函數 208
9.6 用plyr完成分割–應用–組合策略 210
9.7 用數據表對數據進行切片、切塊和組合 213
第10章 在哪兒——地理空間信息數據分析 219
10.1 引言 219
10.2 下載並繪制一個地區的谷歌地圖 219
10.3 在已下載的谷歌地圖上疊加數據 222
10.4 將ESRI形狀文件導入到R中 224
10.5 使用sp包繪制地理數據 226
10.6 從maps包中獲取地圖 228
10.7 從包含空間及其他數據的普通數據框中創建空間數據框 229
10.8 通過合並普通數據框和空間對象生成空間數據框 230
10.9 為已有的空間數據框添加變量 234
第11章 友好協作——連接到其他系統 237
11.1 引言 237
11.2 在R中使用Java對象 237
11.3 從Java中用JRI調用R函數 243
11.4 從Java中用Rserve調用R函數 245
11.5 從Java中執行R腳本 248
11.6 使用xlsx包連接到Excel 249
11.7 從關系型數據庫—MySQL中讀取數據 252
11.8 從非關系型數據庫—MongoDB中讀取數據 256
網路書店 類別 折扣 價格
  1. 新書
    87
    $308