數據挖掘核心技術揭秘

數據挖掘核心技術揭秘
定價:354
NT $ 308
  • 作者:賈雙成王奇
  • 出版社:機械工業出版社
  • 出版日期:2016-01-01
  • 語言:簡體中文
  • ISBN10:7111519248
  • ISBN13:9787111519249
  • 裝訂:201頁 / 普通級 / 1-1
 

內容簡介

本書包括五部分。首部分(第1~3章)涉及數據挖掘技術的基礎知識,介紹數據挖掘的定義、數據挖掘工具及應用領域,數據挖掘的數學基礎內容,以及海量數據挖掘處理技術。

第二部分(第4~5章)分別從聚類技術和離群點挖掘技術闡述聚類在語音區分、新聞分組、銷售策略制定、交通事故預測、欺詐檢測、入侵檢測、異常氣候檢測等方面的應用。

第三部分(第6~11章)分別從決策樹、基於實例的學習、支持向量機、貝葉斯學習、人工神經網絡、遺傳算法在病情診斷、信用卡欺詐、機械裝備設計、法律案件審理、動物分類、垃圾郵件過濾、手寫文字識別、股票價格預測、人臉識別、音樂生成等方面闡述分類的應用。

第四部分(第12章)闡述回歸數據挖掘技術的應用,涉及卡爾曼算法在股票價格預測、GPS定位方面的應用。第五部分(第13章)介紹推薦系統這個最典型的數據挖掘應用。附錄總結本書內容,闡述數據挖掘技術的數學本質。

賈雙成,江南大學碩士,現為阿里巴巴高級工程師,擅長於數據編譯、數據挖掘的系統分析和架構設計,研究方向包括幾何算法、數據編譯、數據挖掘算法及應用。

曾發表專利、論文三十余篇。在研究算法之余,也喜歡涉獵管理學、哲學、心理學、歷史等領域的知識。王奇,阿里巴巴工程師,北京航空航天大學碩士,擅長於智能交通數據處理、數據挖掘,研究方向包括導航定位、浮動車處理、數據挖掘算法及應用。

曾發表發明專利、論文10余項或篇,喜歡旅游,愛好閱讀,廣泛涉獵文學、小說、經濟類書籍。
 

目錄

前 言
第一部分 基 礎 知 識
第1章 引言2
1.1 數據挖掘的含義2
1.2 數據挖掘的演變過程3
1.3 數據工具簡介4
1.3.1 Hadoop與MapReduce5
1.3.2 Pig語言8
1.3.3 MATLAB編程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R語言編程12
1.4 數據挖掘應用領域13
1.5 小結14
第2章 數學基礎15
2.1 概率統計16
2.1.1 基本概念16
2.1.2 隨機變量及其分布19
2.2 相似度24
2.2.1 期望與方差25
2.2.2 距離27
2.2.3 相關系數31
2.3 矩陣計算34
2.4 最小二乘法39
2.4.1 最小二乘法定義39
2.4.2 回歸40
2.4.3 參數的最小二乘法估計42
第3章 海量數據處理技術46
3.1 索引技術46
3.1.1 數據庫索引46
3.1.2 文本索引49
3.2 海量數據處理技術52
3.2.1 外排序53
3.2.2 分布式處理53
3.2.3 Bloom filter54
3.2.4 常用技巧55
第二部分 聚 類
第4章 聚類58
4.1 應用場景58
4.1.1 語音區分58
4.1.2 新聞分組59
4.1.3 選定銷售策略59
4.1.4 交通事件預測59
4.2 聚類技術60
4.2.1 划分聚類61
4.2.2 層次聚類67
4.2.3 基於密度的聚類70
4.2.4 基於網格的聚類72
4.3 多元分析72
4.3.1 主成分分析法73
4.3.2 因子分析83
4.3.3 對比分析83
第5章 離群點挖掘技術85
5.1 應用場景85
5.1.1 異常交通事件檢測85
5.1.2 欺詐檢測85
5.1.3 入侵檢測86
5.1.4 異常氣候檢測86
5.2 離群點挖掘技術86
5.2.1 基於統計的離群點挖掘技術87
5.2.2 基於鄰近度的離群點挖掘技術88
5.2.3 基於密度的離群點挖掘技術89
5.2.4 基於聚類的離群點挖掘技術92
5.2.5 高維數據的離群點檢測算法93
第三部分 分 類
第6章 決策樹98
6.1 應用場景98
6.1.1 病情診斷98
6.1.2 信用卡欺詐檢測98
6.2 決策樹技術99
6.2.1 概述99
6.2.2 技術實現100
6.2.3 多分類決策樹104
6.2.4 參考實例106
第7章 基於實例的學習108
7.1 應用場景108
7.1.1 機械裝備的總體設計108
7.1.2 對新的法律案件的推理109
7.1.3 規划或調度問題109
7.2 K近鄰算法110
7.3 K-D樹111
7.3.1 近鄰的實現:K-D樹111
7.3.2 K-D樹的構建112
7.3.3 K-D樹的最近鄰搜索算法113
第8章 支持向量機115
8.1 應用場景115
8.1.1 病情分類115
8.1.2 動物分類116
8.2 支持向量機技術116
8.2.1 概述116
8.2.2 技術實現118
8.2.3 核函數122
8.2.4 多類分類器124
第9章 貝葉斯學習126
9.1 應用場景126
9.1.1 垃圾郵件過濾126
9.1.2 手寫文字識別127
9.1.3 拼寫檢查128
9.1.4 分詞128
9.1.5 語音識別129
9.1.6 股票價格預測129
9.1.7 病情診斷129
9.1.8 選定銷售策略130
9.1.9 交通事件預測130
9.2 貝葉斯學習技術131
9.2.1 概述131
9.2.2 技術實現131
9.2.3 參考實例135
第10章 人工神經網絡138
10.1 應用場景138
10.1.1 信用卡欺詐檢測138
10.1.2 病情診斷139
10.1.3 足球比賽預測139
10.1.4 圖像姿勢識別139
10.1.5 利用圖像識別的自動駕駛140
10.1.6 人臉識別140
10.1.7 語音分類識別141
10.2 人工神經網絡技術142
10.2.1 概述142
10.2.2 技術實現142
10.2.3 參考實例145
第11章 遺傳算法152
11.1 應用場景152
11.1.1 私人定制的電影152
11.1.2 國際象棋學習153
11.1.3 電路設計154
11.1.4 機器人的模擬控制154
11.1.5 函數設計154
11.1.6 唐詩生成器155
11.1.7 音樂生成器155
11.2 遺傳技術155
11.2.1 概述155
11.2.2 技術實現158
11.2.3 參考實例:背包問題166
第四部分 回 歸
第12章 卡爾曼算法170
12.1 應用場景170
12.1.1 股票價格預測170
12.1.2 GPS定位預測171
12.2 卡爾曼技術171
12.2.1 卡爾曼算法定義171
12.2.2 技術實現172
12.2.3 參考實例:GPS定位175
第五部分 應 用
第13章 推薦系統180
13.1 應用場景181
13.1.1 歌曲推薦181
13.1.2 QQ好友圈子的推薦功能182
13.1.3 今日頭條183
13.1.4 淘 寶商品推薦184
13.1.5 Netflix電影推薦184
13.1.6 豆瓣FM的推薦185
13.1.7 為用戶定制的廣告185
13.1.8 蘋果APP排名的規則186
13.2 推薦系統技術186
13.2.1 協同過濾187
13.2.2 基於內容的推薦188
13.2.3 推薦系統的缺陷189
13.2.4 潛在因子算法190
13.2.5 參考實例:音樂推薦193
附錄A 數據挖掘技術總結197
網路書店 類別 折扣 價格
  1. 新書
    87
    $308