數據挖掘是當前數據分析領域中最活躍最前沿的地帶。本書以數據挖掘的實踐過程為主線,通過生動的應用案例,從數據挖掘實施角度,系統介紹了經典的數據挖掘方法和利用Clementine實現數據挖掘的全部過程,講解方法從易到難,說明問題從淺至深。本書力求以最通俗的方式闡述數據挖掘方法的核心思想與基本原理,同時配合Clementine軟件操作的說明,希望讀者能夠直觀了解方法本質,盡快掌握Clementine軟件使用,並應用到數據挖掘實踐中。為方便讀者學習,書中所有數據和案例與所附光盤內容一致。
本書適合于從事數據分析各應用領域的讀者,尤其適合于商業管理、財政經濟、金融保險、社會研究、人文教育等行業的相關人員。同時,也能夠作為高等院校計算機類、財經類、管理類專業本科生和研究生的數據挖掘教材。
目錄
第1章 數據挖掘和Clementine概述
1.1 數據挖掘的產生背景
1.1.1 海量數據的分析需求催生數據挖掘
1.1.2 應用對理論的挑戰催生數據挖掘
1.2 什麼是數據挖掘
1.2.1 數據挖掘的概念
1.2.2 數據挖掘能做什麼
1.2.3 數據挖掘得到的知識形式
1.2.4 數據挖掘的算法分類
1.3 Clementine軟件概述
1.3.1 Clementine的窗口
1.3.2 數據流的基本管理和執行
1.3.3 數據流的其他管理
1.3.4 從一個示例看Clementine的使用
第2章 Clementine數據的讀入
2.1 變量的類型
2.1.1 從數據挖掘角度看變量類型
2.1.2 從數據存儲角度看變量類型
2.2 讀入數據
2.2.1 讀自由格式的文本文件
2.2.2 讀Excel電子表格數據
2.2.3 讀SPSS格式文件
2.2.4 讀數據庫文件
2.3 生成實驗方案數據
2.4 合並數據
2.4.1 數據的縱向合並
2.4.2 數據的橫向合並
第3章 Clementine變量的管理
3.1 變量說明
3.1.1 取值範圍和缺失值的說明
3.1.2 變量取值有效性檢查和修正
3.1.3 變量角色的說明
3.2 變量值的重新計算
3.2.1 CLEM表達式
3.2.2 變量值重新計算示例
3.3 變量類別值的調整
3.4 生成新變量
3.5 變量值的離散化處理
3.5.1 常用的分箱方法
3.5.2 變量值的離散化處理示例
3.6 生成樣本集分割變量
3.6.1 樣本集分割的意義和常見方法
3.6.2 生成樣本集分割變量的示例
第4章 Clementine樣本的管理
4.1 樣本的排序
4.2 樣本的條件篩選
4.3 樣本的隨機抽樣
4.4 樣本的濃縮處理
4.5 樣本的分類匯總
4.6 樣本的平衡處理
4.7 樣本的其他管理
4.7.1 數據轉置
4.7.2 數據的重新組織
第5章 Clementine數據的基本分析
5.1 數據質量的探索
5.1.1 數據的基本描述與質量探索
5.1.2 離群點和極端值的修正
5.1.3 缺失值的替補
5.1.4 數據質量管理的其他功能
5.2 基本描述分析
5.2.1 計算基本描述統計量
5.2.2 繪制散點圖
5.3 變量分布的探索
5.4 兩分類變量相關性的研究
5.4.1 兩分類變量相關性的圖形分析
5.4.2 兩分類變量相關性的數值分析
5.5 兩總體的均值比較
5.5.1 兩總體均值比較的圖形分析
5.5.2 獨立樣本的均值檢驗
5.5.3 配對樣本的均值檢驗
5.6 變量重要性的分析
5.6.1 變量重要性分析的一般方法
5.6.2 變量重要性分析的應用示例
第6章 分類預測︰Clementine的決策樹
6.1 決策樹算法概述
6.1.1 什麼是決策樹
6.1.2 決策樹的幾何理解
6.1.3 決策樹的核心問題
6.2 Clementine的C5.0算法及應用
6.2.1 信息熵和信息增益
6.2.2 C5.0的決策樹生長算法
6.2.3 C5.0的剪枝算法
6.2.4 C5.0的推理規則集
6.2.5 C5.0的基本應用示例
6.2.6 C5.0的損失矩陣和Boosting技術
6.2.7 C5.0的模型評價
6.2.8 C5.0的其他話題︰推理規則、交叉驗證和未剪枝的決策樹
6.3 Clementine的分類回歸樹及應用
6.3.1 分類回歸樹的生長過程
6.3.2 分類回歸樹的剪枝過程
6.3.3 損失矩陣對分類樹的影響
6.3.4 分類回歸樹的基本應用示例
6.3.5 分類回歸樹的交互建模
6.3.6 分類回歸樹的模型評價
6.4 Clementine的CHAID算法及應用
6.4.1 CHAID分組變量的預處理和選擇策略
6.4.2 Exhaustive CHAID算法
6.4.3 CHAID的剪枝
6.4.4 CHAID的應用示例
6.5 Clementine的QUEST算法及應用
6.5.1 QUEST算法確定最佳分組變量和分割點的方法
6.5.2 QUEST算法的應用示例
6.6 決策樹算法評估的圖形比較
6.6.1 不同模型的誤差對比
6.6.2 不同模型收益的對比
第7章 分類預測︰Clementine的人工神經網絡
7.1 人工神經網絡算法概述
7.1.1 人工神經網絡的概念和種類
7.1.2 人工神經網絡中的節點和意義
7.1.3 人工神經網絡建立的一般步驟
7.2 Clementine的B-P反向傳播網絡
7.2.1 感知機模型
7.2.2 B-P反向傳播網絡的特點
7.2.3 B-P反向傳播算法
7.2.4 B-P反向傳播網絡的其他問題
7.3 Clementine的B-P反向傳播網絡的應用
7.3.1 基本操作說明
7.3.2 計算結果說明
7.3.3 提高模型預測精度
7.4 Clementine的徑向基函數網絡及應用
7.4.1 徑向基函數網絡中的隱節點和輸出節點
7.4.2 徑向基函數網絡的學習過程
7.4.3 徑向基函數網絡的應用示例
第8章 分類預測︰Clementine的統計方法
8.1 Clementine的Logistic回歸分析及應用
8.1.1 二項Logistic回歸方程
8.1.2 二項Logistic回歸方程系數的含義
8.1.3 二項Logistic回歸方程的檢驗
8.1.4 二項Logistic回歸分析的應用示例
8.1.5 多項Logistic回歸分析的應用示例
8.2 Clementine的判別分析及應用
8.2.1 距離判別法
8.2.2 Fisher判別法
8.2.3 貝葉斯判別法
8.2.4 判別分析的應用示例
第9章 探索內部結構︰Clementine的關聯分析
9.1 簡單關聯規則及其有效性
9.1.1 簡單關聯規則的基本概念
9.1.2 簡單關聯規則的有效性和實用性
9.2 Clementine的Apriori算法及應用
9.2.1 產生頻繁項集
9.2.2 依據頻繁項集產生簡單關聯規則
9.2.3 Apriori算法的應用示例
9.3 Clementine的GRI算法及應用
9.3.1 GRI算法基本思路
9.3.2 GRI算法的具體策略
9.3.3 GRI算法的應用示例
9.4 Clementine的序列關聯及應用
9.4.1 序列關聯中的基本概念
9.4.2 Sequence算法
9.4.3 序列關聯的時間約束
9.4.4 序列關聯分析的應用示例
第10章 探索內部結構︰Clementine的聚類分析
10.1 聚類分析的一般問題
10.1.1 聚類分析的提出
10.1.2 聚類分析的算法
10.2 Clementine的K-Means聚類及應用
10.2.1 K-Means對“親疏程度”的測度
10.2.2 K-Means聚類過程
10.2.3 K-Means聚類的應用示例
10.3 Clementine的兩步聚類及應用
10.3.1 兩步聚類對“親疏程度”的測度
10.3.2 兩步聚類過程
10.3.3 聚類數目的確定
10.3.4 兩步聚類的應用示例
10.4 Clementine的Kohonen網絡聚類及應用
10.4.1 Kohonen網絡的聚類機理
10.4.2 Kohonen網絡的聚類過程
10.4.3 Kohonen網絡聚類的示例
10.5 基于聚類分析的離群點探索及應用
10.5.1 多維空間基于聚類的診斷方法
10.5.2 多維空間基于聚類的診斷方法應用示例
參考文獻
1.1 數據挖掘的產生背景
1.1.1 海量數據的分析需求催生數據挖掘
1.1.2 應用對理論的挑戰催生數據挖掘
1.2 什麼是數據挖掘
1.2.1 數據挖掘的概念
1.2.2 數據挖掘能做什麼
1.2.3 數據挖掘得到的知識形式
1.2.4 數據挖掘的算法分類
1.3 Clementine軟件概述
1.3.1 Clementine的窗口
1.3.2 數據流的基本管理和執行
1.3.3 數據流的其他管理
1.3.4 從一個示例看Clementine的使用
第2章 Clementine數據的讀入
2.1 變量的類型
2.1.1 從數據挖掘角度看變量類型
2.1.2 從數據存儲角度看變量類型
2.2 讀入數據
2.2.1 讀自由格式的文本文件
2.2.2 讀Excel電子表格數據
2.2.3 讀SPSS格式文件
2.2.4 讀數據庫文件
2.3 生成實驗方案數據
2.4 合並數據
2.4.1 數據的縱向合並
2.4.2 數據的橫向合並
第3章 Clementine變量的管理
3.1 變量說明
3.1.1 取值範圍和缺失值的說明
3.1.2 變量取值有效性檢查和修正
3.1.3 變量角色的說明
3.2 變量值的重新計算
3.2.1 CLEM表達式
3.2.2 變量值重新計算示例
3.3 變量類別值的調整
3.4 生成新變量
3.5 變量值的離散化處理
3.5.1 常用的分箱方法
3.5.2 變量值的離散化處理示例
3.6 生成樣本集分割變量
3.6.1 樣本集分割的意義和常見方法
3.6.2 生成樣本集分割變量的示例
第4章 Clementine樣本的管理
4.1 樣本的排序
4.2 樣本的條件篩選
4.3 樣本的隨機抽樣
4.4 樣本的濃縮處理
4.5 樣本的分類匯總
4.6 樣本的平衡處理
4.7 樣本的其他管理
4.7.1 數據轉置
4.7.2 數據的重新組織
第5章 Clementine數據的基本分析
5.1 數據質量的探索
5.1.1 數據的基本描述與質量探索
5.1.2 離群點和極端值的修正
5.1.3 缺失值的替補
5.1.4 數據質量管理的其他功能
5.2 基本描述分析
5.2.1 計算基本描述統計量
5.2.2 繪制散點圖
5.3 變量分布的探索
5.4 兩分類變量相關性的研究
5.4.1 兩分類變量相關性的圖形分析
5.4.2 兩分類變量相關性的數值分析
5.5 兩總體的均值比較
5.5.1 兩總體均值比較的圖形分析
5.5.2 獨立樣本的均值檢驗
5.5.3 配對樣本的均值檢驗
5.6 變量重要性的分析
5.6.1 變量重要性分析的一般方法
5.6.2 變量重要性分析的應用示例
第6章 分類預測︰Clementine的決策樹
6.1 決策樹算法概述
6.1.1 什麼是決策樹
6.1.2 決策樹的幾何理解
6.1.3 決策樹的核心問題
6.2 Clementine的C5.0算法及應用
6.2.1 信息熵和信息增益
6.2.2 C5.0的決策樹生長算法
6.2.3 C5.0的剪枝算法
6.2.4 C5.0的推理規則集
6.2.5 C5.0的基本應用示例
6.2.6 C5.0的損失矩陣和Boosting技術
6.2.7 C5.0的模型評價
6.2.8 C5.0的其他話題︰推理規則、交叉驗證和未剪枝的決策樹
6.3 Clementine的分類回歸樹及應用
6.3.1 分類回歸樹的生長過程
6.3.2 分類回歸樹的剪枝過程
6.3.3 損失矩陣對分類樹的影響
6.3.4 分類回歸樹的基本應用示例
6.3.5 分類回歸樹的交互建模
6.3.6 分類回歸樹的模型評價
6.4 Clementine的CHAID算法及應用
6.4.1 CHAID分組變量的預處理和選擇策略
6.4.2 Exhaustive CHAID算法
6.4.3 CHAID的剪枝
6.4.4 CHAID的應用示例
6.5 Clementine的QUEST算法及應用
6.5.1 QUEST算法確定最佳分組變量和分割點的方法
6.5.2 QUEST算法的應用示例
6.6 決策樹算法評估的圖形比較
6.6.1 不同模型的誤差對比
6.6.2 不同模型收益的對比
第7章 分類預測︰Clementine的人工神經網絡
7.1 人工神經網絡算法概述
7.1.1 人工神經網絡的概念和種類
7.1.2 人工神經網絡中的節點和意義
7.1.3 人工神經網絡建立的一般步驟
7.2 Clementine的B-P反向傳播網絡
7.2.1 感知機模型
7.2.2 B-P反向傳播網絡的特點
7.2.3 B-P反向傳播算法
7.2.4 B-P反向傳播網絡的其他問題
7.3 Clementine的B-P反向傳播網絡的應用
7.3.1 基本操作說明
7.3.2 計算結果說明
7.3.3 提高模型預測精度
7.4 Clementine的徑向基函數網絡及應用
7.4.1 徑向基函數網絡中的隱節點和輸出節點
7.4.2 徑向基函數網絡的學習過程
7.4.3 徑向基函數網絡的應用示例
第8章 分類預測︰Clementine的統計方法
8.1 Clementine的Logistic回歸分析及應用
8.1.1 二項Logistic回歸方程
8.1.2 二項Logistic回歸方程系數的含義
8.1.3 二項Logistic回歸方程的檢驗
8.1.4 二項Logistic回歸分析的應用示例
8.1.5 多項Logistic回歸分析的應用示例
8.2 Clementine的判別分析及應用
8.2.1 距離判別法
8.2.2 Fisher判別法
8.2.3 貝葉斯判別法
8.2.4 判別分析的應用示例
第9章 探索內部結構︰Clementine的關聯分析
9.1 簡單關聯規則及其有效性
9.1.1 簡單關聯規則的基本概念
9.1.2 簡單關聯規則的有效性和實用性
9.2 Clementine的Apriori算法及應用
9.2.1 產生頻繁項集
9.2.2 依據頻繁項集產生簡單關聯規則
9.2.3 Apriori算法的應用示例
9.3 Clementine的GRI算法及應用
9.3.1 GRI算法基本思路
9.3.2 GRI算法的具體策略
9.3.3 GRI算法的應用示例
9.4 Clementine的序列關聯及應用
9.4.1 序列關聯中的基本概念
9.4.2 Sequence算法
9.4.3 序列關聯的時間約束
9.4.4 序列關聯分析的應用示例
第10章 探索內部結構︰Clementine的聚類分析
10.1 聚類分析的一般問題
10.1.1 聚類分析的提出
10.1.2 聚類分析的算法
10.2 Clementine的K-Means聚類及應用
10.2.1 K-Means對“親疏程度”的測度
10.2.2 K-Means聚類過程
10.2.3 K-Means聚類的應用示例
10.3 Clementine的兩步聚類及應用
10.3.1 兩步聚類對“親疏程度”的測度
10.3.2 兩步聚類過程
10.3.3 聚類數目的確定
10.3.4 兩步聚類的應用示例
10.4 Clementine的Kohonen網絡聚類及應用
10.4.1 Kohonen網絡的聚類機理
10.4.2 Kohonen網絡的聚類過程
10.4.3 Kohonen網絡聚類的示例
10.5 基于聚類分析的離群點探索及應用
10.5.1 多維空間基于聚類的診斷方法
10.5.2 多維空間基于聚類的診斷方法應用示例
參考文獻
網路書店
類別
折扣
價格
-
新書$228