這本《數據挖掘--方法與應用》主要根據作者徐華近幾年在清華大學面向研究生和本科生開設的「 數據挖掘:方法與應用」課程的教學實踐與積累,參考近幾年國外著名大學相關課程的教學體系,系統地介紹數據挖掘的基本概念和基本原理方法;結合一些典型的應用實例展示用數據挖掘的思維方法求解問題的一般性模式與思路。
本書可作為有一定數據結構、數據庫和程序設計基礎的研究生或本科生開展數據挖掘知識學習和研究的入門性教材與參考讀物。
徐華,博士,清華大學計算機系副研究員。主要研究興趣領域包括數據挖掘、智能信息處理和特殊裝備的先進工藝控制等。作為項目負責人、首席技術專家或研發骨干,負責完成國家科技重大專項課題3項,國家自然科學基金項目4項,國家973項目二級課題1項,國家863項目(課題)5項。國際500強企業(寶潔、西門子、安捷倫等)合作項目10項。目前已在本專業領域權威期刊和會議上發表學術論文60余篇;參與編寫學術專著2部。作為第一完成人獲得國家發明專利10項。國際PCT發明專利4項,軟件著作權7項。作為清華大學方面的第一完成人,獲得國家科技進步二等獎1項,北京市科學技術一等獎1項和二等獎1項,重慶市科學技術三等獎1項,行業協會科學技術一等獎1項等。
目錄
第1章 緒論
1.1 應用背景
1.1.1 商業上的驅動
1.1.2 科學研究上的驅動
1.1.3 數據挖掘伴隨着數據庫技術而出現
1.2 什麼是數據挖掘
1.2.1 基本描述
1.2.2 關於知識發現
1.3 數據挖掘的主要技術
1.4 數據挖掘的主要研究內容
1.5 數據挖掘面臨的主要問題
1.6 數據挖掘相關的資料
1.7 本書的總體章節安排
1.8 小結
參考文獻
第2章 數據預處理
2.1 前言
2.2 數據預處理的基本概念
2.2.1 數據的基本概念
2.2.2 為什麼要進行數據預處理
2.2.3 數據預處理的任務
2.3 數據的描述
2.3.1 描述數據的中心趨勢
2.3.2 描述數據的分散程度
2.3.3 描述數據的其他方式
2.4 數據清洗
2.4.1 數據缺失的處理
2.4.2 數據清洗
2.5 數據集成和轉換
2.5.1 數據集成
2.5.2 數據冗余性
2.5.3 數據轉換
2.6 數據歸約和變換
2.6.1 數據歸約
2.6.2 數據離散化
2.6.3 概念層次生成
2.7 小結
參考文獻
第3章 數據倉庫
3.1 前言
3.2 數據庫基本概念回顧
3.2.1 數據庫簡介
3.2.2 表、記錄和域
3.2.3 數據庫管理系統
3.3 數據倉庫簡介
3.3.1 數據倉庫特點
3.3.2 數據倉庫概念
3.3.3 數據倉庫作用
3.3.4 數據倉庫與DBMS對比
3.3.5 分離數據倉庫的原因
3.4 多維數據模型
3.4.1 數據立方體
3.4.2 概念模型
3.4.3 概念分層
3.4.4 典型OLAP操作
3.4.5 星型網絡的查詢模型
3.5 數據倉庫結構
3.5.1 數據倉庫設計
3.5.2 多層體系結構
3.6 數據倉庫的功能
3.6.1 數據立方體的有效計算
3.6.2 索引OLAP數據
3.6.3 OLAP查詢的有效處理
3.7 從數據倉庫到數據挖掘
3.7.1 數據倉庫應用
3.7.2 從OLAP到
3.8 小結
參考文獻
第4章 相關性與關聯規則
4.1 基本概念
4.1.1 潛在的應用
4.1.2 購物籃問題
4.1.3 頻繁模式分析、閉項集和關聯規則
4.2 頻繁項集挖掘方法
4.2.1 Apriori算法
4.2.2 由頻繁項集產生關聯規則
4.2.3 提高Apriori的效率
4.2.4 挖掘頻繁項集的模式增長方法
4.3 多種關聯規則挖掘
4.3.1 挖掘多層關聯規則
4.3.2 挖掘多維關聯規則
4.3.3 挖掘量化關聯規則
4.4 從關聯分析到相關分析
4.4.1 相關分析
4.4.2 強規則不一定是有價值的
4.4.3 挖掘高度關聯的模式
4.5 基於約束的頻繁模式挖掘
4.5.1 關聯規則的元規則制導挖掘
4.5.2 基於約束的模式生成: 模式空間剪枝和數據空間剪枝
4.6 小結
參考文獻
第5章 分類和預測
5.1 前言
5.2 基本概念
5.2.1 什麼是分類
5.2.2 什麼是預測
5.3 關於分類和預測的問題
5.3.1 准備分類和預測的數據
5.3.2 評價分類和預測方法
5.4 決策樹分類
5.4.1 決策樹歸納
5.4.2 屬性選擇度量
5.4.3 提取分類規則
5.4.4 基本決策樹歸納的增強
5.4.5 在大數據集中的分類
5.5 貝葉斯分類
5.5.1 貝葉斯定理
5.5.2 朴素貝葉斯分類
5.5.3 貝葉斯信念網絡
5.5.4 貝葉斯網絡學習
5.6 神經網絡
5.6.1 神經網絡簡介
5.6.2 多層神經網絡
5.6.3 神經網絡訓練
5.6.4 后向傳播
5.6.5 網絡剪枝和規則抽取
5.7 支持向量機
5.7.1 數據線性可分的情況
5.7.2 數據線性不可分的情況
5.7.3 支持向量機和神經網絡的對比
5.8 關聯分類
5.8.1 為什麼有效
5.8.2 常見關聯分類算法
5.9 分類准確率
5.9.1 估計錯誤率
5.9.2 裝袋和提升
5.10 小結
參考文獻
第6章 聚類分析
6.1 聚類分析的定義和數據類型
6.1.1 聚類的定義
6.1.2 聚類分析和主要應用
6.1.3 聚類分析方法的性能指標
6.1.4 聚類分析使用的數據類型
6.2 流聚類方法分類與相似性質量
6.2.1 聚類分析方法分類
6.2.2 連續變量的距離與相似性度量
6.2.3 二元變量與標稱變量的相似性度量
6.2.4 序數和比例標度變量的相似性度量
6.2.5 混合類型變量的相似性度量
6.3 基於分割的聚類
6.4 基於層次的聚類
6.5 基於密度的聚類
6.6 基於網格的聚類
6.7 基於模型的聚類
6.8 離群點檢測
6.9 小結
參考文獻
第7章 數據挖掘應用
7.1 前言
7.2 應用研發思路
7.3 預處理方法
7.3.1 基礎數據說明
7.3.2 數字化方法說明
7.3.3 深入一步的預處理方法
7.3.4 基本數據分布情況說明
7.3.5 初步分析結果
7.3.6 小結
7.4 特征提取方法
7.4.1 8種特征提取方法
7.4.2 特征總體排名策略
7.4.3 最終關鍵特征
7.4.4 特征提取與分析結論
7.4.5 小結
7.5 皮膚特征預測模型
7.5.1 預測方法回顧
7.5.2 預測結果分析與結論
7.5.3 小結
7.6 小結
參考文獻
附錄
附錄A 插圖索引
附錄B 表格索引
附錄C 算法索引
附錄D 關鍵詞索引
1.1 應用背景
1.1.1 商業上的驅動
1.1.2 科學研究上的驅動
1.1.3 數據挖掘伴隨着數據庫技術而出現
1.2 什麼是數據挖掘
1.2.1 基本描述
1.2.2 關於知識發現
1.3 數據挖掘的主要技術
1.4 數據挖掘的主要研究內容
1.5 數據挖掘面臨的主要問題
1.6 數據挖掘相關的資料
1.7 本書的總體章節安排
1.8 小結
參考文獻
第2章 數據預處理
2.1 前言
2.2 數據預處理的基本概念
2.2.1 數據的基本概念
2.2.2 為什麼要進行數據預處理
2.2.3 數據預處理的任務
2.3 數據的描述
2.3.1 描述數據的中心趨勢
2.3.2 描述數據的分散程度
2.3.3 描述數據的其他方式
2.4 數據清洗
2.4.1 數據缺失的處理
2.4.2 數據清洗
2.5 數據集成和轉換
2.5.1 數據集成
2.5.2 數據冗余性
2.5.3 數據轉換
2.6 數據歸約和變換
2.6.1 數據歸約
2.6.2 數據離散化
2.6.3 概念層次生成
2.7 小結
參考文獻
第3章 數據倉庫
3.1 前言
3.2 數據庫基本概念回顧
3.2.1 數據庫簡介
3.2.2 表、記錄和域
3.2.3 數據庫管理系統
3.3 數據倉庫簡介
3.3.1 數據倉庫特點
3.3.2 數據倉庫概念
3.3.3 數據倉庫作用
3.3.4 數據倉庫與DBMS對比
3.3.5 分離數據倉庫的原因
3.4 多維數據模型
3.4.1 數據立方體
3.4.2 概念模型
3.4.3 概念分層
3.4.4 典型OLAP操作
3.4.5 星型網絡的查詢模型
3.5 數據倉庫結構
3.5.1 數據倉庫設計
3.5.2 多層體系結構
3.6 數據倉庫的功能
3.6.1 數據立方體的有效計算
3.6.2 索引OLAP數據
3.6.3 OLAP查詢的有效處理
3.7 從數據倉庫到數據挖掘
3.7.1 數據倉庫應用
3.7.2 從OLAP到
3.8 小結
參考文獻
第4章 相關性與關聯規則
4.1 基本概念
4.1.1 潛在的應用
4.1.2 購物籃問題
4.1.3 頻繁模式分析、閉項集和關聯規則
4.2 頻繁項集挖掘方法
4.2.1 Apriori算法
4.2.2 由頻繁項集產生關聯規則
4.2.3 提高Apriori的效率
4.2.4 挖掘頻繁項集的模式增長方法
4.3 多種關聯規則挖掘
4.3.1 挖掘多層關聯規則
4.3.2 挖掘多維關聯規則
4.3.3 挖掘量化關聯規則
4.4 從關聯分析到相關分析
4.4.1 相關分析
4.4.2 強規則不一定是有價值的
4.4.3 挖掘高度關聯的模式
4.5 基於約束的頻繁模式挖掘
4.5.1 關聯規則的元規則制導挖掘
4.5.2 基於約束的模式生成: 模式空間剪枝和數據空間剪枝
4.6 小結
參考文獻
第5章 分類和預測
5.1 前言
5.2 基本概念
5.2.1 什麼是分類
5.2.2 什麼是預測
5.3 關於分類和預測的問題
5.3.1 准備分類和預測的數據
5.3.2 評價分類和預測方法
5.4 決策樹分類
5.4.1 決策樹歸納
5.4.2 屬性選擇度量
5.4.3 提取分類規則
5.4.4 基本決策樹歸納的增強
5.4.5 在大數據集中的分類
5.5 貝葉斯分類
5.5.1 貝葉斯定理
5.5.2 朴素貝葉斯分類
5.5.3 貝葉斯信念網絡
5.5.4 貝葉斯網絡學習
5.6 神經網絡
5.6.1 神經網絡簡介
5.6.2 多層神經網絡
5.6.3 神經網絡訓練
5.6.4 后向傳播
5.6.5 網絡剪枝和規則抽取
5.7 支持向量機
5.7.1 數據線性可分的情況
5.7.2 數據線性不可分的情況
5.7.3 支持向量機和神經網絡的對比
5.8 關聯分類
5.8.1 為什麼有效
5.8.2 常見關聯分類算法
5.9 分類准確率
5.9.1 估計錯誤率
5.9.2 裝袋和提升
5.10 小結
參考文獻
第6章 聚類分析
6.1 聚類分析的定義和數據類型
6.1.1 聚類的定義
6.1.2 聚類分析和主要應用
6.1.3 聚類分析方法的性能指標
6.1.4 聚類分析使用的數據類型
6.2 流聚類方法分類與相似性質量
6.2.1 聚類分析方法分類
6.2.2 連續變量的距離與相似性度量
6.2.3 二元變量與標稱變量的相似性度量
6.2.4 序數和比例標度變量的相似性度量
6.2.5 混合類型變量的相似性度量
6.3 基於分割的聚類
6.4 基於層次的聚類
6.5 基於密度的聚類
6.6 基於網格的聚類
6.7 基於模型的聚類
6.8 離群點檢測
6.9 小結
參考文獻
第7章 數據挖掘應用
7.1 前言
7.2 應用研發思路
7.3 預處理方法
7.3.1 基礎數據說明
7.3.2 數字化方法說明
7.3.3 深入一步的預處理方法
7.3.4 基本數據分布情況說明
7.3.5 初步分析結果
7.3.6 小結
7.4 特征提取方法
7.4.1 8種特征提取方法
7.4.2 特征總體排名策略
7.4.3 最終關鍵特征
7.4.4 特征提取與分析結論
7.4.5 小結
7.5 皮膚特征預測模型
7.5.1 預測方法回顧
7.5.2 預測結果分析與結論
7.5.3 小結
7.6 小結
參考文獻
附錄
附錄A 插圖索引
附錄B 表格索引
附錄C 算法索引
附錄D 關鍵詞索引
網路書店
類別
折扣
價格
-
新書87折$131