本書特色
•文字說明、程式碼與執行結果等交叉呈現,有助於閱讀理解。
•來自不同領域的資料處理與分析範例。
•同時掌握資料分析兩大主流工具 - R 與 Python。
•凸顯第四代與第三代程式語言不同之處。
•深入淺出地介紹統計機器學習理論與實務。
•符合 iPAS 經濟部產業人才能力鑑定巨量資料分析師各科評鑑主題。
作者介紹
作者簡介
鄒慶士 教授(B.E., M.E., Ph.D.)
現職:
國立臺北商業大學資訊與決策科學研究所教授暨資料科學應用研究中心主任(2010 ~)
學歷與專長:
國立臺灣工業業技術學院管理學博士主修作業研究(1990 ~ 1994),中原大學機械工程碩士(1988 ~ 1990),中原大學工學士(1984 ~ 1988)。專長領域為大數據與資料科學、機器學習、多目標最佳化、進化式計算、賽局模型、等候網路、彈性製造與與企業電子化等。曾經獲得國科會1997與1998 年甲種研究獎勵,2010 到2015 年科技部獎勵特殊優秀人才補助,以及擔任多個國際期刊評審(EJOR, IEEE SMC, IIE, IJPR, C∨,C&IE, JMS, OMEGA, AMM, ASC, NC&A)。
經歷:
曾任教於國立臺北商業技術學院企業管理系副教授(2004 ~ 2010)、世新大學資訊管理學系所副教授(2001 ~ 2004)、新北市中華大學企業管理學系所副教授(1996 ~ 2001),兼任中原、空中、實踐、東吳、中央等大學講師/副教授/教授(1991 ~)。並於2012 和2013 年與同好們一起創立中華R 軟體學會,以及臺灣資料科學與商業應用協會,近年來產學合作領域包括氣象、交通、社群網路、電子商務、金融科技、計量化學、智慧養殖、綠能發電、環境輻射、生醫器材等行業的大數據分析,致立於「做中學、學中做」的理論與實務兼備之資料科學人才培育志業。
鄒慶士 教授(B.E., M.E., Ph.D.)
現職:
國立臺北商業大學資訊與決策科學研究所教授暨資料科學應用研究中心主任(2010 ~)
學歷與專長:
國立臺灣工業業技術學院管理學博士主修作業研究(1990 ~ 1994),中原大學機械工程碩士(1988 ~ 1990),中原大學工學士(1984 ~ 1988)。專長領域為大數據與資料科學、機器學習、多目標最佳化、進化式計算、賽局模型、等候網路、彈性製造與與企業電子化等。曾經獲得國科會1997與1998 年甲種研究獎勵,2010 到2015 年科技部獎勵特殊優秀人才補助,以及擔任多個國際期刊評審(EJOR, IEEE SMC, IIE, IJPR, C∨,C&IE, JMS, OMEGA, AMM, ASC, NC&A)。
經歷:
曾任教於國立臺北商業技術學院企業管理系副教授(2004 ~ 2010)、世新大學資訊管理學系所副教授(2001 ~ 2004)、新北市中華大學企業管理學系所副教授(1996 ~ 2001),兼任中原、空中、實踐、東吳、中央等大學講師/副教授/教授(1991 ~)。並於2012 和2013 年與同好們一起創立中華R 軟體學會,以及臺灣資料科學與商業應用協會,近年來產學合作領域包括氣象、交通、社群網路、電子商務、金融科技、計量化學、智慧養殖、綠能發電、環境輻射、生醫器材等行業的大數據分析,致立於「做中學、學中做」的理論與實務兼備之資料科學人才培育志業。
目錄
第一章資料導向程式設計
1.1 套件管理
1.1.1 基本套件
1.1.2 建議套件
1.1.3 貢獻套件
1.2 環境與輔助說明
1.3 R 語言資料物件
1.3.1 向量
1.3.2 矩陣
1.3.3 陣列
1.3.4 串列
1.3.5 資料框
1.3.6 因子
1.3.7 R 語言原生資料物件取值
1.3.8 R 語言衍生資料物件
1.4 Python 語言資料物件
1.4.1 Python 語言原生資料物件操弄
1.4.2 Python 語言衍生資料物件取值
1.4.3 Python 語言類別變數綸碼
1.5 向量化與隱式迴圈
1.6 編程範式與物件導向概念
1.6.1 R 語言 S3 類別
1.6.2 Python 語言物件導向
1.7 控制敘述與自訂函數
1.7.1 控制敘述
1.7.2 自訂函數
1.8 資料匯入與匯出
1.8.1 R 語言資料匯入及匯出
1.8.2 Python 語言資料匯入及匯出
1.9 程式除錯與效率監測
第二章資料前處理
2.1 資料管理
2.1.1 R 語言資料組識與排序
2.1.2 Python 語言資料排序
2.1.3 R 語言資料變形
2.1.4 Python語言資料變形
2.1.5 R 語言資料清理
2.1.6 Python 語言資料清理
2.2 資料摘要與彙總
2.2.1 摘要統計量
2.2.2 R 語言群組與摘要
2.2.3 Python 語言群組與摘要
2.3 屬性工程
2.3.1 屬性轉換與移除
2.3.2 屬性萃取之主成份分析
2.3.2.1奇異值矩陣分解
2.3.3 屬性挑選
2.3.4 小結
2.4 巨量資料處理概念
2.4.1 文字資料處理
2.4.2 Hadoop 分散式檔案系統
2.4.3 Spark 叢集訓計算框架
第三章統計機器學習基礎
3.1 隨機誤差模型
3.1.1 統計機器學習類型
3.1.2 過度配適
3.2 模型績效評量
3.2.1 迴歸模型績效指標
3.2.2 分類模型績效指標
3.2.2.1 模型預測值
3.2.2.2 混淆矩陣
3•2.2.3 整體指標
3.2.2.4 類別相關指標
3.2.3 模型績效視覺化
3.3 模型選擇與評定
3.3.1 重抽樣與資料切分方法
3.3.2 單類模型參數調校
3.3.2.1 多個參數待調
3.3.2.2 客製化參數調校
3.3.3 比較不同類的模型
3.4 相似性與距離
3.5 相關與獨立
3.5.1 數值變數與順序尺度類別變數
3.5.2 名目尺度類別變數
3.5.3 類別變數視覺化關聯檢驗
第四章非監督式學習
4.1 資料視覺化
4.1.1 圖形文法繪圖
4.2 關聯型態探勘
4.2.1 關聯型態評估準則
4.2.2 線上音樂城關聯規則分析
4.2.3 結語
4.3 集群分析
4.3.1 k 平均數集群
4.3.1.1 青少年市場區隔案例
4.3.2 階層式集群
4.3.3 密度集群
4.3.3.1 密度集群案例
4.3.4 集群結果評估
4.3.5 結語
第五章監督式學習
5.1 線性迴歸與分類
5.1.1 多元線性迴歸
5.1.2 偏最小平方法迴歸
5.1.3 脊迴歸、LASSO 迴歸與彈性網罩懲罰模型
5.1.4 線性判別分析
5.1.4.1 貝氏法
5.1.4.2 費雪法
5.1.5 羅吉斯迴歸分類與廣義線性模型
5.2 非線性分類與迴歸
5.2.1 天真貝式分類
5.2.1.1手機簡訊過濾案例
5.2.2 k 近鄰法分類
5.2.2.1 電離層無線電訊號案例
5.2.3 支援向量機分類
5.2.3.1 光學手寫字元案例
5.2.4 分類與迴歸樹
5.2.4.1 銀行貸款風險管理案例
5.2.4.2 酒品評點迴歸樹預測
5.2.4.3 小結
第六章其它學習方式
6.1 薈萃式學習
6.1.1 拔靴集成法
6.1.2 多模激發法
6.1.2.1 房價中位數預測案例
6.1.3 隨機森林
6.1.4 小結
6.2 深度學習
6.2.1 類神經網路簡介
6.2.2 多層感知機
6.2.2.1 混凝土強度佔計案例
6.2.3 卷積神經網路
6.2.4 遞歸神經網路
6.2.5 自動編碼器
6.2.6 受限波茲曼機
6.2.7 深度信念網路
6.2.8 深度學習參數調校
6.3 強化式學習
1.1 套件管理
1.1.1 基本套件
1.1.2 建議套件
1.1.3 貢獻套件
1.2 環境與輔助說明
1.3 R 語言資料物件
1.3.1 向量
1.3.2 矩陣
1.3.3 陣列
1.3.4 串列
1.3.5 資料框
1.3.6 因子
1.3.7 R 語言原生資料物件取值
1.3.8 R 語言衍生資料物件
1.4 Python 語言資料物件
1.4.1 Python 語言原生資料物件操弄
1.4.2 Python 語言衍生資料物件取值
1.4.3 Python 語言類別變數綸碼
1.5 向量化與隱式迴圈
1.6 編程範式與物件導向概念
1.6.1 R 語言 S3 類別
1.6.2 Python 語言物件導向
1.7 控制敘述與自訂函數
1.7.1 控制敘述
1.7.2 自訂函數
1.8 資料匯入與匯出
1.8.1 R 語言資料匯入及匯出
1.8.2 Python 語言資料匯入及匯出
1.9 程式除錯與效率監測
第二章資料前處理
2.1 資料管理
2.1.1 R 語言資料組識與排序
2.1.2 Python 語言資料排序
2.1.3 R 語言資料變形
2.1.4 Python語言資料變形
2.1.5 R 語言資料清理
2.1.6 Python 語言資料清理
2.2 資料摘要與彙總
2.2.1 摘要統計量
2.2.2 R 語言群組與摘要
2.2.3 Python 語言群組與摘要
2.3 屬性工程
2.3.1 屬性轉換與移除
2.3.2 屬性萃取之主成份分析
2.3.2.1奇異值矩陣分解
2.3.3 屬性挑選
2.3.4 小結
2.4 巨量資料處理概念
2.4.1 文字資料處理
2.4.2 Hadoop 分散式檔案系統
2.4.3 Spark 叢集訓計算框架
第三章統計機器學習基礎
3.1 隨機誤差模型
3.1.1 統計機器學習類型
3.1.2 過度配適
3.2 模型績效評量
3.2.1 迴歸模型績效指標
3.2.2 分類模型績效指標
3.2.2.1 模型預測值
3.2.2.2 混淆矩陣
3•2.2.3 整體指標
3.2.2.4 類別相關指標
3.2.3 模型績效視覺化
3.3 模型選擇與評定
3.3.1 重抽樣與資料切分方法
3.3.2 單類模型參數調校
3.3.2.1 多個參數待調
3.3.2.2 客製化參數調校
3.3.3 比較不同類的模型
3.4 相似性與距離
3.5 相關與獨立
3.5.1 數值變數與順序尺度類別變數
3.5.2 名目尺度類別變數
3.5.3 類別變數視覺化關聯檢驗
第四章非監督式學習
4.1 資料視覺化
4.1.1 圖形文法繪圖
4.2 關聯型態探勘
4.2.1 關聯型態評估準則
4.2.2 線上音樂城關聯規則分析
4.2.3 結語
4.3 集群分析
4.3.1 k 平均數集群
4.3.1.1 青少年市場區隔案例
4.3.2 階層式集群
4.3.3 密度集群
4.3.3.1 密度集群案例
4.3.4 集群結果評估
4.3.5 結語
第五章監督式學習
5.1 線性迴歸與分類
5.1.1 多元線性迴歸
5.1.2 偏最小平方法迴歸
5.1.3 脊迴歸、LASSO 迴歸與彈性網罩懲罰模型
5.1.4 線性判別分析
5.1.4.1 貝氏法
5.1.4.2 費雪法
5.1.5 羅吉斯迴歸分類與廣義線性模型
5.2 非線性分類與迴歸
5.2.1 天真貝式分類
5.2.1.1手機簡訊過濾案例
5.2.2 k 近鄰法分類
5.2.2.1 電離層無線電訊號案例
5.2.3 支援向量機分類
5.2.3.1 光學手寫字元案例
5.2.4 分類與迴歸樹
5.2.4.1 銀行貸款風險管理案例
5.2.4.2 酒品評點迴歸樹預測
5.2.4.3 小結
第六章其它學習方式
6.1 薈萃式學習
6.1.1 拔靴集成法
6.1.2 多模激發法
6.1.2.1 房價中位數預測案例
6.1.3 隨機森林
6.1.4 小結
6.2 深度學習
6.2.1 類神經網路簡介
6.2.2 多層感知機
6.2.2.1 混凝土強度佔計案例
6.2.3 卷積神經網路
6.2.4 遞歸神經網路
6.2.5 自動編碼器
6.2.6 受限波茲曼機
6.2.7 深度信念網路
6.2.8 深度學習參數調校
6.3 強化式學習