你絕對不能錯過的機器學習工具書!
※揭開機器學習的神祕面紗,深入了解機器學習。
※理論與實務兼具,詳細解說機器學習理論,搭配使用Python與Stata實作,架構完整。
※內容與時俱進,理解當今機器學習的最新模型與技術。
※隨書附贈範例資料檔光碟
近年來,科技產業迅速發展,新技術不斷出現,人工智慧、機器學習、大數據、資料科學成為炙手可熱的話題。各個領域紛紛投入人工智慧與機器學習的研究及應用,但究竟什麼是人工智慧?機器學習又是什麼?
機器學習是人工智慧應用最成熟的領域。本書首先解說機器學習與人工智慧、統計學的關係,給予讀者完整的知識輪廓,接著深入探討機器學習的理論模型,例如:Lasso迴歸、梯度下降法、深度學習、隨機森林,同時輔以Python與Stata實作範例。本書兼具理論與實際操作,是給想深入研究機器學習與人工智慧的你,最適合的一本工具書。
作者介紹
作者簡介
張紹勳
學歷:國立政治大學資訊管理博士
現職:國立彰化師大專任教授
經歷:致理技術專任副教授
張任坊/研究助理
學歷:國立海洋大學商船系
現職:長榮海運三副
張博一/研究助理
學歷:國立中央大學通訊工程所
現職:泰洛科技股份有限公司工程師
張紹勳
學歷:國立政治大學資訊管理博士
現職:國立彰化師大專任教授
經歷:致理技術專任副教授
張任坊/研究助理
學歷:國立海洋大學商船系
現職:長榮海運三副
張博一/研究助理
學歷:國立中央大學通訊工程所
現職:泰洛科技股份有限公司工程師
目錄
Chapter 1 AI⊃機器學習(ML)的關係
1-1 著名的AI系統、頂尖AI公司、最佳AI軟體
1-2 人工智慧(AI)之發展
1-3 機器學習(machine learning, ML)概論
Chapter 2 機器學習(ML)與統計關係
2-1 統計、估計
2-2 機器學習(ML)之原理(principles)
2-3 機器學習(ML)之重點整理
2-4 類神經網路(ANN):單一隱藏層
2-5 深度學習(deep learning):多個隱藏層
2-6 深度學習結構,有4 種:DNN、DBN、CNN、CDBN
2-7 深度學習法(非線性模型):兩個隱藏層的多層感知器(外掛指令mlp2)
Chapter3 機器學習式迴歸之重點整理(經濟學)
3-1 統計vs. 機器學習之懲罰項迴歸(感測器來收集大數據)
3-2 特徵選擇(feature selection)(從眾多預測變數組合中,挑有意義Xs)
3-3 收縮估計法(shrinkage estimation):自變數(特徵)選擇採用嵌入法
3-4 交叉驗證:避免一次性訓練及測試資料所產生偏誤(Stata 外掛指令loocv 指令)
3-5 降維(降低維度,dimension reduction)
3-6 非線性模型(nonlinear models):神經網路
3-7 集成學習(ensemble learning):決策樹、迴歸樹至隨機森林
3-8 大數據(big data)
Chapter 4 Lasso 迴歸、平方根lasso 迴歸、elastic net迴歸、Lasso 推論模型:(收縮法shrinkage)
4-1 Ridge 迴歸(L2-norm)、Lasso(L1-norm)、elastic net 迴歸是什麼?
4-2 三種Lasso 迴歸式,挑選最佳λ之收縮率(lasso linear 等指令)
4-3 elastic net 迴歸⊃Ridge 迴歸(elasticnet linear等指令)
4-4 ridge、Lasso、elastic net 迴歸的比較(外掛指令lassoregress、ridgeregress、elasticregress)
4-5 Lasso 推論模型:連續依變數
4-6 Lasso 推論模型:二元依變數
Chapter 5 梯度下降法、深度學習分析
5-1 梯度下降法(gradient descent)
5-2 Python 實作:梯度下降演算法(gradient descent algorithm)
Chapter 6 集成(ensemble) 學習:隨機森林迴歸(外掛指令randomforest)
6-1 決策樹(decision tree):森林的元素
6-2 隨機森林的原理
6-3 隨機森林之迴歸分析:連續依變數(外掛指令randomforest)
6-4 隨機森林之迴歸分析:二元依變數外掛指令(randomforest)
Chapter7 支援向量機(SVM) 之分析(外掛指令:svmachines)
7-1 機器學習法:支援向量機(SVM) 的原理
7-2 支援向量機之迴歸分析:連續依變數(外掛指令svmachines)
7-3 支援向量機之迴歸分析:類別依變數(外掛指令svmachines)
1-1 著名的AI系統、頂尖AI公司、最佳AI軟體
1-2 人工智慧(AI)之發展
1-3 機器學習(machine learning, ML)概論
Chapter 2 機器學習(ML)與統計關係
2-1 統計、估計
2-2 機器學習(ML)之原理(principles)
2-3 機器學習(ML)之重點整理
2-4 類神經網路(ANN):單一隱藏層
2-5 深度學習(deep learning):多個隱藏層
2-6 深度學習結構,有4 種:DNN、DBN、CNN、CDBN
2-7 深度學習法(非線性模型):兩個隱藏層的多層感知器(外掛指令mlp2)
Chapter3 機器學習式迴歸之重點整理(經濟學)
3-1 統計vs. 機器學習之懲罰項迴歸(感測器來收集大數據)
3-2 特徵選擇(feature selection)(從眾多預測變數組合中,挑有意義Xs)
3-3 收縮估計法(shrinkage estimation):自變數(特徵)選擇採用嵌入法
3-4 交叉驗證:避免一次性訓練及測試資料所產生偏誤(Stata 外掛指令loocv 指令)
3-5 降維(降低維度,dimension reduction)
3-6 非線性模型(nonlinear models):神經網路
3-7 集成學習(ensemble learning):決策樹、迴歸樹至隨機森林
3-8 大數據(big data)
Chapter 4 Lasso 迴歸、平方根lasso 迴歸、elastic net迴歸、Lasso 推論模型:(收縮法shrinkage)
4-1 Ridge 迴歸(L2-norm)、Lasso(L1-norm)、elastic net 迴歸是什麼?
4-2 三種Lasso 迴歸式,挑選最佳λ之收縮率(lasso linear 等指令)
4-3 elastic net 迴歸⊃Ridge 迴歸(elasticnet linear等指令)
4-4 ridge、Lasso、elastic net 迴歸的比較(外掛指令lassoregress、ridgeregress、elasticregress)
4-5 Lasso 推論模型:連續依變數
4-6 Lasso 推論模型:二元依變數
Chapter 5 梯度下降法、深度學習分析
5-1 梯度下降法(gradient descent)
5-2 Python 實作:梯度下降演算法(gradient descent algorithm)
Chapter 6 集成(ensemble) 學習:隨機森林迴歸(外掛指令randomforest)
6-1 決策樹(decision tree):森林的元素
6-2 隨機森林的原理
6-3 隨機森林之迴歸分析:連續依變數(外掛指令randomforest)
6-4 隨機森林之迴歸分析:二元依變數外掛指令(randomforest)
Chapter7 支援向量機(SVM) 之分析(外掛指令:svmachines)
7-1 機器學習法:支援向量機(SVM) 的原理
7-2 支援向量機之迴歸分析:連續依變數(外掛指令svmachines)
7-3 支援向量機之迴歸分析:類別依變數(外掛指令svmachines)
序
序
AI近年來蓬勃發展,各界紛紛投入發展AI 應用+ 機器學習(ML),本書旨在揭開機器學習(machine learning, ML) 神祕面紗。ML 理論旨在設計及分析一些讓電腦可以自動「學習」的演算法(algorithm)。ML 是基於統計。統計學既是機器學習的理論基礎也是工具之一。機器學習≠統計學,機器學習模型旨在做出最準確的預測及推論(inference);統計模型則在推論變數之間的關係。然而,除非您精通這些概念,否則說機器學習全都與準確的預測有關,統計模型是為推理而設計,這種說法是毫無意義。早期,機器學習方法並不直接適用於計量經濟學及相關領域的研究問題,但自從Stata 提供很棒的Lasso 因果推理,情況就改觀。
1. 機器學習:是不依賴於規則(rule-based) 設計的數據學習演算法。
2. 統計模型:以數學方程形式顯示變數之間關係的程式化表達。
機器學習是AI 應用最成熟的領域。機器學習算法有望在未來10 年內取代全球25%的工作。例如:武漢肺炎疫情嚴峻,成功大學結合醫學中心、大學資源,將多項智慧醫療整合為「智慧醫療臨床決策輔助系統」,利用人工智慧來分類高風險病人臨床檢疫效率,從原需150 分鐘縮短到不到30 分鐘。又如,2020 年1 月9 日世界衛生組織警告中國有類似流感的疫病在中國武漢爆發,美國疾病管制及預防中心(CDC) 於1 月6 日提早接獲通知,但是一家加拿大健康監控平臺卻早在2019 年12 月31 日,成功使用AI預測有肺炎疫情爆發。如今,這種AI 機器學習成功的案例,不勝枚舉。
外表來看,統計建模及ML 所使用的方法很相似,事實此,二者的演算法是不相同的。實際上,你需要認清兩件事:(1) 老論的統計學≠ ML?(2) 統計模型與ML 最著的Lasso 推論模型(k 摺交叉驗證、收縮率)有何不同?
由於有許多統計模型(線性vs. 非線性)都可做出預測,但是預測準確性並不是那麼優。相對地,ML 模型提供更彈性求解的合理性,例如:從高度解釋性的Lasso 迴歸至不可滲透的神經網路、梯度下降法、隨機森林等。通常,早期ML 提高預測準確性但卻犧牲了可解釋性,但Stata 推出Lasso 推論模型就很棒,兼具預測及推論(是否拒絕研究假設)二項功能。
最小平方法(OLS) 的最大弱點,就無法由樣本內數據來推論未來樣本外的估計值。例如:預估各國感染武漢確診高峰落在那時間點?這類非線性、非結構問題且即時性大數據,就需要機器學習之Lasso 推論模型。
在AI、工業4.0、物聯網、無人銀行、無人車、金融/ 股市交易等等情況下,系統的讀入的即時資料是大數據(例如:感測器例子),可惜OLS 模型的重點是特徵數據(X) 與結果變數(Y) 之間的關係,而不是對未來數據(樣本外)進行預測,此過程謂之統計推論(inference),但仍不算預測。可惜,人們若仍然無視OLS 七項assumption 就直接對該模型進行預測,自然會產生無法想像的偏誤。即使OLS 有納入穩健性(robust)、多層次模型、加權最小平法、panel-data 等,評估模型的方式,但仍缺乏測試集(多次交叉驗證)、及有效「控制」外來變數的干擾,OLS 充其量只能做到:校正模型迴歸參數(截距,β)的顯著性(significant)、穩健性(robust) 的改善。在人工智慧(AI) 與機器學習,Stata 推出Lasso 推論模型具有「預測+ 推論」二個強項功能。
本書旨在教你學會兩件事:(1) 機器學習之熱門統計,包括:Lasso、Ridge、elastic net 迴歸、隨機森林等,以及Lasso 因果推論模型;(2) 區別機器學習與古典統計模型有何不同?
迴歸是一種預測的技術,為解決預測如何實現推論?於是,Stata v16 版提供Lasso推論模型分三大類(連續依變數、二元依變數、計數依變數),三者分別對應至:Lasso 線性迴歸、Lasso 邏輯斯迴歸、Lasso 計數迴歸,這三種迴歸的目的都是在挑選懲罰項的最佳λ、α 值,挑選法又細分:雙選法(double-selection)lasso、artialing-out lasso、cross-fit partialing-out、工具變數之分模(partialing-out lasso instrumental-variables)等迴歸。以上這些機器學習法旨在以不同方式和技術實現MSE、BIC 最小化的目標,籍此評估迴歸性能(performance),即透過「預期的線性/曲線的適配程度」來衡量。機器學習就是透過某種必要的手段(正規項/懲罰項/收縮率/交叉驗證)來解決問題。
機器學習的應用非常的廣泛,例如:AI 推薦商品、天氣預測、人臉辨識、指紋辨識、車牌辨識、醫學診斷/圖形辨識、測謊、證券分析、自然語言處理、機器人、Lasso 推論模型(預測+ 推論功能)等。
本書適合經濟學、醫藥學、生物醫學、自動控制、財經、運輸學、哲學和認知科學、邏輯學、管理會、會計學、心理學、電腦科學、控制論、決定論、不確定性原理、社會科學、教育學、罪學、智慧犯罪等研究。
最後,特感謝全傑科技公司(http://www.softhome.com.tw),提供Stata 軟體,晚學才有機會撰寫Stata 一系列的書,以嘉惠學習者。
AI近年來蓬勃發展,各界紛紛投入發展AI 應用+ 機器學習(ML),本書旨在揭開機器學習(machine learning, ML) 神祕面紗。ML 理論旨在設計及分析一些讓電腦可以自動「學習」的演算法(algorithm)。ML 是基於統計。統計學既是機器學習的理論基礎也是工具之一。機器學習≠統計學,機器學習模型旨在做出最準確的預測及推論(inference);統計模型則在推論變數之間的關係。然而,除非您精通這些概念,否則說機器學習全都與準確的預測有關,統計模型是為推理而設計,這種說法是毫無意義。早期,機器學習方法並不直接適用於計量經濟學及相關領域的研究問題,但自從Stata 提供很棒的Lasso 因果推理,情況就改觀。
1. 機器學習:是不依賴於規則(rule-based) 設計的數據學習演算法。
2. 統計模型:以數學方程形式顯示變數之間關係的程式化表達。
機器學習是AI 應用最成熟的領域。機器學習算法有望在未來10 年內取代全球25%的工作。例如:武漢肺炎疫情嚴峻,成功大學結合醫學中心、大學資源,將多項智慧醫療整合為「智慧醫療臨床決策輔助系統」,利用人工智慧來分類高風險病人臨床檢疫效率,從原需150 分鐘縮短到不到30 分鐘。又如,2020 年1 月9 日世界衛生組織警告中國有類似流感的疫病在中國武漢爆發,美國疾病管制及預防中心(CDC) 於1 月6 日提早接獲通知,但是一家加拿大健康監控平臺卻早在2019 年12 月31 日,成功使用AI預測有肺炎疫情爆發。如今,這種AI 機器學習成功的案例,不勝枚舉。
外表來看,統計建模及ML 所使用的方法很相似,事實此,二者的演算法是不相同的。實際上,你需要認清兩件事:(1) 老論的統計學≠ ML?(2) 統計模型與ML 最著的Lasso 推論模型(k 摺交叉驗證、收縮率)有何不同?
由於有許多統計模型(線性vs. 非線性)都可做出預測,但是預測準確性並不是那麼優。相對地,ML 模型提供更彈性求解的合理性,例如:從高度解釋性的Lasso 迴歸至不可滲透的神經網路、梯度下降法、隨機森林等。通常,早期ML 提高預測準確性但卻犧牲了可解釋性,但Stata 推出Lasso 推論模型就很棒,兼具預測及推論(是否拒絕研究假設)二項功能。
最小平方法(OLS) 的最大弱點,就無法由樣本內數據來推論未來樣本外的估計值。例如:預估各國感染武漢確診高峰落在那時間點?這類非線性、非結構問題且即時性大數據,就需要機器學習之Lasso 推論模型。
在AI、工業4.0、物聯網、無人銀行、無人車、金融/ 股市交易等等情況下,系統的讀入的即時資料是大數據(例如:感測器例子),可惜OLS 模型的重點是特徵數據(X) 與結果變數(Y) 之間的關係,而不是對未來數據(樣本外)進行預測,此過程謂之統計推論(inference),但仍不算預測。可惜,人們若仍然無視OLS 七項assumption 就直接對該模型進行預測,自然會產生無法想像的偏誤。即使OLS 有納入穩健性(robust)、多層次模型、加權最小平法、panel-data 等,評估模型的方式,但仍缺乏測試集(多次交叉驗證)、及有效「控制」外來變數的干擾,OLS 充其量只能做到:校正模型迴歸參數(截距,β)的顯著性(significant)、穩健性(robust) 的改善。在人工智慧(AI) 與機器學習,Stata 推出Lasso 推論模型具有「預測+ 推論」二個強項功能。
本書旨在教你學會兩件事:(1) 機器學習之熱門統計,包括:Lasso、Ridge、elastic net 迴歸、隨機森林等,以及Lasso 因果推論模型;(2) 區別機器學習與古典統計模型有何不同?
迴歸是一種預測的技術,為解決預測如何實現推論?於是,Stata v16 版提供Lasso推論模型分三大類(連續依變數、二元依變數、計數依變數),三者分別對應至:Lasso 線性迴歸、Lasso 邏輯斯迴歸、Lasso 計數迴歸,這三種迴歸的目的都是在挑選懲罰項的最佳λ、α 值,挑選法又細分:雙選法(double-selection)lasso、artialing-out lasso、cross-fit partialing-out、工具變數之分模(partialing-out lasso instrumental-variables)等迴歸。以上這些機器學習法旨在以不同方式和技術實現MSE、BIC 最小化的目標,籍此評估迴歸性能(performance),即透過「預期的線性/曲線的適配程度」來衡量。機器學習就是透過某種必要的手段(正規項/懲罰項/收縮率/交叉驗證)來解決問題。
機器學習的應用非常的廣泛,例如:AI 推薦商品、天氣預測、人臉辨識、指紋辨識、車牌辨識、醫學診斷/圖形辨識、測謊、證券分析、自然語言處理、機器人、Lasso 推論模型(預測+ 推論功能)等。
本書適合經濟學、醫藥學、生物醫學、自動控制、財經、運輸學、哲學和認知科學、邏輯學、管理會、會計學、心理學、電腦科學、控制論、決定論、不確定性原理、社會科學、教育學、罪學、智慧犯罪等研究。
最後,特感謝全傑科技公司(http://www.softhome.com.tw),提供Stata 軟體,晚學才有機會撰寫Stata 一系列的書,以嘉惠學習者。
網路書店
類別
折扣
價格
-
新書95折$751