內容簡介

近年來,機器學習領域受到越來越多的關注,相關的機器學習算法開始成為熱點。

本書專門介紹了有關機器學習的內容,全書共分3部分:第1部分是數據 科學和Microsoft Azure Machine Learning導論,介紹了數據科學和Microsoft Azure Machine Learning的基本知識以及需要用到的語言的基本知識;第二部分是統計學和機器學習算法,系統地講解了統計學和機器學習的相關算法;第三部分是實用應用程序,這一部分介紹了新的微軟Azure機器學習服務,講解如何高效構建和部署預測模型,還講解了如何解決傾向建模、產品推薦等實用技能。

本書可供數據科學、商業分析和商業智能領域的開發人員,對機器學習感興趣的開發者閱讀。

Roger Barga是亞馬遜Web服務的總經理和開發總監。在加入亞馬遜之前,Roger是微軟的雲與企業部門的雲機器學習組的產品組程序經理,他的團隊負責 Azure機器學習服務的產品管理。

Roger於1997年加入微軟,在微軟研究院的數據庫產品組里擔任研究員,他領導數據庫、工作流和流處理系統的系統 研究和產品開發。他提出了從基礎研究,通過原型驗證概念,到產品組孵化的設想。在加入微軟之前,Roger是Pacific Northwest National Laboratory的機器學習組的研究科學家,他構建和部署基於機器學習的解決方案。Roger還是華盛頓大學的助理教授,他是數據科學和機器學習課程 的講師。

Roger擁有計算機科學的博士學位(PhD),專攻機器學習。從1991年到2013年,他發表了超過90份同行評審的技術論文和專書論文,和214個合著者共事,有1084個作者超過700個引述。

Valentine Fontama是微軟Cloud & Enterprise Analytics and Insights產品組的數據科學家經理。Val在數據科學和業務上有着超過18年的經驗。在獲得人工神經網絡的博士學位之后,他把數據挖掘應用到環境科學和信用行業。在加入微軟之前,Val是倫敦Equifax的新技術咨詢師,他最先提倡把數據挖掘應用到消費信用行業的風險評估和市場營銷。他目前是華盛頓大學的數據科學助理教授。

他之前在微軟的職位是Data and Decision Sciences Group(DDSG)的主要數據科學家,為微軟客戶(包括ThyssenKrupp和Dell)提供外部咨詢。在那之前,他是一個資-深產品營銷經理,負責雲的大數據和預測分析以及企業營銷。在這個角色里,他負責微軟Azure機器學習的產品管理;HDInsight,微軟的首-個Hadoop服務;Parallel Data Warehouse,微軟的首-個數據倉庫工具;Fast Track Data Warehouse的3個版本發布。

Val 擁有沃頓商學院的戰略管理和市場營銷的MBA學位,擁有神經網絡的博士學位,擁有計算方面的碩士學位,擁有數學和電子的學士學位(獲得一等榮譽)。他合着了《Introducing Microsoft Azure HDInsight》一書,發表過11份學術論文,有超過227個作者152個引述。
 

目錄

第1部分數據科學和Microsoft Azure Machine Learning導論
第1章數據科學導論3
1.1數據科學是什麼3
1.2分析頻譜4
1.2.1描述性分析4
1.2.2診斷性分析5
1.2.3預測性分析5
1.2.4規定性分析5
1.3為何重要,為何現在6
1.3.1把數據看作競爭資產6
1.3.2客戶需求的增長6
1.3.3對數據挖掘技術認識的提高7
1.3.4訪問更多數據7
1.3.5更快、更廉價的處理能力7
1.3.6數據科學流程8
1.4常見數據科學技術10
1.4.1分類算法10
1.4.2聚類算法11
1.4.3回歸算法12
1.4.4模擬12
1.4.5內容分析12
1.4.6推薦引擎13
1.5數據科學的前沿13
1.6小結14
第2章Microsoft Azure Machine Learning導論15
2.1你好,Machine Learning Studio15
2.2實驗的組件16
2.3Gallery簡介17
2.4創建訓練實驗的5個簡單步驟18
2.4.1第1步:獲取數據19
2.4.2第2步:預處理數據20
2.4.3第3步:定義特征22
2.4.4第4步:選擇和應用學習算法23
2.4.5第5步:在新數據之上做預測24
2.5在生產環境里部署你的模型26
2.5.1創建預測實驗26
2.5.2把你的實驗發布成Web服務28
2.5.3訪問Azure Machine Learning的Web服務28
2.6小結30
第3章數據准備31
3.1數據清理和處理31
3.1.1了解你的數據32
3.1.2缺失值和空值37
3.1.3處理重復記錄38
3.1.4識別並移除離群值39
3.1.5特征歸一化40
3.1.6處理類別不均41
3.2特征選擇43
3.3特征工程46
3.3.1分裝數據48
3.3.2維度災難50
3.4小結53
第4章整合R54
4.1R概覽54
4.2構建和部署你的首個R腳本56
4.3使用R進行數據預處理59
4.4使用腳本包(ZIP)61
4.5使用R構建和部署決策樹64
4.6小結68
第5章整合Python69
5.1概覽69
5.2Python快速上手70
5.3在AzureML實驗里使用Python71
5.4使用Python進行數據預處理76
5.4.1使用Python合並數據76
5.4.2使用Python處理缺失值79
5.4.3使用Python進行特征選擇80
5.4.4在AzureML實驗里運行Python代碼82
5.5小結86
第2部分統計學和機器學習算法
第6章統計學和機器學習算法概覽89
6.1回歸算法89
6.1.1線性回歸89
6.1.2神經網絡90
6.1.3決策樹92
6.1.4提升決策樹93
6.2分類算法94
6.2.1支持向量機95
6.2.2貝葉斯點機96
6.3聚類算法97
6.4小結99
第3部分實用應用程序
第7章構建客戶傾向模型103
7.1業務問題103
7.2數據獲取和准備104
7.3訓練模型109
7.4模型測試和驗證111
7.5模型的性能112
7.6確定評估指標的優先級115
7.7小結116
第8章使用PowerBI可視化你的模型117
8.1概覽117
8.2PowerBI簡介117
8.3使用PowerBI可視化的三種方案119
8.4在Azure Machine Learning里給你的數據評分,並在Excel里可視化120
8.5在Excel里評分並可視化你的數據123
8.6在Azure Machine Learning里給你的數據評分,並在powerbi.com里可視化124
8.6.1加載數據125
8.6.2構建你的儀表板125
8.7小結127
第9章構建流失模型128
9.1流失模型概覽128
9.2構建和部署客戶流失模型129
9.2.1准備和了解數據129
9.2.2數據預處理和特征選擇132
9.2.3用於預測流失的分類模型135
9.2.4評估客戶流失模型的性能137
9.3小結138
第10章客戶細分模型139
10.1客戶細分模型概覽139
10.2構建和部署你的第一個K均值聚類模型140
10.2.1特征散列142
10.2.2找出合適的特征142
10.2.3K均值聚類算法的屬性144
10.3批發客戶的客戶細分145
10.3.1從UCI機器學習庫加載數據145
10.3.2使用K均值聚類算法進行批發客戶細分146
10.3.3新數據的聚類分配147
10.4小結148
第11章構建預見性維護模型149
11.1概覽149
11.2預見性維護場景150
11.3業務問題150
11.4數據獲取和准備151
11.4.1數據集151
11.4.2數據加載151
11.4.3數據分析151
11.5訓練模型154
11.6模型測試和驗證155
11.7模型性能156
11.8改善模型的技術158
11.9模型部署161
11.9.1創建預測實驗161
11.9.2把你的實驗部署成Web服務162
11.10小結163
第12章推薦系統164
12.1概覽164
12.2推薦系統的方案和場景164
12.3業務問題165
12.4數據獲取和准備166
12.5訓練模型170
12.6模型測試和驗證171
12.7小結175
第13章使用和發布Azure Marketplace上的模型176
13.1什麼是機器學習API176
13.2如何使用Azure Marketplace的API178
13.3在Azure Marketplace里發布你自己的模型182
13.4為你的機器學習模型創建和發布Web服務182
13.4.1創建評分實驗183
13.4.2把你的實驗發布成Web服務183
13.5獲取API密鑰和OData端點信息184
13.6把你的模型發布為Azure Marketplace里的API184
13.7小結186
第14章Cortana分析187
14.1Cortana分析套件是什麼187
14.2Cortana分析套件的功能187
14.3示例場景189
14.4小結190
網路書店 類別 折扣 價格
  1. 新書
    87
    $308