本書介紹了一些主流技術在商業項目中的應用,包括機器學習中的分類、聚類和線性回歸,搜索引擎,推薦系統,用戶行為跟蹤,架構設計的基本理念及常用的消息和緩存機制。在這個過程中,我們有機會實踐R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系統。本書大的特色就是,從商業需求出發演變到合理的技術方案和實現,因此根據不同的應用場景、不同的數據集合、不同的進階難度,我們為讀者提供了反復溫習和加深印象的機會。
機器學習和大數據挖掘領域的技術專家和管理者。在上海交通大學獲得計算機科學與工程博士學位,先后在微軟亞洲研究院,eBay中國研發中心,1號店和飛牛網工作。「微軟學者獎」獲得者,IBM中國首屆「ExtremeBlue天才孵化計划」成員。有超過10年的學術創新和實際研發的經驗,成功孵化了10多項關鍵算法,發表了20多篇國際學術論文,擁有10多項國際專利及申請。目前是《計算機工程》雜志的特邀審稿專家,參與撰寫的互聯網圖書《玩轉電商》已經於2014年出版。
目錄
推薦序
前言
引子
第一篇 支持高效的運營
第1章方案設計和技術選型:分類
1.1分類的基本概念
1.2分類任務的處理流程
1.3算法:朴素貝葉斯和K最近鄰
1.3.1朴素貝葉斯
1.3.2K最近鄰
1.4分類效果評估
1.5相關軟件:R和Mahout
1.5.1R簡介
1.5.2Mahout簡介
1.5.3Hadoop簡介
1.6案例實踐
1.6.1實驗環境設置
1.6.2中文分詞
1.6.3使用R進行朴素貝葉斯分類
1.6.4使用R進行K最近鄰分類
1.6.5單機環境使用Mahout運行朴素貝葉斯分類
1.6.6多機環境使用Mahout運行朴素貝葉斯分類
1.7更多的思考
第2章方案設計和技術選型:聚類
2.1聚類的基本概念
2.2算法:K均值和層次型聚類
2.2.1K均值聚類
2.2.2層次型聚類
2.3聚類的效果評估
2.4案例實踐
2.4.1使用R進行K均值聚類
2.4.2使用Mahout進行K均值聚類
第3章方案設計和技術選型:因變量連續的回歸分析
3.1線性回歸的基本概念
3.2案例實踐
3.2.1實驗環境設置
3.2.2R中數據的標准化
3.2.3使用R的線性回歸分析
第二篇 為顧客發現喜歡的商品:基礎篇
第4章方案設計和技術選型:搜索
4.1搜索引擎的基本概念
4.1.1相關性
4.1.2及時性
4.2搜索引擎的評估
4.3為什麼不是數據庫
4.4系統框架
4.4.1離線預處理
4.4.2在線查詢
4.5常見的搜索引擎實現
4.5.1Lucene簡介
4.5.2Solr簡介
4.5.3Elasticsearch簡介
4.6案例實踐
4.6.1實驗環境設置
4.6.2基於Solr的實現
4.6.3基於Elasticsearch的實現
4.6.4統一的搜索API
第三篇 為顧客發現喜歡的商品:高級篇
第5章方案設計和技術選型:NoSQL和搜索的整合
5.1問題分析
5.2HBase簡介
5.3結合HBase和搜索引擎
5.4案例實踐
5.4.1實驗環境設置
5.4.2HBase的部署
5.4.3HBase和搜索引擎的集成
第6章方案設計和技術選型:查詢分類和搜索的整合
6.1問題分析
6.2結合分類器和搜索引擎
6.3案例實踐
6.3.1實驗環境設置
6.3.2構建查詢分類器
6.3.3定制化的搜索排序
6.3.4整合查詢分類和定制化排序
第7章方案設計和技術選型:個性化搜索
7.1問題分析
7.2結合用戶畫像和搜索引擎
7.3案例實踐
7.3.1用戶畫像的讀取
7.3.2個性化搜索引擎
7.3.3結果對比
第8章方案設計和技術選型:搜索分片
8.1問題分析
8.2利用搜索的分片機制
8.3案例實踐
8.3.1Solr路由的實現
8.3.2Elasticsearch路由的實現
第9章方案設計和技術選型:搜索提示
9.1問題分析
9.2案例實踐:基礎方案
9.2.1Solr搜索建議和拼寫糾錯的實現
9.2.2Elasticsearch搜索建議和拼寫糾錯的實現
9.3改進方案
9.4案例實踐:改進方案
第10章方案設計和技術選型:推薦
10.1推薦系統的基本概念
10.2推薦的核心要素
10.2.1系統角色
10.2.2相似度
10.2.3相似度傳播框架
10.3推薦系統的分類
10.4混合模型
10.5系統架構
10.6Mahout中的推薦算法
10.7電商常見的推薦系統方案
10.7.1電商常見的推薦系統方案
10.7.2相似度的計算
10.7.3協同過濾
10.7.4結果的查詢
10.8案例實踐
10.8.1基於內容特征的推薦
10.8.2基於行為特征的推薦
第四篇 獲取數據,跟蹤效果
第11章方案設計和技術選型:行為跟蹤
11.1基本概念
11.1.1網站的核心框架
11.1.2行為數據的類型
11.1.3行為數據的模式
11.1.4設計理念
11.2使用谷歌分析
11.3自行設計之Flume、HDFS和Hive的整合
11.3.1數據的收集——Flume簡介
11.3.2數據的存儲——HadoopHDFS回顧
11.3.3批量數據分析——Hive簡介
11.3.4Flume、HDFS和Hive的整合方案
11.4自行設計之Flume、Kafka和Storm的整合
11.4.1實時性數據分析之Kafka簡介
11.4.2實時性數據分析之Storm簡介
11.4.3Flume、Kafka和Storm的整合方案
11.5案例實踐
11.5.1數據模式的設計
11.5.2實驗環境設置
11.5.3谷歌分析實戰
11.5.4自主設計實戰之Flume、HDFS和Hive的整合
11.5.5自主設計實戰之Flume、Kafka和Storm的整合
11.6更多的思考
后記
前言
引子
第一篇 支持高效的運營
第1章方案設計和技術選型:分類
1.1分類的基本概念
1.2分類任務的處理流程
1.3算法:朴素貝葉斯和K最近鄰
1.3.1朴素貝葉斯
1.3.2K最近鄰
1.4分類效果評估
1.5相關軟件:R和Mahout
1.5.1R簡介
1.5.2Mahout簡介
1.5.3Hadoop簡介
1.6案例實踐
1.6.1實驗環境設置
1.6.2中文分詞
1.6.3使用R進行朴素貝葉斯分類
1.6.4使用R進行K最近鄰分類
1.6.5單機環境使用Mahout運行朴素貝葉斯分類
1.6.6多機環境使用Mahout運行朴素貝葉斯分類
1.7更多的思考
第2章方案設計和技術選型:聚類
2.1聚類的基本概念
2.2算法:K均值和層次型聚類
2.2.1K均值聚類
2.2.2層次型聚類
2.3聚類的效果評估
2.4案例實踐
2.4.1使用R進行K均值聚類
2.4.2使用Mahout進行K均值聚類
第3章方案設計和技術選型:因變量連續的回歸分析
3.1線性回歸的基本概念
3.2案例實踐
3.2.1實驗環境設置
3.2.2R中數據的標准化
3.2.3使用R的線性回歸分析
第二篇 為顧客發現喜歡的商品:基礎篇
第4章方案設計和技術選型:搜索
4.1搜索引擎的基本概念
4.1.1相關性
4.1.2及時性
4.2搜索引擎的評估
4.3為什麼不是數據庫
4.4系統框架
4.4.1離線預處理
4.4.2在線查詢
4.5常見的搜索引擎實現
4.5.1Lucene簡介
4.5.2Solr簡介
4.5.3Elasticsearch簡介
4.6案例實踐
4.6.1實驗環境設置
4.6.2基於Solr的實現
4.6.3基於Elasticsearch的實現
4.6.4統一的搜索API
第三篇 為顧客發現喜歡的商品:高級篇
第5章方案設計和技術選型:NoSQL和搜索的整合
5.1問題分析
5.2HBase簡介
5.3結合HBase和搜索引擎
5.4案例實踐
5.4.1實驗環境設置
5.4.2HBase的部署
5.4.3HBase和搜索引擎的集成
第6章方案設計和技術選型:查詢分類和搜索的整合
6.1問題分析
6.2結合分類器和搜索引擎
6.3案例實踐
6.3.1實驗環境設置
6.3.2構建查詢分類器
6.3.3定制化的搜索排序
6.3.4整合查詢分類和定制化排序
第7章方案設計和技術選型:個性化搜索
7.1問題分析
7.2結合用戶畫像和搜索引擎
7.3案例實踐
7.3.1用戶畫像的讀取
7.3.2個性化搜索引擎
7.3.3結果對比
第8章方案設計和技術選型:搜索分片
8.1問題分析
8.2利用搜索的分片機制
8.3案例實踐
8.3.1Solr路由的實現
8.3.2Elasticsearch路由的實現
第9章方案設計和技術選型:搜索提示
9.1問題分析
9.2案例實踐:基礎方案
9.2.1Solr搜索建議和拼寫糾錯的實現
9.2.2Elasticsearch搜索建議和拼寫糾錯的實現
9.3改進方案
9.4案例實踐:改進方案
第10章方案設計和技術選型:推薦
10.1推薦系統的基本概念
10.2推薦的核心要素
10.2.1系統角色
10.2.2相似度
10.2.3相似度傳播框架
10.3推薦系統的分類
10.4混合模型
10.5系統架構
10.6Mahout中的推薦算法
10.7電商常見的推薦系統方案
10.7.1電商常見的推薦系統方案
10.7.2相似度的計算
10.7.3協同過濾
10.7.4結果的查詢
10.8案例實踐
10.8.1基於內容特征的推薦
10.8.2基於行為特征的推薦
第四篇 獲取數據,跟蹤效果
第11章方案設計和技術選型:行為跟蹤
11.1基本概念
11.1.1網站的核心框架
11.1.2行為數據的類型
11.1.3行為數據的模式
11.1.4設計理念
11.2使用谷歌分析
11.3自行設計之Flume、HDFS和Hive的整合
11.3.1數據的收集——Flume簡介
11.3.2數據的存儲——HadoopHDFS回顧
11.3.3批量數據分析——Hive簡介
11.3.4Flume、HDFS和Hive的整合方案
11.4自行設計之Flume、Kafka和Storm的整合
11.4.1實時性數據分析之Kafka簡介
11.4.2實時性數據分析之Storm簡介
11.4.3Flume、Kafka和Storm的整合方案
11.5案例實踐
11.5.1數據模式的設計
11.5.2實驗環境設置
11.5.3谷歌分析實戰
11.5.4自主設計實戰之Flume、HDFS和Hive的整合
11.5.5自主設計實戰之Flume、Kafka和Storm的整合
11.6更多的思考
后記
網路書店
類別
折扣
價格
-
新書87折$412