本書的整體行文是基於「說些歷史、話些故事、聊些技術、談些思考」這樣的思路展開的。
全書共有13章,邏輯上分為四個部分:第一部分嘗試對「數覺→數→數據→大數據」歷史脈絡進行梳理並陳述社會各界迎接和擁抱「大數據」的若干事實;第二部分嘗試從技術實現和部署實施的角度厘清大數據技術流程,並從多個視角和層面闡述各個環節面臨的挑戰和機遇,重點敘述不同知識背景的研究群體針對大數據的態度、行動和思維方式;第三部分嘗試從管理策略、價值實現及思維方式三個角度厘清大數據落地應用涉及的技術和非技術問題,並從多個視角和層面梳理各個環節的要點和細則;第四部分在對互聯網的技術發展脈絡及國際經濟形勢進行梳理的基礎上,分析了在「互聯網+」概念被熱炒及全民總動員的當代大數據的潛在發展機遇和應用場景。
王崇駿,博士、教授、博導,任職於南京大學計算機科學與技術系及軟件新技術國家重點實驗室,研究興趣是自主Agent及多Agent系統、復雜網絡理論及應用、大數據分析及智能系統。截至本書出版,主持和參與包括973、科技部重點專項、發改委專項、工信部產業化基金、國家自然科學基金、國家社會科學基金、省自然科學基金及支撐計划在內的國家及省部級基金與企事業資助項目50余項。在教育醫療類惠民行業、優政興業類政府領域、互聯網新經濟領域有30余項科研成果獲得產品化和商品化推廣。
目錄
序
第一篇現象及感性思辨
第1章大數據溯源3
1.1引言3
1.2數覺及數的起源7
1.3模擬與數字計算10
1.4從數據到大數據15
1.5大數據時代19
1.6本章小結23
本章參考文獻23
第2章大數據現象25
2.1引言25
2.2政界大數據28
2.3業界大數據33
2.4學界大數據39
2.5本章小結44
本章參考文獻45
第3章大數據產業46
3.1引言46
3.2大數據產業環境49
3.2.1政策環境49
3.2.2應用環境51
3.2.3技術環境52
3.3大數據產業地圖53
3.3.1大數據產業地圖由來53
3.3.2大數據產業地圖明細54
3.3.3大數據產業地圖意義61
3.4大數據應用提示62
3.4.1大數據中文解析及提示62
3.4.2大數據應用場景及策略64
3.4.3大數據陷阱及應用提示65
3.5本章小結67
本章參考文獻68
第二篇技術及選型思路
第4章大數據支撐技術71
4.1引言71
4.2大數據流程73
4.2.1顯式挑戰74
4.2.2隱式困難76
4.2.3評估思路78
4.3基礎支撐技術78
4.3.1數據采集79
4.3.2數據存儲81
4.3.3數據建模82
4.3.4計算架構85
4.4高級支撐技術90
4.4.1雲計算背景90
4.4.2雲計算定義91
4.4.3雲計算本質93
4.4.4應用提示96
4.5本章小結97
本章參考文獻98
第5章數據采集與整合99
5.1引言99
5.2大數據的數據源101
5.2.1數據分布101
5.2.2內部數據103
5.2.3互聯網數據105
5.2.4應用提示105
5.3內部數據及內部數據采集106
5.3.1目標任務106
5.3.2關鍵技術107
5.3.3ETL工具110
5.3.4應用提示111
5.4互聯網數據及互聯網數據采集113
5.4.1目標任務113
5.4.2關鍵技術114
5.4.3開源網絡爬蟲118
5.4.4應用提示120
5.5本章小結121
本章參考文獻123
第6章數據存儲與管理124
6.1引言124
6.2數據組織127
6.2.1集中與分布128
6.2.2SQL與NoSQL130
6.3數據存儲138
6.4雲存儲141
6.5本章小結144
本章參考文獻145
第7章數據表示與理解146
7.1引言146
7.2度量方法149
7.2.1相似系數函數150
7.2.2距離函數152
7.3數據規范154
7.4特征工程155
7.4.1特征表示156
7.4.2特征提取156
7.4.3特征選擇175
7.5應用提示178
7.6本章小結181
本章參考文獻181
第8章數據理解與建模183
8.1引言183
8.2機器學習185
8.3非監督學習187
8.3.1K?Means188
8.3.2EM189
8.4監督學習192
8.4.1回歸192
8.4.2分類196
8.5本章小結226
本章參考文獻227
第9章知識發現與應用229
9.1引言229
9.2從機器學習到數據挖掘233
9.2.1統計與統計學234
9.2.2智能與人工智能235
9.2.3人工智能與機器學習237
9.2.4數據挖掘及技術路徑239
9.2.5應用提示245
9.3從數據挖掘到數據科學246
9.3.1從「驚奇」引發的科學之母246
9.3.2從「科學」引發的研究范式249
9.3.3從「數據」引發的數據科學251
9.4從算法到大數據方法論252
9.4.1演繹與歸納252
9.4.2因果與相關255
9.4.3定律與模型257
9.5本章小結260
本章參考文獻260
第三篇實施及理性思考
第10章大數據實施265
10.1引言265
10.2工程管理267
10.2.1思維層的應用模式梳理267
10.2.2開發層的工程實施路徑270
10.2.3運維層的平台應用保障273
10.3技術管理274
10.3.1生產流程管理274
10.3.2技術流程管理277
10.3.3知識流程管理279
10.4商務管理282
10.4.1商業模式價值邏輯282
10.4.2大數據與商業模式283
10.4.3典型商業模式示例287
10.5本章小結290
本章參考文獻291
第11章大數據價值292
11.1引言292
11.2從數據到價值294
11.2.1數據的價值295
11.2.2信息的價值297
11.2.3知識的價值299
11.2.4應用提示300
11.3從閉環到開環302
11.3.1垂直應用價值302
11.3.2平台集成價值303
11.3.3生態協同價值305
11.3.4應用提示305
11.4大數據評估306
11.4.1數據價值評估306
11.4.2數據質量評估310
11.4.3平台價值評估312
11.4.4應用提示315
11.5本章小結321
本章參考文獻322
第12章大數據思維323
12.1引言323
12.2數據層325
12.2.1數據全采樣325
12.2.2數據交叉復用327
12.2.3數據雲化存儲328
12.3分析層330
12.3.1相關重於因果330
12.3.2效率重於精度332
12.3.3離線分析+實時運行334
12.4應用層336
12.4.1數據質量溯源336
12.4.2服務和應用340
12.4.3開放和合作342
12.5本章小結345
本章參考文獻347
第四篇機遇及應用思索
第13章大數據機遇351
13.1引言351
13.2互聯網+356
13.3電子商務359
13.3.1電子商務概述359
13.3.2移動電子商務362
13.3.3跨境電子商務363
13.3.4應用提示365
13.4工業互聯網368
13.4.1基本概念368
13.4.2笑臉曲線368
13.4.3工業4.0371
13.4.4應用提示376
13.5互聯網金融380
13.5.1基本概念380
13.5.2面向投融資的互聯網金融381
13.5.3面向支付的互聯網金融384
13.5.4其他類型的互聯網金融387
13.5.5應用提示390
13.6本章小結392
本章參考文獻394
跋395
第一篇現象及感性思辨
第1章大數據溯源3
1.1引言3
1.2數覺及數的起源7
1.3模擬與數字計算10
1.4從數據到大數據15
1.5大數據時代19
1.6本章小結23
本章參考文獻23
第2章大數據現象25
2.1引言25
2.2政界大數據28
2.3業界大數據33
2.4學界大數據39
2.5本章小結44
本章參考文獻45
第3章大數據產業46
3.1引言46
3.2大數據產業環境49
3.2.1政策環境49
3.2.2應用環境51
3.2.3技術環境52
3.3大數據產業地圖53
3.3.1大數據產業地圖由來53
3.3.2大數據產業地圖明細54
3.3.3大數據產業地圖意義61
3.4大數據應用提示62
3.4.1大數據中文解析及提示62
3.4.2大數據應用場景及策略64
3.4.3大數據陷阱及應用提示65
3.5本章小結67
本章參考文獻68
第二篇技術及選型思路
第4章大數據支撐技術71
4.1引言71
4.2大數據流程73
4.2.1顯式挑戰74
4.2.2隱式困難76
4.2.3評估思路78
4.3基礎支撐技術78
4.3.1數據采集79
4.3.2數據存儲81
4.3.3數據建模82
4.3.4計算架構85
4.4高級支撐技術90
4.4.1雲計算背景90
4.4.2雲計算定義91
4.4.3雲計算本質93
4.4.4應用提示96
4.5本章小結97
本章參考文獻98
第5章數據采集與整合99
5.1引言99
5.2大數據的數據源101
5.2.1數據分布101
5.2.2內部數據103
5.2.3互聯網數據105
5.2.4應用提示105
5.3內部數據及內部數據采集106
5.3.1目標任務106
5.3.2關鍵技術107
5.3.3ETL工具110
5.3.4應用提示111
5.4互聯網數據及互聯網數據采集113
5.4.1目標任務113
5.4.2關鍵技術114
5.4.3開源網絡爬蟲118
5.4.4應用提示120
5.5本章小結121
本章參考文獻123
第6章數據存儲與管理124
6.1引言124
6.2數據組織127
6.2.1集中與分布128
6.2.2SQL與NoSQL130
6.3數據存儲138
6.4雲存儲141
6.5本章小結144
本章參考文獻145
第7章數據表示與理解146
7.1引言146
7.2度量方法149
7.2.1相似系數函數150
7.2.2距離函數152
7.3數據規范154
7.4特征工程155
7.4.1特征表示156
7.4.2特征提取156
7.4.3特征選擇175
7.5應用提示178
7.6本章小結181
本章參考文獻181
第8章數據理解與建模183
8.1引言183
8.2機器學習185
8.3非監督學習187
8.3.1K?Means188
8.3.2EM189
8.4監督學習192
8.4.1回歸192
8.4.2分類196
8.5本章小結226
本章參考文獻227
第9章知識發現與應用229
9.1引言229
9.2從機器學習到數據挖掘233
9.2.1統計與統計學234
9.2.2智能與人工智能235
9.2.3人工智能與機器學習237
9.2.4數據挖掘及技術路徑239
9.2.5應用提示245
9.3從數據挖掘到數據科學246
9.3.1從「驚奇」引發的科學之母246
9.3.2從「科學」引發的研究范式249
9.3.3從「數據」引發的數據科學251
9.4從算法到大數據方法論252
9.4.1演繹與歸納252
9.4.2因果與相關255
9.4.3定律與模型257
9.5本章小結260
本章參考文獻260
第三篇實施及理性思考
第10章大數據實施265
10.1引言265
10.2工程管理267
10.2.1思維層的應用模式梳理267
10.2.2開發層的工程實施路徑270
10.2.3運維層的平台應用保障273
10.3技術管理274
10.3.1生產流程管理274
10.3.2技術流程管理277
10.3.3知識流程管理279
10.4商務管理282
10.4.1商業模式價值邏輯282
10.4.2大數據與商業模式283
10.4.3典型商業模式示例287
10.5本章小結290
本章參考文獻291
第11章大數據價值292
11.1引言292
11.2從數據到價值294
11.2.1數據的價值295
11.2.2信息的價值297
11.2.3知識的價值299
11.2.4應用提示300
11.3從閉環到開環302
11.3.1垂直應用價值302
11.3.2平台集成價值303
11.3.3生態協同價值305
11.3.4應用提示305
11.4大數據評估306
11.4.1數據價值評估306
11.4.2數據質量評估310
11.4.3平台價值評估312
11.4.4應用提示315
11.5本章小結321
本章參考文獻322
第12章大數據思維323
12.1引言323
12.2數據層325
12.2.1數據全采樣325
12.2.2數據交叉復用327
12.2.3數據雲化存儲328
12.3分析層330
12.3.1相關重於因果330
12.3.2效率重於精度332
12.3.3離線分析+實時運行334
12.4應用層336
12.4.1數據質量溯源336
12.4.2服務和應用340
12.4.3開放和合作342
12.5本章小結345
本章參考文獻347
第四篇機遇及應用思索
第13章大數據機遇351
13.1引言351
13.2互聯網+356
13.3電子商務359
13.3.1電子商務概述359
13.3.2移動電子商務362
13.3.3跨境電子商務363
13.3.4應用提示365
13.4工業互聯網368
13.4.1基本概念368
13.4.2笑臉曲線368
13.4.3工業4.0371
13.4.4應用提示376
13.5互聯網金融380
13.5.1基本概念380
13.5.2面向投融資的互聯網金融381
13.5.3面向支付的互聯網金融384
13.5.4其他類型的互聯網金融387
13.5.5應用提示390
13.6本章小結392
本章參考文獻394
跋395
序
或許還從來沒有一個技術名詞像「大數據」一樣,從其誕生之日起,就得到了「政產學研商用」的一致認同,並引起了哲學家、科學家、技術研究者、工程研發人員的普遍關注。大數據能夠受到如此重視的原因可能是:不同的利益主體及不同的工作群體都不約而同地意識到了由「大數據」引發和驅動的思維變革、問題凝練、技術挑戰和價值發現。
作為一名大學全職教師,在教學和科研的過程中,我有幸接觸、參與和主持了「大數據」相關的課程講授、項目研發和咨詢服務。在教學相長及每一個項目場景的迭代研發過程中,我對「大數據」及數據驅動的項目研發頗有感觸。
當我嘗試把這種感觸和心得與學生、同事、學界小同行及項目甲方(有的是軟件企業,有的是直接應用方,比如政府、企事業單位等)進行交流的時候,我發現針對不同特點的受眾,必須有意地調整相關說辭,否則很難有理論技術及應用情懷方面的共鳴和共振。
我想這其中的原因最有可能在於:
1)雖然大家都認為「大數據」是有價值的,但因為價值是極具主觀色彩的,所以針對同一個應用場景,不同角色的利益主體出於自身的價值觀和心理習慣會持有不同的價值期望。這就意味着,不在同一個價值觀體系里的所有討論,……。
2)擁抱「大數據」是一種涉及多個專業領域和工種的集體協作行為,具有不同知識背景和方法論的不同個體如何有效地進行協作本身就是一個難題,需要在多邊理解與互補的基礎上互融互通、相互成就。
出於對「大數據」的敬畏,本書嘗試將筆者面向不同群體陳述和演講的觀點加以梳理和規整,希望從不同的視角和層面分析和分析「大數據」這件事。但是「大數據」涉及的內容太多,筆者無法也從來沒有想過,僅僅通過一本書就能詳盡介紹其方方面面。本書嘗試從相對宏觀的角度對「大數據」進行介紹,希望通過這種介紹,能夠讓大家對「大數據」形成初步的印象,而具體的細節則需要通過其他途徑深入了解。
本書的整體行文是基於「說些歷史、講些故事、聊些技術、談些思考」這樣的思路展開的。本書共有13章,邏輯上分為四篇,分別是:
第一篇現象及感性思辨:本篇嘗試對「數覺→數→數據→大數據」的歷史脈絡進行梳理,並通過社會各界迎接和擁抱「大數據」的若干事實,厘清幾個基本問題:「大數據」是什麼?為什麼會有「大數據」?「大數據」得到各界關注的原因是什麼?社會各界或各個利益主體是如何擁抱「大數據」的?本篇包括3個主要章節,分別是:
第1章大數據溯源第2章大數據現象第3章大數據產業第二篇技術及選型思路:本篇嘗試從技術實現和部署、實施的角度厘清大數據技術流程,並從多個視角和層面闡述各個環節所面臨的挑戰和機遇,重點敘述不同知識背景的研究群體針對大數據的態度、行動和思維方式。
本篇將通過對「數據采集→數據存取→數據建模→知識發現」技術流程的梳理,以及各個環節技術選型的應用提示,厘清幾個基本的技術問題:從何處及如何獲得數據?將數據存儲在何處及如何管理?如何分析數據以探明數據背后的知識和洞見?本篇包括6個主要章節,分別是:第4章大數據支撐技術第5章數據采集與整合第6章數據存儲與管理第7章數據表示與理解第8章數據理解與建模第9章知識發現與應用第三篇實施及理性思考:本篇嘗試從管理策略、價值實現及思維方式三個角度厘清大數據落地應用所涉及的技術和非技術問題,並從多個視角和層面梳理各個環節的要點和細則。
此外,本篇將圍繞「大數據實施及過程管理→大數據價值及價值評估→大數據思維及價值實現」這一主線,給出各個環節的應用提示,並厘清幾個基本問題:「大數據」的價值在哪里以及如何實現?如何部署、實施一個大數據項目?應該以怎樣的思維方式和執行策略應對「大數據」的挑戰?作為一個數據分析師應該具有哪些情懷?本篇包括3個主要章節,分別是:
第10章大數據實施第11章大數據價值第12章大數據思維第四篇機遇及應用思索:本篇在對互聯網的技術發展脈絡及國際經濟形勢進行梳理的基礎上,分析了在「互聯網+」概念被熱炒及全民總動員的當代,「大數據」的潛在發展機遇和應用場景,並通過對電子商務、工業40、互聯網金融這三條主線的扼要描述和分析,厘清幾個基本問題:「互聯網+」的本質是什麼?究竟是「互聯網+X」還是「X+互聯網」?「互聯網+商務」「互聯網+工業」「互聯網+金融」的本質、門類及潛在機遇有哪些?作為一個數據分析師,在「互聯網+」的環境下應該具有哪些情懷?本篇包括1個主要章節:
第13章大數據機遇本書的每一章都圍繞某個專題展開敘述,獨立成文,讀者可以根據自己的興趣和時間選擇性閱讀。本書的行文主要有兩種字體:以宋體行文的部分主要描述相關理論、技術,以及必要的分析和說明;以楷體行文的部分大多是基於上下文羅列的一些佐證、案例和思考;此外,本書還分別以顯式和隱式的方式給出了筆者對於一些技術選型、場景分析及感悟心得的「應用提示」。
本書的初始行文動機是「歸納所見所聞、總結項目經歷、獨立自主思考」,希望從客觀、獨立的第三方視角介紹和分析「大數據」及與「大數據」相關的技術觀點、執行思路和關鍵問題。在不影響閱讀的情況下,本書對所涉及的公司產品的介紹簡明扼要,更多詳細信息可參見給出的推薦鏈接或參考讀物。希望通過這樣的章節安排及內容梳理,本書能夠給「大數據」相關工作者一些參考,比如有意建設大數據項目的創業型公司創始人、企業主或政府部門的主管及信息主管(作為技術叢書和應用手冊),有意向數據型公司轉型的傳統軟件企業技術人員,包括市場人員、研發人員和主管(作為應用指南及技術白皮書),處於戰略轉型期的傳統企業主或信息主管(作為技術叢書),大數據項目研發工程技術人員(作為技術叢書及應用指南),普通院校大數據相關專業的研究生和本科生(作為教輔材料),或對大數據有興趣的讀者(作為科普讀物)等。
本書的編寫及出版得益於諸多前輩、同仁和南京大學計算機科學與技術系及南京大學軟件新技術國家重點實驗室的各位領導、同事的提攜、關心和鼓勵。感謝各類項目的資助方以及我所在研究團隊「南京大學智能信息處理研究組」的小伙伴,多年來共同努力和協作完成的一個個項目為本書的撰寫提供了大量素材,同時也讓我有更多的可能性去思考所有這些成功(當然也有失敗的)案例背后的大數據邏輯。還要特別感謝「南京大學智能信息處理研究組」的吳駿博士、張雷博士及彭岳、徐鳴、陸恆楊、王楠、李明、王陸霞、夏麗、譚龍海、陳鵬飛、馮藝琳、唐馳、謝璐遙、李永春等同學,在對本書進行通本潤色的過程中,他們給予了極大的幫助。
本書行文伊始,我就將本書的編寫計划、組織結構與南京大學的謝俊元教授、陳家駿教授、鄭滔教授進行交流和溝通,三位教授均給予了很多務實的建議,在本書的整個編寫過程中,幾位教授也在不同的場合、時機關注本書的編寫進度。這些對於筆者而言都是莫大的支持和鼓舞,在此一並感謝。本書的編寫和出版還離不開機械工業出版社華章公司姚蕾編輯的建議和鼓舞,尤其是行文過程中幾乎不間斷的支持和鼓勵,才使本書得以順利完稿,再次表示感謝。
由於水平有限及知識面、價值觀的狹隘,書中有疏漏和不足之處在所難免,敬請各位專家和讀者批評指正。
作為一名大學全職教師,在教學和科研的過程中,我有幸接觸、參與和主持了「大數據」相關的課程講授、項目研發和咨詢服務。在教學相長及每一個項目場景的迭代研發過程中,我對「大數據」及數據驅動的項目研發頗有感觸。
當我嘗試把這種感觸和心得與學生、同事、學界小同行及項目甲方(有的是軟件企業,有的是直接應用方,比如政府、企事業單位等)進行交流的時候,我發現針對不同特點的受眾,必須有意地調整相關說辭,否則很難有理論技術及應用情懷方面的共鳴和共振。
我想這其中的原因最有可能在於:
1)雖然大家都認為「大數據」是有價值的,但因為價值是極具主觀色彩的,所以針對同一個應用場景,不同角色的利益主體出於自身的價值觀和心理習慣會持有不同的價值期望。這就意味着,不在同一個價值觀體系里的所有討論,……。
2)擁抱「大數據」是一種涉及多個專業領域和工種的集體協作行為,具有不同知識背景和方法論的不同個體如何有效地進行協作本身就是一個難題,需要在多邊理解與互補的基礎上互融互通、相互成就。
出於對「大數據」的敬畏,本書嘗試將筆者面向不同群體陳述和演講的觀點加以梳理和規整,希望從不同的視角和層面分析和分析「大數據」這件事。但是「大數據」涉及的內容太多,筆者無法也從來沒有想過,僅僅通過一本書就能詳盡介紹其方方面面。本書嘗試從相對宏觀的角度對「大數據」進行介紹,希望通過這種介紹,能夠讓大家對「大數據」形成初步的印象,而具體的細節則需要通過其他途徑深入了解。
本書的整體行文是基於「說些歷史、講些故事、聊些技術、談些思考」這樣的思路展開的。本書共有13章,邏輯上分為四篇,分別是:
第一篇現象及感性思辨:本篇嘗試對「數覺→數→數據→大數據」的歷史脈絡進行梳理,並通過社會各界迎接和擁抱「大數據」的若干事實,厘清幾個基本問題:「大數據」是什麼?為什麼會有「大數據」?「大數據」得到各界關注的原因是什麼?社會各界或各個利益主體是如何擁抱「大數據」的?本篇包括3個主要章節,分別是:
第1章大數據溯源第2章大數據現象第3章大數據產業第二篇技術及選型思路:本篇嘗試從技術實現和部署、實施的角度厘清大數據技術流程,並從多個視角和層面闡述各個環節所面臨的挑戰和機遇,重點敘述不同知識背景的研究群體針對大數據的態度、行動和思維方式。
本篇將通過對「數據采集→數據存取→數據建模→知識發現」技術流程的梳理,以及各個環節技術選型的應用提示,厘清幾個基本的技術問題:從何處及如何獲得數據?將數據存儲在何處及如何管理?如何分析數據以探明數據背后的知識和洞見?本篇包括6個主要章節,分別是:第4章大數據支撐技術第5章數據采集與整合第6章數據存儲與管理第7章數據表示與理解第8章數據理解與建模第9章知識發現與應用第三篇實施及理性思考:本篇嘗試從管理策略、價值實現及思維方式三個角度厘清大數據落地應用所涉及的技術和非技術問題,並從多個視角和層面梳理各個環節的要點和細則。
此外,本篇將圍繞「大數據實施及過程管理→大數據價值及價值評估→大數據思維及價值實現」這一主線,給出各個環節的應用提示,並厘清幾個基本問題:「大數據」的價值在哪里以及如何實現?如何部署、實施一個大數據項目?應該以怎樣的思維方式和執行策略應對「大數據」的挑戰?作為一個數據分析師應該具有哪些情懷?本篇包括3個主要章節,分別是:
第10章大數據實施第11章大數據價值第12章大數據思維第四篇機遇及應用思索:本篇在對互聯網的技術發展脈絡及國際經濟形勢進行梳理的基礎上,分析了在「互聯網+」概念被熱炒及全民總動員的當代,「大數據」的潛在發展機遇和應用場景,並通過對電子商務、工業40、互聯網金融這三條主線的扼要描述和分析,厘清幾個基本問題:「互聯網+」的本質是什麼?究竟是「互聯網+X」還是「X+互聯網」?「互聯網+商務」「互聯網+工業」「互聯網+金融」的本質、門類及潛在機遇有哪些?作為一個數據分析師,在「互聯網+」的環境下應該具有哪些情懷?本篇包括1個主要章節:
第13章大數據機遇本書的每一章都圍繞某個專題展開敘述,獨立成文,讀者可以根據自己的興趣和時間選擇性閱讀。本書的行文主要有兩種字體:以宋體行文的部分主要描述相關理論、技術,以及必要的分析和說明;以楷體行文的部分大多是基於上下文羅列的一些佐證、案例和思考;此外,本書還分別以顯式和隱式的方式給出了筆者對於一些技術選型、場景分析及感悟心得的「應用提示」。
本書的初始行文動機是「歸納所見所聞、總結項目經歷、獨立自主思考」,希望從客觀、獨立的第三方視角介紹和分析「大數據」及與「大數據」相關的技術觀點、執行思路和關鍵問題。在不影響閱讀的情況下,本書對所涉及的公司產品的介紹簡明扼要,更多詳細信息可參見給出的推薦鏈接或參考讀物。希望通過這樣的章節安排及內容梳理,本書能夠給「大數據」相關工作者一些參考,比如有意建設大數據項目的創業型公司創始人、企業主或政府部門的主管及信息主管(作為技術叢書和應用手冊),有意向數據型公司轉型的傳統軟件企業技術人員,包括市場人員、研發人員和主管(作為應用指南及技術白皮書),處於戰略轉型期的傳統企業主或信息主管(作為技術叢書),大數據項目研發工程技術人員(作為技術叢書及應用指南),普通院校大數據相關專業的研究生和本科生(作為教輔材料),或對大數據有興趣的讀者(作為科普讀物)等。
本書的編寫及出版得益於諸多前輩、同仁和南京大學計算機科學與技術系及南京大學軟件新技術國家重點實驗室的各位領導、同事的提攜、關心和鼓勵。感謝各類項目的資助方以及我所在研究團隊「南京大學智能信息處理研究組」的小伙伴,多年來共同努力和協作完成的一個個項目為本書的撰寫提供了大量素材,同時也讓我有更多的可能性去思考所有這些成功(當然也有失敗的)案例背后的大數據邏輯。還要特別感謝「南京大學智能信息處理研究組」的吳駿博士、張雷博士及彭岳、徐鳴、陸恆楊、王楠、李明、王陸霞、夏麗、譚龍海、陳鵬飛、馮藝琳、唐馳、謝璐遙、李永春等同學,在對本書進行通本潤色的過程中,他們給予了極大的幫助。
本書行文伊始,我就將本書的編寫計划、組織結構與南京大學的謝俊元教授、陳家駿教授、鄭滔教授進行交流和溝通,三位教授均給予了很多務實的建議,在本書的整個編寫過程中,幾位教授也在不同的場合、時機關注本書的編寫進度。這些對於筆者而言都是莫大的支持和鼓舞,在此一並感謝。本書的編寫和出版還離不開機械工業出版社華章公司姚蕾編輯的建議和鼓舞,尤其是行文過程中幾乎不間斷的支持和鼓勵,才使本書得以順利完稿,再次表示感謝。
由於水平有限及知識面、價值觀的狹隘,書中有疏漏和不足之處在所難免,敬請各位專家和讀者批評指正。
網路書店
類別
折扣
價格
-
新書87折$308