本書由斯坦福大學「Web挖掘」課程的內容總結而成,主要關注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。其中相關章節有對應的習題,以鞏固所講解的內容。讀者更可以從網上獲取相關拓展材料。
萊斯科夫(Jure Leskovec)拉賈拉曼(Anand Rajaraman) 厄爾曼(Jeffrey David Ullman)
Jure Leskovec 斯坦福大學計算機科學系助理教授,研究方向是大型社交和信息網絡的數據挖掘。他的研究成果獲得了很多獎項,如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation
Fellowship,還獲得了很多最佳論文獎,同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《麻省理工科技評論》《連線》、NBC、BBC等流行的社會媒體刊載。
Anand Rajaraman
數據庫和Web技術領域權威,創業投資基金Cambrian聯合創始人,斯坦福大學計算機科學系助理教授。Rajaraman的職業生涯非常成功:1996年創辦Junglee公司,兩年后被亞馬遜以2.5億美元收購,Rajaraman被聘為亞馬遜技術總監,推動亞馬遜從一個零售商轉型為零售平台;2000年與人合創Cambrian,孵化出幾個后來被谷歌收購的公司;2005年創辦Kosmix公司並任CEO,該公司於2011年被沃爾瑪集團收購,Rajaraman被聘為沃爾瑪負責全球電子商務業務的高級副總裁。Rajaraman生於印度,在斯坦福大學獲得計算機科學碩士和博士學位。求學期間與人合著的一篇論文榮列近20年來被引用次數最多的論文之一。Twitter賬號是@anand_raj。
Jeffrey David Ullman
美國國家工程院院士,計算機科學家。早年在貝爾實驗室工作,之后任教於普林斯頓大學,十年后加入斯坦福大學直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD創新獎、高德納獎、馮諾依曼獎等多項科研大獎;他是「龍書」《編譯原理》、數據庫名著《數據庫系統實現》等多部經典著作的合著者;麾下多名學生成為了數據庫領域的專家,其中最有名的當屬谷歌創始人Sergey
Brin;本書第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。