內容簡介

本書是一本講授信息檢索的經典教材。全書共21章,前8章詳述了信息檢索的基礎知識,包括倒排索引、布爾檢索及詞項權重計算和評分算法等,後13章介紹了一些高級話題,如基于語言建模的信息檢索模型、基于機器學習的排序方法和Web搜索技術等。另外,本書還著重討論了文本聚類技術這一信息檢索中不可或缺的組成部分。全書語言流暢,由淺入深,一氣呵成。

本書適合作為高等院校相關專業高年級本科生和研究生的課程教材,也可供信息檢索領域的研究人員和專業人士參考。
 

目錄

第1章 布爾檢索
1.1 一個信息檢索的例子
1.2 構建倒排索引的初體驗
1.3 布爾查詢的處理
1.4 對基本布爾操作的擴展及有序檢索
1.5 參考文獻及補充讀物
第2章 詞項詞典及倒排記錄表
2.1 文檔分析及編碼轉換
2.1.1 字符序列的生成
2.1.2 文檔單位的選擇
2.2 詞項集體的確定
2.2.1 詞條化
2.2.2 去除停用詞
2.2.3 詞項歸一化
2.2.4 詞干還原和詞形歸並
2.3 基于跳表的倒排記錄快速合並算法
2.4 含位置信息的倒排記錄表及短語查詢
2.4.1 二元詞索引
2.4.2 位置信息索引
2.4.3 混合索引機制
2.5 參考文獻及補充讀物
第3章 詞典及容錯式檢索
3.1 詞典搜索的數據結構
3.2 通配符查詢
3.2.1 一般的通配符查詢
3.2.2 支持通配符查詢的k-gram索引
3.3 拼寫校正
3.3.1 拼寫校正的實現
3.3.2 拼寫校正的方法
3.3.3 編輯距離
3.3.4 拼寫校正中的k-gram索引
3.3.5 上下文敏感的拼寫校正
3.4 基于發音的校正技術
3.5 參考文獻及補充讀物
第4章 索引構建
4.1 硬件基礎
4.2 基于塊的排序索引方法
4.3 內存式單遍掃描索引構建方法
4.4 分布式索引構建方法
4.5 動態索引構建方法
4.6 其他索引類型
4.7 參考文獻及補充讀物
第5章 索引壓縮
5.1 信息檢索中詞項的統計特性
5.1.1 Heaps定律:詞薦數目估計
5.1.2 Zipf定律:對詞項的分布建模
5.2 詞典壓縮
5.2.1 將詞典看成單一字符串的壓縮方法
5.2.2 按塊存儲
5.3 倒排記錄表的壓縮
5.3.1 可變字節碼
5.3.2 y編碼
5.4 參考文獻及補充讀物
第6章 文檔評分、詞項權重計算及向量空間模型
6.1 參考化索引及域索引
6.1.1 域加權評分
6.1.2 權重學習
6.1.3 最優權重g的計算
6.2 詞項頻率及權重計算
6.2.1 逆文檔頻率
6.2.2 tf-idf權重計算
6.3 向量空間模型
6.3.1 內積
6.3.2 查詢向量
6.3.3 向量相似度計算
6.4 其他tf-idf權重計算方法
6.4.1 tf的亞線性尺度變換方法
6.4.2 基于最大值的tf歸一化
6.4.3 文檔權重和查詢權重機制
6.4.4 文檔長度的回轉歸一化
第7章 一個完整搜索系統中的評分計算
7.1 快速評分及排序
7.1.1 非精確返回前K篇文檔的方法
7.1.2 索引去除技術
7.1.3 勝者表
7.1.4 靜態得分和排序
7.1.5 影響度排序
7.1.6 簇剪枝方法
7.2 信息檢索系統的組成
7.2.1 層次型索引
7.2.2 查詢詞項的鄰近性
7.2.3 查詢分析及文檔評分函數的設計
7.3 向量空間模型對各種查詢操作的支持
7.3.1 布爾查詢
7.3.2 通配符查詢
7.3.3 短語查詢
7.4 參考文獻及補充讀物
第8章 信息檢索的評價
8.1 信息檢索系統的評價
8.2 標準測試集
8.3 無序檢索結果集合的評價
8.4 有序檢索結果的評價方法
8.5 相關性判定
8.6 更廣的視角看評價︰系統質量及用戶盜用
8.6.1 系統相關問題
8.6.2 用戶盜用
8.6.3 對已有系統的改進
8.7 結果片段
8.8 參考文獻及補充讀物
第9章 相關反饋及查詢擴展
9.1 相關反饋及偽相關反饋
9.1.1 Rocchio相關反饋算法
9.1.2 基于概率的相關反饋方法
9.1.3 相關反饋的作用時機
9.1.4 Web上的相關反饋
9.1.5 相關反饋策略的評價
9.1.6 偽相關反饋
9.1.7 間接相關反饋
9.1.8 小結
9.2 查詢重構的全局方法
9.2.1 查詢重構的詞匯表工具
9.2.2 查詢擴展
9.2.3 同義詞詞典的自動構建
第10章 XML檢索
10.1 XML的基本概念
10.2 XML檢索中的挑戰性問題
10.3 基于向量空間模型的XML檢索
10.4 XML檢索的評價
10.5 XML檢索︰以文本為中心與以數據為中心的對比
10.6 參考文獻及補充讀物
第11章 概率檢索模型
11.1 概率論基礎知識
11.2 概率排序原理
11.2.1 1/0風險的情況
11.2.2 基于檢索代價的概率排序原理
11.3 二值獨立模型
11.3.1 排序函數的推導
11.3.2 理論上的概率估計方法
11.3.3 實際中的概率估計方法
11.3.4 基于概率的相關反饋方法
11.4 概率模型的相關評價及擴展
11.4.1 概率模型的評論
11.4.2 詞項之間的樹型依賴
11.4.3 Okapi BM25:一個非二值的模型
11.4.4 IR中的貝葉斯網絡方法
11.5 參考文獻及補充讀物
第12章 基于語言建模的信息檢索模型
12.1 語言模型
12.1.1 有窮自動機和語言模型
12.1.2 語言模型的種類
12.1.3 詞的多項式分布
12.2 查詢似然模型
12.2.1 IR中的查詢似然模型
12.2.2 查詢生成概率的估計
12.2.3 Ponte和Croft進行的實驗
12.3 語言建模的方法與其他檢索方法的比較
12.4 擴展的LM方法
12.5 參考文獻及補充讀物
第13章 文本分類及樸素貝葉斯方法
13.1 文本分類問題
13.2 樸素貝葉斯文本分類
13.3 貝努利模型
13.4 NB的性質
13.5 特征選擇
13.5.1 互信息
13.5.2 X(2)統計量
13.5.3 基于頻率的特征選擇方法
13.5.4 多類問題的特征選擇方法
13.5.5 不同特征選擇方法的比較
13.6 文本分類的評價
13.7 參考文獻及補充讀物
第14章 基于向量空間模型的文本分類
14.1 文檔表示及向量空間中的關聯度計算
14.2 Rocchio分類方法
14.3 k近鄰分類器
14.4 線性及非線性分類器
14.5 多類問題的分類
14.6 偏差-方差折中準則
14.7 參考文獻及補充讀物
第15章 支持向量機及文檔機器學習方法
15.1 二類線性可分條件下的支持向量機
15.2 支持向量機的擴展
15.2.1 軟間隔分類
15.2.2 多類情況下的支持向量機
15.2.3 非線性支持向量機
15.2.4 實驗結果
15.3 有關文本文檔分類的考慮
15.3.1 分類器類型的選擇
15.3.2 分類器效果的提高
15.4 ad hoc檢索中的機器學習方法
15.4.1 基于機器學習評分的簡單例子
15.4.2 基于機器學習的檢索結果排序
15.5 參考文獻及補充讀物
第16章 扁平聚類
16.1 信息檢索中的聚類應用
16.2 問題描述
16.3 聚類算法的評價
16.4 K-均值算法
16.5 基于模型的聚類
16.6 參考文獻及補充讀物
第17章 層次聚類
17.1 凝聚式層次聚類
17.2 單連接及全連接聚類算法
17.3 組平均凝聚式聚類
17.4 質心聚類
17.5 層次凝聚式聚類的最優性
17.6 分裂式聚類
17.7 簇標簽生成
17.8 實施中的注意事項
17.9 參考文獻及補充讀物
第18章 矩陣分解及隱性語義索引
18.1 線性代數基礎
18.2 詞項-文檔矩陣及SVD
18.3 低秩逼近
18.4 LSI
18.5 參考文獻及補充讀物
第19章 Web搜索基礎
19.1 背景和歷史
19.2 Web的特性
19.2.1 Web圖
19.2.2 作弊網頁
19.3 廣告經濟模型
19.4 搜索用戶體驗
19.5 索引規模及其估計
19.6 近似重復及shingling
19.7 參考文獻及補充讀物
第20章 Web采集及索引
20.1 概述
20.1.1 采集器必須提供的功能特點
20.1.2 采集器應該提供的功能特點
20.2 采集
20.2.1 采集器架構
20.2.2 DNS解析
20.2.3 待采集URL池
20.3 分布式索引
20.4 連接服務器
20.5 參考文獻及補充讀物
第21章 鏈接分析
21.1 Web圖
21.2 PageRank
21.2.1 馬爾科夫鏈
21.2.2 PageRank的計算
21.2.3 面向主題的PageRank
21.3 Hub網頁及Authority網頁
21.4 參考文獻及補充讀物
參考文獻
索引
 

第一次見到這本書的電子版是在2007年的年底,當時北京大學的閆宏飛博士向我推薦了這本書。從網上下載書稿的電子版之後,我便迫不及待地在一周時間內通讀了這本書。讀完之後便萌發了翻譯這本書的沖動,隨後我就聯系作者、聯系劍橋大學出版社並通過朋友尋找獲得授權的國內出版社。輾轉數月之後,我被告知該書已經交由其他學者翻譯,很快便可出版。听到這個消息,雖然我有些遺憾,但也算是心里的-塊石頭得以落地。所以,當去年8月人民郵電出版社突然聯系並詢問我是否有意翻譯這本著作時,我心里的驚訝可想而知。當然,驚訝之余我毫不猶豫地接受了這份邀請,並從此開始了長達教月的翻譯歷程。

之所以願意翻譯這本書不僅僅是由于該書的作者都是學術界甚至業界鼎鼎大名的人物,更主要的是因為本書在內容和組織上都有獨到之處。之前也有很多信息檢索方面的教材,但是其中很多內容已經過時。信息檢索是‧門不斷發展並和其他領域、技術不斷融合的學科。這本書補充了一些近年來受到廣泛關注的新內容。比如︰基于語言建模的信息檢索模型,基于機器學習的排序方法、檢索結果的Snippet生成,聚類標簽生成、XML檢索、搜索廣告、網頁作弊,等等。除此之外,本書每章末尾的“參考文獻及補充讀物”, 一節也給出了相關技術的最新進展。本書在內容上與傳統教材的另一個顯著不同之處是加大了文本分類,聚類技術的介紹篇幅,實際上這些技術已經成為當代信息檢索不可分割的一部分。另‧方面,本書在深度上超過了大部分傳統教材。在介紹信息檢索技術的同時,本書深入介紹了其背後所依賴的原理。因此,本書不僅可以用作信息檢索領域的入門教材,還能滿足對該領域進行深入研究的需要。另外,本書給出了很多實際當中的運行算法和實施細節,這些內容對于信息檢索技術的實際應用有很好的參考價值。最後值得一提的是,本書在結構上也進行了巧妙構思。首先通過‧個例子引出基本技術,然後通過基本技術的不斷增強來介紹信息檢索的其他技術。全書渾然一體,讀起來也有一氣呵成的感覺。

這麼一本優秀的著作在給譯者的翻譯帶來無窮動力的同時,無疑也給翻譯帶來了無形的壓力。為了盡量保證每章譯稿的質量並保持譯文的前後一致性,整本書的初譯工作全部由譯者本人獨立完成,在翻譯過程中譯者也閱讀了大量相關的教材和論文,井前後進行了六次自我校對。在校對過程中,有很多學術界同仁也提出了很多寶貴的意見和建議。他們包括︰中科院研究生院的朱廷劭教授、中科院自動化所的趙軍研究員、中科院軟件所的孫樂研究員、復旦大學的黃董菁教授、江西師範大學的王明文教授,江西財經大學的劉德喜博士,北京大學的閆宏飛博士、何靖博士、清華大學的張敏博士,北京語言大學的徐燕博士等。譯者所在的中科院計算所信息檢索課題組及選修研究生院《現代信息檢索》課程的部分學生也提出了大量修改建議,他們是︰郎皓,李亞楠、顧智字、李鵬、李銳、馬宏遠.張愛華.蔣在帆、沈沉、史亮、衛冰潔,崔雅趣、趙琴琴、李恆訓、袁平廣、邱泳欽、李丹、魯凱、徐飛、張帥、張啟龍、廖鳳,鐘進文、來亮、趙娟等。對于他們無私的幫助,我表示由衷的感謝。感謝我所在的前瞻研究實驗室主任李錦濤老師對我的翻譯工作給予的支持和肯定。當然,本書的翻譯工作得以順利完成,還要感謝人民郵電出版社眾多工作人員特別是責任編輯楊海玲女士在各方面的支持和幫助。另一個需要感謝的是我的妻子、在前前後後近八個月當中,除上班時間完成自己的科研工作外,我幾乎所有的業余時間都用在翻譯和校對上,而她卻默默地承擔起兩歲的兒子的所有撫育責任。

翻譯的過程中,我還有幸與原文的第二作者Prabhakar Raghavan教授進行了當面交流,他對我的翻譯工作給予了極大鼓勵。在與原文作者的郵件交流中,我也澄清了一些理解上的誤區.井修正了原書中的多處錯誤。

雖然得到了眾人的幫助,自己也算認真努力,但由于本人專業水平、理解能力和寫作功底都十分有限,加上時間上仍顯倉促,最後的譯稿中‧定存在不少理解上的偏差,譯文也會有許多生硬之處。希望讀者能不吝提出修改的意見和建議,以便對現有譯稿不斷改進,直至為國內信息檢索領域的讀者真E造福為止。來信請聯系wbxj2008@gmail,com,對譯稿J修改結果也會及時公布在網站http://ir.ict.ac.cn/~wangbin/iir-book/上。原書的初稿電子版、相關課件、勘誤表、論壇等信息也可以從網站http:nlp.stanford.edu/IR-book/information-retriveal-book.html下載。

譯者簡介

王斌博士,中國科學院計算技術研究所前瞻研究實驗室信息檢索課題組組長,副研究員,博士生導師。主持國家973。863、國家自然科學基金、國際合作基金、部委及企業合作等課題20余項,在包括SIGIR、CIKM、EMNLP等在內的會議和刊物上發表學術論文100余篇。擔任CIKM、AIRS、CCIR、SEWM等國際國內會議的程序委員會委員,同時是ACM和IEEE會員、中國計算機學會高級會員、中國中文信息學會會員、中文信息學會信息檢索專業委員會委員及《中文信息學報》編委。自2006年起在中國科學院研究生院講授《現代信息檢索》研究生課程,迄今培養博士、碩士研究生近30名。
網路書店 類別 折扣 價格
  1. 新書
    87
    $360