本文提出基于詞語搭配強度計算的語境計算模RFR_SUM(SUM of Relative Frequency
Ratio),用于處理各類詞語級的歧義消解問題。各章節的順序大致勾勒出該模型形成和發展的軌跡。提出廣義組配理論框架,並據此建立語境計算模型RFR—SUM,用以處理語言中廣泛存在的詞語級歧義現象。將RFR—SUM模型應用于中文信息處理中的組合型切分歧義和交集型切分歧義的消解、兼類詞的消解、多音詞的消解以及詞義消歧、語料庫精加工、隱喻識別等多項任務中,均取得滿意的結果,驗證了該理論的普適性。
本書可以作為從事自然語言處理和計算語言學相關研究人員的參考書。
目錄
序一
序二
緒論
1 自然語言處理的根本問題
2 詞語搭配問題的研究
3 本書的主要研究內容
第1章 詞語組配的研究現狀
1.1 漢語詞語組配及其性質
1.2 國外詞語搭配研究現狀
1.3 國內詞語搭配研究現狀
第2章 詞語搭配的自動抽取研究
2.1 詞語搭配的抽取方法
2.2 搭配抽取框架的建立
2.3 實驗及其結果
第3章 廣義組配理論
3.1 廣義組配理論的提出
3.2 語境的可計算性
第4章 語境計算模型RFR_SUM
4.1 相對詞頻比RFR
4.2 基本RFR_SUM模型
第5章 RFR_SUM模型在分詞消歧中的應用
5.1 RFR_SUM模型應用于組合型消歧
5.2 RFR_SUM模型應用于交集型消歧
第6章 兼類詞與多音詞的消歧
6.1 RFR_SUM模型在兼類詞消解中的應用
6.2 基于RFR_SUM模型的多音詞的消歧
第7章 詞義消歧研究
7.1 RFR_SUM模型在詞義消歧中的應用
7.2 無需詞性標注語料的詞義消歧實驗
第8章 詞義消歧的二元模型及集成研究
8.1 81_RFR_SUM模型
8.1.1 二元搭配強度和二元相對詞頻比(B1_RFR)
8.1.2 81_RFR_SUM模型
8.1.3 實驗及結果
8.2 UNl_RFR_SUM與Bl_RFR_SUM的集成
8.3 多分類問題研究
第9章 超大規模語料精加工技術研究
9.1 問題的提出
9.2 現有標注軟件的性能指標的計量研究
9.2.1 ICTCl.AS系統標注結果分析
9.2.2 系統改進探討
9.3 語料精加工的方法
9.3.1 詞表校對法
9.3.2 基于簡單詞語組合特性的方法
9.3.3 基于多元組比對的方法
9.3.4 基于RFR_SUM模型的方法
9.4 初步實驗結果
第10章 隱喻識別研究
10.1 隱喻研究現狀
10.2 隱喻研究的意義
10.3 隱喻研究的內容和方案
10.4 初步的研究成果
結語
1 本研究完成的主要工作
2 進一步研究計劃
主要參考文獻
附錄1 北京大學漢語文本詞性標注集
附錄2 組合型切分歧義強勢比例
附錄3 “從小/學”訓練用例句
附錄4 “應/用于”訓練用例句
附錄5 “應用于”測試集
附錄6 “從小學”測試集
附錄7 “科學”詞性標注開放測試中標注錯誤句子
附錄8 “黃金”詞義消歧中錯誤句子
附錄9 “黃金”詞義消歧中錯誤句子
附錄10 經改進後,“黃金”詞義消歧中錯誤句子
附錄11 經改進後,“黃色”詞義消歧中錯誤句子
附錄12 “黃色”詞義開放測試錯誤句子
附錄13 “黃金”詞義開放測試句子句子
附錄14 “分子”分類錯誤的句子
附錄15 “材料”分類錯誤的句子
附錄16 “著/u”和“著/v”校對出錯誤的句子
附錄17 “本書/r”和“本/q書/n”校對出錯誤的句子
後記
序二
緒論
1 自然語言處理的根本問題
2 詞語搭配問題的研究
3 本書的主要研究內容
第1章 詞語組配的研究現狀
1.1 漢語詞語組配及其性質
1.2 國外詞語搭配研究現狀
1.3 國內詞語搭配研究現狀
第2章 詞語搭配的自動抽取研究
2.1 詞語搭配的抽取方法
2.2 搭配抽取框架的建立
2.3 實驗及其結果
第3章 廣義組配理論
3.1 廣義組配理論的提出
3.2 語境的可計算性
第4章 語境計算模型RFR_SUM
4.1 相對詞頻比RFR
4.2 基本RFR_SUM模型
第5章 RFR_SUM模型在分詞消歧中的應用
5.1 RFR_SUM模型應用于組合型消歧
5.2 RFR_SUM模型應用于交集型消歧
第6章 兼類詞與多音詞的消歧
6.1 RFR_SUM模型在兼類詞消解中的應用
6.2 基于RFR_SUM模型的多音詞的消歧
第7章 詞義消歧研究
7.1 RFR_SUM模型在詞義消歧中的應用
7.2 無需詞性標注語料的詞義消歧實驗
第8章 詞義消歧的二元模型及集成研究
8.1 81_RFR_SUM模型
8.1.1 二元搭配強度和二元相對詞頻比(B1_RFR)
8.1.2 81_RFR_SUM模型
8.1.3 實驗及結果
8.2 UNl_RFR_SUM與Bl_RFR_SUM的集成
8.3 多分類問題研究
第9章 超大規模語料精加工技術研究
9.1 問題的提出
9.2 現有標注軟件的性能指標的計量研究
9.2.1 ICTCl.AS系統標注結果分析
9.2.2 系統改進探討
9.3 語料精加工的方法
9.3.1 詞表校對法
9.3.2 基于簡單詞語組合特性的方法
9.3.3 基于多元組比對的方法
9.3.4 基于RFR_SUM模型的方法
9.4 初步實驗結果
第10章 隱喻識別研究
10.1 隱喻研究現狀
10.2 隱喻研究的意義
10.3 隱喻研究的內容和方案
10.4 初步的研究成果
結語
1 本研究完成的主要工作
2 進一步研究計劃
主要參考文獻
附錄1 北京大學漢語文本詞性標注集
附錄2 組合型切分歧義強勢比例
附錄3 “從小/學”訓練用例句
附錄4 “應/用于”訓練用例句
附錄5 “應用于”測試集
附錄6 “從小學”測試集
附錄7 “科學”詞性標注開放測試中標注錯誤句子
附錄8 “黃金”詞義消歧中錯誤句子
附錄9 “黃金”詞義消歧中錯誤句子
附錄10 經改進後,“黃金”詞義消歧中錯誤句子
附錄11 經改進後,“黃色”詞義消歧中錯誤句子
附錄12 “黃色”詞義開放測試錯誤句子
附錄13 “黃金”詞義開放測試句子句子
附錄14 “分子”分類錯誤的句子
附錄15 “材料”分類錯誤的句子
附錄16 “著/u”和“著/v”校對出錯誤的句子
附錄17 “本書/r”和“本/q書/n”校對出錯誤的句子
後記
序
欣聞曲維光博士的專著《現代漢語詞語級歧義自動消解研究》即將出版,我由衷地感到高興。曲維光博士要我寫個序言,實在是盛情難卻。為他人的著作作序,在我的學術生涯中還是第一次。我以為,寫芍序言”是一件極其困難的任務,不僅要領會全書的精要,還要了解相關學科的全局以及該書對學科發展的貢獻。就能力和精力而言,我確實碓以勝任。然而,曲維光博士2006年初進北京大學計算機科學技術博士後工作站,兩年期間與我密切合作。他不僅刻苦努力,勤于思索,出色完成了博士後研究任務,為我承擔的973課題“文本內容理解的數屆基礎”貢獻了力量;而且富有協作精神,與北京大學計算語言學研究所師生結下了深厚的友誼。同時,我知道曲維光博士的導師陳小荷教授已經為本書寫了序言,相信“序言”的任務已經完成。我自覺壓力不那麼大了,只不過是再加上自己的瀆後感而已。
當前自然語言處理研究的主攻方向,是讓機器能夠自動地識別和消稞自然語言的歧義。曲維光博士的研究重點是詞語級的各種類型的歧義消解,這是自然語言處理研究的基本課題,已經研究很多年了,但沒有徹底解決,甚至離徹底解決尚有很長的路要走。這種情況一方面說明,這里有創新的機會和發展的空間,另一方面也說明,創新和發展的難度很大。可以說,曲維光博士是在打攻堅戰。
任何一個語言單位脫離其語境(不妨狹義地理解為該語言單位的上下文)都有可能產生歧義,消解歧義的所有方法都要利用其語境信息。不同的問題、不同的方法所利用的語境的範圍各不相同。就詞語級歧義而言,語境通常約束為研究對象在語句中左右相鄰的若干個詞語。曲維光博士提出的語境計算模型RAF╴SUM利用了研究對象在整個語料庫中的相關信息,取得了很好的消歧效果。這是本書最重要的創新成果,值得向讀者推薦。在這里試做一個淺顯的解說。
RFR╴SUM的完整表達是SUM of Relative Frequency Ratio,SUM就是算術“和”,而Relative Frequency Ratio書中解釋為“相對詞頻比”。
設研究對象A有兩個歧解A1和A2。例如,字符串“學會”可以是一個名詞“學會/n”,也可以是兩個動詞的組合“學/v會/v”;“黃色”這個詞的詞義是“顏色”,另一個是“淫穢”。從包含對象A的語料庫C中抽出兩個分別包含A1和A2的子集C1和C2。這里需要指出,語料庫C包含的不是原始文本,而是按照需要進行了加工的帶標記語料。
對于對象A1,將C1中所有語句按A1對齊,統計相對于A1的每個位置i(如左1、左2、右1、右2,等等)上的詞語w的詞頻(即出現次數),稱為詞語w在位置i上的局部詞頻,記為LocFrqi(w)。稱詞語w在語料庫C中的詞頻為全局詞頻,記為GlobFrq(w)。局部詞頻與全局詞頻之比,即LocFrqi(w)/ClobFrq(w),就是詞語w關于A1在位置i上的相對詞頻比Fi(w)。
這里有關“詞頻”的各個術語有其特定的含義,與詞頻統計中普遍使用的“頻次(絕對頻率)”、“頻率(相對頻率)”這些術語有相通之處,也有不一致,希望讀者注意。
對于每個位i,將Fi(w)按降序排列,選擇最大的前n個詞語。將每個位置i作為列,將前n個詞語及其相應的Fi(w)作為行,排列成表。對于對象A2,也有同樣的一個表。這些表就是語境計算模型RFR╴SUM在訓練語料C上所獲取的最基本的參數。
曲維光博士將RFR╴SUM計算模型應用于組合型切分踱義、交集型切歧義、多音詞、兼類詞、多義詞的消蛟以及隱喻的識別等任務,通過大規模實驗驗證了理論的可靠性,特別是對小概率的研究對象取得了令人滿意的結果,這也是上面所提及的“攻堅戰”的另一層含義。
我以為,曲維光博士之所以能取得這樣的成績,與其學術背景有密切的關系。曲維光樽士在大學本科和碩士階段都是學計算機的,攻讀博士學位則選擇了計算語言學作為自己的研究方向,因而理科、文科都具有堅實的墓礎。曲維兆博士不僅勤于觀察分析紛繁復雜的語言現象,提出了廣文組配理論;而且勇于稷大規模的語言數據上進行實踐,這才有語境計算模型RFR╴SUM的創新。
學海無涯。魂論是廣義組配理論還是裙境計算模型中都還有很多工作要儆,需要進一步充實、完善、驗證、發E。如果澉眼自然語言理解的長遠目標,當前的函然語言處理研究所取得蚋一些成就或許只能算作是一部錦大樂章的前奏齙。我用屁原的兩句話作為自減的座右銘︰“路漫漫其修遠兮,吾將上下而求索。”願與艙維光博士共勉之。
北京大學計算語言學研究所
俞士注
2008年國慶前夕完稿
當前自然語言處理研究的主攻方向,是讓機器能夠自動地識別和消稞自然語言的歧義。曲維光博士的研究重點是詞語級的各種類型的歧義消解,這是自然語言處理研究的基本課題,已經研究很多年了,但沒有徹底解決,甚至離徹底解決尚有很長的路要走。這種情況一方面說明,這里有創新的機會和發展的空間,另一方面也說明,創新和發展的難度很大。可以說,曲維光博士是在打攻堅戰。
任何一個語言單位脫離其語境(不妨狹義地理解為該語言單位的上下文)都有可能產生歧義,消解歧義的所有方法都要利用其語境信息。不同的問題、不同的方法所利用的語境的範圍各不相同。就詞語級歧義而言,語境通常約束為研究對象在語句中左右相鄰的若干個詞語。曲維光博士提出的語境計算模型RAF╴SUM利用了研究對象在整個語料庫中的相關信息,取得了很好的消歧效果。這是本書最重要的創新成果,值得向讀者推薦。在這里試做一個淺顯的解說。
RFR╴SUM的完整表達是SUM of Relative Frequency Ratio,SUM就是算術“和”,而Relative Frequency Ratio書中解釋為“相對詞頻比”。
設研究對象A有兩個歧解A1和A2。例如,字符串“學會”可以是一個名詞“學會/n”,也可以是兩個動詞的組合“學/v會/v”;“黃色”這個詞的詞義是“顏色”,另一個是“淫穢”。從包含對象A的語料庫C中抽出兩個分別包含A1和A2的子集C1和C2。這里需要指出,語料庫C包含的不是原始文本,而是按照需要進行了加工的帶標記語料。
對于對象A1,將C1中所有語句按A1對齊,統計相對于A1的每個位置i(如左1、左2、右1、右2,等等)上的詞語w的詞頻(即出現次數),稱為詞語w在位置i上的局部詞頻,記為LocFrqi(w)。稱詞語w在語料庫C中的詞頻為全局詞頻,記為GlobFrq(w)。局部詞頻與全局詞頻之比,即LocFrqi(w)/ClobFrq(w),就是詞語w關于A1在位置i上的相對詞頻比Fi(w)。
這里有關“詞頻”的各個術語有其特定的含義,與詞頻統計中普遍使用的“頻次(絕對頻率)”、“頻率(相對頻率)”這些術語有相通之處,也有不一致,希望讀者注意。
對于每個位i,將Fi(w)按降序排列,選擇最大的前n個詞語。將每個位置i作為列,將前n個詞語及其相應的Fi(w)作為行,排列成表。對于對象A2,也有同樣的一個表。這些表就是語境計算模型RFR╴SUM在訓練語料C上所獲取的最基本的參數。
曲維光博士將RFR╴SUM計算模型應用于組合型切分踱義、交集型切歧義、多音詞、兼類詞、多義詞的消蛟以及隱喻的識別等任務,通過大規模實驗驗證了理論的可靠性,特別是對小概率的研究對象取得了令人滿意的結果,這也是上面所提及的“攻堅戰”的另一層含義。
我以為,曲維光博士之所以能取得這樣的成績,與其學術背景有密切的關系。曲維光樽士在大學本科和碩士階段都是學計算機的,攻讀博士學位則選擇了計算語言學作為自己的研究方向,因而理科、文科都具有堅實的墓礎。曲維兆博士不僅勤于觀察分析紛繁復雜的語言現象,提出了廣文組配理論;而且勇于稷大規模的語言數據上進行實踐,這才有語境計算模型RFR╴SUM的創新。
學海無涯。魂論是廣義組配理論還是裙境計算模型中都還有很多工作要儆,需要進一步充實、完善、驗證、發E。如果澉眼自然語言理解的長遠目標,當前的函然語言處理研究所取得蚋一些成就或許只能算作是一部錦大樂章的前奏齙。我用屁原的兩句話作為自減的座右銘︰“路漫漫其修遠兮,吾將上下而求索。”願與艙維光博士共勉之。
北京大學計算語言學研究所
俞士注
2008年國慶前夕完稿
網路書店
類別
折扣
價格
-
新書87折$146