簡體書 » 先秦文獻信息處理

先秦文獻信息處理

定價：~~210~~ 元

NT $ 183

作者：陳小荷
出版社：世界圖書出版公司北京公司
出版日期：2013-01-01
語言：簡體中文
ISBN10：7510056616
ISBN13：9787510056611
裝訂：323頁 / 普通級 / 1-1

內容簡介

研究先秦文獻的信息處理，包括詞匯和歷史知識的處理與智能檢索。先秦漢語是漢語可以溯及的源頭，對先秦文獻做詞匯處理，目的在於追本溯源，了解先秦漢語詞匯的基本面貌。用計算語言學方法梳理這一時期的歷史事件、人名、地名等知識，有助於更好地理解先秦文獻。

與現當代中文文獻相比，先秦傳世文獻規模很小，但相關的注疏文獻十分豐富。因此書中采用了與一般中文信息處理不同的方法——基於注疏文獻的方法。對比實驗表明，這種方法在先秦文獻信息處理中具有顯著的優勢。

陳小荷，江西豐城人。北京大學現代漢語專業文學博士。現任南京師范大學文學院語言科學及技術系教授、博士生導師，兼中國中文信息學會理事、《中文信息學報》編委。主要研究方向為中文信息處理、漢語語法學。代表作有《現代漢語自動分析——ViSual C++實現》《漢語口語里表示「……再說」的語素「着」》等。主持國家社會科學基金項目1項，江蘇省高校社科重點研究基地重大項目1項，參與國家社會科學基金重大項目1項。

第一章緒論
第一節先秦文獻
第二節先秦文獻信息處理
第三節先秦文獻信息處理的特點
第四節基於注疏文獻的處理方法

第二章注疏文獻處理
第一節注疏文獻的選取
第二節注疏文獻的內容分析
第三節先秦文獻與其注疏文獻的句子對齊和注釋對齊

第三章詞語切分
第一節先秦漢語分詞規范
第二節基於統計模型的自動分詞方法
第三節利用注疏文獻的自動分詞方法

第四章詞性標注
第一節詞類體系
第二節基於統計的分詞標注一體化方法
第三節基於注疏文獻的詞性校正

第五章古今字、通假字資源建設
第一節古今字、通假字研究現狀
第二節古今字、通假字數據庫的構建
第三節通假字標注實驗
第四節實驗結果及其分析

第六章詞匯概貌
第一節語料來源和說明
第二節先秦文獻的漢字統計
第三節先秦文獻的詞匯統計
第四節計算每種文獻的特色詞
第五節成語來源統計

第七章詞義消歧
第一節古代漢語詞義特點和消歧難點
第二節義項區分的顆粒度
第三節基於CRF模型的消歧實驗
第四節分類器集成的消歧實驗

第八章專名標注
第一節關於「專名」和「命名實體」的辨析
第二節先秦時期的人名與地名
第三節基於統計的專名識別
第四節基於注疏文獻的專名識別
第五節人名所指歧義消解
第六節基於專名標注的事件划分

第九章版本異文發現
第一節異文和版本異文
第二節個案和研究方法
第三節基於相似度計算的句珠配對
第四節基於同文排除的異文配對
第五節基於雙序列比對的一體化處理
第六節實驗結果及其分析

第十章《左傳》中的春秋社會網絡分析
第一節社會網絡分析的基本方法和軟件
第二節社會關系數據的獲取和網絡的定義
第三節人物-事件網絡分析
第四節人物關系網絡分析
第五節人物關系網絡的深入分析
后記

看更多