「語料庫與計算語言學研究叢書」旨在向國內讀者推薦語料庫語言學與計算語言學這兩個學科最新和最經典的外文著作。語料庫語言學的語料要建立在計算機上,而計算語言學則專門研究自然語言的計算機處理,這兩個學科都要使用計算機,都與計算機有著不解之緣。這篇序言主要介紹了這兩個學科的學術背景,以及它們之間的關系,以方便讀者的閱讀和理解。
1.語料庫語言學研究簡介
語料庫是為一個或多個應用目標而專門收集的、有一定結構的、有代表性的、可被計算機程序檢索的、具有一定規模的語料的集合。
語料庫應該按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的連續的語言運用文本或話語片段來建立。從其本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用總體。
語料庳一般可分為如下類型:
·按語料選取的時間划分,可分為歷時語料庫(diachronic corpus)和共時語料庳(synchronic corpus)。
·按語料的加工深度划分,可分為標注語料庫(annotated corpus)和非標注語料庫(non-annotated corpus)。
·按語料庫酌結構划分,可分為平衡結構語料庫(balance structure corpus)和自然隨機結構的語料庫(random struc-ture corpus)。
·按語料庫的用途划分,可分為通用語料庳(general corpus)和專用語料庫(specialized corpus)。專用語料庫又可以進一步根據使用的目的呆划分,例如,又可以迸一步分為語言學習孝語料庫(learner corpus)、語言教學語料庫(pedagogical corpus)。
·按語料庫的表迭形式划分,可分為口語語抖庫(spoken corpus)和文本語料庫(text corpus)。
·按語料庫中語料的語神划分,可分為單語種語料庫(mono-lingual corpus)和多語種語料庫(multilingual corpus)。多語種語料庫又可以再分為比較語料庫(omparable corpus)和乎行語料庫(parallel corpus)。比較語料瘁的目的側重於特定語言現象的對比,而平行語料庫的目詢側重於獲取對應的翻譯實例。
·按語料庫的動態更新程度划分,可分為參孝語料庫(reference corpus)和監控語料庫(monitor corpus)。參考語料庫原則上不作動態更新,而監控語料庫則需要不斷地進行動態曼新。
早在1897年,德國語言學家Kaeding就使用大規模的語言材料呆統計穩語單詞在吏本中的出現頻率,編寫了《穩語頻率詞典》(J.Kaeding,Haufigkeitsworterbuch der deutschen Sprache,Steglitz:published by the
author,1897)。由於當時還沒有計算機,Kaeding使用的語言材料不是杌器可讀的(machine readable),所以他的逮些語言材料還不能算真正意義上的語料庫,但是Kaeding使用大規模語言資料茱編寫頻率詞典弼工作,是具有開創性的。
1959年,英國倫敦大學教授Randolph Quirk提出建立英語用法調查酌語言資料庫,叫做SEU(Survey of English Usage)。由於當時技術條件的限剞,SEU用卡片呆蹙立的,也不受杌器可讀的。後未Quirk把這些語言資源逐步轉移到計鼻杌上,使之咸為機器可讀的語料庫,齊根據這個語料庫額導編寫了著名的《當代莫語語法》。