學(xué)習(xí)啦 > 論文大全 > 畢業(yè)論文 > 文學(xué)論文 > >

中國語料庫研究的歷史與現(xiàn)狀

時間: 馮志偉1 分享

語言學(xué)的研究必須以語言事實作為根據(jù),必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。傳統(tǒng)的語言材料的搜集、整理和加工完全是靠手工進行的,這是一種枯燥無味、費力費時的工作。計算機出現(xiàn)后,人們可以把這些工作交給計算機去作,大大地減輕了人們的勞動。后來,在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法,形成了一門新的學(xué)科——語料庫語言學(xué)(corpus linguistics),并成為了自然語言處理的一個分支學(xué)科。

語料庫語言學(xué)主要研究機器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用。多年來,機器翻譯和自然語言理解的研究中, 分析語言的主要方法是句法語義分析。因此,在很長一段時間內(nèi),許多系統(tǒng)都是基于規(guī)則的,而根據(jù)當(dāng)前計算機的理論和技術(shù)的水平很難把語言學(xué)的各種事實和理解語言所需的廣泛的背景知識用規(guī)則的形式充分地表達出來,這樣,這些基于規(guī)則的機器翻譯和自然語言理解系統(tǒng)只能在極其受限的某些子語言(sub- language)中獲得一定的成功。為了擺脫困境,自然語言處理的研究者者們開始對大規(guī)模的非受限的自然語言進行調(diào)查和統(tǒng)計,以便采用一種基于統(tǒng)計的模型來處理大量的非受限語言。不言而喻,語料庫語言學(xué)將有可能在大量語言材料的基礎(chǔ)上來檢驗傳統(tǒng)的理論語言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論,從而使我們對于自然語言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認識。

本文首先簡要介紹國外語料庫的發(fā)展情況,然后,比較詳細地介紹中國語料庫的發(fā)展情況和主要的成績,使我們對于語料庫研究得到一個鳥瞰式的認識。

一、國外語料庫概況

現(xiàn)在,美國Brown大學(xué)建立了BROWN語料庫(布朗語料庫),英國Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了 LOB 語料庫。歐美各國學(xué)者利用這兩個語料庫開展了大規(guī)模的研究,其中最引人注目的是對語料庫進行語法標(biāo)注的研究。他們設(shè)計了基于規(guī)則的自動標(biāo)注系統(tǒng) TAGGIT 來給布朗語料庫的 100 萬詞的語料作自動標(biāo)注,正確率為 77%. 他們還設(shè)計了 CLAWS 系統(tǒng)來給 LOB 語料庫的100萬詞的語料作自動標(biāo)注,根據(jù)統(tǒng)計信息來建立算法,自動標(biāo)注正確率達 96%, 比基于規(guī)則的 TAGGIT 系統(tǒng)提高了將近 20%. 最近他們同時考察三個相鄰標(biāo)記的同現(xiàn)頻率,使自動語法標(biāo)注的正確率達到 99.5%。這個指標(biāo)已經(jīng)超過了人工標(biāo)注所能達到的最高正確率。

現(xiàn)在,國外的主要語料庫還有:

London-Lund口語語料庫:收篇目87篇,每篇5000詞,共為43.4萬詞,有詳細的韻律標(biāo)注(prosodic marking)。

AHI語料庫:美國Heritage出版社為編纂Heritage詞典而建立,有400萬詞。

OTA牛津文本檔案庫(Oxford Text Archive):英國牛津大學(xué)計算中心建立,有10億字節(jié)。

BNC英國國家語料庫(British National Corpus):1995年正式發(fā)布,使用TEI編碼(Text Encoding Initiative)和SGML通用標(biāo)準置標(biāo)語言的國際標(biāo)準(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。

ACL/DCI美國計算語言學(xué)學(xué)會數(shù)據(jù)采集計劃:美國計算語言學(xué)學(xué)會(The association for Computational Linguistics, ACL)倡議的數(shù)據(jù)采集計劃(Data Collection Initiative, DCI),其宗旨是向非贏利的學(xué)術(shù)團體提供語料,以免除費用和版權(quán)的困擾,用標(biāo)準通用置標(biāo)語言SGML統(tǒng)一置標(biāo),以便于數(shù)據(jù)交換。

LDC語言數(shù)據(jù)聯(lián)合會 (Linguistic data Consortium): 設(shè)在美國賓州大學(xué),實行會員制,有163 個語料庫 (包括Text的以及 speech的),共享語言資源。

RWC日語語料庫:日本新情報處理開發(fā)機構(gòu)RWCP研制,包括《每日新聞》4年的全文語料,語素標(biāo)注量達1億條。

亞洲各語種對譯作文語料庫:日本國立國語研究所研制,中野洋主持,北京外國語大學(xué)參加。

為了推進語料庫研究的發(fā)展,歐洲成立了TELRI和ELRA等專門學(xué)會。TELRI 是跨歐洲語言資源基礎(chǔ)建設(shè)學(xué)會(Trans-European Language Resources Infrastructure )的首字母縮寫,John Sinclair擔(dān)任主席,由歐洲共同體提供經(jīng)費,其目的在于建立歐洲諸語言的語料庫,現(xiàn)已經(jīng)建成柏拉圖(Plato)的《理想國》(Politeia) 多語語料庫,建立了計算工具和資源的研究文檔TRACTOR (Research Archive of Computational Tools and Resources),正在語料庫的基礎(chǔ)上建立歐洲語言詞庫EUROVOCA。TELRI每年召開一次Seminar 。最近的一次Seminar在Lubljana, (Slovenia)召開(22.September – 26.September.2000),主題是從語料庫中自動抽取知識(Automatic knowledge extraction)。ELRA是歐洲語言資源學(xué)會 (European Language Resources Associationi)的首字母縮寫,由Zampolli擔(dān)任主席, ELRA負責(zé)搜集、傳播語言資源并使之商品化,對于語言資源的使用提供法律支持。ELRA建立了歐洲語言資源分布服務(wù)處ELDA (European Language resources Distribution Agency),負責(zé)研制并推行ELRA的戰(zhàn)略和計劃。ELRA還組織語言資源和評價國際會議LREC (Language Resources & Evaluation Congress), 每兩年一次。第一次會議于1998年在西班牙的Grenade舉行;第二次會議在Athens(Greece)召開(31.May – 02.June.2000),第三次會議于2002年在西班牙的Las Palmas de Gran Canaria 召開(27.May – 02.June 2002)。

二、我國語料庫的發(fā)展概況

(一)早期的漢語語料庫

1、我國語料庫研究的先河

在我國,從20世紀20年代開始,就有學(xué)者建立文本的語料庫,采用統(tǒng)計的方法來研究漢字的頻率,其目的在于制定基礎(chǔ)漢字的字表。當(dāng)然,這樣的語料庫不是機器可讀的,規(guī)模也很小,它是現(xiàn)代語料庫的雛形,開我國語料庫研究的先河,在我國語料庫的發(fā)展史上是功不可沒功的。著名教育學(xué)家陳鶴琴為了教學(xué)的目的,在對語料統(tǒng)計的基礎(chǔ)上,編寫了《語體文應(yīng)用字匯》,于1925年完成,于1928年由商務(wù)印書館出版,陳書前有“緒論”,說明“ 中文應(yīng)用字匯”曾有多種,其中包括P.克侖茨(Pastor P. Kronz)的研究和他自己的編寫的《常用四千字表》。陳鶴琴做過兩次統(tǒng)計,第一次統(tǒng)計使用了六種材料,包含554,478個漢字的語料,得不同漢字 4261個;第二次使用包含34,818個漢字的語料,得出與4261個漢字相異的漢字458個。第二次統(tǒng)計所得的成果毀于戰(zhàn)火,在《語體文應(yīng)用字匯》中印出的只是第一次統(tǒng)計的結(jié)果。

陳鶴琴用的語料分如下六類:

兒童用書:127,293字;

報刊(以通俗報刊為主):153,344字;

婦女雜志:90,142字;

小學(xué)生課外作品:51,807字;

古今小說:71,267字;

雜類:60,625字。

書末附有“字數(shù)次數(shù)對照表”,這是按漢字在語料中出現(xiàn)的絕對頻率排列的字表。

我國著名教育家陶行知先生為《語體文應(yīng)用字匯》寫了序言。序言中說:“他們(指“近代教育家”)對于一門一門的功課,甚至一篇文章,一個算題,一項運動,都要依據(jù)目標(biāo)去問他們的效用。他們的主張是要所學(xué)的,即是所用的。......到了后來他們連學(xué)生學(xué)的字也要審查起來了。學(xué)生現(xiàn)在所學(xué)的字,個個字都是有用的字嗎?自從這個問題發(fā)生就有好幾位學(xué)者開始研究應(yīng)用字匯。我國方面也有幾位先生研究這個問題,其中以陳鶴琴先生的研究最有系統(tǒng)。他和他的助理九人先后費了二三年工夫,檢查了幾十萬字的語體文,編成這本《語體文應(yīng)用字匯》。這冊報告未付印以前已經(jīng)做了《平民千子課》用字的根據(jù)。將來小學(xué)課本用字當(dāng)然也可以拿他來做一個很好的根據(jù)。雖然不能十分完備,但我想這本字匯對于成人及國民教育一定是有很大的貢獻的。”(見陳鶴琴《語體文應(yīng)用字匯》,商務(wù)印書館,1928年)。

2、早期的機器可讀語料庫

從1979年以來,中國就開始進行機器可讀語料庫的建設(shè),早期在中國建立的主要的機器可讀語料庫有:

漢語現(xiàn)代文學(xué)作品語料庫(1979年),527萬字,武漢大學(xué)。

現(xiàn)代漢語語料庫(1983年),2000萬字,北京航天航空大學(xué)。

中學(xué)語文教材語料庫(1983年),106萬8千字,北京師范大學(xué)。

現(xiàn)代漢語詞頻統(tǒng)計語料庫(1983年),182萬字,北京語言學(xué)院。

我們以北京語言學(xué)院的漢語詞頻統(tǒng)計語料庫來說明早期語料庫的情況。

1979年,北京語言學(xué)院(現(xiàn)在改名為“北京語言文化大學(xué)”)針對對外漢語教學(xué)的特點,把“現(xiàn)代漢語詞匯統(tǒng)計研究”作為重點科研課題,開始進行規(guī)模較大的漢語單詞的頻率統(tǒng)計研究。

這項研究工作,采用人工與計算機相結(jié)合的方式,對179篇樣文、182萬字的語料進行了詞語切分、詞頻統(tǒng)計和數(shù)據(jù)分析的工作,統(tǒng)計的總詞匯量為 1,315,752詞次,含不同單詞31,159個,其中包括十年制語文課本(52萬字,374,654詞次)的字頻和詞頻的定量分析,統(tǒng)計結(jié)果編成《現(xiàn)代漢語頻率詞典》出版。

他們選取的語料可以分為如下四類:

報刊政論:44萬字,占語料總量的24.4%。

科技和科普文章:29萬字,占語料總量的19.8%。

口語材料:20萬字,占語料總量的11.1%。

文學(xué)作品:89萬字,占語料總量的48.7%。

整個語料共182萬字。這樣容量的語料,在當(dāng)時已經(jīng)是比較大的語料庫了。

根據(jù)數(shù)理統(tǒng)計的原理,所統(tǒng)計的語料的總體個數(shù)必須達到一定足夠的數(shù)量,才能保證統(tǒng)計結(jié)果符合客觀實際?!冬F(xiàn)代漢語頻率詞典》的編者認為,如果常用詞的出現(xiàn)頻率不低于百萬分之一,也就是在一百萬次的場合,常用詞的出現(xiàn)機會至少應(yīng)該有一次,就可以保證統(tǒng)計結(jié)果的客觀性?!冬F(xiàn)代漢語頻率詞典》實際上統(tǒng)計了 182萬個漢字的語料,因此,其抽樣是合理的、經(jīng)濟的、適度的。

但是,國外在1971年進行英語詞頻統(tǒng)計時,所用語料量有5,088,721個詞,包含不同單詞86,741個,統(tǒng)計規(guī)模比《現(xiàn)代漢語頻率詞典》大得多。由于語料庫語言學(xué)的發(fā)展,語料庫的容量不斷擴大,現(xiàn)在,數(shù)千萬詞甚至于數(shù)億詞的語料庫已經(jīng)不算少見。與當(dāng)前語料庫的容量比較起來,《現(xiàn)代漢語頻率詞典》所依據(jù)的語料規(guī)模是小了一些。不過,盡管這樣,《現(xiàn)代漢語頻率詞典》在詞頻統(tǒng)計方面取得的成績?nèi)匀皇呛艽蟮摹?/p>

這次詞頻統(tǒng)計得出了如下詞表:

1、按字母音序排列的頻率詞表:共列出常用詞16,593個,按音序排列,從中可以看出:

漢語中以Z、S、J、Y開頭的詞較多:以Z開頭的詞有1457個,占8.78%;以S開頭的詞有1327個,占7.99%;以J開頭的詞有1243個,占7.49%;以Y開頭的詞有1205個,占7.26%。

漢語中以E、O開頭的詞很少:以E開頭的詞只有64個,占0.38%;以O(shè)開頭的詞只有13個,占0.07%。

2、按頻率遞減的順序排列的詞表:在詞表中,最常用詞的使用頻率相當(dāng)高,前100個詞占了語料總量的40%以上,前500個詞占了語料總量的70% 以上,前2562個詞占了語料總量的85%,詞表共有不同單詞31,159個,這些詞占了語料總量的100%。從前100個詞到前500個詞,不同的單詞數(shù)增加了400個,百分比就增加了30%,而從前2562個詞到前31,159個詞,不同單詞數(shù)增加了30,597個,百分比材增加了15%。由此可見,高頻詞對于百分比的增加有著很大的作用,而低頻詞對于百分比的增加,其作用是微乎其微的,往往要大量的低頻詞,才能使百分比增加一點點。

3、按使用度遞降順序排列的詞表:

使用度是1954年尤蘭德(Juilland)和洛德西蓋(Chang-Rodsiguez)在計算西班牙語的詞匯頻率時提出的一個新概念,他們并且也提出了計算使用度的數(shù)學(xué)公式,根據(jù)這個使用度公式計算出的使用度,可以綜合地反映單詞在出現(xiàn)頻率和分布率兩方面的情況。

他們根據(jù)使用度的計算公式,計算了單詞的使用度,并給出了按使用度遞降順序排列的詞表。這個詞表又分為兩個表:使用度較高的前8000詞的詞表,使用度較低的詞語單位表。

在使用度較高的前8000詞的詞表中,使用度在20以上的詞共4186個,其詞次累計占了全部語料(314,404詞次)的90.1%。這說明,《現(xiàn)代漢語頻率詞典》所統(tǒng)計的語料中,有十分之九是用這4186個詞寫成的,這些詞可以成為“常用詞”的候選對象。

在使用度較低的詞語單位表中,收入了使用度為5及小于5的詞22,446個,這些詞一般也都是低頻詞。在這種情況下,如果有的詞的使用度和頻率相匹配,則說明這些詞的分布還是比較均勻的,這些詞可以作為“通用詞”的候選對象。

4、按語體分類的高頻詞表,又可再分為4個表:

a.報刊政論語體的前4000詞的詞表:本表共統(tǒng)計34種語料,29萬詞次(44萬字),有不同詞條數(shù)12,107個。前4000個詞累計頻率94.77%。其中一些政治詞語,如“唯心、黨派”等,在本表中出現(xiàn)頻率都比較高,反映了政論語體的特點。

b.科普語體的前4000詞的詞表:本表共統(tǒng)計21種語料,20萬詞次(29萬字),有不同詞條12,364個。前4000個詞累計頻率92.27%。其中一些科技用語,如“纖維、合成”等,在本表中出現(xiàn)頻率都比較高,反映了科普語體的特點。

c.生活口語中前4000詞的詞表:本表共統(tǒng)計18種語料,16萬詞次(20萬字),有不同詞條8263個。前4000個詞的累計頻率為 96.65%。從統(tǒng)計數(shù)字可以看出,口語語體的用詞量比前兩種語體要少三分之一,但高頻詞出現(xiàn)的詞次卻相當(dāng)多,前1000個高頻詞的出現(xiàn)頻率比a表高出 6%,比b表高出12%。這意味著,口語語體的用詞量雖然不大,但是它們的出現(xiàn)次數(shù)對語料的覆蓋面卻相當(dāng)大。

d.文學(xué)作品類前4000高頻詞的詞表:本表共統(tǒng)計106種語料,66萬詞次(89萬字),有不同詞條23,622個。前4000個高頻詞累計頻率為90.63%。這說明文學(xué)作品的用詞量大,但是為了追求用詞的多樣化,即使是高頻詞的出現(xiàn)頻率也比較低,這反映了文學(xué)作品詞匯豐富多采的特點。

早期的這些語料庫的具有如下特點:

①多數(shù)是采用手工鍵入的方式建立的,耗時耗力,缺乏規(guī)范,規(guī)模較小,重用性差。為了建設(shè)這樣的語料庫,需要付出艱辛的勞動,著名專家劉源教授(北京航空航天大學(xué)計算機系教授)在2000萬字的語料庫建設(shè)中積勞成疾,健康受到嚴重的損害。我國語料庫的早期建設(shè)者的敬業(yè)精神是值得我們尊敬的。

②發(fā)現(xiàn)了漢語文本切分歧義的兩種類型:北航和北語的語料庫進行了詞頻統(tǒng)計,北航還進行了自動分詞研究,發(fā)現(xiàn)了兩種不同的分詞歧義字段(Ambiguous Segmentation Strings, ASSs):交集型歧義字段和多義組合型歧義字段。

交集型歧義切分字段:例如:“地面積”可能切為“地面”或“面積”,“面”成為交段,從而產(chǎn)生歧義。

多義組合型歧義切分字段:例如:“馬上”本身是一個詞,但也可以切為“馬”+“上”兩個單詞,而“馬上”與“馬”+“上”的含義不同。

梁南元(1987)對一個48092字的自然科學(xué)、社會科學(xué)樣本進行了統(tǒng)計:交集型切分歧義518個, 多義組合型切分歧義42個。據(jù)此推斷,中文文本中切分歧義的出現(xiàn)頻度約為1.2次/100字,交集型切分歧義與多義組合型切分歧義的出現(xiàn)比例約為12:1。

③建立了初步的分詞規(guī)范:1990年10月,在計算機界和語言學(xué)界的共同努力下,我國制定了國家標(biāo)準GB-13715《信息處理用現(xiàn)代漢語分詞規(guī)范》,這個國家標(biāo)準提出了確定漢語單詞切分的原則,是漢語書面語自動切詞的重要依據(jù)。

(二)國家級語料庫的建設(shè)

1991年,國家語言文字工作委員會開始建立國家級的大型漢語語料庫,以推進漢語的詞法、句法、語義和語用的研究,同時也為中文信息處理的研究提供語言資源,計劃其規(guī)模將達7000萬漢字,當(dāng)時宣稱,這將成為世界上最大的漢語語料庫。這個語料庫是均衡語料庫。其語料要經(jīng)過精心的選材,語料的選材應(yīng)受到如下限制:

①時間的限制:語料描述具有歷時特征,著重描述共時特征。選取從1919年到當(dāng)代的語料(分為5個時期),以1977年以后的語料為主。

②文化的限制:主要選取受過中等文化教育的普通人能理解的語料。

③使用領(lǐng)域的限制: 語料由人文與社會科學(xué)類、自然科學(xué)類和綜合類3大部分,人文和社會科學(xué)再分為8大類29小類,自然科學(xué)再分為6大類,綜合類再分為2大類。主要選取通用的語料,優(yōu)先選取社會科學(xué)和人文科學(xué)的語料。

這個語料庫現(xiàn)在只完成了2000萬字語料的輸入和校對工作,尚未進行進一步的加工,還是“生語料庫”,因而還不能提供社會使用。由于主要靠手工錄入,人工勞動的成本很高,據(jù)說單是建立生語料庫,耗資約200萬人民幣。

為了加工這個國家級語料庫,國家社科基金設(shè)立了社科重大項目“信息處理用現(xiàn)代漢語詞匯研究”,希望利用該項目的成果來加工這個語料庫。該課題分10個子課題:

①信息處理用現(xiàn)代漢語分詞詞表

②歧義切分與專有名詞識別軟件

③詞的構(gòu)造研究

④現(xiàn)代漢語詞類及標(biāo)記集規(guī)范

⑤漢語詞類兼類研究

⑥現(xiàn)代漢語的語法屬性描述研究

⑦現(xiàn)代漢語述語動詞機器詞典和槽關(guān)系研究

⑧漢語知識詞典建立及詞匯內(nèi)部語義網(wǎng)絡(luò)描述研究

⑨漢語文本短語結(jié)構(gòu)的人工標(biāo)注

⑩常用動詞語義特征及詞義搭配研究

現(xiàn)在,該課題已經(jīng)結(jié)項,國家語委語言文字應(yīng)用研究所成立了“漢語語料庫深加工”的課題組,準備對國家級語料庫的2000萬字的核心語料進行深加工,逐步把這個生語料庫變?yōu)槭煺Z料庫。

(三)大規(guī)模真實文本語料庫

1992年以來,大量的語料庫在中國研究中文信息處理的單位建立起來,語料庫成為了研究中文信息處理的基本語言資源。沒有語料庫的支持,中文信息處理的研究將會寸步難行。建設(shè)大規(guī)模真實文本語料庫的單位有:《人民日報》光盤數(shù)據(jù)庫,北京大學(xué)計算語言學(xué)研究所,北京語言文化大學(xué),清華大學(xué),山西大學(xué),上海師范大學(xué),北京郵電大學(xué),香港城市理工大學(xué),東北大學(xué),哈爾濱工業(yè)大學(xué),中國科學(xué)院軟件研究所,中國科學(xué)院自動化所,北京外國語大學(xué)日本學(xué)研究中心,臺灣中央研究院語言研究所(籌備處)。下面分別加以介紹。

1、《人民日報》光盤數(shù)據(jù)庫

收集該報48年的全部文字和圖像內(nèi)容,公開發(fā)行。

2、北京大學(xué)計算語言學(xué)研究所

該研究所建立了現(xiàn)代漢語標(biāo)注語料庫,與富士通公司(Fujitsu)合作,加工2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標(biāo)注、專有名詞(專有名詞短語)標(biāo)注。還要對多音詞注音。

示例1:古城/n 雖/c 遭/v 破壞/v ,/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ,/w 特別/d 是/v 漢族/nz 勞動/vn 人民/n 共同/d 開拓/v 祖國/n 北疆/s ,/w 創(chuàng)造/v 我國/r 歷史/n 文明/n 的[de5]/u 足跡/n 。/w

示例2:19970310-01-002-0020/m [全國/n 人大/j]nt 代表/n 、/w [陜西/ns 西安/ns 美術(shù)/n 學(xué)院/n]nt 名譽/n 院長/n 劉/nr 文西/nr 利用/v 會議/n 休息/vn 時間/n 創(chuàng)作/v 了/u 鄧/nr 小平/nr 畫像/n 《/w 與/p 人民/n 同/d 在/v 》/w 。/w 畫像/n 表現(xiàn)/v 了/u 鄧/nr 小平/nr 同志/n 祝愿/v 祖國/n 繁榮/a 、/w 人民/n 幸福/a 的/u 偉大/a 胸懷/n 。/w (/w 新華社/nt 記者/n 齊/nr 鐵硯/nr 攝/v )/w

示例3:19970310-01-003-0020/m 世紀/n 之/u 交/Ng ,/w 中華/nz 民族/n 正/d 迎來/v 前所未有/i 的/u 發(fā)展/vn 機遇/n 。/w 十幾/m 年/q 來/f ,/w 改革/v 開放/v 的/u 不斷/d 深入/v ,/w 黨/n 的/u 民族/n 政策/n 的/u 貫徹/vn 落實/vn ,/w 全國/n 人民/n 的/u 大力/d 支援/v ,/w 使/v 我國/r 民族/n 地區(qū)/n 經(jīng)濟/n 和/c 社會/n 發(fā)展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍視/v 和/c 繼續(xù)/vd 發(fā)展/v 這種/r 好/a 的/u 局面/n ,/w 鞏固/v 發(fā)展/v 各/r 民族/n 大/a 團結(jié)/an ,/w 成為/v 全國/n 各族/r 人民/n 的/u 共同/b 愿望/n ,/w 也是/v 在/p 京/j 參加/v “/w 兩會/j ”/w 的/u 代表/n 和/c 委員/n 的/u 一致/a 心愿/n 。/w

經(jīng)富士通公司檢驗,標(biāo)注的正確率很高。

他們制訂《現(xiàn)代漢語語料庫加工手冊——詞語切分與詞性標(biāo)注》。切分規(guī)范中,主要規(guī)定現(xiàn)代漢語的切詞原則,即什么樣的漢字組合可以為一個切分單位。他們采用切分和標(biāo)注相結(jié)合的原則來建立規(guī)范,在漢語中,像“雙音節(jié)動詞+單音節(jié)名詞”通常構(gòu)成新的名詞,對于這個新的名詞,即使在詞典中沒有登錄,也應(yīng)該把它們處理為一個切分單位。因此,在該規(guī)范中,給出了一些基于詞性描述的構(gòu)詞規(guī)律,規(guī)定了什么樣的組合可以處理為一個切分單位,并給出了新組合的詞的詞性標(biāo)記。在標(biāo)注規(guī)范中,規(guī)定了一般詞性的標(biāo)注規(guī)范和專有名詞的規(guī)范。

此外,他們還建立了一個小型漢語樹庫:與新加坡國立大學(xué)計算機系合作,內(nèi)容為新加坡中學(xué)語文教材(1995年),所有的句子都分析為樹形圖。

示例:

[zj [dj 富士山/n [vp 是/v [np 日本/n 的/u [np [mp 一/m 座/q ] 活火山/n ]]]] 。/w ] [zj [fj [fj [dj 山峰/n [vp 終年/d 積雪/v ]] ,/w [dj 云霧/n 圍繞/v ]] ,/w [vp 只有/d [vp [pp 在/p [np [dj 空氣/n 干燥/a ] 的/u [np [np 秋/n 冬/n ] [np 兩/m 季/Ng ]]]] ,/w [vp 才/d [vp 能/v [vp [vbar 看/v 清/a ] [np 它/r 的/u 全貌/n ]]]]]]] 。/w ]

[zj [fj [dj [np [vbar 多/d 變/v ] 的/u 氣候/n ] ,/w [vp 更/d [vp [pp 為/p 它/r ] [vp [vbar 增添/v 了/u ] [np 神秘/a 的/u 色彩/n ]]]]] ,/w [vp 甚至/d [vp 使/v 它/r [vp [vbar 孕育/v 了/u ] [np 許多/m [np 美麗/a 的/u 神話/n ]]]]]] 。/w ]

[zj [dj [np 富士山/n 的/u 景色/n ] ,/w [dj 四季/t 不同/a ]] 。/w ]

[zj [fj [fj [fj [fj 春天/t ,/w [fj [dj 山頂/s [vp 還/d [vp [vbar 戴/v 著/u ] [np 雪/n 帽子/n ]]]] ,/w [fj [dj [dj [np 山腰/n 的/u 雪/n ] [vp 卻/d 溶化/v ]] 了/y ] ,/w [fj [dj [np 細碎/a 的/u [np 小/a 花/n ]] [vp 開遍/v 山坡/n ]] ,/w [vp [vbar 遠/a 看/v ] [vp 象/v [np [mp 一/m 片/q ] [np 紫色/n 的/u 海洋/n ]]]]]]]] ,/w [fj 夏天/t ,/w [fj [dj [np [np 殘/Vg 雪/n ] 與/c [np 山/n 花/n ]] [vp 倒映/v [sp 湖/n 中/f ]]] ,/w [vp 充滿/v 詩情畫意/n ]]]] ,/w [fj 秋天/t ,/w [fj [dj [np [np [np 滿/a 山/n ] 紅葉/n ] 與/c [np 雪/n 影/Ng ]] 輝映/v ] ,/w [vp 象/v [np 個/q [np 嬌羞/a 的/u 姑娘/n ]]]]]] ,/w [fj [dj 冬天/t [dj 則/c [vp 是/v [np [ap 純/a 白/a ] 的/u [mp 一/m 片/q ]]]]] ,/w [ap 莊嚴/a 而/c 圣潔/a ]]] 。/w ]

北大語料庫研究的特色是:

①規(guī)模大:加工成的熟語料已經(jīng)達到2000萬字,不久將達到2700萬字,國內(nèi)尚無先例。

②加工深:不僅做了切分和詞性標(biāo)注,而且部分語料還進行了短語結(jié)構(gòu)分析,建立了樹庫。在大規(guī)模的語料庫中,地名和專有名詞都進行了短語結(jié)構(gòu)標(biāo)注。

③覆蓋面廣:人民日報的語料不僅包括新聞,還包括各種題材、各種風(fēng)格、各種語體的文章,涉及社會科學(xué)和自然科學(xué)多種領(lǐng)域,有很廣泛的覆蓋面。

④正確率高:在自動加工的基礎(chǔ)上進行了大量的人工加工,采用人機結(jié)合的策略,是語料庫加工的正確率達到了國內(nèi)最高水平,在國際上也是罕見的。

⑤無著作權(quán)糾紛:與《人民日報》達成協(xié)議,沒有著作權(quán)問題。

3、北京語言文化大學(xué)

該校計算機系宋柔在遠景校對系統(tǒng)的研究、開發(fā)和測試過程中一直注重采用大規(guī)模真實語料進行各種語言現(xiàn)象的統(tǒng)計、分析、檢索、歸納。為此,他們與一些報社、出版社合作,收集、整理了一批綜合性、規(guī)范性的電子文檔資料,建立了一個大型的中文語料庫(共約5億字)。在獲取語料后,又專門用工具軟件或人工加工清理了語料,分別建立了10個語料庫。各語料庫情況如下:

《當(dāng)代中國 叢書》:150卷(約6千萬漢字)

《中華人民共和國年鑒》:1997年語料(約200萬漢字)

《新聞出版報》:1988年語料(約260萬漢字)

《輝煌五十年 湖南卷》:1949-1999年語料(約70萬漢字)

《人民日報》:1993-2000年七年語料(約2億字)

《人民日報 市場報》:2000年語料(約1400萬漢字)

《人民日報 華南新聞:2000年語料(約600萬漢字)

《人民日報 華東新聞》:2000年語料(約500萬漢字)

《經(jīng)濟日報》:1992年語料(約1820萬字)

《新華社》:1994-1996年三年語料(約3793萬字)

宋柔還建立了面向語言學(xué)研究的漢語語料庫檢索系統(tǒng)CCRL,可以讓用戶使用自己的生語料庫和詞典生成語料索引,進行檢索。

此外,北京語言文化大學(xué)還建立了如下的語料庫:

當(dāng)代北京口語語料庫(1992年)

現(xiàn)代漢語語法研究語料庫(1995年)

現(xiàn)代漢語句型語料庫(1995年)

現(xiàn)代漢語語料庫(1998年,與香港理工大學(xué)中文及雙語學(xué)系聯(lián)合建立)

現(xiàn)代漢語語料庫(1998年,與清華大學(xué)聯(lián)合,為國家自然科學(xué)基金重點項目“語料庫語言學(xué)研究的理論、方法和工具”而建立)

4、清華大學(xué)

該大學(xué)也建立了現(xiàn)代漢語語料庫:1998年建立了1億漢字的語料庫,著重研究歧義切分問題?,F(xiàn)在生語料庫已達7-8億字。

他們對于分詞技術(shù)進行了深入研究,發(fā)現(xiàn)了偽歧義,提高了分詞精度: 計算機系孫茂松、左正平(1998)指出,切分歧義應(yīng)進一步區(qū)別“真切分歧義”和“偽切分歧義”。譬如:同屬交集型,“地面積”為真歧義(“這幾塊 | 地 | 面積 | 還真不小”“地面 | 積 | 了厚厚的雪”),“和軟件”則為偽歧義(雖然存在兩種不同的切分形式“和軟 | 件”和“和軟 | 件”,但在真實文本中,無一例外地應(yīng)被切分為“和 | 軟件”);同屬組合型,“把手”為真歧義,“平淡”則為偽歧義。

他們還編制了信息處理用現(xiàn)代漢語分詞詞表,作為分詞最重要的語言資源。

中文系羅振聲建立了現(xiàn)代漢語句型研究語料庫,從中總結(jié)出209種漢語句型。

清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室與北京語言文化大學(xué)語言信息處理研究所聯(lián)合研發(fā)的人工標(biāo)注語料庫HuaYu。這個語料庫區(qū)別于其它類似語料庫的特點:是:分布平衡, 不僅僅限于新聞報紙。

HuaYu的分布見表1:

分類 篇數(shù) 漢字數(shù) 比例 標(biāo)點符號數(shù) 詞次數(shù) 比例

文學(xué) 295 880,057 44% 148,453 760,337 48%

新聞 376 600,490 30% 86,163 438,095 28%

學(xué)術(shù) 29 402,623 20% 52,823 278,728 18%

應(yīng)用文 258 119,488 6% 28,727 91,929 6%

合計 958 2,002,658 100% 316,116 1,569,089 100%

表 1 Hua Yu語料庫的分布

其中文學(xué)語料的分布見表2:

分類 篇數(shù) 漢字數(shù) 百分比 標(biāo)點符號數(shù) 詞次數(shù)

小說 199 648,796 32.5% 112,749 566,730

散文 37 80,067 4% 10,347 65,453

回憶錄 29 50,401 2.5% 6,908 38,338

報告文學(xué) 13 50,019 2.5% 8,225 40,386

劇本 17 50,774 2.5% 10,224 49,430

合計 295 880,057 44% 148,453 760,337

表 2 文學(xué)語料的分布

他們對這個語料庫進行了切分和標(biāo)注。

語料示例如下:

我|rn 認識|vgn 王眉|npc 的|usd 時候|ng ,|, 她|rn 十|mw 三|mx 歲|qnm ,|, 我|rn 二|mx 十|mw 歲|qnm 。|。 那時|t 我|rn 正|dr 在|pza 海軍|ng 服役|vgi ,|,是|vi 一|mx 條|qns 掃雷艦|ng 上|f 的|usd 三七|ng 炮手|ng 。|。 她|rn 呢|y ,|, 是|vi 個|qng 來|vgn 姥姥|ng 家|ng 度假|(zhì)vgi 的|usd 中學(xué)生|ng 。|。 那|rn 年|qt 初夏|t ,|, 我們|rn 載|vgn 著|utz 海軍|ng 學(xué)校|ng 的|usd 學(xué)員|ng 沿|pg 漫長|a 海岸線|ng 進行|vf 了|utl 一|mx 次|qv 遠航|vgx 。|。 到達|vgn 了|utl 北方|s 著名|a 良港|ng 兼|vgn 避暑|vgp 勝地|ng ,|, 在|pza 港|ng 外|f 和|pg 一|mx 條|qns 從|pg 南方|s 駛來|vgi 滿載|vgn 度假者|ng 的|usd 白色|ng 客輪|ng 并行|vgi 了|utl 一|mx 段|qns 時間|ng 。|。 進|vgn 港|ng 時|ng 我|rn 艦|ng 超越|vgn 了|utl 客輪|ng ,|, 很|dd 親近|a 的|usd 擦|vgn 舷|ng 而|c 過|vgi 。|。 興奮|a 的|usd 旅游者|ng 們|ki 紛紛|dr 從|pg 客艙|ng 出來|vgi ,|, 擠|vgi 滿|a 邊舷|ng ,|, 向|pg 我們|rn 揮|vgn 手|ng 呼喊|vgi ,|,我們|rn 也|dr 向|pg 他們|rn 揮|vgn 手|ng 致意|vgi 。|。

清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室最近對HuaYu完成了語塊庫人工標(biāo)注(200萬漢字左右),并根據(jù)句子中動詞類型和句子長度等因素,從中隨機選取了20萬詞,進行語塊標(biāo)注,并進一步完成了完整的句法樹標(biāo)注。

語塊標(biāo)注示例如下:

[從/p [他/rN 的/u 身上/s ] ,/, [我們/rN [看/v 到/vB] 了/u ] [一/m 位/qN ] [跨越/v [中國/nS {CS 近代/t 和/c 現(xiàn)代/t } 的/u [共產(chǎn)主義/n 戰(zhàn)士/n ] [光彩照人/iV 的/u 楷模/n ] 。/。]

句法樹標(biāo)注示例如下:

[zj [dj [pp 從/p [sp 他/rN 的/u 身上/s ] ] ,/, [dj 我們/rN [vp [vp [vp 看/v 到/vB ] 了/u ] [np [np [mp 一/m 位/qN ] [np [vp 跨越/v [tp 中國/nS [tp 近代/t 和/c 現(xiàn)代/t ] ] ] 的/u [np 共產(chǎn)主義/n 戰(zhàn)士/n ] ] ] [np 光彩照人/iV 的/u 楷模/n ] ] ] ] ] 。/。

5、山西大學(xué)

他們根據(jù)不同的需要,建立如下不同的語料庫,主要有:

漢語新聞?wù)Z料庫(1988年),250萬字,山西大學(xué),包括4部分:《人民日報》:150萬字,《北京科技報》:20萬字;《電視新聞》(CCTV):50萬字;《當(dāng)代》(雜志):30萬字。

標(biāo)準語料庫(2000年):.以分詞規(guī)范和語委詞類標(biāo)記集為標(biāo)準的綜合語料:70萬字,其中10萬字標(biāo)到了小類。

特定加工的語料:

-- 標(biāo)注中國地名:標(biāo)注了280萬字的語料庫(含不同地名1793個,共出現(xiàn)11590次),建立中國地名庫,共收88026個地名,同時建立中國地名用字庫(3685個)和中國地名用詞庫(3917個)。地名識別正確率為86.7%,召回率為93.8%。

-- 標(biāo)注中國人名:標(biāo)注了300萬字的語料庫,建立了姓氏人名庫,得出了姓氏用字頻率表(729個)和名字用字頻率表(3345個),中國人名識別的正確率為87.31%,召回率為95.23%。

-- 標(biāo)注西文譯名:標(biāo)注了250萬字的語料庫,西文譯名資源來自《英語姓名譯名手冊》和《新英漢詞典》的《常見英語姓名表》,正確率為63%,召回率為98%。。

-- 標(biāo)注中文組織機構(gòu)名:標(biāo)注了50萬字的語料庫,對組織機構(gòu)名的結(jié)構(gòu)進行分析,使用基于規(guī)則的方法。

-- 標(biāo)注網(wǎng)上語料新詞語:標(biāo)注了150萬字的語料庫。

為了標(biāo)注交集型歧義字段,建立了7.8萬字的交集型歧義字段庫,已標(biāo)注510萬字語料,分詞正確率達97%以上,同時證實了交集型歧義字段只有惟一可能的正確切分結(jié)果的偽歧義,占歧義字段總數(shù)的94%。

他們還建立多義組合型歧義字段庫:收錄了133條多義組合型歧義字段,比較全面的反映了組合型歧義字段的實際情況。

6、上海師范大學(xué)

該校建立了3000萬字的生語料庫;根據(jù)北大的標(biāo)注規(guī)范建立了300萬字的標(biāo)注語料庫。他們還建立了100萬字《作家文摘》的標(biāo)注語料庫,選取1997年的《作家文摘》,題材包括傳記文學(xué)、歷史故事、記實文學(xué)、人物特寫、小說、散文、評論等,依靠手工進行標(biāo)注,不僅完成了切詞和詞性標(biāo)注,還完成了短語結(jié)構(gòu)關(guān)系和結(jié)構(gòu)功能的標(biāo)注。加工層次深。

標(biāo)注示例:

[zw他/rp [db[zc期望/vz 著/ut]vp[db 打/vs [dz[sl一/mx 個/qi]mp[dz[zc 漂亮/ax 的/us]np[dz 大/ax 勝戰(zhàn)/ng]np]np]vp]vp]jp 。/w

其中的zw (主謂結(jié)構(gòu))、db(動賓結(jié)構(gòu))、 dz(定中結(jié)構(gòu))、sl(數(shù)量結(jié)構(gòu))等都是結(jié)構(gòu)功能的標(biāo)記。

7、北京郵電大學(xué)的樹庫

他們在美國LDC的漢語句法樹庫的基礎(chǔ)上進行自動獲取語法規(guī)則的研究。LDC的樹庫包含新華社1994到1998年的325篇文章,包含4185顆樹,10萬個詞。他們對LDC樹庫進行了改造,語法規(guī)則和分析模型參數(shù)都是通過LDC樹庫統(tǒng)計和訓(xùn)練得到。在抽取規(guī)則之前,進行了如下的預(yù)處理工作:

刪除所有空的單詞;

去掉所有的非終結(jié)符的功能標(biāo)記;

去掉哪些只有一個孩子結(jié)點,且此孩子結(jié)點是非終結(jié)符的結(jié)點。

在此基礎(chǔ)上進行規(guī)則的自動獲取,采用改進的CYK算法自動獲取了3690條規(guī)則,形式如下:

parent_symbol|current_symbol -> RHS1….RHSn log_probability

比如:NP|NP -> NN NN NN -0.879602

8、哈爾濱工業(yè)大學(xué)機器翻譯實驗室(MT-Lab)的漢語語料庫

容量約1GB。

9、香港城市理工大學(xué)的對比語料庫

該大學(xué)語言資訊科學(xué)研究中心建立了LIVAC(Linguistic variety in Chinese communities)語料庫,其宗旨在于研究使用中文的各個地區(qū)使用語言的異同。這個語料庫從1993年開始策劃,在香港、澳門、上海、新加坡和臺灣五個不同的地區(qū),每日選定一天的報紙摘錄其部分資料入庫,資料的內(nèi)容包括社論、第一版的全部新聞和文章、國際版、地方版、特寫、評論等。每天收集的份量約兩萬字,如果已經(jīng)達到兩萬字,不太重要的資料就只好割愛。從1995年 7月到1997年6月的兩年內(nèi),該語料庫所收集的資料總字數(shù)為15,234,551字,經(jīng)過自動切詞和人工校對之后總詞數(shù)約為8,869,900詞。

統(tǒng)計結(jié)果表明,中文各地區(qū)所使用的詞語,以雙音節(jié)為最多,其次是三音節(jié),再其次是四音節(jié),再再其次是單音節(jié),但是,單音節(jié)詞語的使用頻度卻比較高,僅次于雙音節(jié)詞語的頻度,而且遠遠超出其他音節(jié)詞語頻度之總合。

統(tǒng)計結(jié)果還表明,香港和澳門的用詞相同率最高,香港與臺灣、香港與新加坡的用詞相同率居第二,香港與上海的用詞相同率最低。從歷史背景和社會情況來看,這個數(shù)字是可以接受的。因為香港與澳門距離很近,又都長期被歐洲國家管制,香港與臺灣和新加坡的商務(wù)情況和社會結(jié)構(gòu)之間的相同點都比香港與上海之間多,這種情況,在詞語中必定會反映出來。

統(tǒng)計結(jié)果還表明,新加坡所用詞語比較少,而上海的特有詞語比較多,這似乎可以從新加坡華語并非當(dāng)?shù)厣鐣畹奈ㄒ徽Z言,而上海在中國的特殊地位和經(jīng)濟活動非?;钴S有關(guān)。

10、臺灣的語料庫

臺灣建立了平衡語料庫(Sinica Corpus,中央研究院)和樹圖語料庫(Sinica Treebank,中央研究院)。兩個都是標(biāo)記語料庫,有一定加工深度。語料庫規(guī)模約500萬字。

(四)口語語料庫

1、中國社會科學(xué)院語言所

他們建立了現(xiàn)代自然口語語料庫,包括一個旅館預(yù)定口語語料庫,搜集了2小時電話的對話,對話人數(shù)200人以上,進行韻律切分和句法標(biāo)注,是wav文件,用SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫成漢字文本;還包括一個無限制的自然對話語料庫:14.2小時的對話,對話人數(shù)22人,進行韻律切分和句法標(biāo)注,是wav文件,用 SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫成漢字文本。

語言所還正在建立現(xiàn)代漢語方言自然口語語料庫,設(shè)計了1500種引導(dǎo)話題和多種采集自然口語的交際環(huán)境,其中,采用話題引導(dǎo)的方式采集的話題語料占60%,在說話人不知道的情況下現(xiàn)場采集的口語語料占40%。

2、中國科學(xué)院自動化所

該所建立了一個旅游咨詢口語對話語料庫和一個旅館預(yù)定口語對話語料庫,可以用于限定領(lǐng)域的口語理解模型、口語對話管理模型、基于統(tǒng)計的口語翻譯技術(shù)等研究。

(五)雙語語料庫的建設(shè)

1、英漢雙語語料庫

北大計算語言學(xué)研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發(fā)了相應(yīng)的對齊工具和雙語語料庫管理軟件。正在此基礎(chǔ)上做漢英對照短語庫,預(yù)計規(guī)模將達數(shù)十萬條。

哈爾濱工業(yè)大學(xué)的英漢雙語語料庫:1998年有3萬句子對,已經(jīng)進行了詞性標(biāo)注,正在擴充為40-50萬句子對,在句子、短語、詞匯三級實現(xiàn)雙語對齊。

東北大學(xué)的英漢雙語語段庫:在雙語語料庫基礎(chǔ)上,建造雙語語段庫,1999年構(gòu)造了10萬雙語語段庫,進行了基于語段的英漢機器翻譯實驗,正在以“ 機獲人校”的辦法建造100萬雙語語段庫,擬擴充到500萬雙語語段庫,進一步建造具有1000萬語段的大容量網(wǎng)上英漢語段電子詞典,研究電子詞典中搭配短語獲取算法,建造大容量網(wǎng)上電子英漢搭配詞典。

外語教學(xué)與研究出版社:

-- 英漢文學(xué)作品語料庫

-- 馮友蘭《中國哲學(xué)史》漢英對照語料庫

-- 李約瑟(Joself Needham)《中國科學(xué)技術(shù)史》英漢對照語料庫

國家語言文字工作委員會語言文字應(yīng)用研究所建立了英漢雙語語料庫,其中包括一個計算機專業(yè)的雙語語料庫和一個柏拉圖(Plato)哲學(xué)名著《理想國》(Politeia)的雙語語料庫。在這些雙語語料庫上,他們進行了漢字極限熵的測定和雙語對齊的研究。

中國科學(xué)院軟件研究所的英漢雙語語料庫:進行雙語對齊算法研究?,F(xiàn)有15萬對英漢雙語對齊句子庫,已經(jīng)切分和標(biāo)注。

中國科學(xué)院自動化研究所的英漢雙語語料庫:購買 LDC香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語料31萬句子對,并從英漢雙解詞典中摘取例句25000個句子對。

2、日漢對譯語料庫

北京外國語大學(xué)的北京日本學(xué)研究中心建立漢語和日語并行語料庫,內(nèi)容以中日文學(xué)名著為主,兼收劇本、散文、政論文,原文和譯文全文收錄,部分名著收入多個譯本。2000萬字。進行自動切分和詞性標(biāo)注,部分文本進行語法和語義標(biāo)注,采用SGML國際標(biāo)準。

3、德漢雙語語料庫

山東海洋大學(xué)語言文學(xué)院研制的《蝴蝶》(王蒙小說)德漢對照語料庫,用于德漢翻譯對比研究,完全采用手工方式排比語料,主要比較了漢語的“了”與德語動詞完成式的關(guān)系。規(guī)模很小。

4、漢日英分類熟語料庫

復(fù)旦大學(xué)計算機系建立了容量為1GB漢日英分類熟語料庫,包含數(shù)千個類別,數(shù)十萬篇文章。

(六)少數(shù)民族語言語料庫

1、維吾爾語語料庫

新疆師范大學(xué)建立了200萬詞的維吾爾語語料庫,擬發(fā)展到300萬詞。

2藏語語料庫

中國社會科學(xué)院民族研究所建立了500萬藏語字符的藏語語料庫,擬進行切分和標(biāo)注的研究。

3、蒙古語語料庫

內(nèi)蒙古大學(xué)建立了蒙古語語料庫,進行了初步的切分和標(biāo)注。

三、語料庫的加工技術(shù)

(一)自動切分

在自動切分方面,提出的切分歧義技術(shù)有:“松弛法”(Fan C.K., Tsai W.H. 1988),“擴充轉(zhuǎn)移網(wǎng)絡(luò)”(黃祥喜 1989),“短語結(jié)構(gòu)文法”(梁南元 1990;姚天順、張桂平等 1990;Yeh C.L., Lee H.J. 1991;韓世欣、王開鑄 1992),“專家系統(tǒng)”方法(徐輝、何克抗等 1991),“神經(jīng)網(wǎng)絡(luò)”方法(徐秉錚、詹劍等,1993),“有限狀態(tài)自動機”方法(Sproat R., Shih C.L et al. 1996),“隱Markov模型”(Lai B.Y., Sun M.S. et al 1997;沈達陽、孫茂松等 1997a;孫茂松、左正平等1999),“Brill式轉(zhuǎn)換法”(Palmer D.D. 1997)等。

此外還研究了人名識別技術(shù)、地名識別技術(shù)、機構(gòu)名識別技術(shù)、新詞語識別技術(shù)。

(二)自動標(biāo)注

在自動標(biāo)注方面,基于規(guī)則的方法主要解決標(biāo)注中的兼類詞問題;基于統(tǒng)計的方法主要有CLAWS算法、VOLSUNGA算法、HMM(隱馬爾可夫模型)、TBED法(Transformation-Based Error-Driven,Eric Brill于1993年提出的方法)

(三)自動短語結(jié)構(gòu)標(biāo)注

短語結(jié)構(gòu)標(biāo)注的結(jié)果,可以用短語結(jié)構(gòu)語法樹 (P-Tree)來表示,也可以用依存樹(D-Tree)來表示,有的系統(tǒng)采用了從P-Tree到D-Tree的轉(zhuǎn)換技術(shù),有的系統(tǒng)采用CYK算法進行短語結(jié)構(gòu)分析。

(四)雙語對齊技術(shù)

主要采用基于長度的方法、基于詞典的方法以及把這兩種方法結(jié)合起來的混合方法。

四、語料庫建設(shè)中的若干問題

(一)語料庫的規(guī)范與標(biāo)準

我國中文信息界從1988年開始研制《信息處理用現(xiàn)代漢語分詞規(guī)范》的國家標(biāo)準,根據(jù)科學(xué)性、嚴謹性、穩(wěn)定性、通用性、實用性和完整性(規(guī)范對現(xiàn)代漢語語言現(xiàn)象的覆蓋率應(yīng)該達到99%以上),經(jīng)過三年時間的研究,七易其稿,于1992年批準為國家標(biāo)準,標(biāo)準號為GB/T13715-92。這個規(guī)范的主體結(jié)構(gòu)分為主題內(nèi)容與適用范圍、引用標(biāo)準、術(shù)語、概述和具體說明五個部分。由于漢語中語素、單詞和詞組的界限不夠清晰,分詞規(guī)范中除了基本上采用了《暫擬漢語教學(xué)語法系統(tǒng)》中詞的定義,把詞定義為“最小的獨立運用的語言單位”之外,還特別地提出了“分詞單位”的概念,把“分詞單位”定義為“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且指出,分詞單位“包括本規(guī)范限定的詞和詞組”。“分詞單位”的提出,巧妙地避開了關(guān)于詞的定義的爭論,協(xié)調(diào)了當(dāng)時學(xué)術(shù)界的矛盾。

我國還研制了《信息處理用現(xiàn)代漢語常用詞表》。由于漢語語言現(xiàn)象的極端復(fù)雜性,幾乎每條規(guī)則都會出現(xiàn)例外,因此,分詞規(guī)范提出了“結(jié)合緊密,使用穩(wěn)定”的原則作為判定一個符號串是否可以作為分詞單位的準則。但是,這個原則不夠具體,實行起來往往見仁見智,從而造成不同系統(tǒng)中分詞單位的不一致。所以,后來有的學(xué)者建議在規(guī)范之外,還應(yīng)該根據(jù)規(guī)范提出一個詞表來作進一步具體的說明,以利規(guī)范的實施。采用“規(guī)范+詞表”的策略,這是很有遠見的做法。 1994年,該規(guī)范的主要制定者劉源教授等人根據(jù)現(xiàn)代漢語詞頻統(tǒng)計的結(jié)果,公布了一個《信息處理用現(xiàn)代漢語常用詞表》,收詞43570條,可惜,這個詞表對于規(guī)范中的一些難點,仍然沒有作出很好的處理,權(quán)威性不夠。

臺灣研制了一個《資訊處理用中文分詞規(guī)范》。臺灣的計算語言學(xué)會在1995年提出了《資訊處理用中文分詞規(guī)范》,這個規(guī)范提出三條基本原則:1.分詞單位必須符合語言學(xué)理論的要求;2.在信息處理上確實可行;3.能確保真實文本處理的一致性。另外還制定了一些輔助原則(合并原則、切分原則),以決定合并還是切分。該規(guī)范按照分詞的難易程度,把分詞規(guī)范分為信、達、雅三個不同的等級。信級標(biāo)準是基本資料交換的標(biāo)準;達級標(biāo)準是機器翻譯、情報檢索等自然語言處理的標(biāo)準;雅級標(biāo)準則是分詞的理想境界。這種分等級的做法有利于處理難易程度不同的分詞作業(yè)。

我國還研制了《信息處理用現(xiàn)代漢語規(guī)范詞表》。國家語言文字工作委員會在1995年提出研制《信息處理用現(xiàn)代漢語規(guī)范詞表》的任務(wù),目的在于從政府的角度,研制規(guī)范的現(xiàn)代漢語通用詞表,以便作為大家遵循的、統(tǒng)一的通用詞表,詞表的規(guī)模大約6萬至8萬條,這項工作還未完成?,F(xiàn)代漢語的詞匯是一個復(fù)雜的體系,除了通用詞之外,還有術(shù)語、方言詞語、文言詞語、專名詞語(包括人名、地名、機構(gòu)名等)、各種熟語(包括成語、慣用語、歇后語、諺語、格言等)。詞語是不斷發(fā)展變化的,隨著社會的發(fā)展,還會出現(xiàn)大量的新詞新語。信息處理會涉及到上述各種詞語,因此,詞表的制定,除了制定通用詞表之外,還應(yīng)該制訂不同專業(yè)的術(shù)語詞表、方言詞表、文言詞表、專名詞表、熟語詞表、新詞語詞表等。這是一項龐大的工程。這些詞表的制訂和規(guī)范化,對于我國計算語言學(xué)的進一步發(fā)展有著深遠的影響。

我國還研制了《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》:該規(guī)范由教育部語言文字應(yīng)用研究所計算語言學(xué)研究室研制,包括 18 個大類。信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范制訂的主要原則有三個:① 語法功能原則。語法功能是詞類劃分的主要依據(jù)。詞的意義不作為劃分詞類的主要依據(jù),但有時也起某些參考作用。② 允許有兼類。根據(jù)各種統(tǒng)計研究,現(xiàn)代漢語的某些詞具有多種語法功能,但這多種功能的分布概率不同。在信息處理用現(xiàn)代漢語詞類體系中,各詞類的確立要根據(jù)詞的主要語法功能。 ③詞類標(biāo)記集中的大類應(yīng)能覆蓋現(xiàn)代漢語的全部詞。這個規(guī)范正在考慮提升為國家標(biāo)準。

我國某些學(xué)者關(guān)注到國際上關(guān)于通用置標(biāo)語言的進展。由計算機和人文科學(xué)學(xué)會(ACH)、計算語言學(xué)學(xué)會(ACL)和文學(xué)與語言計算學(xué)會(ALLC) 聯(lián)合提出了TEI(Text Encoding Initiative,文本編碼倡議,1998年),其目標(biāo)是為電子文本制訂一套統(tǒng)一的編碼規(guī)范,以推動語料存儲格式的標(biāo)準化,實現(xiàn)語料的交換和共享。

由歐洲MULTEXT、EAGLES和VASSAR/CNRS collaboration聯(lián)合提出CES(Corpus Encoding Standard,語料庫編碼標(biāo)準),可廣泛應(yīng)用于語料庫的研制與開發(fā)。

1986年ISO正式發(fā)布了國際標(biāo)準SGML(Standard Generalized Markup Language,標(biāo)準通用置標(biāo)語言),標(biāo)準號是ISO8879-1986.我國于1995年也把SGML語言作為國家標(biāo)準,標(biāo)準號為GB 14814。馮志偉在《當(dāng)代語言學(xué)》(1998年,第4期)的《標(biāo)準通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用》一文詳細介紹過SGML語言。

XML(eXtensible Markup Language,可擴充置標(biāo)語言)是SGML的一個子集,被廣泛地用做語料庫標(biāo)注的元語言,通過 DTD(Document Type Definition,文件類型定義)和Schema來規(guī)范XML文件,從而使表現(xiàn)與內(nèi)容分離,規(guī)范與實現(xiàn)分離,具有良好的擴縮性。

我國語料庫的建設(shè)將一定會采用通用置標(biāo)語言作為描述語料庫的元語言。

(二)語料庫的資源共享

語料庫的資源共享的方式有如下幾種:作為產(chǎn)品出售;實行會員制;授予使用許可權(quán);給非贏利目的的學(xué)術(shù)結(jié)構(gòu)提供無償使用。

(三)語料庫的知識產(chǎn)權(quán)

隨著語料庫的廣泛使用,語料庫的知識產(chǎn)權(quán)問題越來越尖銳,以正式出版物為資源的語料庫面臨版權(quán)的問題。建議政府有關(guān)部門建立關(guān)于語料庫資源的版權(quán)法規(guī),建議中國中文信息學(xué)會出面協(xié)調(diào)。

(四)語料庫加工中的統(tǒng)計垃圾

由于電子文本的普遍使用,語料資源的獲取變得越來越容易,我國大規(guī)模的真實文本語料庫其規(guī)模已經(jīng)達到5億字。美國計算語言學(xué)會的ACL/DCI 數(shù)據(jù)采集計劃指出,如果以文本形式存儲語料,語料庫的容量一般可以為1億詞次以上,將來可以達到萬億詞次的數(shù)量級。隨著語料庫容量的不斷增大,語料統(tǒng)計中的數(shù)據(jù)稀疏現(xiàn)象會越來越嚴重。宋柔在統(tǒng)計語料庫中的詞語接續(xù)對時發(fā)現(xiàn):“隨著語料庫規(guī)模的增大,新增加的接續(xù)對中的垃圾逐漸會占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計到的低頻度接續(xù)對中,主要來源是分詞中專名識別錯誤。”應(yīng)該看到,在統(tǒng)計垃圾中蘊藏著許多正在萌芽的新的語言現(xiàn)象,如“噴塑、蒜農(nóng)、危改、市話、高檢”等低頻度的新詞語,由于在詞典中沒有存儲,都可以在統(tǒng)計垃圾中找到。如何真確地對待統(tǒng)計垃圾,避免統(tǒng)計中的數(shù)據(jù)稀疏現(xiàn)象,變垃圾為有用的語言資源,是大規(guī)模真實文本處理的一個新課題。

參考文獻:

1、J. Sinclair, Reflections on computer corpora in English language research [M], 1982.

2、北京語言學(xué)院語言教學(xué)研究所,漢語詞匯的統(tǒng)計與分析[M],外語教學(xué)與研究出版社,1985年。

3、馮志偉,計算語言學(xué)基礎(chǔ)[M],商務(wù)印書館,2001年。

4、馮志偉,語料庫語言學(xué)與機器翻譯[M],《信息網(wǎng)絡(luò)時代與日本研究》,山東大學(xué)出版社,1999年。

5、劉開瑛,中文文本自動分詞和標(biāo)注[M],商務(wù)印書館,2000年。

6、孫茂松等,高頻最大交集型歧義切分字段在漢語自動切分中的作用[J],中文信息學(xué)報,第13卷,第1期,1999年。

7、俞士汶、朱學(xué)鋒、段慧明,大規(guī)?,F(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J],中文信息學(xué)報,第14卷,第6期,2000年。

2739