計(jì)算語(yǔ)言學(xué)與實(shí)驗(yàn)語(yǔ)音學(xué)（漢文部分）——計(jì)算語(yǔ)言學(xué)

發(fā)布時(shí)間：2021-11-19 17:58:23 | 來(lái)源： | 作者： | 責(zé)任編輯：

二、計(jì)算語(yǔ)言學(xué)與實(shí)驗(yàn)語(yǔ)音學(xué)

2011年實(shí)驗(yàn)語(yǔ)音學(xué)和計(jì)算語(yǔ)言學(xué)的成果在藏語(yǔ)文研究領(lǐng)域占據(jù)很大比例，據(jù)不完全統(tǒng)計(jì)有近百篇論文在學(xué)術(shù)期刊上發(fā)表。鑒于藏語(yǔ)實(shí)驗(yàn)語(yǔ)音學(xué)與計(jì)算語(yǔ)言學(xué)在研究方法和研究對(duì)象上各有偏重，在實(shí)踐過(guò)程中又互有交叉，本文將這兩個(gè)學(xué)科的研究成果放在一起進(jìn)行梳理。

（一）計(jì)算語(yǔ)言學(xué)

信息化是當(dāng)前民族語(yǔ)文發(fā)展的大勢(shì)所趨。而藏文國(guó)際編碼的設(shè)計(jì)研發(fā)是關(guān)系到藏語(yǔ)文信息化成敗與否的關(guān)鍵。吳兵、江荻《藏文國(guó)際碼軟件的發(fā)展與技術(shù)應(yīng)用》（《西南民族大學(xué)學(xué)報(bào)》人文社科版第8期）一文以微觀方式梳理出藏文編碼產(chǎn)生、修訂和發(fā)展的復(fù)雜過(guò)程，分析了藏文編碼的技術(shù)布局、編碼細(xì)節(jié)及技術(shù)應(yīng)用情況。

計(jì)算語(yǔ)言學(xué)為藏語(yǔ)文的信息化提供技術(shù)思路和技術(shù)支持保障。算法與數(shù)據(jù)庫(kù)的設(shè)計(jì)是計(jì)算語(yǔ)言學(xué)重點(diǎn)關(guān)注的對(duì)象。藏語(yǔ)語(yǔ)料庫(kù)建設(shè)對(duì)計(jì)算語(yǔ)言學(xué)的發(fā)展具有重要意義。語(yǔ)料數(shù)據(jù)庫(kù)的建設(shè)涉及對(duì)語(yǔ)料的描述、標(biāo)記，數(shù)據(jù)庫(kù)的總體結(jié)構(gòu)、設(shè)計(jì)與實(shí)現(xiàn)等多個(gè)方面。語(yǔ)言模型的構(gòu)造以及標(biāo)記規(guī)范對(duì)藏語(yǔ)文信息化處理起著舉足輕重的作用。相關(guān)的研究成果有：諾明花、吳健、劉匯丹、丁治明等的《漢藏短語(yǔ)抽取》和《漢藏短語(yǔ)對(duì)抽取中短語(yǔ)譯文獲取方法研究》（《中文信息學(xué)報(bào)》第2、3期），武英、張明亮、李積遜的《基于動(dòng)態(tài)聚類算法的藏文音節(jié)點(diǎn)檢測(cè)》（《福建電腦》第2期），才讓卓瑪、才智杰的《藏文字頻統(tǒng)計(jì)系統(tǒng)中字構(gòu)件分解算法》（《計(jì)算機(jī)工程與科學(xué)》第3期），才讓加的《藏語(yǔ)語(yǔ)料庫(kù)詞類描述方法研究》（《計(jì)算機(jī)工程與應(yīng)用》第4期），扎西加、高定國(guó)的《藏語(yǔ)語(yǔ)料庫(kù)TEI標(biāo)記規(guī)范探討》（《中文信息學(xué)報(bào)》第4期），安見(jiàn)才讓的《藏語(yǔ)句子相似度算法的研究》（《中文信息學(xué)報(bào)》第4期），多拉、才讓三智《信息處理用藏語(yǔ)語(yǔ)法模型知識(shí)庫(kù)研究》（《西北民大學(xué)報(bào)》自然科學(xué)版第3期），羊本才讓、多拉《藏語(yǔ)動(dòng)詞語(yǔ)法信息庫(kù)構(gòu)建研究》（《西北民大學(xué)報(bào)》自然科學(xué)版第3期），吳兵的《一種智能高效的手機(jī)鍵盤藏文輸入研究》（《西南民族大學(xué)學(xué)報(bào)》自然科學(xué)版第3期），《基于序列比對(duì)方法的藏語(yǔ)人名實(shí)體消重研究》（《甘肅科技縱橫》第1期），武強(qiáng)、崔靜靜、邊巴旺堆、次仁朗杰的《智能藏語(yǔ)盲文學(xué)習(xí)機(jī)的設(shè)計(jì)與實(shí)現(xiàn)》（《電子設(shè)計(jì)工程》第15期），崔靜靜、肖偉、次仁朗杰等《基于語(yǔ)言表達(dá)障礙者的藏文語(yǔ)音輔助系統(tǒng)的設(shè)計(jì)》（《電子設(shè)計(jì)工程》第2期），達(dá)娃彭措的《藏文音節(jié)后加字組合形式統(tǒng)計(jì)》（《語(yǔ)言文學(xué)刊：外語(yǔ)教育教學(xué)》第9期［上］）等。

鑒于這方面的研究成果比較多，在此只選取代表性的予以介紹。諾明花、吳健、劉匯丹、丁治明等的《漢藏短語(yǔ)抽取》和《漢藏短語(yǔ)對(duì)抽取中短語(yǔ)譯文獲取方法研究》二文采用藏文詞串頻率統(tǒng)計(jì)方法(TSM)和藏文詞序列相交算法(TIA)兩種方法來(lái)獲取藏語(yǔ)譯文。其中TSM抽取1-1連續(xù)和非連續(xù)短語(yǔ)準(zhǔn)確率達(dá)到90%左右，但遺漏1-n情況。TIA能夠抽取1-n連續(xù)和非連續(xù)藏文語(yǔ)塊，準(zhǔn)確率達(dá)到81%。安見(jiàn)才讓、王玲玲的《一種漢藏雙語(yǔ)句子對(duì)齊算法》一文，基于漢藏雙語(yǔ)的實(shí)際情況，提出了一種利用句子長(zhǎng)度、相似度和錨點(diǎn)信息的漢藏雙語(yǔ)句子對(duì)齊方法，該方法用相似度找到句子的錨點(diǎn)，用錨點(diǎn)將雙語(yǔ)文本分割成幾個(gè)分塊，在對(duì)應(yīng)雙語(yǔ)分塊中用基于長(zhǎng)度的對(duì)齊實(shí)現(xiàn)句子的對(duì)齊。通過(guò)測(cè)試數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)結(jié)果顯示，這種方法有著良好的準(zhǔn)確率，有效地解決了漢藏雙語(yǔ)真實(shí)文本的句子對(duì)齊問(wèn)題。這些技術(shù)的運(yùn)用和實(shí)施有助于語(yǔ)料庫(kù)的建設(shè)和語(yǔ)言材料的信息化處理。安見(jiàn)才讓在《藏語(yǔ)句子相似度算法的研究》一文中，提出了一種藏語(yǔ)句子相似度的計(jì)算方法,即采用散列單詞倒排索引和基于句長(zhǎng)相似度粗選的算法,快速?gòu)恼Z(yǔ)料庫(kù)中篩選出候選句子的集合,散列單詞倒排索引能夠有效提高算法的查找速度;再采用基于詞形和連續(xù)單詞序列相似度的多策略精選算法,可以有效衡量?jī)蓚€(gè)藏語(yǔ)句子的相似程度。扎西加、高定國(guó)的《藏語(yǔ)語(yǔ)料庫(kù)TEI標(biāo)記規(guī)范探討》則針對(duì)語(yǔ)言信息處理過(guò)程中，大規(guī)模真實(shí)文本處理這一研究熱點(diǎn)。藏語(yǔ)語(yǔ)料庫(kù)的標(biāo)記在漢藏英機(jī)器翻譯、信息檢索、文本數(shù)據(jù)挖掘、詞典編纂的研究工作中占很重要的地位。為了便于數(shù)據(jù)交換和共享，該文基于TEI編碼的藏語(yǔ)語(yǔ)料，對(duì)藏語(yǔ)語(yǔ)料庫(kù)中文本的屬性信息和結(jié)構(gòu)信息標(biāo)記做了系統(tǒng)而全面的探討。羊本才讓、多拉在《藏語(yǔ)動(dòng)詞語(yǔ)法信息庫(kù)構(gòu)建研究》一文中，運(yùn)用計(jì)算語(yǔ)言學(xué)的相關(guān)研究,提出構(gòu)建藏語(yǔ)動(dòng)詞語(yǔ)法信息庫(kù)的方法、收詞原則及其詞條的來(lái)源,以及藏語(yǔ)動(dòng)詞在《藏語(yǔ)動(dòng)詞語(yǔ)法信息庫(kù)》中的分類緣由、字段的設(shè)置與相應(yīng)的標(biāo)記集,羅列出了《藏語(yǔ)動(dòng)詞語(yǔ)法信息庫(kù)》的樣例,為藏文信息處理中的語(yǔ)言知識(shí)庫(kù)的建設(shè)提供參考信息。多拉、才讓三智在《信息處理用藏語(yǔ)語(yǔ)法模型知識(shí)庫(kù)研究》一文中指出，語(yǔ)言模型是對(duì)自然語(yǔ)言的一種描述,構(gòu)造語(yǔ)言模型是研究計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言理解的核心內(nèi)容之一,好的語(yǔ)言模型將有助于自然語(yǔ)言處理的準(zhǔn)確性。由于藏文是屬于有形態(tài)的語(yǔ)言,既有曲折的特點(diǎn),也有黏著的特征,并有豐富的格標(biāo)記。深入研究其格語(yǔ)法體系,使之規(guī)范化,這對(duì)于進(jìn)一步開(kāi)展機(jī)器識(shí)別的句法研究以及文本理解、漢藏智能翻譯、自動(dòng)分詞、文本自動(dòng)校對(duì)、句法樹(shù)庫(kù)建設(shè)、信息檢索等方面將會(huì)起到基礎(chǔ)支撐作用。

利用計(jì)算機(jī)技術(shù)對(duì)藏語(yǔ)語(yǔ)言現(xiàn)象進(jìn)行研究是藏語(yǔ)研究的新特點(diǎn)。相關(guān)的研究成果有才讓三智、多拉的《藏、英、漢三種語(yǔ)言的人稱代詞用法比較研究》（《西北民大學(xué)報(bào)》自然科學(xué)版第1期）和《信息處理中藏語(yǔ)虛詞“na”和“l(fā)a”的標(biāo)注研究》（《電腦知識(shí)與技術(shù)》第10期），張同玲、祁坤鈺的《淺談藏語(yǔ)單句的類型》（《科技信息》第17期），南措吉、達(dá)哇彭措的《藏語(yǔ)方言格助詞演變對(duì)比研究——以拉薩話和同仁話為例》（《科技信息》第19期），以及索南尖措高定國(guó)《信息處理用藏文動(dòng)詞的分類》（《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期）等。

才讓三智、多拉在《信息處理中藏語(yǔ)虛詞“na”和“l(fā)a”的標(biāo)注研究》和《藏、英、漢三種語(yǔ)言的人稱代詞用法比較研究》的文章中，運(yùn)用計(jì)算機(jī)相關(guān)技術(shù)對(duì)藏語(yǔ)詞類進(jìn)行分析。在前一篇文章中，通過(guò)分析藏文信息中的兼類虛詞“na”和“l(fā)a”，提出了如何在不同的語(yǔ)境中，處理和解決這類詞性的標(biāo)注問(wèn)題；而在后一篇文章中，通過(guò)對(duì)藏、英、漢三種語(yǔ)言人稱代詞用法的研究,歸納和總結(jié)出了不同語(yǔ)言人稱代詞的特征，指出了它們之間的差異,總結(jié)了藏、英、漢三種語(yǔ)言人稱代詞的用法,為以后三種語(yǔ)言文字的人工翻譯和機(jī)器翻譯提供了文本分析依據(jù)。張同玲、祁坤鈺在《淺談藏語(yǔ)單句的類型》一文中，通過(guò)藏語(yǔ)語(yǔ)法知識(shí)和藏漢兩種語(yǔ)言對(duì)句子概念的對(duì)比，將藏語(yǔ)單句進(jìn)行了劃分，該研究有利于藏文校對(duì)及信息檢索、雙語(yǔ)對(duì)譯、自動(dòng)分詞、搜索引擎等信息技術(shù)的不斷發(fā)展。南措吉、達(dá)哇彭措在《藏語(yǔ)方言格助詞演變對(duì)比研究——以拉薩話和同仁話為例》一文中，把拉薩話和同仁話及書(shū)面語(yǔ)的格助詞作比較，說(shuō)明格助詞la，gi，nas，gis和na等在藏語(yǔ)不同方言中的變化、用法及區(qū)別。索南尖措、高定國(guó)在《信息處理用藏文動(dòng)詞的分類》一文中，將藏語(yǔ)的動(dòng)詞在傳統(tǒng)分法基礎(chǔ)上細(xì)分為使動(dòng)動(dòng)詞、自主動(dòng)詞、不自主動(dòng)詞、自動(dòng)動(dòng)詞、判斷動(dòng)詞、存在動(dòng)詞、情態(tài)助動(dòng)詞等7類，并對(duì)藏語(yǔ)中具有黏著性和屈折性變化的動(dòng)詞進(jìn)行舉例說(shuō)明和分析，為藏文信息處理過(guò)程中切分動(dòng)詞提供依據(jù)。