計算語言學與實驗語音學(漢文部分)——計算語言學

發(fā)布時間:2021-11-19 17:58:23 | 來源: | 作者: | 責任編輯:

二、計算語言學與實驗語音學

2011年實驗語音學和計算語言學的成果在藏語文研究領(lǐng)域占據(jù)很大比例,據(jù)不完全統(tǒng)計有近百篇論文在學術(shù)期刊上發(fā)表。鑒于藏語實驗語音學與計算語言學在研究方法和研究對象上各有偏重,在實踐過程中又互有交叉,本文將這兩個學科的研究成果放在一起進行梳理。

(一)計算語言學

信息化是當前民族語文發(fā)展的大勢所趨。而藏文國際編碼的設(shè)計研發(fā)是關(guān)系到藏語文信息化成敗與否的關(guān)鍵。吳兵、江荻《藏文國際碼軟件的發(fā)展與技術(shù)應(yīng)用》(《西南民族大學學報》人文社科版第8期)一文以微觀方式梳理出藏文編碼產(chǎn)生、修訂和發(fā)展的復(fù)雜過程,分析了藏文編碼的技術(shù)布局、編碼細節(jié)及技術(shù)應(yīng)用情況。

計算語言學為藏語文的信息化提供技術(shù)思路和技術(shù)支持保障。算法與數(shù)據(jù)庫的設(shè)計是計算語言學重點關(guān)注的對象。藏語語料庫建設(shè)對計算語言學的發(fā)展具有重要意義。語料數(shù)據(jù)庫的建設(shè)涉及對語料的描述、標記,數(shù)據(jù)庫的總體結(jié)構(gòu)、設(shè)計與實現(xiàn)等多個方面。語言模型的構(gòu)造以及標記規(guī)范對藏語文信息化處理起著舉足輕重的作用。相關(guān)的研究成果有:諾明花、吳健、劉匯丹、丁治明等的《漢藏短語抽取》和《漢藏短語對抽取中短語譯文獲取方法研究》(《中文信息學報》第2、3期),武英、張明亮、李積遜的《基于動態(tài)聚類算法的藏文音節(jié)點檢測》(《福建電腦》第2期),才讓卓瑪、才智杰的《藏文字頻統(tǒng)計系統(tǒng)中字構(gòu)件分解算法》(《計算機工程與科學》第3期),才讓加的《藏語語料庫詞類描述方法研究》(《計算機工程與應(yīng)用》第4期),扎西加、高定國的《藏語語料庫TEI標記規(guī)范探討》(《中文信息學報》第4期),安見才讓的《藏語句子相似度算法的研究》(《中文信息學報》第4期),多拉、才讓三智《信息處理用藏語語法模型知識庫研究》(《西北民大學報》自然科學版第3期),羊本才讓、多拉《藏語動詞語法信息庫構(gòu)建研究》(《西北民大學報》自然科學版第3期),吳兵的《一種智能高效的手機鍵盤藏文輸入研究》(《西南民族大學學報》自然科學版第3期),《基于序列比對方法的藏語人名實體消重研究》(《甘肅科技縱橫》第1期),武強、崔靜靜、邊巴旺堆、次仁朗杰的《智能藏語盲文學習機的設(shè)計與實現(xiàn)》(《電子設(shè)計工程》第15期),崔靜靜、肖偉、次仁朗杰等《基于語言表達障礙者的藏文語音輔助系統(tǒng)的設(shè)計》(《電子設(shè)計工程》第2期),達娃彭措的《藏文音節(jié)后加字組合形式統(tǒng)計》(《語言文學刊:外語教育教學》第9期[上])等。

鑒于這方面的研究成果比較多,在此只選取代表性的予以介紹。諾明花、吳健、劉匯丹、丁治明等的《漢藏短語抽取》和《漢藏短語對抽取中短語譯文獲取方法研究》二文采用藏文詞串頻率統(tǒng)計方法(TSM)和藏文詞序列相交算法(TIA)兩種方法來獲取藏語譯文。其中TSM抽取1-1連續(xù)和非連續(xù)短語準確率達到90%左右,但遺漏1-n情況。TIA能夠抽取1-n連續(xù)和非連續(xù)藏文語塊,準確率達到81%。安見才讓、王玲玲的《一種漢藏雙語句子對齊算法》一文,基于漢藏雙語的實際情況,提出了一種利用句子長度、相似度和錨點信息的漢藏雙語句子對齊方法,該方法用相似度找到句子的錨點,用錨點將雙語文本分割成幾個分塊,在對應(yīng)雙語分塊中用基于長度的對齊實現(xiàn)句子的對齊。通過測試數(shù)據(jù)進行的實驗結(jié)果顯示,這種方法有著良好的準確率,有效地解決了漢藏雙語真實文本的句子對齊問題。這些技術(shù)的運用和實施有助于語料庫的建設(shè)和語言材料的信息化處理。安見才讓在《藏語句子相似度算法的研究》一文中,提出了一種藏語句子相似度的計算方法,即采用散列單詞倒排索引和基于句長相似度粗選的算法,快速從語料庫中篩選出候選句子的集合,散列單詞倒排索引能夠有效提高算法的查找速度;再采用基于詞形和連續(xù)單詞序列相似度的多策略精選算法,可以有效衡量兩個藏語句子的相似程度。扎西加、高定國的《藏語語料庫TEI標記規(guī)范探討》則針對語言信息處理過程中,大規(guī)模真實文本處理這一研究熱點。藏語語料庫的標記在漢藏英機器翻譯、信息檢索、文本數(shù)據(jù)挖掘、詞典編纂的研究工作中占很重要的地位。為了便于數(shù)據(jù)交換和共享,該文基于TEI編碼的藏語語料,對藏語語料庫中文本的屬性信息和結(jié)構(gòu)信息標記做了系統(tǒng)而全面的探討。羊本才讓、多拉在《藏語動詞語法信息庫構(gòu)建研究》一文中,運用計算語言學的相關(guān)研究,提出構(gòu)建藏語動詞語法信息庫的方法、收詞原則及其詞條的來源,以及藏語動詞在《藏語動詞語法信息庫》中的分類緣由、字段的設(shè)置與相應(yīng)的標記集,羅列出了《藏語動詞語法信息庫》的樣例,為藏文信息處理中的語言知識庫的建設(shè)提供參考信息。多拉、才讓三智在《信息處理用藏語語法模型知識庫研究》一文中指出,語言模型是對自然語言的一種描述,構(gòu)造語言模型是研究計算語言學、自然語言理解的核心內(nèi)容之一,好的語言模型將有助于自然語言處理的準確性。由于藏文是屬于有形態(tài)的語言,既有曲折的特點,也有黏著的特征,并有豐富的格標記。深入研究其格語法體系,使之規(guī)范化,這對于進一步開展機器識別的句法研究以及文本理解、漢藏智能翻譯、自動分詞、文本自動校對、句法樹庫建設(shè)、信息檢索等方面將會起到基礎(chǔ)支撐作用。

利用計算機技術(shù)對藏語語言現(xiàn)象進行研究是藏語研究的新特點。相關(guān)的研究成果有才讓三智、多拉的《藏、英、漢三種語言的人稱代詞用法比較研究》(《西北民大學報》自然科學版第1期)和《信息處理中藏語虛詞“na”和“l(fā)a”的標注研究》(《電腦知識與技術(shù)》第10期),張同玲、祁坤鈺的《淺談藏語單句的類型》(《科技信息》第17期),南措吉、達哇彭措的《藏語方言格助詞演變對比研究——以拉薩話和同仁話為例》(《科技信息》第19期),以及索南尖措高定國《信息處理用藏文動詞的分類》(《西藏大學學報》自然科學版第2期)等。

才讓三智、多拉在《信息處理中藏語虛詞“na”和“l(fā)a”的標注研究》和《藏、英、漢三種語言的人稱代詞用法比較研究》的文章中,運用計算機相關(guān)技術(shù)對藏語詞類進行分析。在前一篇文章中,通過分析藏文信息中的兼類虛詞“na”和“l(fā)a”,提出了如何在不同的語境中,處理和解決這類詞性的標注問題;而在后一篇文章中,通過對藏、英、漢三種語言人稱代詞用法的研究,歸納和總結(jié)出了不同語言人稱代詞的特征,指出了它們之間的差異,總結(jié)了藏、英、漢三種語言人稱代詞的用法,為以后三種語言文字的人工翻譯和機器翻譯提供了文本分析依據(jù)。張同玲、祁坤鈺在《淺談藏語單句的類型》一文中,通過藏語語法知識和藏漢兩種語言對句子概念的對比,將藏語單句進行了劃分,該研究有利于藏文校對及信息檢索、雙語對譯、自動分詞、搜索引擎等信息技術(shù)的不斷發(fā)展。南措吉、達哇彭措在《藏語方言格助詞演變對比研究——以拉薩話和同仁話為例》一文中,把拉薩話和同仁話及書面語的格助詞作比較,說明格助詞la,gi,nas,gis和na等在藏語不同方言中的變化、用法及區(qū)別。索南尖措、高定國在《信息處理用藏文動詞的分類》一文中,將藏語的動詞在傳統(tǒng)分法基礎(chǔ)上細分為使動動詞、自主動詞、不自主動詞、自動動詞、判斷動詞、存在動詞、情態(tài)助動詞等7類,并對藏語中具有黏著性和屈折性變化的動詞進行舉例說明和分析,為藏文信息處理過程中切分動詞提供依據(jù)。

版權(quán)所有 中國藏學研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號