計算語言學(xué)(漢文部分)

發(fā)布時間:2021-12-09 16:59:07 | 來源:中國藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

二、計算語言學(xué)

標(biāo)注、分詞及其算法是計算語言學(xué)關(guān)注的重點(diǎn),是藏文信息處理的基礎(chǔ)性問題,也是藏文信息化建設(shè)的關(guān)鍵因素。相關(guān)的研究成果有:

鄭亞楠、珠杰的《基于詞向量的藏文詞性標(biāo)注方法研究》(《中文信息學(xué)報》第1期)一文,提出一種基于詞向量模型的詞性標(biāo)注方法和相應(yīng)算法。該方法首先利用詞向量的語義近似計算功能,擴(kuò)展標(biāo)注詞典;其次,結(jié)合語義近似計算和標(biāo)注詞典,完成詞性標(biāo)注。實驗結(jié)果表明,該方法能夠快速有效地擴(kuò)大標(biāo)注詞典規(guī)模,并能取得較好的標(biāo)注結(jié)果。龍從軍、劉匯丹、吳健的《藏語音節(jié)標(biāo)注研究》(《中文信息學(xué)報》第4期)一文,對藏語音節(jié)的定義進(jìn)行了界定,提出音節(jié)的性質(zhì)分類及標(biāo)注原則,利用統(tǒng)計模型,在約24萬個音節(jié)的中小學(xué)語文教材語料庫中進(jìn)行實驗,音節(jié)性質(zhì)標(biāo)注的正確率為93.5208%。在此基礎(chǔ)上,把音節(jié)性質(zhì)標(biāo)注信息用到詞性標(biāo)注中。實驗結(jié)果表明:即使在音節(jié)性質(zhì)標(biāo)注存在一定錯誤的情況下,詞性標(biāo)注的正確率也提高到94.1967%;如果在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,詞性標(biāo)注的正確率可以提高到97.7754%,這說明音節(jié)性質(zhì)標(biāo)注信息對詞性標(biāo)注有幫助。羊毛卓么的《基于HMM藏文詞性標(biāo)注的研究》(《信息系統(tǒng)工程》第10期)一文,以藏語語料為切入點(diǎn),運(yùn)用現(xiàn)代化Viterbi算法來展開對藏文信息中詞性的注釋的系統(tǒng)研究。結(jié)合研究結(jié)果發(fā)現(xiàn),基于數(shù)據(jù)統(tǒng)計模式展開的詞性標(biāo)注模式,可以切實有效提升其正確率,為實踐推廣產(chǎn)生了良好的參考價值。李亞超、加羊吉、江靜、何向真、于洪志的《融合無監(jiān)督特征的藏文分詞方法研究》(《中文信息學(xué)報》第2期)一文,從無標(biāo)注語料中抽取邊界熵特征、鄰接變化數(shù)特征、無監(jiān)督間隔標(biāo)注等無監(jiān)督特征,并將之融合到基于序列標(biāo)注的分詞系統(tǒng)中。從實驗結(jié)果可以看出,與基線藏文分詞系統(tǒng)相比,分詞F值提高了0.97%,并且未登錄詞識別結(jié)果也有較大的提高。拉巴頓珠、歐珠、趙棟材等的《藏文自動分詞系統(tǒng)中虛詞識別算法研究》(《計算機(jī)應(yīng)用與軟件》第9期)一文根據(jù)傳統(tǒng)藏文文法,描述了藏文虛詞在文本中不同的表現(xiàn)形式,用規(guī)則和統(tǒng)計相結(jié)合的方法,建立了較為全面的虛詞知識庫和規(guī)則庫,并給出切分用虛詞分塊算法,該方法對不同領(lǐng)域的3200個較典型的藏文句子進(jìn)行了測試,結(jié)果表明,該方法的虛詞識別率高達(dá)98%以上。江濤、袁斌、于洪志、加羊吉等的《基于多特征的藏文微博情感傾向性分析》(《中文信息學(xué)報》第3期)一文,提出了基于多特征的情感傾向性分析算法,算法使用情感詞、詞性序列、句式信息和表情符號作為特征,并針對藏文微博常出現(xiàn)中文表述的情況,將中文的情感信息也作為特征進(jìn)行情感計算,利用雙語情感特征有效提高了情感傾向性分析的效果。實驗顯示,該方法對純藏文表述的微博情感傾向性分析正確率可達(dá)79.8%,針對藏漢雙語表述的微博在加入中文情感詞、中文標(biāo)點(diǎn)符號等特征后,正確率能夠達(dá)到82.8%。徐濤、藍(lán)傳锜的《基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞提取方法》(《電腦知識與技術(shù)》第26期)一文,該文將卡方統(tǒng)計量進(jìn)行改進(jìn),運(yùn)用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過藏文新聞網(wǎng)頁實驗結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。春燕、曲珍、許寧的《面向藏文基本集編碼的單模式匹配算法研究》(《西藏科技》第3期)一文提出一種改進(jìn)的針對藏文編碼的BMT(Boyer Moore Tibet)模式匹配算法。官卻多杰、關(guān)白的《計算機(jī)識別藏文音節(jié)構(gòu)件的方法研究》(《現(xiàn)代電子技術(shù)》第10期)一文依據(jù)藏文字性組織法規(guī)定的音節(jié)組合規(guī)則和組合結(jié)構(gòu),提出先確定藏文音節(jié)中作為核心構(gòu)件的基字,再依據(jù)基字判斷出其他構(gòu)件的算法,結(jié)合此算法對藏文中出現(xiàn)的其他特殊音節(jié)進(jìn)行了特殊的構(gòu)件識別處理。通過測試驗證算法的可行性,測試結(jié)果表明,該算法能夠正確識別符合組合規(guī)則和結(jié)構(gòu)的藏文音節(jié),對特殊音節(jié)也有較好的識別能力。李加才讓、安見才讓的《一種用于藏英文混合文本壓縮的改進(jìn)LZW算法》(《軟件工程》第6期)一文根據(jù)藏文文本的特點(diǎn),提出兩種改進(jìn)的LZW數(shù)據(jù)壓縮算法對藏英文混合文本進(jìn)行數(shù)據(jù)壓縮并無損解壓。通過實驗結(jié)果表明,該算法是一個適應(yīng)于不同場合的文本壓縮技術(shù)。普次仁、侯佳林、劉月、翟東海等的《深度學(xué)習(xí)算法在藏文情感分析中的應(yīng)用研究》(《計算機(jī)科學(xué)與探索》第7期)一文,將深度學(xué)習(xí)領(lǐng)域內(nèi)的遞歸自編碼算法引入藏文情感分析中,以更深層次提取語義情感信息。實驗表明,在最佳參數(shù)組合下,所提算法準(zhǔn)確度比傳統(tǒng)機(jī)器學(xué)習(xí)算法中性能較好的語義空間模型高約8.6%。艾金勇的《融合語義知識的藏文網(wǎng)頁關(guān)鍵詞提取方法研究》(《圖書館學(xué)研究》第3期)和《結(jié)合語義知識的藏文網(wǎng)頁主題句抽取算法研究》(《圖書館理論與實踐》第8期)兩文,歸納整理了藏文網(wǎng)頁的結(jié)構(gòu)特征,在借鑒中英文關(guān)鍵詞和主題句抽取方法的基礎(chǔ)上,設(shè)計實現(xiàn)了融合語義知識的藏文網(wǎng)頁關(guān)鍵詞抽取算法。該算法利用藏文文本特征實現(xiàn)了網(wǎng)頁內(nèi)容模塊的智能識別,在對識別的文本塊進(jìn)行自動分詞后,采用改進(jìn)的TF-IDF算法得到基礎(chǔ)詞集,然后根據(jù)詞向量特征進(jìn)行基礎(chǔ)詞的語義擴(kuò)展構(gòu)建候選關(guān)鍵詞集,最后利用候選關(guān)鍵詞之間的語義相關(guān)度值,確立藏文網(wǎng)頁的關(guān)鍵詞。

實用軟件的開發(fā)同樣是藏語文信息化建設(shè)的重要組成部分。相關(guān)的研究成果有:李自清的《基于ssi框架藏語/漢語在線教育系統(tǒng)的設(shè)計與實現(xiàn)》(《軟件》第4期)一文,設(shè)計和完成了基于spring+spring MVC+iBatis藏語/漢語遠(yuǎn)程教育系統(tǒng)的在線學(xué)習(xí)平臺,介紹了在Eclipse開發(fā)平臺下,利用spring、spring MVC、iBatis技術(shù)開發(fā)該平臺。主要討論了系統(tǒng)所涉及的相關(guān)技術(shù),設(shè)計的思想以及系統(tǒng)各功能模塊的設(shè)計與實現(xiàn)。陳小瑩的《藏文百科知識問答系統(tǒng)的設(shè)計與研究》(《智能計算機(jī)與應(yīng)用》第4期)一文參照中英文知識問答系統(tǒng)的設(shè)計方法,建立藏文百科知識庫,在句法分析的基礎(chǔ)上,設(shè)計藏文百科知識的自動問答系統(tǒng)。山發(fā)、富春燕、李婷、旦增多吉、李凌的《基于Android平臺的藏文駕考軟件》(《智庫時代》第8期)一文,介紹了針對藏族地區(qū)群眾需求而設(shè)計的一款A(yù)ndroid平臺下的藏語駕考APP。

相關(guān)的研究還有:陳小瑩的《現(xiàn)代藏文中黏著語的規(guī)范化處理》(《電腦與信息技術(shù)》第1期)一文,對黏著語產(chǎn)生的背景和意義進(jìn)行介紹,按照黏著語不同的形成原因進(jìn)行分類處理,最終實現(xiàn)黏著語的規(guī)范化處理。孟雯、江荻的《藏文詞典排序原理與查詞典的方法》(《西北民族大學(xué)學(xué)報》哲社版第3期)一文,詳細(xì)敘述了藏文詞典的檢索方法,并配以案例加以說明。這些內(nèi)容對于學(xué)習(xí)者和使用者都具有一定的實用價值。仁青東主、安見才讓的《藏文字母的信息熵》(《電子技術(shù)與軟件工程》第15期)一文,用擴(kuò)大容量的方法統(tǒng)計了藏文字母的信息熵,并用zipf定律進(jìn)行了理論上的說明。王維蘭、盧小寶、蔡正琦、沈文韜、付吉、才科扎西的《基于部件組合的聯(lián)機(jī)手寫“藏文—梵文”樣本生成》(《中文信息學(xué)報》第5期)一文,提供了一種基于部件組合的“藏文—梵文”手寫樣本生成方法,主要包括:(1)確定“藏文—梵文”字符集和部件集;(2)獲取“藏文—梵文”字丁的部件位置信息;(3)采集聯(lián)機(jī)手寫“藏文—梵文”部件的樣本;(4)生成聯(lián)機(jī)手寫“藏文—梵文”字符集樣本庫。該文為聯(lián)機(jī)手寫“藏文—梵文”識別的研究提供字符訓(xùn)練樣本庫和測試樣本庫,提高了手寫梵音藏文樣本采集效率,解決了樣本數(shù)量及多樣性問題,降低了樣本采集成本,為進(jìn)一步聯(lián)機(jī)手寫梵音藏文識別的研究與系統(tǒng)開發(fā)奠定了基礎(chǔ)。多杰才讓、才智杰的《藏文輔音字母的動詞構(gòu)成能力分析》(《西北民族大學(xué)學(xué)報》自然科學(xué)版第3期)一文,對藏文動詞詞典中收錄的所有藏語動詞進(jìn)行了統(tǒng)計,發(fā)現(xiàn)30個藏文字母因其性(即陽性、中性、陰性)不同,在所構(gòu)成動詞的及物性上也出現(xiàn)明顯區(qū)別。完么扎西、尼瑪扎西的《藏文的信息熵與輸入法鍵盤設(shè)計》(《北京大學(xué)學(xué)報》自然科學(xué)版第3期)一文,在研究和分析藏文拼寫文法的基礎(chǔ)上,對計算機(jī)藏文快速輸入法鍵盤鍵位布局進(jìn)行形式化描述,推導(dǎo)計算機(jī)藏文鍵盤鍵位布局規(guī)則及方法。安見才讓、拉毛措、孫琦龍的《互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設(shè)計》(《微處理機(jī)》第2期)一文,介紹了研究互聯(lián)網(wǎng)藏文信息輿情分析的必要性、重點(diǎn)及難點(diǎn),詳細(xì)介紹了藏文輿情分析的關(guān)鍵技術(shù),最后說明了藏文輿情分析系統(tǒng)的設(shè)計和實現(xiàn)框架。劉匯丹、洪錦玲、諾明花、吳健的《基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析》(《中文信息學(xué)報》第2期)一文,針對從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁,總計427萬句、9328萬音節(jié)字的藏文文本語料,按照預(yù)定的規(guī)則對其中的藏文音節(jié)拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。文章還詳細(xì)統(tǒng)計了各種不同表現(xiàn)形式的錯誤音節(jié)所占比重,并分析了導(dǎo)致拼寫錯誤的四個主要原因:一是輸入了多余的元音符號;二是音節(jié)點(diǎn)或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是錯誤地使用了相似字符。艾金勇的《面向信息處理的藏文文本規(guī)范化方法研究》(《西北師范大學(xué)學(xué)報》自然科學(xué)版第2期)一文,針對藏文信息處理的需求,提出了一套層次化、基于規(guī)則的藏文文本規(guī)范化處理方案。首先分析整理了藏文文本中的不規(guī)范文本類型,然后根據(jù)藏文文本中不同類型的不規(guī)范文本特征,分別設(shè)計文本規(guī)范化算法,并用程序?qū)崿F(xiàn)了藏文文本的規(guī)范化。最后對該方法進(jìn)行了實驗測試,測試結(jié)果表明該方法能較好地實現(xiàn)藏文文本的規(guī)范化。才讓叁智、關(guān)白的《基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯研究》(《西藏大學(xué)學(xué)報》自然科學(xué)版第1期)一文,通過分析現(xiàn)代藏文音節(jié)字,將藏文音節(jié)字分為規(guī)則音節(jié)字(遵循組件組合規(guī)則的藏文音節(jié)字)和不規(guī)則音節(jié)字(不遵循組件組合規(guī)則的音節(jié)字)兩種。對規(guī)則音節(jié)字采用了音節(jié)字組件組合規(guī)則進(jìn)行檢錯,對非規(guī)則音節(jié)字采用建立梵源藏文詞典、音譯藏文詞典和本體非規(guī)則音節(jié)字詞典進(jìn)行檢錯。實驗表明,文章提出的藏文音節(jié)字檢錯方法對報紙類藏文的檢錯率為100%。張云洋的《藏文網(wǎng)頁搜索關(guān)鍵技術(shù)研究》(《計算機(jī)時代》第6期)一文,通過分析藏文網(wǎng)站中藏文字符的編碼特點(diǎn),對藏文網(wǎng)頁的URL處理技術(shù)、限定爬蟲、藏文網(wǎng)頁倒排索引的建立、網(wǎng)頁的檢索和結(jié)果排序等進(jìn)行了詳細(xì)闡述,提出了較完整的藏文網(wǎng)頁搜索方法,對于藏文網(wǎng)頁信息的搜索和利用有一定的實用價值。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號