計(jì)算語言學(xué)(漢文部分)——藏語文智能信息化專題

發(fā)布時(shí)間:2023-05-23 16:26:33 | 來源:中國藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

(四)藏語文智能信息化專題

1.信息的提取

信息的提取,不僅是自然語言處理的重要環(huán)節(jié),同時(shí)信息提取也為構(gòu)建知識圖譜、問答系統(tǒng)等應(yīng)用提供重要支撐。相關(guān)研究有:夏天賜、孫媛《基于聯(lián)合模型的藏文實(shí)體關(guān)系抽取方法研究》(《中文信息學(xué)報(bào)》第12期)一文,采用端到端的BiLSTM框架,提出了基于聯(lián)合模型抽取藏文實(shí)體關(guān)系的方法,實(shí)驗(yàn)結(jié)果表明,該方法較傳統(tǒng)的基于藏文處理方式,如SVM算法和LR算法,準(zhǔn)確率提高了30%~40%。

成晨、于洪志、徐濤等《基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實(shí)體關(guān)系抽取模型研究》(《中國新通信》第19期)一文,采用基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實(shí)體關(guān)系抽取方法,在原始詞向量的基礎(chǔ)上,通過關(guān)鍵詞算法獲得類別關(guān)鍵詞特征,采用分段最大池化策略,減少傳統(tǒng)最大池化策略的信息丟失。實(shí)驗(yàn)表明,該方法有利于提升藏文實(shí)體關(guān)系抽取結(jié)果。朱利娟、云中華、邊巴旺堆等的《基于極坐標(biāo)變換的脫機(jī)手寫藏文字符特征提取方法》(《計(jì)算機(jī)應(yīng)用與軟件》第3期)一文,基于向量特征,將脫機(jī)手寫藏文字符圖像進(jìn)行預(yù)處理,求出二值圖像中所有值為1的點(diǎn)對應(yīng)的極坐標(biāo)后將其進(jìn)行投影變換得到投影向量。使用KNN分類器對30000個(gè)脫機(jī)手寫藏文字進(jìn)行實(shí)驗(yàn),其中80%的樣本作為訓(xùn)練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù),識別率達(dá)到了96.32%。結(jié)果表明該方法的有效性,計(jì)算簡單并達(dá)到了較好的識別效果。

指代消解是文本理解和信息抽取的一項(xiàng)重要任務(wù)。夏吾吉、華卻才讓《基于混合策略的藏文人稱代詞指代消解研究》(《計(jì)算機(jī)工程與應(yīng)用》第7期)一文,通過對藏文人名、人稱代詞的形態(tài)特征和構(gòu)詞規(guī)律的研究,采用基于規(guī)則、最大熵模型以及規(guī)則與最大熵模型相結(jié)合的三種方法實(shí)現(xiàn)了藏文人稱代詞的指代消解系統(tǒng)。在包含2306個(gè)待消解對的藏文句子集上,經(jīng)測試分別獲得76.02%、86.21%和88.16%的F值。

2.情感標(biāo)注

情感因素對于自然語言的標(biāo)注與處理很重要。相關(guān)研究有:閆曉東、黃濤《基于情感詞典的藏語文本句子情感分類》(《中文信息學(xué)報(bào)》第2期)一文提出了一種基于極性詞典的藏語文本句子情感分析方法。實(shí)驗(yàn)結(jié)果表明,利用該文構(gòu)建的詞典進(jìn)行的傾向性分析效果良好。孫本旺、田芳《藏文情感詞典的構(gòu)建及微博情感計(jì)算研究》(《計(jì)算機(jī)技術(shù)與發(fā)展》第11期)一文,針對國內(nèi)尚缺乏系統(tǒng)的藏文情感詞典,提出借助中文情感詞典資源自動(dòng)構(gòu)建藏文情感詞典的方法,并基于構(gòu)建的藏文情感詞典對藏文微博進(jìn)行情感分析研究。實(shí)驗(yàn)自動(dòng)構(gòu)建了藏文情感詞典,包含基礎(chǔ)情感詞、程度詞、否定詞、轉(zhuǎn)折詞、雙重否定詞、藏文停用詞。基于實(shí)驗(yàn)構(gòu)建的藏文情感詞典,與其他藏文情感詞典相比,有效地提高了藏文微博情感傾向分類的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該詞典達(dá)到了良好的實(shí)用性。張瑞《藏文在線評論情感分析研究綜述》(《智庫時(shí)代》第35期)一文,從藏文情感詞典的構(gòu)建、藏文句子情感分析和藏文篇章情感分析三個(gè)層面對藏文情感分析進(jìn)行研究,發(fā)現(xiàn)基于機(jī)器學(xué)習(xí)的方法是藏文情感分析研究的主流方法,今后應(yīng)加強(qiáng)藏文語料和情感詞典建設(shè)等基礎(chǔ)性工作。

3.算法與文本的分類與識別

運(yùn)用不同的算法對藏語文進(jìn)行分類與識別,是藏語文信息處理的重要步驟。相關(guān)研究有:群諾、賈宏云《基于Logistic回歸模型的藏文文本分類研究與實(shí)現(xiàn)》(《信息與電腦》理論版第5期)一文,基于Logistic回歸模型分類器對藏文文本進(jìn)行分類,并且對Logistic算法和Gaussian NB算法進(jìn)行分類性能進(jìn)行了比較,結(jié)果顯示Logistic算法具有較好的分類效果。賈宏云、群諾等《基于SVM藏文文本分類的研究與實(shí)現(xiàn)》(《電子技術(shù)與軟件工程》第9期)一文,利用SVM(支持向量機(jī))技術(shù)藏文文本進(jìn)行分類,包括文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。才藏太、索南才讓、才讓加《面向語言信息處理的藏語短語及其分類方法研究》(《中文信息學(xué)報(bào)》第9期)一文,根據(jù)藏語信息處理的特點(diǎn)和要求,在藏語短語與句子界線研究的基礎(chǔ)上,按照語法功能和便于計(jì)算機(jī)自動(dòng)分析和處理的原則對短語進(jìn)行分類,并規(guī)定了信息處理中藏語短語類別單位的標(biāo)記代碼。

拉毛措《基于正則表達(dá)式的藏文屬格的識別及其檢錯(cuò)算法研究》(《電子技術(shù)與軟件工程》第9期)一文,結(jié)合傳統(tǒng)的格助詞添接規(guī)則和正則表達(dá)式對屬格助詞進(jìn)行了識別和檢錯(cuò)的算法研究,提出了藏文屬格助詞的識別算法,在此基礎(chǔ)上提出了基于正則表達(dá)式和消歧知識庫的屬格助詞自動(dòng)檢錯(cuò)算法。周雁、西繞多吉《面向藏語聲紋識別的語料庫建設(shè)》(《計(jì)算機(jī)工程與科學(xué)》第11期)一文結(jié)合藏語特點(diǎn)設(shè)計(jì)了一個(gè)面向藏語聲紋識別的語料庫。語料庫的文本語料來自新聞報(bào)刊、文學(xué)類、教育類、科技類、佛學(xué)類、歷史類和傳統(tǒng)文化五明類等文獻(xiàn)資料,該研究為藏語的聲紋識別研究奠定了一定的基礎(chǔ)。王德欣、卓嘎、張瑞《基于LBG的藏語字母識別算法研究》(《電子技術(shù)與軟件工程》第20期)一文,使用MATLABR2014a進(jìn)行算法的仿真,采用VQ的技術(shù)中LBG來實(shí)現(xiàn)對藏文字母的識別。此算法對藏語30個(gè)字母的語音進(jìn)行了語音預(yù)處理和端點(diǎn)檢測,并提取了MFCC特征參數(shù),該研究為今后藏語語音的識別有一定的借鑒作用。

文獻(xiàn)的圖像處理是近年來藏語文信息化的一個(gè)節(jié)點(diǎn)。相關(guān)研究有:劉芳、張?jiān)蒲蟮取痘谙袼剜徲螯c(diǎn)信息的藏文圖像細(xì)化算法研究》(《計(jì)算機(jī)技術(shù)與發(fā)展》第4期)一文,根據(jù)首先對藏文數(shù)字圖像利用局部自適應(yīng)方法進(jìn)行二值化處理,再采用濾波處理噪聲方法進(jìn)行去噪處理,通過對某個(gè)像素點(diǎn)的八個(gè)鄰域點(diǎn)的連接情況,在對照矩陣中查找對應(yīng)矩陣項(xiàng)的值判斷該點(diǎn)是否能刪除,該算法在藏文字符數(shù)字圖像細(xì)化實(shí)驗(yàn)中效果良好,正確率高,實(shí)用性強(qiáng)。張西群、馬龍龍等《基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法》(《中文信息學(xué)報(bào)》第7期)一文,利用卷積降噪自編碼器提取超像素塊的特征;使用SVM分類器對藏文歷史文獻(xiàn)的超像素塊進(jìn)行分類預(yù)測,提取出藏文歷史文獻(xiàn)版面的各個(gè)部分。實(shí)驗(yàn)表明,該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離。

珠杰、仁青諾布等《論元角色的藏語語義角色標(biāo)注研究》(《高原科學(xué)研究》第3期)一文探討了藏語語義角色標(biāo)注問題,一是按照PropBank標(biāo)注規(guī)范對藏語簡單句進(jìn)行了語義角色標(biāo)注;二是依據(jù)藏語動(dòng)詞的語義類別,研究了藏文語義角色框架文件建設(shè)的可行性;三是結(jié)合藏語動(dòng)詞分析理論和格語法理論,在PropBank標(biāo)記基礎(chǔ)上研究了藏語特殊語義角色標(biāo)記規(guī)范和標(biāo)記方式。頭旦才讓、尼瑪扎西、完么扎西《藏語依存樹庫的構(gòu)建技術(shù)研究》(《高原科學(xué)研究》第3期)一文,建立了規(guī)模為1萬句、詞語總數(shù)為119510個(gè)、平均句長為12個(gè)詞的藏語依存樹庫,并對建立的藏語依存樹庫進(jìn)行了詞類分布統(tǒng)計(jì),該研究為藏語依存樹庫的構(gòu)建提供了思路。

洛松求培、安見才讓《藏文網(wǎng)頁主題爬蟲系統(tǒng)的實(shí)現(xiàn)》(《電子技術(shù)與軟件工程》第10期)一文,將貝葉斯分類算法用于網(wǎng)頁文檔分類,通過樣本集本訓(xùn)練出教育、政治、宗教三類主題分類器,再與爬蟲技術(shù)結(jié)合從互聯(lián)網(wǎng)上采集與主題相似的網(wǎng)頁集合,從而滿足了用戶的個(gè)性化需求,提升了信息檢索的效率。

4.藏語文信息化建設(shè)及文獻(xiàn)回溯

藏語文信息化研究以及發(fā)展歷程梳理,對于藏語文信息化建設(shè)具有指導(dǎo)意義。相關(guān)研究有:頭旦才讓、尼瑪扎西《改革開放以來西藏藏文信息化發(fā)展綜述》(《西藏研究》第5期)一文,回顧了西藏藏文信息化發(fā)展的歷程和取得的重要成就,指出并預(yù)測今后西藏藏文信息化的發(fā)展策略與路徑。高定國《藏文信息處理研究進(jìn)展》(《廣西科學(xué)院學(xué)報(bào)》第1期)一文,簡要回顧了藏文信息處理中字、詞、句、段、篇的特點(diǎn)、處理方法及取得的典型成果,藏語資源建設(shè)和應(yīng)用研究取得的成果,并對藏文信息處理未來的發(fā)展方向進(jìn)行展望。李玖一、于洪志、徐濤《藏文文本聚類及其相關(guān)技術(shù)綜述》(《廣西科學(xué)院學(xué)報(bào)》第1期)一文,介紹了藏文文本聚類的應(yīng)用背景和相關(guān)概念、藏文文本特點(diǎn)和藏文文本聚類的相關(guān)技術(shù),討論了藏文文本建模和聚類算法,并對藏文聚類發(fā)展和應(yīng)用進(jìn)行了總結(jié)和展望。尕瑪草《論新時(shí)代藏文信息技術(shù)的應(yīng)用與發(fā)展》(《電腦迷》第9期)一文,主要對目前國內(nèi)藏文信息技術(shù)的應(yīng)用與發(fā)展?fàn)顩r進(jìn)行了介紹和評價(jià),并在此基礎(chǔ)上探討加強(qiáng)藏文信息技術(shù)的應(yīng)用,進(jìn)而有效推動(dòng)藏文信息技術(shù)的發(fā)展,并對進(jìn)一步加速制定藏文信息標(biāo)準(zhǔn)化提出了自己的見解。

此外,扎西當(dāng)知、多拉等《從六百余篇藏文學(xué)術(shù)論文看藏學(xué)研究40年——以詞匯計(jì)量為視角》(《中國藏學(xué)》第4期)一文,梳理了國內(nèi)25種藏文學(xué)術(shù)期刊的642篇藏文學(xué)術(shù)論文,建立語料庫,進(jìn)行分詞、詞性標(biāo)記,并通過統(tǒng)計(jì)文獻(xiàn)信息、音節(jié)、詞匯等方法,對藏文學(xué)術(shù)文章的外部信息和詞匯、音節(jié)等內(nèi)容信息進(jìn)行計(jì)量研究,從而觀察40年來國內(nèi)藏文學(xué)術(shù)研究的發(fā)展脈絡(luò)、主要研究領(lǐng)域及其發(fā)展趨勢。肖維霖《基于文獻(xiàn)計(jì)量的藏語自然語言處理研究分析》(《青藏高原論壇》第1期)一文,以中國知網(wǎng)為數(shù)據(jù)源,分析了所有與藏語自然語言處理相關(guān)的文章,用文獻(xiàn)計(jì)量學(xué)的方法從論文數(shù)量規(guī)律、機(jī)構(gòu)發(fā)展、主題研等,介紹了我國在藏語自然語言處理方面的研究發(fā)展情況。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號