計(jì)算語言學(xué)與實(shí)驗(yàn)語音學(xué)

發(fā)布時(shí)間:2021-11-19 17:59:31 | 來源: | 作者: | 責(zé)任編輯:

(一)計(jì)算語言學(xué)

計(jì)算語言學(xué)近年來在我國(guó)呈蒸蒸日上的態(tài)勢(shì),突出表現(xiàn)在公開發(fā)表的科研成果數(shù)量多、質(zhì)量逐步提升上。伴隨著國(guó)家對(duì)民族語言文字信息化處理的重視,全國(guó)各地尤其是民族類院校藏語文信息化處理獲得國(guó)家立項(xiàng)的科研項(xiàng)目和重點(diǎn)實(shí)驗(yàn)室基礎(chǔ)建設(shè)同比增長(zhǎng)比較多,國(guó)家和各個(gè)科研院所也加大在這方面的投入。我國(guó)藏文信息處理起步較晚,標(biāo)準(zhǔn)化建設(shè)尚待進(jìn)一步完善,藏文信息技術(shù)研發(fā)單位各自為營(yíng),缺乏交流和合作。更重要的是我國(guó)藏文編碼還沒有完全遵循藏文國(guó)際編碼集,大家經(jīng)常是根據(jù)各自的需要設(shè)計(jì)擴(kuò)充編碼集,可以說我國(guó)藏文信息處理的技術(shù)與國(guó)際先進(jìn)水平還存在差距。為了推動(dòng)國(guó)內(nèi)藏語文信息化建設(shè),應(yīng)該加大對(duì)國(guó)際標(biāo)準(zhǔn)小字符集技術(shù)的深入研究,根據(jù)國(guó)內(nèi)信息化需要研制藏文大字符集國(guó)家標(biāo)準(zhǔn),盡快統(tǒng)一國(guó)內(nèi)藏文編碼,編碼多樣化導(dǎo)致藏文網(wǎng)絡(luò)傳播與交流出現(xiàn)了雜亂無章的局面,嚴(yán)重制約了藏文信息化研究的進(jìn)程。因此對(duì)于不同藏文編碼之間的轉(zhuǎn)換研究就顯得十分必要,2012年度有多篇論文涉及藏文編碼轉(zhuǎn)換的研究成果公開發(fā)表,主要有:邢超等的《藏文文本編碼方案的識(shí)別算法》(《信息網(wǎng)絡(luò)安全》第12期)。

藏語文標(biāo)準(zhǔn)研究包括兩個(gè)研究領(lǐng)域:一是藏語文字使用的規(guī)范標(biāo)準(zhǔn),二是藏語文信息處理所用的規(guī)范標(biāo)準(zhǔn)。藏語計(jì)算語言學(xué)研究?jī)?nèi)容包括藏語文的拉丁轉(zhuǎn)寫規(guī)范、分詞規(guī)范、詞類規(guī)范、語料庫(kù)規(guī)范、語言知識(shí)的表述規(guī)范等。

藏文字符識(shí)別研究是藏文文本信息化的一項(xiàng)基礎(chǔ)研究,對(duì)于藏文輸入、文獻(xiàn)信息化、語料庫(kù)建設(shè)等方面產(chǎn)生了重要影響。字符識(shí)別研究包括印刷體字符識(shí)別和手寫體字符識(shí)別,印刷體字符識(shí)別又涉及雕刻版字符識(shí)別。江荻、周學(xué)文、龍從軍等人的《藏文識(shí)別原理與應(yīng)用》(商務(wù)印書館)是一部介紹文字識(shí)別原理和技術(shù)、藏文字形結(jié)構(gòu)和統(tǒng)計(jì)特征、藏文識(shí)別技術(shù)和應(yīng)用的書籍,也是目前中國(guó)第一部有關(guān)藏文識(shí)別的專著,對(duì)關(guān)心藏文識(shí)別或文字識(shí)別技術(shù)的讀者有重要的參考價(jià)值。該書共有七章,第一章緒論介紹了藏文識(shí)別研究的背景、技術(shù)以及研究現(xiàn)狀。第二章介紹了藏文的字形和結(jié)構(gòu)特征。第三章介紹了藏文編碼簡(jiǎn)史和字體。第四章介紹了OCR理論和方法。第五章介紹了不同語言環(huán)境下OCR的實(shí)現(xiàn)。第六章介紹了藏文識(shí)別預(yù)處理。第七章介紹了藏文印刷體的識(shí)別。第八章介紹了藏文識(shí)別后的處理。該部著作總結(jié)了藏文文字識(shí)別的基本理論方法與軟件開發(fā)的情況,是藏文文字識(shí)別研究的集成作品,對(duì)推動(dòng)我國(guó)少數(shù)民族文字研究和信息化研究有積極的作用。關(guān)于藏語文識(shí)別的文章還有:李永忠等的《藏文印刷體字符識(shí)別技術(shù)研究》(《南京大學(xué)學(xué)報(bào)》自然科學(xué)版第1期)、小普桑等的《藏文筆跡的分析與鑒定》(《西藏科技》第4期)、趙冬香等的《BP神經(jīng)網(wǎng)絡(luò)在脫機(jī)手寫吾美藏文識(shí)別系統(tǒng)中的應(yīng)用》(《貴州科學(xué)》第2期)、趙棟材的《基于BP網(wǎng)絡(luò)的木刻藏文經(jīng)書文字識(shí)別研究》(《微處理機(jī)》第5期)、才讓洛加等的《識(shí)別現(xiàn)代藏文基字的算法設(shè)計(jì)與實(shí)現(xiàn)》(《西藏科技》第5期)等,這些論文關(guān)注藏文文字識(shí)別中的某類具體問題,探討識(shí)別的策略,推動(dòng)了藏語文字識(shí)別研究的不斷深化。

語料庫(kù)建設(shè)對(duì)語言信息處理意義重大,因此反映語料庫(kù)加工方法技術(shù)以及基于語料庫(kù)的語言研究文章也比較多,包括才藏太的《藏文語料庫(kù)深加工方法研究》(《計(jì)算機(jī)工程與應(yīng)用》第26期)等都是針對(duì)整個(gè)語料庫(kù)的結(jié)構(gòu)組織、標(biāo)注方法等的研究;力毛措的《藏語語料庫(kù)管理系統(tǒng)中讀寫數(shù)據(jù)粒度問題的研究》(《青海師范大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)等則對(duì)語料庫(kù)加工過程中的具體細(xì)節(jié)問題進(jìn)行了討論。

與標(biāo)注語料庫(kù)建設(shè)密切關(guān)聯(lián)的是分詞與詞性標(biāo)注技術(shù)研究。2012年度藏語分詞技術(shù)取得了豐碩的成果,不但體現(xiàn)在發(fā)表文章的數(shù)量上,也體現(xiàn)在分詞方法革新和分詞軟件開發(fā)方面。

對(duì)藏語分詞方法進(jìn)行研究的論文主要有:陳朝陽等的《基于Dijkstra算法的藏語分詞研究》(《數(shù)字通信》第6期);反映基于規(guī)則分詞系統(tǒng)開發(fā)的文章有劉匯丹等的《SegT:一個(gè)實(shí)用的藏文分詞系統(tǒng)》(《中文信息學(xué)報(bào)》第1期)、才華等的《Unicode藏文分詞系統(tǒng)的設(shè)計(jì)》(《西藏科技》第7期)、趙棟材的《基于虛詞切分的藏文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)。基于規(guī)則的藏語分詞研究面臨諸多問題,分詞的精度有待進(jìn)一步提高,為此一些研究者嘗試把統(tǒng)計(jì)方法引入到藏語分詞研究中。首先把統(tǒng)計(jì)技術(shù)引入藏語分詞的是史曉東、盧亞軍等,他們?cè)凇堆虢鸩匚姆衷~系統(tǒng)》(《中文信息學(xué)報(bào)》第4期)一文中介紹了把漢語分詞系統(tǒng)Segtag的技術(shù)移植到藏語分詞中,主要采用隱馬爾科夫模型,將分詞和標(biāo)注一體化處理,獲得了不錯(cuò)的效果。羊毛卓瑪和歐珠等的《一種改進(jìn)的藏文分詞交集型歧義消解方法》(《西藏科技》第1期)、巴桑杰布等的《藏文分詞系統(tǒng)中緊縮格識(shí)別和藏字復(fù)原的算法研究》(《西藏科技》第2期)、羊毛卓瑪?shù)鹊摹恫匚淖詣?dòng)分詞中未登錄詞處理方法研究》(《計(jì)算機(jī)工程》第17期)等。

語料庫(kù)的詞性標(biāo)注研究的成果不是太多,其原因主要在于分詞的精確度不高限制了詞性標(biāo)注研究的推進(jìn)。語料庫(kù)詞性標(biāo)注研究所采用的技術(shù)方法以統(tǒng)計(jì)模型為主,主要成果有:扎西多杰等的《基于HMM藏文詞性標(biāo)注的研究與實(shí)現(xiàn)》(《計(jì)算機(jī)光盤軟件與應(yīng)用》第12期)。詞性標(biāo)注細(xì)節(jié)研究,包括標(biāo)注詞典,具體某些現(xiàn)象的標(biāo)注研究,如扎西加等的《藏文文本分詞賦碼一體化研究》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第1期)。但是總體上來看,藏語詞性標(biāo)注研究還存在很多問題,標(biāo)注的精確度還不高。

資源建設(shè)還包括知識(shí)庫(kù)建構(gòu)和雙語語料加工。知識(shí)庫(kù)建設(shè)方面也取得了一定的成果,才讓三智等的《面向信息處理的藏語虛詞知識(shí)庫(kù)構(gòu)建研究》(《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)等都試圖通過建立語法知識(shí)庫(kù)來解決藏語計(jì)算處理中所需要的資源。但是語法信息知識(shí)庫(kù)的構(gòu)建是一項(xiàng)艱苦而持久的工作,當(dāng)前藏語知識(shí)庫(kù)建設(shè)的水平還較低、規(guī)模不大,還需要繼續(xù)加大研究的力度。

雙語語料庫(kù)建設(shè)難度要比建立單語種語料庫(kù)難度大,尤其是詞級(jí)單位對(duì)齊的語料庫(kù)在語言信息處理中起關(guān)鍵作用,涉及這方面研究的文章也比較多,主要有才讓卓瑪?shù)鹊摹痘谡Z料庫(kù)的藏語高頻詞抽取研究》(《計(jì)算機(jī)工程》第15期)、曹暉等的《藏文報(bào)紙?jiān)~語統(tǒng)計(jì)研究》(《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第3期)。馬拉毛草等《基于語料庫(kù)的藏語形容詞統(tǒng)計(jì)研究》(《西北民族大學(xué)學(xué)報(bào)》哲社版第6期)、祁坤鈺的《基于語料庫(kù)的藏語名詞分類與統(tǒng)計(jì)研究》(《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第3期),這些文章的特點(diǎn)在于關(guān)注藏語新詞新語、網(wǎng)絡(luò)詞匯,在研究方法上以基于語料庫(kù)的統(tǒng)計(jì)方法為主。

文本信息處理是近幾年藏語計(jì)算處理的核心研究領(lǐng)域,龍從軍在《當(dāng)前藏語信息處理的幾個(gè)關(guān)鍵問題》(《科研與信息化》第4期)概述了當(dāng)前藏語文本信息處理的幾個(gè)基本問題以及對(duì)策。文本處理包括文本知識(shí)自動(dòng)發(fā)現(xiàn),自動(dòng)分類、知識(shí)抽取、校對(duì)、檢索等內(nèi)容。

邊界的識(shí)別問題,對(duì)于句法研究意義重大。相關(guān)的成果有徐濤等的《統(tǒng)計(jì)與規(guī)則相結(jié)合的藏文句子自動(dòng)斷句方法》(《云南大學(xué)學(xué)報(bào)》自然科學(xué)版第6期)、才藏太的《基于最大熵分類器的藏文句子邊界自動(dòng)識(shí)別方法研究》(《計(jì)算機(jī)工程與科學(xué)》第6期)、馬偉珍等的《藏語句子邊界識(shí)別方法》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期),上述成果的特點(diǎn)在于把統(tǒng)計(jì)手段融入句子識(shí)別研究中,規(guī)則和統(tǒng)計(jì)方法的融合,提高了藏語句子識(shí)別的精確度。

關(guān)于文本自動(dòng)校對(duì)的研究主要有劉文香的《現(xiàn)代藏文文本校對(duì)設(shè)計(jì)方案研究》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)、關(guān)白、才科扎西的《現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究》(《計(jì)算機(jī)工程與應(yīng)用》第29期)等。藏語計(jì)算語言學(xué)還包括特定應(yīng)用軟件的開發(fā),如卓嘎等的《基于Flash的藏文字母打字游戲的設(shè)計(jì)與實(shí)現(xiàn)》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)、高紅梅等的《藏文網(wǎng)頁(yè)爬蟲設(shè)計(jì)與實(shí)現(xiàn)》(《信息與電腦》理論版第9期)。

應(yīng)用藏語文軟件的開發(fā)也是基于計(jì)算語言學(xué)發(fā)展起來的。相關(guān)的研究成果有:戴玉剛、劉戰(zhàn)東的《藏文Flv播放器的設(shè)計(jì)與實(shí)現(xiàn)》一文利用Flex技術(shù),開發(fā)了一款藏文Flv播放器,該播放器實(shí)現(xiàn)了藏文字體在播放器界面上正常顯示和視頻文件的正常播放。實(shí)驗(yàn)結(jié)果表明,利用Flex技術(shù)開發(fā)的藏文Flv播放器能夠給用戶帶來更豐富、體驗(yàn)性更強(qiáng)的用戶界面。

孟祥和、何向真、曹暉的《基于民族文字的在線虛擬鍵盤實(shí)現(xiàn)技術(shù)》以在線藏文虛擬鍵盤為例,描述了在線民族文字虛擬鍵盤的實(shí)現(xiàn)技術(shù),并在字符編碼、鍵盤布局、瀏覽器兼容等方面進(jìn)行了詳細(xì)闡述。在線民族文字虛擬鍵盤為用戶提供一個(gè)與國(guó)家標(biāo)準(zhǔn)鍵盤布局相對(duì)應(yīng)的民族文字虛擬鍵盤,其具有直觀、形象、易操作的特點(diǎn)。民族文字的在線虛擬鍵盤技術(shù)的實(shí)現(xiàn),改善了B/S模式下民族文字輸入不便的問題。

(二)實(shí)驗(yàn)語音學(xué)

與計(jì)算語言學(xué)相比,2012年度實(shí)驗(yàn)語音學(xué)的研究成果不是很多,代表性的有:李冠宇、孟猛的《藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型研究》(《計(jì)算機(jī)工程》第5期),于洪志、高璐等的《藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)》(《中文信息學(xué)報(bào)》第4期),范俊軍的《基于調(diào)查字表詞表注音的漢藏語言音系處理系統(tǒng)》(《語言文字應(yīng)用》第2期)等。

李冠宇、孟猛在《藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型研究》一文中,根據(jù)藏語的特點(diǎn),提出藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型,利用高層次的藏語語言知識(shí)減少模式匹配的模糊性。以音素和聲韻母為聲學(xué)建模單元,在HTK平臺(tái)上建立上下文相關(guān)的連續(xù)隱馬爾可夫聲學(xué)模型,以實(shí)現(xiàn)藏語拉薩話特定人大詞表連續(xù)語音識(shí)別。實(shí)驗(yàn)結(jié)果表明,在最優(yōu)情況下,該模型詞錯(cuò)誤率只有7.8%。于洪志、高璐等的《藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)》一文選取具有代表意義的藏語衛(wèi)藏方言的拉薩話、安多方言的夏河話以及康方言的德格話進(jìn)行語言調(diào)查;整理歸納藏語三大方言音系,包括單輔音、復(fù)輔音、單元音、復(fù)合元音和輔音韻尾,以及三大方言聲調(diào);依照SAMPA的規(guī)則建立適合于藏語三大方言的機(jī)讀音標(biāo),并設(shè)計(jì)了SAMPA_ST的自動(dòng)標(biāo)注系統(tǒng),實(shí)現(xiàn)文音轉(zhuǎn)換功能,為語音的韻律特征分析和語音工程的研究提供依據(jù)。范俊軍在《基于調(diào)查字表詞表注音的漢藏語言音系處理系統(tǒng)》一文中認(rèn)為:計(jì)算機(jī)對(duì)語言調(diào)查表記音文本語料的音標(biāo)校對(duì)、音系整理、編制同音字匯表和音節(jié)詞素表,關(guān)鍵是從音標(biāo)字符串中準(zhǔn)確地切分音節(jié)、聲母、韻母、聲調(diào)。正向掃描最小數(shù)字字符匹配,可用于切分出音節(jié)字符串和聲調(diào)數(shù)字串;正向掃描最小元音字符匹配,可用于切分聲母和韻母。在此基礎(chǔ)上,從字表和詞表中隨機(jī)提取例字例詞,可快速生成音系表、同音字匯、音節(jié)詞素表,從而大大提高語言田野調(diào)查的語料整理效率。

以上是對(duì)2012年度藏語文研究的初步總結(jié),鑒于刊載藏語文研究的期刊種類比較繁雜,如有遺漏還請(qǐng)方家海涵。

版權(quán)所有 中國(guó)藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1

京公網(wǎng)安備 11010502035580號(hào)