一、 研究進展情況
1、課題開題與子課題進展情況
研究計劃順利執(zhí)行,各子課題取得進展。
2016年4月1日,“《格薩爾》說唱語音的自動識別與格薩爾學(xué)的創(chuàng)新發(fā)展”項目啟動暨專家咨詢會在西藏大學(xué)召開。來自西藏本地和北京的7位專家在認真聽取項目總體情況和研究方案優(yōu)化情況,以及各個子課題的匯報情況后,紛紛發(fā)表意見,提出建議,充分肯定并高度評價《格薩爾》項目,給予項目組成員以極大的幫助和鼓勵。各子課題分別消化吸收了專家咨詢會上各位專家的意見建議。項目首席專家召開了子課題負責人第一次例會,各子課題負責人分別匯報了修訂完善后的研究方案和研究計劃,并進行了相關(guān)任務(wù)的對接。一年多來,各子課題均取得了基礎(chǔ)性的進展:
子課題一“基于文獻計量分析的《格薩爾》研究歷史、現(xiàn)狀和趨勢”。一是定制專門的文獻計量分析軟件工具,包括基于文獻計量學(xué)方法的論文形式和關(guān)鍵詞內(nèi)容分析工具研發(fā),以及基于詞向量的短文本分析技術(shù)的文獻內(nèi)容挖掘工具研發(fā),已經(jīng)運用其他領(lǐng)域的數(shù)據(jù)集進行了多次測試和優(yōu)化,很快即可在本項目應(yīng)用;二是篩選《格薩爾》研究的學(xué)術(shù)文獻,尤其是藏文文獻,已經(jīng)選出187篇藏文研究論文。
子課題二“《格薩爾》說唱語音的聲學(xué)和韻律建模及音字轉(zhuǎn)換研究”。一是錄制了斯塔多吉說唱本4部,計200多個小時;二是對多語言言語識別方法開展了相關(guān)研究,提出了基于多尺度特征的語音識別建模方法、基于參數(shù)共享神經(jīng)網(wǎng)絡(luò)的雙語語音識別建模方法;三是基于言語中的多層次線索,對融合發(fā)音姿態(tài)信息的深層神經(jīng)網(wǎng)絡(luò)語音識別建模方法進行了探索;四是提出了基于深層循環(huán)條件隨機場的中文自動分詞方法并對藏語的分詞和注音進行了探索,實現(xiàn)了藏文分詞以及藏語方言國際音標轉(zhuǎn)換的系統(tǒng)。
子課題三“《格薩爾》的多媒體數(shù)據(jù)庫及文本自動標引和知識檢索系統(tǒng)”。一是建立了54049詞條的藏語短語詞條庫和133226詞條的藏語詞語庫,為藏文連續(xù)文本的切分提供了依據(jù),并對藏文虛詞的自動識別方法和技術(shù)進行了探索;二是結(jié)合子課題一的“短文本分析技術(shù)”和子課題二的“基于深層循環(huán)條件隨機場的中文自動分詞方法”,設(shè)計并初步論證了中文文獻內(nèi)容的自動標引和檢索的技術(shù)路線。
子課題四“基于《格薩爾》知識圖譜的格薩爾學(xué)創(chuàng)新發(fā)展”。一是在分析格薩爾學(xué)的成長特征和成長空間的基礎(chǔ)上,從情報學(xué)的多個視角探討了格薩爾學(xué)的多方面成長機制,為前面三個子課題的研究目標實現(xiàn)提供進一步的參考;二是在西藏大學(xué)組建了“格薩爾史詩研究科研創(chuàng)新團隊”。
2、調(diào)查研究及學(xué)術(shù)交流情況
調(diào)查研究工作主要是對非在線的藏文有關(guān)文獻的調(diào)查篩選、《格薩爾學(xué)集成》(5卷)等早期文獻的復(fù)制、在線中英文有關(guān)文獻的抓取等。學(xué)術(shù)交流還僅限于項目組內(nèi)部,等基礎(chǔ)性研究更加充分并在說唱語音自動識別有重大突破后再進行國內(nèi)外學(xué)術(shù)交流活動。
3、成果推介與宣傳
成果宣傳推薦方面,報送了兩期《工作簡報》,因尚處基礎(chǔ)研究階段,還沒有舉行成果發(fā)布會、沒有向國家社科基金?陡。
二、 研究成果情況
代表性成果:實現(xiàn)了藏文分詞以及藏文文本到藏語方言國際音標轉(zhuǎn)換的系統(tǒng)。
要實現(xiàn)藏語方言語音的識別和分析,需要以國際音標IPA的形式分析藏文文本到藏語方言的發(fā)音,構(gòu)建不同藏文方言由文本到發(fā)音的轉(zhuǎn)換對照表。該系統(tǒng)由藏文文本分詞系統(tǒng)和藏語方言國際音標轉(zhuǎn)換系統(tǒng)兩個子系統(tǒng)構(gòu)成,后者又包括藏文詞匯國際音標轉(zhuǎn)換系統(tǒng)和藏文單音節(jié)方言國際音標轉(zhuǎn)換系統(tǒng)兩個部分。
藏語在書面語上是統(tǒng)一的,即藏語方言在書寫形式上是一樣的。藏語主要劃分為衛(wèi)藏、康以及安多三大方言。不同的藏語方言在語音上體現(xiàn)在多個方面,主要特性包括:方言是否有聲調(diào)、是否有清濁聲母的對立以及輔音韻尾是否多寡。首先,基于《格西曲扎藏文辭典》中的藏文詞匯,經(jīng)人工整理、挑選和校對,最終獲得七萬五千條藏文詞匯的電子詞典。分詞詞典的每條詞匯都包含藏文、對應(yīng)的中文、部分詞匯帶有詞性以及對應(yīng)的拉丁形式;诟裰~添接法,將詞典中的名詞等轉(zhuǎn)換為對應(yīng)格的形式,然后將名詞的格形式作為詞典詞條進行詞典的擴充,最后在分詞時使用擴充后的詞典,實現(xiàn)對緊縮詞的識別。其次,基于對藏文三大方言六大話系的分析,歸納出了拉薩、日喀則、德格、巴塘、澤庫和拉卜楞等六個話系的藏文文本到國際音標的聲母、韻母以及聲調(diào)的轉(zhuǎn)換對照表。
該系統(tǒng)的實現(xiàn),將有力地推進針對斯塔多吉說唱語音的自動識別和音字轉(zhuǎn)換的研究工作。
課題組供稿