一、研究進(jìn)展情況
① 研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況
2014年7月——2016年7月,是本項(xiàng)目推進(jìn)的關(guān)鍵時期。項(xiàng)目組按照項(xiàng)目的計(jì)劃順利推進(jìn),開展研究。
在2年的時間里,總體執(zhí)行情況如下:完善了知識庫的構(gòu)建,真對名詞物性角色,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,在完成規(guī)范的制定的基礎(chǔ)上,開展了規(guī);募庸すぷ;進(jìn)一步設(shè)計(jì)了和實(shí)現(xiàn)了多個數(shù)據(jù)加工眾包平臺,包括指代關(guān)系標(biāo)注,句間關(guān)系標(biāo)注和名詞物性角色的填寫;在多視角語義分析方面也取得了一系列的成果,包括縮略語識別、實(shí)體關(guān)系分類與實(shí)體鏈接分析、也開展了不規(guī)范文本的語義分析和校對研究的工作。
在2年的時間里,我們已經(jīng)發(fā)表學(xué)術(shù)論文21篇,包括發(fā)表于計(jì)算語言學(xué)領(lǐng)域和人工智能領(lǐng)域的頂級國際會議。此外,還申請專利3項(xiàng),申請軟件著作權(quán)3項(xiàng)。圓滿完成了相應(yīng)時期的任務(wù)。
下面分別介紹各子課題的進(jìn)展情況。
子課題1:基于生成詞庫理論和論元結(jié)構(gòu)理論的語義知識體系研究
子課題針對常用的名詞詞條,按照設(shè)計(jì)的知識庫結(jié)構(gòu)進(jìn)行了知識項(xiàng)的填寫,共達(dá)一百多萬字。每個詞條的知識分三個部分:第一部分是對詞條百科知識的說明,第二部分是基于生成詞庫理論,對詞條物性結(jié)構(gòu)方面的描述,共包括施成、功用、構(gòu)成、形式、處置、處置和評價等九種角色;第三部分是根據(jù)實(shí)際語料,對這些名詞的實(shí)際句法配位做了窮盡性的例句展示。這樣的知識庫,不僅有利于中文信息處理中的信息抽取和信息檢索工作,也可以作為一種語法學(xué)習(xí)詞典,供本族人和外國留學(xué)生學(xué)習(xí)和查閱使用。
子課題有三位研究生分別圍繞現(xiàn)代漢語雙賓結(jié)構(gòu)、現(xiàn)代漢語旁格賓語結(jié)構(gòu)和現(xiàn)代漢語名詞謂語句等具體語法現(xiàn)象,利用生成詞庫論的物性結(jié)構(gòu)理論完成了自己的碩士學(xué)位論文。相關(guān)論文也在投稿發(fā)表之中。
在這2年時間里,子課題組在核心期刊上發(fā)表相關(guān)論文4篇。
子課題2:網(wǎng)絡(luò)文本的多級加工與語言知識挖掘研究
在近兩年,子課題主要圍繞以下四個方面開展了研究:
1)制定了多視圖的漢語樹庫標(biāo)注規(guī)范,在人民日報(bào)、微博語料上標(biāo)注了較大規(guī)模的漢語樹庫
2)制定漢語句際關(guān)系的標(biāo)注體系,針對漢語特點(diǎn)提出了解決方案,在人民日報(bào)3個月語料上標(biāo)注了所有的句際關(guān)系。
3)對網(wǎng)絡(luò)語言的處理與挖掘。在詞語層面,探討了情感極性詞的自動挖掘與判定方法;在句子層面,對于社區(qū)問答中的多小句復(fù)雜問句的分割與處理進(jìn)行了研究。
4)其他相關(guān)研究。研究了漢語開放領(lǐng)域的信息抽取方法,提出了基于依存的詞語embedding計(jì)算方法及其在類比計(jì)算中的應(yīng)用。
子課題3:基于群體智慧的知識資源加工技術(shù)及眾包平臺研究
為便于語料和知識加工,子課題組在近兩年內(nèi)進(jìn)一步完善并擴(kuò)展了眾包平臺的功能,主要研究如下:
1)進(jìn)一步完善了眾包平臺的一般性框架構(gòu)建,包括加工結(jié)果的展示模塊,語料(知識)加工模塊,候選答案推薦模塊。
2)進(jìn)一步完善了加工質(zhì)量控制模塊,包括參與者行為跟蹤記錄模塊。通過日志形式,動態(tài)記錄用戶的行為軌跡。
3)在原有指代消解的基礎(chǔ)上,進(jìn)一步實(shí)現(xiàn)了句間關(guān)系加工眾包平臺功能,在實(shí)際標(biāo)注過程中發(fā)揮了重要的作用。
4)設(shè)計(jì)實(shí)現(xiàn)了名詞基本物性角色標(biāo)注的眾包平臺,含有自動標(biāo)注,答案推薦,錯誤校正等主要功能。
子課題組已針對平臺的設(shè)計(jì)申請并獲批了2項(xiàng)軟件著作權(quán)。
子課題4:知識與統(tǒng)計(jì)相結(jié)合的多視角文本語義分析技術(shù)研究
網(wǎng)絡(luò)文本的語義分析技術(shù)是不規(guī)范語言分析的重要內(nèi)容,在過去的2年里,子課題主要開展了如下研究:
1)進(jìn)一步研究了漢語縮略語問題。縮略語是一種非規(guī)范的語言表示,也是網(wǎng)絡(luò)語言的主要形式之一。子課題重點(diǎn)研究了縮略語的分析和挖掘方法。
2)研究了實(shí)體關(guān)系的抽取與分類、實(shí)體挖掘與實(shí)體鏈接等問題。實(shí)體語義是不同于詞義的一種語義,這種語義直接與現(xiàn)實(shí)進(jìn)行對接。在網(wǎng)絡(luò)語言中,實(shí)體的出現(xiàn)十分頻繁。為此,子課題重點(diǎn)研究了實(shí)體關(guān)系發(fā)現(xiàn)、實(shí)體關(guān)系分類、實(shí)體挖掘和實(shí)體鏈接等問題。
3)研究并設(shè)計(jì)了基于網(wǎng)絡(luò)社區(qū)的問答系統(tǒng)。像百度知道之類的社區(qū)問答是互聯(lián)網(wǎng)中的一種典型服務(wù)。社區(qū)問答中積累了大量的問題-答案對,其中,很多問題-答案對可能會被反復(fù)使用。充分利用這類資源為用戶提供再次服務(wù)或再次類似服務(wù)具體有特別重要的意義。子課題對此進(jìn)行了深入研究。
4)研究了針對文本表達(dá)不規(guī)范的分析問題。表達(dá)的不規(guī)范和用語的臨時性是網(wǎng)絡(luò)文本的主要特點(diǎn),子課題就網(wǎng)絡(luò)文本中的不規(guī)范性,研究了文本校對方法。
子課題組在這2年的時間里,取得了一系列的研究成果,申請專利3項(xiàng),軟件著作權(quán)1項(xiàng),發(fā)表論文8篇。
②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等)
本項(xiàng)目開始于2013年1月,在2014年6月之前主要是項(xiàng)目的調(diào)研,2014年6月之后的2年時間里,調(diào)研不是本項(xiàng)目的主要任務(wù),但仍然會根據(jù)任務(wù)需要開展一些必要的調(diào)研,包括資料的收集,數(shù)據(jù)的整理等。這一階段,以任務(wù)的推進(jìn)為主,包括上述的研究。在這一時期,項(xiàng)目組參加了一系列的學(xué)術(shù)活動。具體而言,我們開展的調(diào)研和學(xué)術(shù)交流情況如下:
(1)進(jìn)一步開展了數(shù)據(jù)收集和分析:主要包括,大規(guī)模命名實(shí)體數(shù)據(jù)的采集,為實(shí)體的挖掘和實(shí)體關(guān)系、屬性知識的抽取做了準(zhǔn)備;借助于搜索引擎,收集了3種類型的社區(qū)問答數(shù)據(jù),包括天氣問答,航空問答,快遞問答。這一數(shù)據(jù)為本項(xiàng)目開展社區(qū)問答的研究打下了良好的基礎(chǔ)。此外,還就餐飲行業(yè)收集了一定規(guī)模的會話數(shù)據(jù)。
(2)進(jìn)一步查閱大量的文獻(xiàn)資料。深度學(xué)習(xí)和問答會話是當(dāng)前自然語言處理研究的熱點(diǎn),本項(xiàng)目結(jié)合任務(wù)要求,查閱了大量相關(guān)的文獻(xiàn)和資料,包括相關(guān)的培訓(xùn)講義,獲得的相關(guān)知識在本項(xiàng)目的開展中發(fā)揮了重要作用,形成了多個成果。
(3)參加了多個學(xué)術(shù)會議。除了項(xiàng)目各子課題進(jìn)行討論之外,項(xiàng)目組成員參加了一系列的學(xué)術(shù)會議,包括2014年8月在都愛爾蘭柏林舉辦的自然語言處理高水平學(xué)術(shù)會議COLING-2014,2014年10月在卡塔爾多哈舉辦的高水平學(xué)術(shù)會議EMNLP-2014,2014年11月在武漢舉辦的全國計(jì)算語言學(xué)會議CCL-2014,2014年12月在深圳舉辦的NLPCC-2014中文計(jì)算會議。此外,2015年分別參加在延吉舉辦的少數(shù)民族語言處理會議,本項(xiàng)目負(fù)責(zé)人王厚峰還應(yīng)邀作特邀報(bào)告。2015年還應(yīng)哈爾濱工業(yè)大學(xué)(深圳研究生院)邀請參加學(xué)術(shù)討論,受邀到廣東外語外貿(mào)大學(xué)講座等;2015年還參加知識圖譜、CCL-2015, NLPCC-2015等多個學(xué)術(shù)會議。2016年7月,參加在紐約舉辦的人工智能頂級學(xué)術(shù)會議IJCAI-2016。其間,我們就目前正在開展的工作分別同與會人員進(jìn)行了討論。
③成果宣傳推介情況(成果發(fā)布會、《工作簡報(bào)》報(bào)送情況、國家社科基金專刊投稿及采用情況等)
本項(xiàng)目的成果推介形式主要是學(xué)術(shù)報(bào)告,此外,還利用特邀報(bào)告重點(diǎn)介紹項(xiàng)目的研究成果,如,在少數(shù)民族語言信息處理的學(xué)術(shù)會議和在廣東外語外貿(mào)大學(xué)的邀請報(bào)告。
二、研究成果情況
①代表性成果簡介
2014年6月以來,我們繼續(xù)按照項(xiàng)目任務(wù)開展研究,取得了一系列的成果,下面僅介紹5項(xiàng)代表性的成果。
1)知識庫的構(gòu)建
語言知識庫建設(shè)是本項(xiàng)目的基礎(chǔ),也是語義分析的關(guān)鍵。本項(xiàng)目按照任務(wù)要求,進(jìn)一步按照任務(wù)書要求工作。進(jìn)行了知識的分類,完成一百多萬字的填寫工作。如下是我們填寫的一個詞條的例子:
白酒 báijiǔ〈名詞,中性〉用高粱、玉米、甘薯等糧食或某些果品發(fā)酵、蒸餾制成的酒,沒有顏色,含酒精量較高,也叫燒酒、白干兒。
〔1〕物性角色:
形式FOR:一種液體食物;
構(gòu)成CON:由淀粉或糖質(zhì)原料制成酒醅或發(fā)酵醪經(jīng)蒸餾而得,用熟糧食和菌種混合培養(yǎng),制成曲后,再和糧食混合同時進(jìn)行糖化和發(fā)酵制成糧食酒、再蒸餾。根據(jù)香型,可以分為醬香型、濃香型、清香型、米香型等。
單位UNI:不定:點(diǎn)、些;名量:杯、瓶、壺、碗、口、盅,等等;類屬:種;
評價EVA:中檔、優(yōu)質(zhì)、劣質(zhì)、普通、名優(yōu)、假冒、新型,等等;
施成AGE:加工、生產(chǎn)、勾兌、釀造、兌制,等等;
功用TEL:喝、飲用、食用,等等;
處置HAN:倒、命名、購買、送、銷售、摻、裝、賣、進(jìn)口,等等;
〔2〕句法格式:
S1:CON +_
如:清香型~|米香型~|濃香型~|醬香型~
S2:Num + UNI +_
如:一杯~|一碗~|一種~|一些~|一點(diǎn)~|一口~|一瓶~|一壺~|一種~|一盅~
S3:EVA +(的+)_
如:高檔~|中檔~|低檔~|劣質(zhì)~|名優(yōu)~|假冒~|新型~
S4:AGE +_
如:加工~|生產(chǎn)~|勾兌~|釀造~|兌制~
S5:TEL +_
如:喝~|食用~|飲用~
S6:HAN +_
如:倒~|命名~|購買~|送~|賣~|銷售~|進(jìn)口~|摻~|裝~
圖 1 依存視圖示例
2) 構(gòu)建了大規(guī)模、多領(lǐng)域、多視圖句法樹庫
在句法樹庫構(gòu)建方面已取得很大進(jìn)展,相關(guān)論文發(fā)表于2014年8月在愛爾蘭都柏林召開的COLING-2014上和中文信息學(xué)報(bào)2015年第3期和第5期,具體內(nèi)容包括:
圖 2 短語結(jié)構(gòu)語法視圖示例
(1)設(shè)計(jì)了一套依存句法標(biāo)注體系及標(biāo)注規(guī)范。部分依存關(guān)系類型繼承自哈工大依存樹庫,新增的依存關(guān)系類型包括話題、強(qiáng)調(diào)、間接賓語、行為賓語、數(shù)量補(bǔ)語、共享并列等;
(2)設(shè)計(jì)了由依存視圖向短語結(jié)構(gòu)視圖轉(zhuǎn)換的算法并進(jìn)行了程序?qū)崿F(xiàn),開發(fā)了一套支持依存和短語結(jié)構(gòu)兩個視圖的標(biāo)注工具。圖 1和圖 2分別是句子“根據(jù)資源情況,各地建立和完善了一大批農(nóng)副產(chǎn)品市場,以組織和引導(dǎo)農(nóng)戶進(jìn)行生產(chǎn)!钡囊来嬉晥D和短語結(jié)構(gòu)語法視圖,后者根據(jù)所設(shè)計(jì)的算法自動生成。
(3)已完成560萬字句法樹庫的標(biāo)注,其中500萬字為人民日報(bào)語料,60萬字為微博語料(基于NLPCC2012微博情感評測語料)。其中1.4 萬句新聞?wù)Z料(人民日報(bào))已可免費(fèi)共享。
(4)基于這一系列樹庫,通過句法分析實(shí)驗(yàn)考察質(zhì)量、規(guī)模、領(lǐng)域差異等因素對中文依存分析的影響,實(shí)驗(yàn)結(jié)果表明:(a)樹庫規(guī)模和質(zhì)量均與句法分析精度成正相關(guān)關(guān)系,質(zhì)量應(yīng)先于規(guī)模因素被優(yōu)先考慮;(b)通用樹庫和領(lǐng)域樹庫之間的差異程度與前者對后者的替代性成相關(guān)關(guān)系;(c)兩種樹庫混合使用的效果同樣與領(lǐng)域差異有關(guān)。
3) 設(shè)計(jì)了漢語語病分析模型
在語言文本中,語病的分析和識別是一個非常重要的基礎(chǔ)性問題,在網(wǎng)絡(luò)語言中,該問題尤為突出。為此,本項(xiàng)目開展了針對性的研究。
本項(xiàng)目提出了基于深度神經(jīng)網(wǎng)絡(luò)與多標(biāo)記分類的病句檢測方法(參圖3)。
基本思想是通過從句子中提取特征,將句子變?yōu)樘卣飨蛄;再將特征向量輸入到深度神?jīng)網(wǎng)絡(luò)模型中,獲得深層次特征表示;最后針對于多標(biāo)記分類的神經(jīng)網(wǎng)絡(luò)輸出,獲得最終多標(biāo)記分類結(jié)果,從而準(zhǔn)確定位句子究竟包含哪些錯誤。實(shí)現(xiàn)了將句子的特征表示升級到基于神經(jīng)網(wǎng)絡(luò)的隱藏層表示中,通過多標(biāo)記的方法輸出可能的語病,從而完成病句的檢測?梢宰R別句子中的多種語病,避免了人工選擇特征,同時也能確保多種語病預(yù)測的準(zhǔn)確度。
我們提出的方法已經(jīng)申請專利。
4) 提出了一種問題理解的方法
本項(xiàng)目還研究了一種問答系統(tǒng)中問句理解的方法。主要思想是基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法,將問句理解中意圖識別和槽填充這兩個任務(wù)及其關(guān)聯(lián)性進(jìn)行聯(lián)合學(xué)習(xí),基于循環(huán)神經(jīng)網(wǎng)絡(luò)來聯(lián)合建模一同解決意圖識別和槽填充,利用這兩個任務(wù)之間的關(guān)聯(lián)性更好地實(shí)現(xiàn)兩個任務(wù)。在不同的數(shù)據(jù)集上測試表明,本方法能夠提高兩個任務(wù)的準(zhǔn)確率,可以用于問答系統(tǒng)中的問句理解。圖4是基本構(gòu)架圖。
圖4. 問答系統(tǒng)的問題理解框架
上述成果已申請發(fā)明專利。
5) 實(shí)現(xiàn)了名詞物性角色的在線標(biāo)注眾包平臺
名詞物性角色在線標(biāo)注系統(tǒng)主要提供了句子的自動篩選和預(yù)標(biāo)功能。從生語料(LDC Chinese Gigaword)中,只抽取含目標(biāo)名詞和一個待標(biāo)動詞的句子,降低動詞的搭配歧義。
在線標(biāo)注系統(tǒng)的基本功能框架如下圖5所示。
圖5. 在線標(biāo)注平臺的實(shí)現(xiàn)框架
其中,句子篩選模塊用于抽取含目標(biāo)名詞和一個待標(biāo)動詞的句子。CNN神經(jīng)網(wǎng)絡(luò)模型:提供了相應(yīng)名詞的動詞物性角色推薦。
在線標(biāo)注系統(tǒng)為參與者提供了便捷的標(biāo)注界面,并保存標(biāo)注結(jié)果和實(shí)時的標(biāo)注日志。
上述成果已經(jīng)申請軟件著作權(quán)保護(hù)。
①階段性成果清單
論文:
1)王璐璐、袁毓林《述結(jié)式與“把”字句的構(gòu)式意義互動研究》,《語言教學(xué)與研究》,2016年第3期。
2)王璐璐、孫薇薇、袁毓林《“把”字句的自動釋義與句式變換研究》,《計(jì)算機(jī)工程與應(yīng)用》,2015年第19期。
3)周韌《兼類說反思》,《語言科學(xué)》2015年第5期。
4)宋作艷、趙青青、亢世勇《漢語復(fù)合名詞語義信息標(biāo)注詞庫:基于生成詞庫理論》(《中文信息學(xué)報(bào)》2015年第3期)
5)Likun Qiu, Yue Zhang, Peng Jin, Houfeng Wang, Multi-view Chinese Treebanking. Proceedings of COLING 2014, 2014-08-23
6)Likun Qiu and Yue Zhang, ZORE: A Syntax-based System for Chinese Open Relation Extraction. Proceedings of EMNLP 2014. 2014-10-25
7) Likun Qiu, Yue Zhang, Yalan Lu. Syntactic Dependencies and DistributedWord Representations for Chinese Analogy Detection and Mining. Proceedings of EMNLP 2015,2015-09-21
8)邱立坤,金澎,王厚峰,基于依存語法構(gòu)建多視圖漢語樹庫,中文信息學(xué)報(bào),2015年第3期
9)邱立坤、史林林、王厚峰,多領(lǐng)域中文依存樹庫構(gòu)建與影響統(tǒng)計(jì)句法分析因素之分析,中文信息學(xué)報(bào),2015年第5期
10)吳云芳,徐藝峰,王愷然,漢語篇章級小句關(guān)系的標(biāo)注體系,中文信息學(xué)報(bào),2015年第3期
11)Wu Yunfanf, Wan Fuqiang, Xu Yifeng, Lv Xueqiang,A New Ranking Method for Chinese Discourse Tree Building,北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016年2月
12)Fei Wang, Yunfang Wu,Sentiment-Bearing New Words Mining: Exploiting Emoticons and Latent Polarities,Proceedings of CICLing 2015.
13)Yixiu Wang, Yunfang Wu, Xueqiang Lv, Multi-sentence Question Segmentation and Compression for Question Answering. NLPCC2015, LNCS9362(Springer)
14)Minghua Zhang, Yunfang Wu, ICL00 at SemEval-2016 Task 3: Translation-Based Method for CQA. Proceedings of SemEval-2016.
15) 宋洋,王厚峰,基于馬爾可夫邏輯網(wǎng)絡(luò)的中文零指代消解,計(jì)算機(jī)研究與發(fā)展,2015(09),2114-2122
16) 宋洋,王厚峰,共指消解研究方法綜述,中文信息學(xué)報(bào),2015(1),1-12
17) 陳晨,王厚峰,中文跨文本人名同名同指消解研究,江西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 02期(2),111-116
18)RuiCai, Houfeng Wang, and Junhao Zhang. Learning Entity Representation for NamedEntity Disambiguation. CCL&NLP-NABD 2015, LNAI 9427(Springer), 267-278
19)RuiCai, Miaohong Chen, and Houfeng Wang. Nonparametric Symmetric CorrespondenceTopic Models for Multilingual Text Analysis. NLPCC2015, LNCS9362(Springer), 270-281
20)Qing Zhang, Houfeng Wang. Not All Links Are Created Equal: An Adaptive Embedding Approach for Social Personalized Ranking. SIGIR-2016, July 17-21, 2016, Pisa, Italy
21)Qing Zhang, Houfeng Wang. Collaborative Filtering with Generalized Laplacian Constraint via Overlapping Decomposition, 2016, 2329-2335
專利:
1) 一種基于深度神經(jīng)網(wǎng)絡(luò)與多標(biāo)記分類的病句檢測方法, 申請?zhí)枺?01510408379.4
2)一種基于深度學(xué)習(xí)的會話情感自動分析方法,申請?zhí)枺?01510731781.6
3)一種問答系統(tǒng)中的問句理解方法,申請?zhí)枺?01610512191.9
軟件著作權(quán):
1)GLEANER眾包平臺系統(tǒng)V1.0, 登記號:2015SR137669
2)領(lǐng)域適應(yīng)的漢語分詞系統(tǒng)V1.0,登記號:2015SR161286
3)漢語名詞物性知識在線加工系統(tǒng)V1.0,登記號:2016SR172188
課題組供稿