一、研究進(jìn)展情況(可另加附頁)
主要內(nèi)容:①研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況;②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會(huì)議、學(xué)術(shù)交流、國際合作等);③成果宣傳推介情況(成果發(fā)布會(huì)、《工作簡報(bào)》報(bào)送情況、國家社科基金?陡寮安捎们闆r等);④研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議;⑤其他需要說明的問題。
① 研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況
本項(xiàng)目于2012年12月28日獲批立項(xiàng)。項(xiàng)目執(zhí)行時(shí)間是2013年1月 — 2017年12月。本項(xiàng)目的計(jì)劃與時(shí)間安排如下:
到2014年6月底,項(xiàng)目實(shí)施一年半,執(zhí)行時(shí)間還不到項(xiàng)目總計(jì)劃時(shí)間的三分之一。我們參照項(xiàng)目的上述計(jì)劃進(jìn)度,順利推進(jìn)項(xiàng)目,開展相關(guān)研究。
總體而言,在過去的一年半時(shí)間里,我們完成了相應(yīng)時(shí)間內(nèi)預(yù)期的任務(wù):知識(shí)庫的構(gòu)建取得階段性進(jìn)展,制定了知識(shí)表示框架,填寫了部分詞匯的知識(shí);在多級(jí)語料庫的加工與挖掘方面,完成了規(guī)范的制定和試標(biāo)工作,為后續(xù)規(guī)模化的加工打下了良好的基礎(chǔ);設(shè)計(jì)了眾包平臺(tái)的總體框架,以語篇的指代關(guān)系標(biāo)注為例,在眾包平臺(tái)上發(fā)布標(biāo)注任務(wù);目前已通過使用平臺(tái)開始指代關(guān)系的標(biāo)注,并得到一定量的寶貴數(shù)據(jù);在多視角語義分析方面也取得了一系列的成果,縮略語識(shí)別、情感分析、實(shí)體關(guān)系分析等均取得研究進(jìn)展。
迄今為止,我們已經(jīng)發(fā)表學(xué)術(shù)論文23篇,接受待發(fā)表的論文7篇,共計(jì)30篇,已經(jīng)達(dá)到了計(jì)劃的全部論文數(shù),論文均標(biāo)有本項(xiàng)目資助號(hào)。其中有多篇論文發(fā)表于計(jì)算語言學(xué)領(lǐng)域的頂級(jí)國際會(huì)議。此外,還申請(qǐng)專利1項(xiàng)?梢哉f,本項(xiàng)目圓滿完成了相應(yīng)時(shí)期的任務(wù)。
下面分別介紹各子課題的進(jìn)展情況。
子課題1:基于生成詞庫理論和論元結(jié)構(gòu)理論的語義知識(shí)體系研究
(1) 已經(jīng)制定漢語名詞的物性結(jié)構(gòu)描寫和標(biāo)注體系,并通過試描述和組內(nèi)多次討論交流,對(duì)規(guī)范作了反復(fù)調(diào)整和完善。
(2) 以規(guī)范為依據(jù)描述了3000個(gè)左右的名詞的物性結(jié)構(gòu),共計(jì)200多萬字。對(duì)于高頻名詞的物性結(jié)構(gòu)標(biāo)注已經(jīng)基本完成,初步構(gòu)造了一個(gè)面對(duì)網(wǎng)絡(luò)文本分析的語言知識(shí)庫。
(3) 建立了一套漢語動(dòng)詞、形容詞的論元結(jié)構(gòu)描寫體系和語義角色的標(biāo)注體系和規(guī)范,并且在北京大學(xué)現(xiàn)代漢語句法樹庫的語料上標(biāo)注了10多萬字,正在配備相關(guān)的索引軟件。
(4) 研制了一個(gè)在線漢語謂詞語義知識(shí)庫,包括為15,000多個(gè)常用動(dòng)詞和形容詞的每一個(gè)義項(xiàng)(約40,000個(gè)條目)編制語義角色框架文檔,內(nèi)容包括:詞形、拼音、詞性、釋義、語義角色及其定義、配位方式及其實(shí)例、真實(shí)文本中的例子等。
子課題2:網(wǎng)絡(luò)文本的多級(jí)加工與語言知識(shí)挖掘研究
(1) 制定了漢語語料標(biāo)注的系列規(guī)范,包括“多視圖的漢語樹庫標(biāo)注規(guī)范”,“漢語句際關(guān)系的標(biāo)注體系”,“漢語口語語料庫對(duì)話行為標(biāo)注體系”等。
(2) 開發(fā)了多級(jí)多視圖語料標(biāo)注的系列計(jì)算機(jī)輔助軟件,并通過了試標(biāo)注的檢驗(yàn),達(dá)到了較好的效果。
(3) 為了分析網(wǎng)絡(luò)語言的特點(diǎn),標(biāo)注了部分網(wǎng)絡(luò)微博語料和口語對(duì)話語料中的依存關(guān)系和對(duì)話行為。
(4) 研究了網(wǎng)絡(luò)文本中的信息挖掘方法和對(duì)話語料中的對(duì)話行為分析方法。為多視角的語義分析提供了依據(jù)。
子課題3:基于群體智慧的知識(shí)資源加工技術(shù)及眾包平臺(tái)研究
(1) 設(shè)計(jì)了眾包平臺(tái)的基本構(gòu)建,在參與中包任務(wù)的用戶使用層面,設(shè)計(jì)實(shí)現(xiàn)了展示模塊,語料(知識(shí))加工模塊,候選答案推薦模塊。
(2) 為檢查用戶對(duì)語料(知識(shí))加工的質(zhì)量,設(shè)計(jì)了參與用戶的行為跟蹤記錄模塊,通過日志形式,動(dòng)態(tài)記錄用戶的行為軌跡。
(3) 利用眾包平臺(tái),發(fā)布了單數(shù)指代詞的指代關(guān)系標(biāo)注任務(wù)。并已有3人參與指代關(guān)系標(biāo)注的任務(wù),目前通過雙盲重復(fù)標(biāo)注的方式已完成了2025篇文章的標(biāo)注,同時(shí)也獲得了相關(guān)行為的日志信息,我們已對(duì)標(biāo)注情況進(jìn)行初步分析,以進(jìn)一步完善平臺(tái)。
(4) 利用眾包平臺(tái),正在設(shè)計(jì)實(shí)現(xiàn)句間關(guān)系標(biāo)注的任務(wù),設(shè)計(jì)工作已基本完成,很快便可發(fā)布加工任務(wù)。
子課題4:知識(shí)與統(tǒng)計(jì)相結(jié)合的多視角文本語義分析技術(shù)研究
(1) 研究了微博語料的分詞方法。不同于規(guī)范的文本,微博的表達(dá)十分隨意,新詞頻現(xiàn),用詞不囿于通常的規(guī)律。但微博的標(biāo)點(diǎn)句短,非漢字的符號(hào)(包括標(biāo)點(diǎn))多,利用這一特點(diǎn),實(shí)現(xiàn)了微博分詞模塊。
(2) 研究了跨語言的情感分析方法,特別是,研究了利用英語的情感詞表自動(dòng)獲取漢語情感詞的方法。這對(duì)于情感語義的分析將是非常重要的基礎(chǔ)資源。
(3) 研究了漢語縮略語的分析和預(yù)測(cè)方法。在網(wǎng)絡(luò)上,存在大量的縮略語現(xiàn)象。如何預(yù)測(cè)縮略語,建立縮略語與完整形式之間的關(guān)系,是分析理解縮略語的基礎(chǔ)。
(4) 研究了中文的指代方法,包括文本內(nèi)的指代關(guān)系和跨文本的同指關(guān)系。在文本內(nèi)的指代關(guān)系分析方面,我們重點(diǎn)研究了漢語零型指代的消解問題,在跨文本的指代消解中,重點(diǎn)研究了實(shí)體鏈接問題。
② 調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會(huì)議、學(xué)術(shù)交流、國際合作等)
過去的一年半時(shí)間正好是項(xiàng)目的開始期,按照研究的計(jì)劃安排,調(diào)查研究是本時(shí)期最重要的任務(wù)。為此,我們開展了如下工作:
(1) 進(jìn)行了大量的數(shù)據(jù)收集和分析:通過自動(dòng)采集方式爬取了新浪微博、口語對(duì)話、博客、網(wǎng)上新聞等數(shù)據(jù),同時(shí),也收集了一定量的語音-文字轉(zhuǎn)換的結(jié)果數(shù)據(jù)。本項(xiàng)目收集上述數(shù)據(jù)的主要原因是,微博是典型的網(wǎng)上語言,而且是最具代表性的非規(guī)范語言特征。而口語對(duì)話則在一定程度上代表了聊天語言現(xiàn)象(包括即時(shí)通信),博客是一種相對(duì)規(guī)范的語言表示。收集語音-文字轉(zhuǎn)換數(shù)據(jù)主要原因是隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語音將成為重要的信息表示形式。語音的處理通常需要先轉(zhuǎn)換為文本信息,以進(jìn)一步分析語義信息,這就需要分析相關(guān)材料。
(2) 收集查閱了大量的文獻(xiàn)資料。為了便于本項(xiàng)目更有效的開展,我們對(duì)國內(nèi)外的研究進(jìn)行了調(diào)研,重點(diǎn)查閱并收集了近幾年來相關(guān)研究的文獻(xiàn)資料,包括社交媒體的語言處理、不規(guī)范語言的處理方法、相關(guān)的語言知識(shí)庫及語料庫加工方法和加工平臺(tái)的研究狀況。查閱文獻(xiàn)資料100多篇(部)。為本項(xiàng)目的優(yōu)化實(shí)施起到了重要作用。
(3) 學(xué)術(shù)會(huì)議與學(xué)術(shù)交流方面,項(xiàng)目各子課題多次進(jìn)行了小組討論。參加了一系列的學(xué)術(shù)會(huì)議,包括2013年在保加利亞舉行的國際頂級(jí)計(jì)算語言學(xué)會(huì)議ACL,2013年在美國舉行的國際權(quán)威計(jì)算語言學(xué)會(huì)議EMNLP,2013年在日本舉行的IJNLP會(huì)議,以及在新加坡、臺(tái)灣等地舉辦的重要語言學(xué)國際學(xué)術(shù)會(huì)議和計(jì)算語言學(xué)國際學(xué)術(shù)會(huì)議。在國內(nèi),參加了多個(gè)重要會(huì)議,包括2013年全國計(jì)算語言學(xué),詞匯語義學(xué)會(huì)以,中文計(jì)算會(huì)議等,項(xiàng)目首席專家還應(yīng)邀在2013年的第14屆漢語詞匯語義學(xué)會(huì)議作特邀報(bào)告,并應(yīng)邀參與哈佛大學(xué)中文文本挖掘的研討會(huì)。此外,還與臺(tái)灣元智大學(xué)、香港理工大學(xué)合作開始了相關(guān)的合作研究。
③ 成果宣傳推介情況
在項(xiàng)目實(shí)施中,我們?cè)诙鄠(gè)不同場(chǎng)合介紹我們的項(xiàng)目情況。2013年在鄭州召開的漢語詞匯語義學(xué)會(huì)以(CLSW2013)上,項(xiàng)目首席專家王厚峰作為會(huì)議的特邀報(bào)告人(Keynote Speaker),重點(diǎn)介紹了本項(xiàng)目的情況和研究成果,而后在洛陽外國語學(xué)院、黑龍江大學(xué)、以及應(yīng)邀訪問美國哈佛大學(xué)時(shí),王厚峰均分別介紹了本項(xiàng)目的研究成果;在2013年6月到臺(tái)灣參加會(huì)議期間,也到交通大學(xué)介紹了本項(xiàng)目的研究情況。此外,我們也在計(jì)算語言學(xué)有影響的國際會(huì)議、國內(nèi)會(huì)議報(bào)告相關(guān)的成果,起到了很好的推介作用。
當(dāng)然,在這一年半的時(shí)間里,我們主要注意到了向本領(lǐng)域?qū)W術(shù)期刊和學(xué)術(shù)會(huì)議投稿,今后,我們將注意向國家社科基金專刊的投稿。
④ 研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議
本項(xiàng)研究我們基本上按照計(jì)劃進(jìn)行,并針對(duì)研究中的問題按課題進(jìn)行研討,總的來看,我們按正常方式推進(jìn)。目前暫沒有特別的建議。
二、研究成果情況
①代表性成果簡介
我們圍繞項(xiàng)目任務(wù)開展了多方面的研究,取得了一系列的成果,下面僅介紹幾項(xiàng)代表性的成果。
(1) 建立了名詞的物性結(jié)構(gòu)體系
根據(jù)Pustejovsky (1995、2006)的物性結(jié)構(gòu)描寫框架,結(jié)合漢語的實(shí)際情況,構(gòu)建了一套漢語名詞的物性描寫體系。說明如下:
(1)形式(formal,簡寫為FAL):名詞的分類屬性、語義類型和本體層級(jí)特征。比如,“石頭”是“有形物質(zhì)、自然物”;
(2)構(gòu)成(constitutive,簡寫為CON):名詞所指的事物的結(jié)構(gòu)屬性,包括:構(gòu)成狀態(tài)、組成成分、在更大的范圍內(nèi)構(gòu)成或組成哪些事物、跟其他事物的關(guān)系,也包括物體的大小(magnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。比如,“石頭”的構(gòu)成是“礦物;可以根據(jù)下列顏色、形狀、作用等屬性進(jìn)行分類:彩色、黑色、紅色、褐色、白色、圓形、柱形、棱角分明、保健,等等”;
(3)單位(unite,簡寫為UNI):名詞所指事物的計(jì)量單位,也即跟名詞相應(yīng)的量詞;
(4)評(píng)價(jià)(evaluation,簡寫為EVA):對(duì)名詞所指事物的主觀評(píng)價(jià)、情感色彩。比如,對(duì)“水”的評(píng)價(jià)有“清、清澈、清潔、臟、渾、渾濁”;
(5)施成(agentive,簡寫為AGE):名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關(guān)系等。比如,“椅子”的施成是“制作、做、加工、編制”等等;
(6)材料(material,簡寫為MAT):創(chuàng)造名詞所指的事物所用的材料。比如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等;
(7)功用(telic,簡寫為TEL):名詞所指的事物的用途和功能。比如,“椅子”的功用是“坐”等等;
(8)行為(action,簡寫為ACT):名詞所指的事物的慣常性的動(dòng)作、行為、活動(dòng)。比如,“水”的行為是“流、流動(dòng)、奔騰、翻滾、滴、淌、流淌”等等;
(9)處置(handle,簡寫為HAN):人或其他事物對(duì)名詞所指的事物的慣常性的動(dòng)作、行為、影響。比如,對(duì)“水”的處置是“打、舀、取、蓄、灑、放、排、倒、噴、潑、玩兒”等等。
目前,已經(jīng)完成了3000個(gè)名詞。下面僅以“商店”為例作說明:
商店 shāngdiàn〈名詞,中性〉在室內(nèi)出售商品的場(chǎng)所。
〔1〕物性角色:
形式FOR:機(jī)構(gòu)、場(chǎng)所、人造物;
構(gòu)成CON:可以根據(jù)所出售的東西類型進(jìn)行分類,如:百貨、五金、音樂器材、工藝品、土特產(chǎn)、綜合,等等;也可以根據(jù)其類型、等級(jí)、地區(qū)等進(jìn)行分類,如:大型、新型、高檔、高級(jí)、連鎖、水上、地下、社區(qū),等等。
單位UNI:個(gè)體:個(gè)、家、座,等等;集合:批、部分、種、類、排,等等;不定:各、每個(gè)、些,等等;
評(píng)價(jià)EVA:大、小、豪華、信譽(yù)良好、鱗次櫛比,等等;
施成AGE:開辦、興建、蓋、建造,等等;
行為ACT:賣飲料、掛出條幅、開門、開始工作、舉辦、開設(shè)、開張、營業(yè)、出臺(tái)促銷手段
功用TEL:出售商品,等等;
處置HAN:裝飾、拆除、走進(jìn)、出入、洗劫、沖擊、哄搶,等等
定位ORI:里、從、中、去、在、附近、到、向、通往、位于,等等。
〔2〕句法格式:
S1:CON + __
如:音樂器材~| 電腦~ | 工藝美術(shù)~ | 大型~ | 新型~ | 工藝品~ | 百貨~ | 高級(jí)~ | 普通~ | 五金~| 土特產(chǎn)~| 食品~ | 春節(jié)用品~ | 社區(qū)~ | 服裝~ | 網(wǎng)絡(luò)~ | 化妝品~ | 零售~ | 移動(dòng)電話~ | 兒童~ | NBA~ | 化學(xué)品~ | 建材~ | 煙酒~ | 專業(yè)~ | 珠寶首飾~ | 連鎖~ | 批發(fā)~ | 個(gè)體~ | 計(jì)算機(jī)~
S2:Num + UNI + __
如:兩個(gè)~ | 許多~ |各種~ | 一家~ | 一座~| 一些~ | 一(大)批~ | 一排~
S3:EVA +(的+)__
如:大~ | 小~ | 鱗次櫛比的~ | 信譽(yù)良好~ | 豪華~
S4:AGE + __
如:開辦~ | 蓋~ | 建造~
S5: __ + ACT
如:~賣飲料 | ~掛出條幅 | ~開門 | ~開始工作 | ~開設(shè) | ~開張 | ~營業(yè) | ~開放 | ~出臺(tái)促銷手段 | ~舉辦 | ~打烊 | ~配備 | ~關(guān)閉 | ~停業(yè)
S6:__ + TEL
如:~出售商品
S7:HAN + __
如:裝飾~ | 拆除~ | 進(jìn)入~ | 走進(jìn)~ | 出入~ | 洗劫~ | 沖擊~ | 檢查~ | 焚燒~ | 打砸~ | 哄搶~ | 看守~
S8:ORI + __ / __ + ORI
如:~里 | ~中 | 在~ |~內(nèi) | 到~ | 從~| ~附近 | 往~ | 去~
名詞物性結(jié)構(gòu)有利于信息處理中文本蘊(yùn)涵推理計(jì)算,尤其對(duì)于一些名詞結(jié)構(gòu)中隱含謂詞的還原有著重要的意義。
(2) 制定了多視圖的漢語樹庫標(biāo)注規(guī)范并實(shí)現(xiàn)了樹庫輔助標(biāo)注工具
提出一套多視圖的漢語樹庫體系,這套體系以依存視圖為核心,在句法層面上僅僅標(biāo)注中心語和語法角色兩類信息,然后通過設(shè)計(jì)一套層次生成程序和結(jié)構(gòu)功能映射規(guī)則和算法推導(dǎo)出層次信息和短語結(jié)構(gòu)功能信息,從而自動(dòng)轉(zhuǎn)換出相應(yīng)的短語結(jié)構(gòu)樹;在語義層面上,通過對(duì)部分語法標(biāo)簽的細(xì)化進(jìn)一步標(biāo)注語義角色標(biāo)簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性。最終生成的多視圖樹庫含有語法依存視圖、短語結(jié)構(gòu)視圖和語義依存視圖等三個(gè)視圖。如下是依存視圖的示例:
目前已有的句法結(jié)構(gòu)的語料基本都是單一地針對(duì)一種句法體系,如短語結(jié)構(gòu)或依存結(jié)構(gòu),不能滿足實(shí)際應(yīng)用的需求。我們構(gòu)建多視圖的樹庫,有助于實(shí)際使用者根據(jù)需求選擇不同視圖,或同時(shí)使用不同視圖的信息。
為了進(jìn)行了多視圖樹庫構(gòu)建的工作,我們開發(fā)了一套支持多視圖樹庫標(biāo)注的工具,該工具除基本標(biāo)注功能外,還包含人機(jī)互動(dòng)校對(duì)和與語法詞典交叉驗(yàn)證的功能。用戶可以方便地添加、刪除依存弧,修改依存標(biāo)簽、檢索特定標(biāo)簽等。下圖是操作界面。
(3) 漢語句際關(guān)系的標(biāo)注體系
提出了漢語復(fù)句層次上句際層級(jí)結(jié)構(gòu)和邏輯關(guān)系的語料標(biāo)注體系。結(jié)構(gòu)關(guān)聯(lián)方面主要借鑒了英語RST理論,語義關(guān)聯(lián)方面主要借鑒了英語的PDTB篇章樹庫。小句之間通過各種語義關(guān)系的連接而形成一棵完整的層級(jí)結(jié)構(gòu)樹。提出了漢語句際的邏輯關(guān)系類型,這是漢語篇章分析的基礎(chǔ)。體系如下表所示:
第1層:CLASS
第2層:TYPE
第3層:SUBTYPE
聯(lián)合關(guān)系
(multi-nuclear)
并列(conjunction)
[CONJ]
○1等立(coordinate) [COOR]
○2時(shí)序(temporal) [TEMP]
○3選擇(alternative) [ALT]
○4遞進(jìn)(progression) [PROG]
○5順承(succession) [SUCC]
主從關(guān)系
(single-nuclear)
對(duì)比(comparison)
[COMP]
○6轉(zhuǎn)折(contrast) [CONT]
○7讓步(concession) [CONC]
推論(inference)
[INF]
○8因果(cause) [CAUS]
○9結(jié)果(result) [RESU]
○10目的(purpose) [PURP]
條件(condition)
[CON]
○11假設(shè)(hypothetical) [HYP]
○12條件(condition) [COND]
總分(specification)
[SPE]
○13解證(explanation) [EXPL]
○14分述(list) [LIST]
分總(summary)
[SUM]
○15總括(generalization) [GENE]
(4) 口語對(duì)話語料中對(duì)話行為的標(biāo)注規(guī)范
對(duì)話行為(dialog act)指在對(duì)話中(dialog)言談?wù)叩男袨橐鈭D。自動(dòng)分析對(duì)話行為可以幫助識(shí)別言談?wù)叩囊鈭D、幫助構(gòu)建對(duì)話模型、提升口語機(jī)器翻譯系統(tǒng)的性能等。本項(xiàng)目第一次構(gòu)建了漢語領(lǐng)域完整的對(duì)話行為標(biāo)簽集。首先,對(duì)一個(gè)語句進(jìn)行言語切分(utterance segmentation),明確標(biāo)示出言語的界限;然后,每個(gè)言語片段標(biāo)示出一個(gè)明確的、惟一的對(duì)話行為標(biāo)簽。
Tag (Abbr.)
Description
Example
Statement
(S)
State a belief or an event
陳述一個(gè)信念或一個(gè)事件
我接下來圖片看一下啊先
Request
(R)
Express a speaker’s desire that the hearer do something
期望聽者做出一個(gè)動(dòng)作或某種響應(yīng)
就是這個(gè)圖片 請(qǐng)接收一下
Open-question
(Q)
A question that can not be answered with only “yes” or “no”
不能單純用“是”和“否”來回答的問句
產(chǎn)生費(fèi)用怎么算?
Yes-No-question
(QYN)
A closed question which can be answered by either a “yes” or “no”
是非問句
這些圖片,你是從gettyimages上面找的么?
Opinion
(O)
(B)
Express opinions or unsatisfactory towards something or some services
對(duì)事情或服務(wù)發(fā)表評(píng)價(jià)或發(fā)出抱怨
那么貴?
Yes-answer
(AY)
A positive answer to a Yes-no-question
是非問句的肯定回答
對(duì)的
No-answer
(AN)
A negative answer to a Yes-no-question
是非問句的否定回答
不是
Answer
(AQ)
An answer to an open-question
開放問句的回答
咱們的圖片按照授權(quán)方式不同,分了2種
Response-ack
(RA)
Confirm that the previous request was received/accepted
對(duì)上一句需求性言語作出響應(yīng)
好的
Statement-ack
(SA)
Confirm that the previous statement was received/accepted
對(duì)上一句陳述作出響應(yīng)
client:抬頭 北京鼎尚利合餐飲管理有限公司
server:好的!收到!
Explain-why
(EW)
Explain further the reason of the previous utterance
對(duì)上一句言語進(jìn)一步解釋原因
client:手機(jī)和直郵能改嗎?
server:這個(gè)修改不了
server:用途由內(nèi)部系統(tǒng)生成
Conversational opening
(CO)
Greetings and other ways of starting a conversation
開始一個(gè)對(duì)話
你好
Conversational closing
(CC)
Various ways of ending a conversation
結(jié)束一個(gè)對(duì)話
Bye Bye
Conversational continuer
(CT)
Various ways of continuing a conversation
延續(xù)一個(gè)對(duì)話
呵呵
Thanks
(TH)
Express appreciation and thanks
表示感謝等禮貌用語
麻煩了,謝謝
Downplayer
(D)
A backwards-linking label often used after THANKS to down play the contribution
對(duì)感謝用語作出禮貌性的回應(yīng)
不客氣
Confirmation
(CF)
Verify or confirm a previous information
對(duì)上一句言語信息進(jìn)一步確認(rèn)
Server:大概從1000-3000不等。
Server:圖片價(jià)格大概1000-3000/張不等。
Entity
(EN)
Using non-verbal entity to convey information
用不成句的實(shí)體詞語傳輸信息
菲爾?米克爾森
Cut
(Cut)
The first part that constitutes a complete utterance
被切斷的一個(gè)言語的前半部分
server:咱們那張圖呀<CUT>
server:定下來了不哈?<QYN>
Chat
(CHAT)
Chat unrelated to business
完全與業(yè)務(wù)無關(guān)的閑聊
Uncertainty
(U)
Uncertain information
不確定的信息
(5) 設(shè)計(jì)實(shí)現(xiàn)了眾包平臺(tái),并發(fā)布了單數(shù)人稱代詞的標(biāo)注任務(wù)
為了便于知識(shí)資源的加工,我們開發(fā)了一個(gè)眾包平臺(tái),界面如下所示:
基本框架如下:
基于眾包平臺(tái)發(fā)布了單數(shù)人稱代詞的指代關(guān)系標(biāo)注。見如下界面:
通過眾包模式(Crowdsourcing)建設(shè)大規(guī)模的語料庫,可以讓大量的非專業(yè)人員參與語料庫標(biāo)注的工作,這有助于降低加工成本,提高加工效率。
(5) 設(shè)計(jì)實(shí)現(xiàn)了面向網(wǎng)絡(luò)短文本的漢語切詞模塊
網(wǎng)絡(luò)語言超出了通常規(guī)范語言的很多限制,使得計(jì)算機(jī)處理變得十分困難。而計(jì)算機(jī)分析中文的第一步通常是切詞。一般切詞工具在新聞文本上可以達(dá)到95%的F 值,在微博上則只有大約82% 。為此,我們特別研究了面向網(wǎng)絡(luò)短文本的漢語切詞方法,特別是針對(duì)微博的切詞方法。
現(xiàn)有的切詞方法大都使用有指導(dǎo)的序列標(biāo)注模型,如CRF;舅枷胧菍(duì)每個(gè)漢字賦予一個(gè)標(biāo)記,如,某個(gè)字是一個(gè)詞的開始字(標(biāo)B)或者不是一個(gè)詞的開始字(標(biāo)N)。已有的研究表明,有指導(dǎo)方法得到的切詞效果有著明顯的優(yōu)勢(shì)。但是,有指導(dǎo)的方法需要大量的有標(biāo)訓(xùn)練數(shù)據(jù),而構(gòu)建有標(biāo)訓(xùn)練數(shù)據(jù)既費(fèi)時(shí)又費(fèi)力。如何充分利用現(xiàn)有數(shù)據(jù)的特點(diǎn)便成為一個(gè)重要的問題。通過觀察,我們發(fā)現(xiàn),與一般的新聞文本相比,微博數(shù)據(jù)有明顯的自然標(biāo)記信息。下表是我們對(duì)一般新聞和微博中各類符號(hào)分布統(tǒng)計(jì)的比較值:
文本類型
漢字
英文字
數(shù)字
標(biāo)點(diǎn)符號(hào)
一般新聞
85.7%
0.6%
0.7%
13%
微博
66.3%
11.8%
2.6%
19.3%
顯然,微博中的非漢字比例大幅上升,比一般新聞的非漢字比例增加一倍以上。對(duì)于漢語分詞而言,英文字母,數(shù)字以及標(biāo)點(diǎn)符號(hào)都是自然的斷詞符號(hào):自然標(biāo)記符后面的漢字是詞的開始字(B),同樣,自然標(biāo)記前面的一個(gè)漢字則是詞的末尾字?梢猿浞掷眠@些自然標(biāo)注改進(jìn)網(wǎng)絡(luò)短文本的切詞處理。我們基于上述觀察,自動(dòng)獲得了大量的特殊標(biāo)注信息,并利用這些信息設(shè)計(jì)了切詞模塊,實(shí)驗(yàn)表明,我們所提方法與已有的方法相比,F(xiàn)值有顯著提升,達(dá)到了 87.5%。
注:2010年立項(xiàng)的重大項(xiàng)目主要填寫2012年6月以來的研究成果情況。
序號(hào) |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時(shí)間 |
字?jǐn)?shù) |
轉(zhuǎn)載、引用、獲獎(jiǎng)等情況 |
1 |
采用無標(biāo)注語料的動(dòng)詞和形容詞主觀性評(píng)級(jí) |
徐戈,蒙新泛,王厚峰 |
論文 |
軟件學(xué)報(bào),2013(5) |
1.5萬字 |
|
2 |
The Acquisition of Chinese Ergative Verbs and the Verification of Relevant Rules in Semantic Role Labeling |
汪夢(mèng)翔等 |
英文 論文 |
CLSW 2013, LNAI 8229, Springer-Verlag Berlin Heidelberg |
|
|
3 |
Improving ChineseWord Segmentation on Micro-blog Using Rich Punctuations |
張龍凱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
4 |
Learning Entity Representation for Entity Disambiguation |
何正焱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
5 |
“對(duì)不起”話語標(biāo)簽的形成及功能 |
汪夢(mèng)翔等 |
論文 |
湖北社會(huì)科學(xué),2013(8) |
7500 |
|
6 |
Judgment, Extraction and Selective Restriction of Chinese Eventive Verb |
汪夢(mèng)翔等 |
英文 論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) IEEE Computer Society |
|
|
7 |
Exploiting Hierarchical Discourse Structure for Review Sentiment Analysis |
Fei Wang, Yunfang Wu |
英文論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) |
|
|
8 |
基于多步聚類的漢語命名實(shí)體識(shí)別和歧義消解 |
李廣一,王厚峰 |
論文 |
中文信息學(xué)報(bào),2013(5) |
1萬字 |
|
9 |
Generalized Abbreviation Prediction with Negative Full Forms and Its Application on Improving Chinese Web Search |
Xu Sun, Wenjie Li, Fanqi Meng, Houfeng Wang |
英文論文 |
International Joint Conference on Natural Language Processing, Oct. 2013 |
|
|
10 |
Exploring Representations from Unlabeled Data with Co-training for Chinese Word Segmentation |
張龍凱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
11 |
Efficient Collective Entity Linking with Stacking |
何正焱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
12 |
Chinese Discourse Relation Recognition Using Parallel Corpus |
Yifeng Xu, Yunfang Wu |
英文論文 |
9th International Conference on Computational Intelligence and Security |
|
|
13 |
基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識(shí)體系研究 |
袁毓林
|
論文 |
中文信息學(xué)報(bào),2013(6) |
1.2萬 |
|
14 |
基于中文維基百科的詞語語義相關(guān)度計(jì)算 |
萬富強(qiáng),吳云芳 |
論文 |
中文信息學(xué)報(bào),2013(6) |
1.0萬 |
|
15 |
社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘 |
范超,王厚峰 |
論文 |
中文信息學(xué)報(bào),2014(1) |
1.2萬 |
|
16 |
漢語詞類劃分應(yīng)重視“排他法” |
周韌 |
論文 |
漢語學(xué)習(xí),2014(1) |
1.4萬 |
|
17 |
也談與“的”字結(jié)構(gòu)有關(guān)的謂詞隱含 |
宋作艷 |
論文 |
漢語學(xué)習(xí),2014(1) |
1.2萬 |
|
18 |
基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計(jì) |
彭煒明等 |
論文 |
計(jì)算機(jī)工程與應(yīng)用,2014(3) |
1.2萬字 |
|
19 |
現(xiàn)代漢語“對(duì)象格”自動(dòng)識(shí)別研究 |
汪夢(mèng)翔等 |
論文 |
計(jì)算機(jī)工程與應(yīng)用,2014(8) |
1.2萬字 |
|
20 |
中文信息處理的詞法問題 |
彭煒明等 |
論文 |
中文信息學(xué)報(bào),2014(2) |
1.2萬字 |
|
21 |
股市市場(chǎng)情感詞表的自動(dòng)挖掘與構(gòu)建 |
王菲, 吳云芳 |
論文 |
2014漢語詞匯語義學(xué)研討會(huì)議(CLSW2014) |
1.0萬字 |
|
22 |
基于序列模式的應(yīng)答需求句識(shí)別 |
徐藝峰, 吳云芳 |
論文 |
2014漢語詞匯語義學(xué)研討會(huì)議(CLSW2014) |
|
|
23 |
The Processing of Dummy Verbs in Semantic Role Labeling |
汪夢(mèng)翔等 |
英文 論文 |
CLSW 2014 將在LNAI Springer-Verlag Berlin Heidelberg出版 |
|
|
24 |
基于依存語法構(gòu)建多視圖漢語樹庫 |
邱立坤、金澎、王厚峰 |
論文 |
中文信息學(xué)報(bào) |
10000 |
(已錄用) |
25 |
Collaborative Topic Regression with Multiple Graphs Factorization for Recommendation in Social Media |
Qing Zhang, Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
26 |
Building a Multi-view Chinese Treebank |
Likun Qiu, Yue Zhang, Peng Jin and Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
27 |
“把”字句的自動(dòng)釋義與句式變換研究 |
王璐璐 孫薇薇 袁毓林 |
論文 |
計(jì)算機(jī)工程與應(yīng)用 |
1.3萬字 |
(已錄用) |
28 |
基于規(guī)則的漢語名名組合的自動(dòng)釋義研究 |
魏雪、袁毓林 |
論文 |
中文信息學(xué)報(bào) |
1.3萬字 |
(已錄用),擬在2014(3)發(fā)表 |
29 |
共指消解研究方法綜述 |
宋洋,王厚峰 |
論文 |
中文信息學(xué)報(bào) |
1.5萬字 |
(已錄用) |
30 |
Feature-Frequency-Adaptive Online Trainingfor Fast and Accurate Natural Language Processing |
Xu Sun, Wenjie Li, Houfeng Wang, Qin Lu |
英文論文 |
Computational Linguistics |
|
(已錄用,在線版已發(fā):http://www. mitpressjournals. org/doi/pdf/10.1162/ COLI_a_00193) |
31 |
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法 |
王厚峰, 張龍凱 |
專利 |
中華人民共和國知識(shí)產(chǎn)權(quán)局 |
|
(已申報(bào)) |
課題組供稿