中國共產(chǎn)黨新聞網(wǎng)>>大規(guī)模英漢平行語料庫的建立與加工>>研究成果

中國英漢平行語料庫的設(shè)計(jì)與研制

王克非2013年04月23日09:03

北京外國語大學(xué) 中國外語教育研究中心

提要：本文論述超大型雙語平行語料庫的設(shè)計(jì)與研制問題。在綜合述介國內(nèi)外雙語語料庫建設(shè)情況之后，作者著重論述了中國英漢平行語料庫這一超大型雙語平行語料庫的設(shè)計(jì)特點(diǎn)（主要有分類架構(gòu)、歷時(shí)處理、語料平衡以及通用的和各種專門語料的采集）和研制方法（主要講述語料的加工標(biāo)注、檢索平臺(tái)以及各個(gè)專門語料庫、歷時(shí)語料庫和口譯語料庫的構(gòu)建）。其設(shè)計(jì)與研制對(duì)于其他大型語料庫的建設(shè)具有借鑒意義。

關(guān)鍵詞：中國英漢平行語料庫；設(shè)計(jì)；研制

Abstract: The paper deals with the design and construction of a super-large-scale bilingual parallel corpus. After an overview of parallel corpora constructions and applications both in China and abroad, the design features (including classification and composition, diachronical arrangement, balance of textual materials, and collection of texts for general or specific purposes) and the construction methods (including tagging, concordance platform, and the construction of specialized corpora, diachronical corpora and interpreting corpora) of the super-large-scale China English-Chinese Parallel Corpus (CECPC) are focused on. The design and construction discussed are applicable to the compiling of other large-scale corpora.

Keywords: China English-Chinese Parallel Corpus (CECPC); design; construction

1、中國英漢平行語料庫的研制意義

在全球化、信息化的當(dāng)今世界，翻譯已成為了解全球信息、擴(kuò)大對(duì)外宣傳、獲取國際資源的重要手段。同計(jì)算機(jī)技術(shù)結(jié)合而興起的雙語平行語料庫建設(shè)，則為語言研究、翻譯研究、外語教學(xué)、詞典編纂和跨語言信息檢索等提供了最好的平臺(tái)，同時(shí)還可用來考察和驗(yàn)證基于單語語料庫或者基于直覺提出的假設(shè)，具有廣闊的應(yīng)用前景。

平行語料庫承載著相互對(duì)應(yīng)的兩種語言，與語言對(duì)比研究有著天然的聯(lián)系，成為語言對(duì)比研究中的默認(rèn)數(shù)據(jù)源；平行語料庫中的兩種語言互為對(duì)應(yīng)，記載著兩種語言中的對(duì)應(yīng)詞和對(duì)應(yīng)單位，成為詞典編纂者最可靠的數(shù)據(jù)來源；平行語料庫中的源語言和目標(biāo)語言互為對(duì)應(yīng)，在翻譯教學(xué)和外語學(xué)習(xí)中的用途更是不言而喻。

除此之外，平行語料庫對(duì)機(jī)器翻譯和自然語言處理也極為重要。對(duì)齊的平行語料能為基于例句和統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)提供實(shí)證模型，同時(shí)也可以為基于規(guī)則的機(jī)器翻譯提供驗(yàn)證規(guī)則，為機(jī)助翻譯提供大量翻譯記憶。正如歐赫（Och 2002）所言，“只要給我足夠的雙語對(duì)應(yīng)數(shù)據(jù)，幾個(gè)小時(shí)內(nèi)我可以給你一個(gè)機(jī)器翻譯系統(tǒng)”。然而現(xiàn)有的英漢平行語料庫規(guī)模有限，且大多是利用現(xiàn)有同質(zhì)翻譯資源建立的，并非平衡語料庫，常常不能較好地代表廣泛含義上的源語—譯語關(guān)系，依此生成的語言模型常常不能夠有效地解釋翻譯語言，這極大地阻礙了翻譯和詞典編纂等學(xué)科研究的深入，已成為提高機(jī)器翻譯譯文質(zhì)量的瓶頸。

鑒于此，我們提出設(shè)計(jì)和研制更大規(guī)模、更多功能的超大型平行語料庫，即一億詞以上的“中國英漢平行語料庫”，以滿足各方面研究的需求和語料庫事業(yè)的發(fā)展。

中國英漢平行語料庫的研制意義可從以下兩方面體現(xiàn)出來。

第一，理論價(jià)值：

1）由于大型雙語平行語料庫規(guī)模超大、采樣嚴(yán)格，能夠較好地代表源語—譯語關(guān)系，因此能為翻譯研究、語言對(duì)比研究、語言演化研究、口筆譯比較研究等提供可靠的翻譯實(shí)例和量化數(shù)據(jù)，從而提高上述研究的可信度。

2）在超大型雙語平行語料庫建設(shè)的基礎(chǔ)上，我們還將展開多項(xiàng)具有理論意義的語言和翻譯研究。這些研究主要包括歷時(shí)研究、類比動(dòng)態(tài)描寫。研究分析時(shí)間跨度大，涉及層面多。

第二，應(yīng)用價(jià)值：

1）在研究方法上，我們將據(jù)此探索基于語料庫的翻譯語言動(dòng)態(tài)類比和描述，為語言的共時(shí)與歷時(shí)比較研究提供有效的、可操作性強(qiáng)的分析模式和研究平臺(tái)。

2）在大型雙語平行語料庫的采樣和加工方面，將提出更有借鑒價(jià)值的模板和方法。

總之，“中國英漢平行語料庫”這一超大規(guī)模的英漢/漢英平衡語料庫，為今后其他語對(duì)的雙語平行語料庫或多語平行語料庫的研制、雙語對(duì)比與研究、英漢語言接觸與現(xiàn)代漢語歷時(shí)變化研究等，提供共同的大型的實(shí)證研究基礎(chǔ)，為中國的語料庫研究走向世界前沿作出貢獻(xiàn)。

2、國內(nèi)外雙語平行語料庫研制現(xiàn)狀

平行語料庫的研制歷史并不長，從世界上第一個(gè)初步的平行語料庫The Canadian Hansard Corpus (包括英法語版本的加拿大議會(huì)辯論語料)到目前僅二十年左右。但由于平行語料庫對(duì)于語言對(duì)比研究、翻譯研究、翻譯教學(xué)、翻譯技術(shù)開發(fā)（如機(jī)器翻譯系統(tǒng)、機(jī)輔翻譯工具）、雙語詞典編纂等語言學(xué)和自然語言處理研究具有巨大的潛在應(yīng)用價(jià)值，平行語料庫的建設(shè)在世界上得到迅速發(fā)展（參見王克非等2004，McEnery & Xiao 2007）。目前，平行語料庫研究大多集中在歐洲，涉及語言也主要與歐洲語言有關(guān)，特別是歐共體/歐盟等機(jī)構(gòu)的文件。

如蘭卡斯特大學(xué)早期創(chuàng)建的ITU/Crater平行庫包含歐洲委員會(huì)有關(guān)電信的英法雙語文件各一百萬詞，在句級(jí)對(duì)齊。

歐洲委員會(huì)聯(lián)合研究中心的JRC-ACQUIS多語種平行語料庫包括成員國的22種歐洲語言，目前的3.0版包括五十年代至2006年的歐洲法律文件463,792個(gè)，共計(jì)十億詞。

歐洲人類語言技術(shù)研究網(wǎng)絡(luò)（ELSNET）1994年發(fā)布的歐洲語料庫規(guī)范多語種語料庫1期（ECI/MCI）包括27種語言（主要是歐洲語言，也包括漢語、日語和馬來語），以官方文件為主，但也包括少量的報(bào)紙、小說、技術(shù)報(bào)告、詞典和詞表；該庫共48部分，共計(jì)9,800萬詞，其中12個(gè)部分包含有平行語料。

MULTEXT語料庫是由歐洲語言資源協(xié)會(huì)資助的項(xiàng)目，其目的是開發(fā)多語種工具和語料庫；該語料庫包括采樣于歐洲委員會(huì)官方雜志（JOC）的五種語言各40個(gè)文檔，句級(jí)對(duì)齊，其中10個(gè)文檔還作了詞性標(biāo)注。

PAROLE語料庫包括歐洲14種語言，采樣年代為1997-1998，文本來源包括書籍（20%），報(bào)紙（65%），雜志（5%），以及雜類文本（10%），共計(jì)2,000萬詞，每個(gè)子庫中25萬詞按照統(tǒng)一標(biāo)準(zhǔn)作了詞性標(biāo)注。

多語種語料庫合作（MLCC）項(xiàng)目建立了一個(gè)多語種平行語料庫，包括九種歐洲語言，語料來源為上述提到的歐洲委員會(huì)官方雜志1992-1994年的文本。

愛丁堡大學(xué)的Europarl Parallel Corpus收集了1996-2009年間歐洲議會(huì)會(huì)議記錄，涉及11種語言，以雙語平行的形式發(fā)布，句級(jí)對(duì)齊，丹麥語、德語、希臘語、西班牙語、芬蘭語、法語、意大利語、荷蘭語、葡萄牙語、瑞典語分別與英語對(duì)應(yīng)，共約5千萬詞（以英語計(jì)）（Koehn 2005）。

上述這些語料庫基本上都是文本來源單一、標(biāo)注也簡單的歐洲語言專用語料庫，主要用于語言識(shí)別、文檔級(jí)對(duì)齊、術(shù)語提取等自然語言處理研究，而非從語言學(xué)角度研究語言（參見Xiao 2008）。

除此之外，也有少數(shù)幾個(gè)精心設(shè)計(jì)的平行語料庫，如由挪威奧斯陸大學(xué)研制的最早的英語—挪威語平行語料庫，包含英語和挪威語各100個(gè)1-1.5萬詞的英-挪對(duì)應(yīng)母語文本及其挪-英翻譯文本，共260萬詞，語料采樣考慮到平衡性而非局限于少數(shù)幾個(gè)語域或語體，涉及小說（兒童小說、偵探小說、一般小說）和非小說（宗教、社會(huì)科學(xué)、法律、自然科學(xué)、醫(yī)學(xué)、藝術(shù)、歷史地理）。該語料庫不僅在句子層面對(duì)齊，而且對(duì)英挪語料均作了詞性標(biāo)注和詞形還原（lemmatisation）處理。

英語—瑞典語平行語料庫則是采用英語-挪威語平行語料庫的建庫標(biāo)準(zhǔn)、由隆德大學(xué)（Lund University）和哥特堡大學(xué)聯(lián)合研制的平衡語料庫，包括64個(gè)英語原文文本及其瑞典語譯文和72個(gè)瑞典語原文文本及其英語譯文，共計(jì)280萬詞。

在這兩個(gè)語料庫的基礎(chǔ)上，近年來奧斯陸大學(xué)又以同樣標(biāo)準(zhǔn)開發(fā)了奧斯陸多語種語料庫（OMC），除了英語、挪威語、瑞典語外還涉及到了德語、法語、荷蘭語、芬蘭語、和葡萄牙語。這些精心設(shè)計(jì)的平行語料庫適合于翻譯與跨語言對(duì)比等研究，但局限于歐洲語言。

歐洲語言之外的平行語料庫，包括漢語在內(nèi)，還不多見，精心設(shè)計(jì)的大型平衡語料庫則更少。主要有蘭卡斯特大學(xué)研制的英國少數(shù)民族語料庫EMILLE，包含了十五種南亞語言口語及書面語料近一億詞，其中平行語料庫部分包含20萬詞的英語文本及印地語、孟加拉語、旁遮普語、古吉拉特語及烏爾都語平行對(duì)應(yīng)文本。語言數(shù)據(jù)聯(lián)盟（LDC）于2004年發(fā)行了香港平行文本庫（Hong Kong Parallel Text），包括590萬詞的英語文本和980萬字的漢語文本，英漢文本句級(jí)對(duì)齊；該庫由2000年所發(fā)行的三個(gè)英漢平行語料庫組成：香港法律辯論語料庫、香港法律語料庫、香港新聞?wù)Z料庫。英國蘭卡斯特大學(xué)創(chuàng)建的Babel英漢平行語料庫由從《英語世界》等刊物采樣的327篇英漢雙語時(shí)文構(gòu)成，采樣年代為2000-2001年，共計(jì)54萬詞；該庫實(shí)現(xiàn)句級(jí)對(duì)齊，并對(duì)英漢語文本都進(jìn)行了分詞和詞性標(biāo)注。臺(tái)灣輔仁大學(xué)初步建立了范本財(cái)經(jīng)英日漢平行語料庫，收集語料約10萬句對(duì)。最近，香港理工大學(xué)和北京外國語大學(xué)的學(xué)者聯(lián)合研制了英漢旅游文本語料庫，約100萬字詞（參見李德超、王克非 2010）。

在我國內(nèi)地，雙語平行語料庫的建設(shè)近十年來也取得了重大進(jìn)展，已有多個(gè)英漢及日漢等雙語平行語料庫建成。如北京大學(xué)計(jì)算語言學(xué)研究所的漢英平行語料庫（5萬多句對(duì))及其所承擔(dān)的863項(xiàng)目所建的英漢平行語料庫（20萬句對(duì)），哈爾濱工業(yè)大學(xué)的英漢雙語語料庫(40-50萬句對(duì))。不過這些語料庫有一個(gè)共同之處，即建庫目的主要是自然語言處理而非語言學(xué)研究，因此所謂的句對(duì)通常是脫離上下文、打亂次序的孤立的句子，英譯漢與漢譯英語料夾雜，用戶不易識(shí)別翻譯方向。另外，國內(nèi)近年來也建成了一些專門用途語料庫，如上海交通大學(xué)的莎士比亞戲劇英漢平行語料庫，燕山大學(xué)的紅樓夢(mèng)譯本平行語料庫，紹興學(xué)院的魯迅小說漢英平行語料庫等。這些語料庫因?yàn)槭菍ｉT性的，語料來源單一，規(guī)模比較小，適合專門研究而不適合通用語言研究。

國內(nèi)學(xué)界平行語料庫研制方面最值得一提的是，2002年以來，北京外國語大學(xué)中國外語教育研究中心先后在教育部人文社科重點(diǎn)研究基地重大項(xiàng)目基金和國家社科基金的支持下，建成了規(guī)模約三千萬字詞的大型通用漢英平行語料庫，是目前最大規(guī)模的平衡語料庫，包括英譯漢和漢譯英雙向翻譯語料，而且采樣均衡，語體、語域及采樣年代覆蓋面廣，全庫實(shí)現(xiàn)句級(jí)對(duì)齊及詞性標(biāo)注。其中部分語料（200余萬字詞）已提供在線檢索，為全社會(huì)服務(wù)。在該語料庫基礎(chǔ)上開展了一系列課題研究，如語料庫研制方面的研究（王克非等2004，常寶寶2004，等）、基于語料庫的翻譯學(xué)研究（秦洪武、王克非2004，王克非、黃立波2006，2008，王克非、胡顯耀2008，2010等）、基于語料庫的對(duì)比語言研究（秦洪武2009，王克非、秦洪武 2009，何文忠、王克非2009，秦洪武、王克非 2010）等�？傊�，該語料庫為超大型的中國英漢平行語料庫的建設(shè)提供了重要的語料庫基礎(chǔ)和相關(guān)研究基礎(chǔ)，積累了研制大型平行語料庫的經(jīng)驗(yàn)。

上面對(duì)國內(nèi)外研究現(xiàn)狀的簡述表明，平行語料庫研究目前主要涉及歐洲語言，而且歐盟機(jī)構(gòu)和歐洲國家的研究基金愿意在該領(lǐng)域投入大量研究經(jīng)費(fèi)�，F(xiàn)有涉及英語和漢語的雙語語料資源現(xiàn)狀與這一“大語種”語對(duì)的地位還不相稱，與研究的需要也不相適應(yīng)，亟需一個(gè)大型、平衡的英漢雙向平行語料庫，使之成為既適用于自然語言處理與語言工程，又能應(yīng)用于英漢語言對(duì)比研究（包括共時(shí)與歷時(shí)對(duì)比）和翻譯研究、翻譯教學(xué)與實(shí)踐、雙語詞典編纂的共同研究平臺(tái)，以便從不同角度展開的研究能真正揭示語言的本質(zhì)，避免由于不同研究使用不同數(shù)據(jù)而造成的差異。我們希望通過研制這個(gè)中國英漢平行語料庫，并在此基礎(chǔ)上開展上述各項(xiàng)研究，使中國的雙語平行語料庫研制與加工走在世界前列。

3、中國英漢平行語料庫設(shè)計(jì)架構(gòu)

我們?cè)谑昵皠?chuàng)建漢英對(duì)應(yīng)語料庫的基礎(chǔ)上（參見王克非 2004），開始研制超大型英漢平行語料庫——“中國英漢平行語料庫”，包括歷時(shí)性的平衡語料庫和若干專門語料庫以及口譯語料庫。在此基礎(chǔ)上我們將進(jìn)一步開展1）平行語料庫深加工與標(biāo)注研究、對(duì)齊檢索等工具研究，2）英漢語言對(duì)比、英漢互譯、語言接觸與漢語歷時(shí)發(fā)展等方面的研究，3）專門語料庫和口譯語料庫的建庫類型與特點(diǎn)研究，4）建庫過程中的語料采樣標(biāo)準(zhǔn)，數(shù)據(jù)源標(biāo)示等標(biāo)準(zhǔn)類研究。

3.1 總體框架

本項(xiàng)目設(shè)計(jì)的超大型英漢平行語料庫，是研制與加工并重、語言研究與翻譯研究并重的語料庫，是兼顧筆譯和口譯文本、兼顧文本共時(shí)和歷時(shí)研究的語料庫，力求設(shè)計(jì)科學(xué)，分類合理，加工到位。注重以下特點(diǎn)和要點(diǎn)：超大規(guī)模、深度加工、多項(xiàng)檢索、軟件兼容、語料平衡、雙語雙向、共時(shí)歷時(shí)、通用專門、筆譯口譯。

3.2 主要內(nèi)容

1）提出科學(xué)的語料采集方法，使雙語語料的采集既符合隨機(jī)、真實(shí)的原則，又比較對(duì)應(yīng)、完整和具有一定代表性，便于今后語言、翻譯、教學(xué)等研究工作的開展。

2）進(jìn)一步優(yōu)化雙語語料的對(duì)齊、標(biāo)注問題，研制過程中開發(fā)和改進(jìn)相關(guān)軟件，探討適合漢語詞語切分和標(biāo)注的理論與方法，嘗試英漢專門語料和英漢口譯語料等特殊語料的標(biāo)注和檢索，為有深度的語料檢索打好基礎(chǔ)。

3）探討優(yōu)化雙語平行語料庫的分類和架構(gòu)，擬分文學(xué)、新聞、政論、科技、應(yīng)用文等五大類和若干子類，使之更適合建成后的語言與翻譯研究。

4）研制適用基于語料庫的語言與翻譯歷時(shí)研究的檢索平臺(tái)，充分發(fā)掘雙語語料庫的研究潛力。

5）合理架構(gòu)英漢/漢英雙向語料，大致按英漢2/3、漢英1/3的原則收集。

6）注意語料的時(shí)代標(biāo)志，擬將整個(gè)20世紀(jì)的對(duì)應(yīng)語料的一部分做歷時(shí)處理，在收集整理和標(biāo)注加工方面，注意每20年為一階段，重點(diǎn)收集各階段后五年或某五年的相關(guān)語料，以便開展歷時(shí)的語言變化研究及語言與翻譯的關(guān)系研究。

就待建語料庫的構(gòu)架設(shè)計(jì)而言，為了兼顧語言研究和自然語言處理等語言工程的不同需要，并考慮到對(duì)一般語言和專門用途語言的研究需要，該庫將由通用型的平衡語料庫和專用型的特定語域的專門語料庫構(gòu)成，兩者大致各占一半。其中通用平衡庫約5000萬字詞，兼顧共時(shí)與歷時(shí)及翻譯方向的平衡性。

語料的共時(shí)平衡是指從語言實(shí)際應(yīng)用的角度，按一定比例包括盡可能多的語體和語域�！爸袊h平行語料庫”擬采用國際語料庫語言學(xué)界研制Lancaster-Olso-Bergen (LOB)等經(jīng)典語料庫的方法，按文本類別采樣后整合。但考慮到那些經(jīng)典英語語料庫在實(shí)際應(yīng)用過程中常常將建庫時(shí)分類過細(xì)的語體按大類合并檢索分析，我們將直接按五大類體裁采樣：文學(xué)、新聞、政論、科技、應(yīng)用文。各大類采樣時(shí)再兼顧小類的均衡性，如文學(xué)類中的小說、戲曲等；新聞中的報(bào)道、綜述等，科技類的書籍與期刊等介質(zhì)、以及文理工農(nóng)醫(yī)等特定語域，等等。

語料的歷時(shí)平衡是指從現(xiàn)代漢語發(fā)展的實(shí)際情況出發(fā)，分段采樣以便所建語料庫能反映出現(xiàn)代漢語的發(fā)展軌跡，并在英漢平行語料庫的基礎(chǔ)上探究英漢語語言接觸及英語通過翻譯對(duì)漢語發(fā)展產(chǎn)生的影響。我們將克服英國國家語料庫（BNC）由于歷時(shí)連續(xù)采樣而造成的各階段差異模糊的缺陷，擬將二十世紀(jì)的平衡語料的一部分，大致分五個(gè)階段，重點(diǎn)收集各階段某五年的語料，各100-300百萬字詞，計(jì)1000萬字詞以上，總的平衡語料庫為5000萬字詞以上。

就翻譯方向而言，考慮到我國翻譯界的實(shí)際情況是英譯漢多于漢譯英，并且前者質(zhì)量高于后者，“中國英漢平行語料庫”將包括三分之二的英譯漢語料和三分之一的漢譯英語料。英漢對(duì)比部分主要指在所建平衡語料庫的基礎(chǔ)上研究英語和漢語這兩個(gè)不同語系的國際大語種之間在總體上的相同和相異之處，同時(shí)考慮兩種語言在不同語體之間的異同；語言對(duì)比的另一個(gè)方面是比較對(duì)應(yīng)的漢（英）語母語文本和漢（英）語譯文文本，以檢驗(yàn)?zāi)壳皣H上翻譯共性研究領(lǐng)域基于小型對(duì)應(yīng)語料庫所做出的假設(shè)，在理論上做出新的探索。

4、中國英漢平行語料庫的研制

研制工作主要涉及語料庫設(shè)計(jì)、語料收集、語料加工、語料庫檢索工具的設(shè)計(jì)、基于語料庫的研究、語料庫在線檢索六個(gè)部分。

4.1 研制上的簡要描述

語料庫設(shè)計(jì)

語庫規(guī)模：1億字/詞以上

語庫架構(gòu)：1）通用英漢平行語料庫5000萬字詞；2）專門英漢平行語料庫5000多萬字詞，分交通英漢平行語料庫，時(shí)政新聞?dòng)h平行語料庫，財(cái)經(jīng)英漢平行語料庫和口譯語料庫）

語庫性質(zhì)：雙語庫，平行庫；通用和專門，共時(shí)和歷時(shí)，筆譯和口譯

語料類型：書面語料為主，口譯語料為輔

語料分類：分文學(xué)、新聞、政論、科技、應(yīng)用文等五大類體裁

翻譯語向：英漢（2/3）和漢英（1/3）雙語雙向

語料收集

語料收集的原則：按照年代收集，跨度為一個(gè)世紀(jì)的英漢雙語語料，并注意各階段語料在數(shù)量和質(zhì)量上的大體均等。

語料的體裁：通用語料庫考慮平衡性，借鑒國外平衡語料庫的建構(gòu)方法，按照五大體裁分類收集語料。

語料加工

元信息的設(shè)計(jì)：按照語料的來源、年代、語域、題材等設(shè)計(jì)多維元信息標(biāo)簽，包括語料庫中英文名稱、所采集樣本的發(fā)生年代、語體、翻譯方向、原始數(shù)據(jù)篇名、作者、譯者、責(zé)任方（數(shù)據(jù)采樣人等信息）

對(duì)齊方式：句對(duì)齊

標(biāo)注：實(shí)施詞性標(biāo)注，根據(jù)研究需要嘗試對(duì)部分語料實(shí)施中英文句法標(biāo)注；視研究條件嘗試翻譯技巧信息的人工識(shí)別和標(biāo)注；人工識(shí)別翻譯對(duì)等語塊。

存貯方式：采用tmx格式的xml標(biāo)記語言，統(tǒng)一碼UTF-8編碼，以便于存儲(chǔ)與交換；便于讀入數(shù)據(jù)庫，也便于檢索和機(jī)器翻譯系統(tǒng)的直接利用。

語料庫檢索工具的設(shè)計(jì)

檢索工具擬綜合利用Perl和C等語言的優(yōu)勢(shì)，充分利用元信息，針對(duì)不同用戶，提供簡單檢索、復(fù)雜檢索和有條件檢索，包括實(shí)施較精確的詞匯、語塊檢索，實(shí)現(xiàn)搭配信息的呈現(xiàn)。

基于語料庫的研究：

主要包括：a）基于語料庫的英漢語對(duì)比研究；b）基于語料庫的歷時(shí)翻譯研究；c）基于語料庫的翻譯共性研究；d）基于語料庫的漢語歷時(shí)變化研究；e）基于平行語料庫的詞典研編問題。

語料庫在線檢索：

在線平臺(tái)實(shí)現(xiàn)單機(jī)平臺(tái)相似的功能，同時(shí)實(shí)現(xiàn)語料庫的翻譯輔助功能：系統(tǒng)可將析出語料保存為tmx等格式，為現(xiàn)有的翻譯輔助軟件如Trados、Dejavu或者雅信等軟件所用。

4.2 具體研制思路

4.2.1 關(guān)于語料庫的加工標(biāo)注和語料檢索

1）對(duì)語料庫中的各類文本進(jìn)行合理的元信息標(biāo)注，以便按照用戶設(shè)定的條件，從語料庫中抽取不同類型的雙語對(duì)齊文本。擬將元信息與文本分別獨(dú)立保存，即元信息脫離文本本身，便于對(duì)文本內(nèi)語言信息的快速檢索。

2）對(duì)語料庫中的語言信息進(jìn)行標(biāo)注，以方便從語料庫中抽取用戶所需的多種語言信息。語言信息的標(biāo)注主要包括詞性標(biāo)注和部分文本的句法標(biāo)注。

3）建立大規(guī)模機(jī)器翻譯記憶庫。研究中擬采用兼容性較好的通用標(biāo)記語言存儲(chǔ)文本，建立大規(guī)模機(jī)器翻譯記憶庫（translation memory），使語料庫可以為機(jī)器翻譯系統(tǒng)所直接使用。

4）研制功能強(qiáng)大的配套軟件系統(tǒng)。軟件系統(tǒng)主要包括：a）元信息檢索系統(tǒng)，用于根據(jù)用戶設(shè)定從語料庫中抽取文本；b）標(biāo)注文本還原系統(tǒng)，用于析出便于用戶閱讀的檢索詞及語境；c）翻譯記憶交換文件（tmx）生成和解析系統(tǒng)，用于自動(dòng)生成和解析翻譯記憶交換文件；d）單機(jī)和基于網(wǎng)絡(luò)的平行語料庫檢索系統(tǒng)，用于準(zhǔn)確、高效地對(duì)語料庫進(jìn)行檢索。

4.2.2 專門英漢平行語料庫的研制

根據(jù)經(jīng)濟(jì)社會(huì)發(fā)展的現(xiàn)實(shí)需求，研制多個(gè)專門用途平行語料庫。

1）專門英漢平行語料庫的研制：分別建立時(shí)政新聞?dòng)h平行語料庫（2000萬字/詞），交通英漢平行語料庫（1500萬字/詞），財(cái)經(jīng)英漢平行語料庫（1500萬字/詞），英漢口譯語料庫（>100萬字/詞）。分別收集處理各專門語料庫，制定此類語料庫文本的選取和抽樣細(xì)則，并設(shè)計(jì)和研制適合此類文本標(biāo)注和檢索的應(yīng)用平臺(tái)。

2）專門英漢平行語料庫的應(yīng)用研究。課題組擬應(yīng)用專門英漢平行語料庫，深入分析漢英語言詞匯之間的對(duì)應(yīng)關(guān)系和轉(zhuǎn)換規(guī)律，研究當(dāng)代英漢翻譯規(guī)范、漢語文本英譯語言特征和英語文本漢譯語言特征，克服目前語料庫翻譯學(xué)研究過多依賴于文學(xué)語料的缺陷，從而提高語料庫翻譯學(xué)研究的可信度和說服力。

3）基于語料庫的漢英口譯研究。課題組擬應(yīng)用漢英口譯語料庫，分析漢英口譯語言的具體特征、口譯過程中的語言轉(zhuǎn)換規(guī)律以及口譯策略和方法等，研究口譯認(rèn)知過程的本質(zhì)及口譯活動(dòng)的制衡因素，為構(gòu)建實(shí)證、科學(xué)的口譯理論框架提供重要的物質(zhì)基礎(chǔ)。

4.2.3平衡語料的收集整理與歷時(shí)語言/翻譯研究

在語料庫創(chuàng)建階段，按照子課題1制定的平衡語料收集和抽樣原則將選取的語料處理成機(jī)讀語料，完成語料處理的前期工作，主要包括雙語語料的校對(duì)、段對(duì)齊和片頭元數(shù)據(jù)標(biāo)注，為后期的語料處理打好基礎(chǔ)。

除了前面說過的歷時(shí)語料處理外，在語料庫建設(shè)后期，我們將使用該語料庫開展?jié)h語的歷時(shí)語言演化研究，重點(diǎn)研究翻譯在現(xiàn)代漢語發(fā)展過程中的作用；開展基于大型語料庫的語言與翻譯研究，探討翻譯共性、翻譯技巧的歷時(shí)變化、漢語翻譯語言的特性、不同語域翻譯文本的特征等。

在處理歷時(shí)研究和共時(shí)研究的關(guān)系時(shí)，我們采用歷時(shí)研究方法對(duì)翻譯規(guī)范和目的語語言規(guī)范的發(fā)展變化進(jìn)行類比研究，將共時(shí)研究滲透于各微觀研究層面，將靜態(tài)的整體性描述和動(dòng)態(tài)的連續(xù)性分析有機(jī)結(jié)合起來。

在處理定性研究和定量研究的關(guān)系時(shí)，擬將定性分析與定量分析相結(jié)合。定量分析描述語言成分的使用頻率、語言特征的相關(guān)性和語言變化的趨勢(shì)；定性分析用于歸納、推理和解釋，即運(yùn)用合適的理論來闡釋語言變異。

參考文獻(xiàn)

1. Anderman, G. and M. Rogers (eds.) Incorporating Corpora: The linguist and the Translator[C]. Clevedon: Multilingual Matters Ltd. 2007.

2. Koehn, P. Europarl: A Parallel Corpus for Statistical Machine Translation[A]. MT Summit 2005.

3. Lüdeling, A. and M. Kyt? (eds.) Corpus Linguistics: An International Handbook[C]. New York: Walter de Gruyter, 2008.

4. McEnery, T. & Xiao，Z. Parallel and comparable corpora: What is happening[A]? In M. Rogers and G. Anderman (eds) Incorporating Corpora. The Linguist and the Translator[C]. Clevedon: Multilingual Matters, 2007:18-31.

5. Xiao, Z. Well-known and influential corpora[A]. In A. Lüdeling & M. Kyto (eds) Corpus Linguistics: An International Handbook [Volume 1][C]. Berlin: Mouton de Gruyter, 2008: 383-457.

6. 常寶寶，2004，英漢對(duì)應(yīng)詞的自動(dòng)提取[A]。載王克非等《雙語對(duì)應(yīng)語料庫：研制與應(yīng)用》。北京：外語教學(xué)與研究出版社，80-96。

7. 馮志偉，2012，《統(tǒng)計(jì)機(jī)器翻譯》序[A]。載《統(tǒng)計(jì)機(jī)器翻譯》（Statistical Machine Translation）[M]。北京：電子工業(yè)出版社。

8. 何文忠、王克非，2009，英語中動(dòng)結(jié)構(gòu)修飾語的語料庫研究[J]，《外語教學(xué)與研究》（4）：250-257。

9. 李德超、王克非，2010，新型雙語旅游語料庫的研制和運(yùn)用[J]，《現(xiàn)代外語》（1）：46-54。

10. 秦洪武、王克非，2004，基于語料的翻譯語言考察[J]，《現(xiàn)代外語》（1）：44-52

11. 秦洪武、王克非，2009，基于對(duì)應(yīng)語料庫的英譯漢語言特征分析[J],《外語教學(xué)與研究》（2）：131-136。

12. 秦洪武、王克非，2010，論元實(shí)現(xiàn)的詞匯化解釋：英漢語中的位移動(dòng)詞[J]，《當(dāng)代語言學(xué)》（2）：115-125。

13. 王克非，2004，新型雙語語料庫的設(shè)計(jì)與構(gòu)建[J]，《中國翻譯》（6）：73-75。

14. 王克非、胡顯耀，2008，基于語料庫的翻譯漢語詞匯特征研究[J]，《中國翻譯》（6）：16-21。

15. 王克非、胡顯耀，2010，漢譯文學(xué)作品中人稱代詞的顯化和變異[J]，《中國外語》（4）：16-21。

16. 王克非、黃立波，2006，關(guān)于翻譯共性研究[J]，《外語教學(xué)與研究》（5）：36-40。

17. 王克非、秦洪武，2009，英譯漢語言特征探討——基于對(duì)應(yīng)語料庫的宏觀分析[J],《外語學(xué)刊》（1）：102-105。

18. 王克非等，2004，《雙語對(duì)應(yīng)語料庫：研制與應(yīng)用》[C]。北京：外語教學(xué)與研究出版社。

(責(zé)編：秦華)

聯(lián)系我們 | 版權(quán)聲明

最近2019中文字幕大全视频10,一出一进一爽一粗一大视频,中文www天堂网,中文字幕日韩三级片,亚洲欧洲av一区二区久久

中國英漢平行語料庫的設(shè)計(jì)與研制

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室版權(quán)所有京ICP備12051030號(hào)

最近2019中文字幕大全视频10,一出一进一爽一粗一大视频,中文www天堂网,中文字幕日韩三级片,亚洲欧洲av一区二区久久

中國英漢平行語料庫的設(shè)計(jì)與研制

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室 承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室 版權(quán)所有 京ICP備12051030號(hào)

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室版權(quán)所有京ICP備12051030號(hào)