摘要:本文綜合評(píng)介了國(guó)外八大雙語(yǔ)平行語(yǔ)料庫(kù)的構(gòu)建和應(yīng)用,說(shuō)明了各個(gè)語(yǔ)料庫(kù)的優(yōu)勢(shì)與不足。作者認(rèn)為,國(guó)外雙語(yǔ)語(yǔ)料庫(kù)研究起步較早,在語(yǔ)料庫(kù)技術(shù)和研究方法上有相當(dāng)積累,但也顯示出一些局限性:1)語(yǔ)料庫(kù)規(guī)模較小,語(yǔ)料代表性有限;2)研究的切入點(diǎn)不夠,基于雙語(yǔ)庫(kù)的語(yǔ)言類(lèi)歷時(shí)研究闕如;3)專(zhuān)門(mén)語(yǔ)料庫(kù)的研制與應(yīng)用滯后;4)雙語(yǔ)庫(kù)基礎(chǔ)上的應(yīng)用研究和相關(guān)技術(shù)開(kāi)發(fā)不足。文章指出,上述問(wèn)題正是今后研究之課題,為超大型、多用途的雙語(yǔ)平行語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用提供了思路。
關(guān)鍵詞:雙語(yǔ)平行語(yǔ)料庫(kù);研制與應(yīng)用
Construction and Application of Parallel Corpora: Issues and comments
Abstract: The paper makes a comprehensive review on the construction and application of 8 major bilingual parallel corpora in the world. Some pitfalls in the corpus-based researches are revealed despite their rich experiences in technology and research method. The issues are manifested as follow: 1) the size of the corpora is not big enough to be representative; 2) research topics are not as varied, especially in respects of language and translation research from a historical perspective; 3) corpora for special purposes are less developed; 4) researches in application and technology based on a parallel corpus still wait to be done. The questions above turned to be the topics to discuss, the authors think, and are conducive to researches on the construction of a large-scale and multipurpose corpus.
Keywords: parallel corpus, construction and application
1 引言
20世紀(jì)90年代初,世界上第一個(gè)雙語(yǔ)庫(kù)在加拿大建成。1998 年,哈爾濱工業(yè)大學(xué)建成容量3萬(wàn)句對(duì)的英漢雙語(yǔ)語(yǔ)料庫(kù)?梢(jiàn)國(guó)內(nèi)外雙語(yǔ)庫(kù)構(gòu)建時(shí)間相差不遠(yuǎn)。但雙語(yǔ)庫(kù)應(yīng)用于語(yǔ)言和翻譯研究在國(guó)外起步較早,建庫(kù)的同時(shí)許多相關(guān)的研究已經(jīng)展開(kāi)。經(jīng)過(guò)20年左右的發(fā)展,國(guó)外雙語(yǔ)庫(kù)在技術(shù)和研究方法有了相當(dāng)多的積累,建立了一批有代表性的雙語(yǔ)平行語(yǔ)料庫(kù),產(chǎn)生了一大批基于語(yǔ)料庫(kù)的研究成果,形成了多個(gè)研究團(tuán)隊(duì),相互間對(duì)相同課題展開(kāi)了深入的討論,推動(dòng)了語(yǔ)料庫(kù)翻譯學(xué)作為一個(gè)新型研究的發(fā)生和發(fā)展。同時(shí),我們也發(fā)現(xiàn)國(guó)外在雙語(yǔ)語(yǔ)料庫(kù)研制與應(yīng)用方面還存在諸多不足之處。本文在概述國(guó)外八大雙語(yǔ)庫(kù)的構(gòu)建和應(yīng)用的基礎(chǔ)上,點(diǎn)評(píng)國(guó)外這方面研究的得與失。所概述的問(wèn)題既可能是將來(lái)研究的課題,也可為我們構(gòu)建超大型、多用途的雙語(yǔ)平行語(yǔ)料庫(kù)提供一些思路。
2 國(guó)外八大雙語(yǔ)語(yǔ)料庫(kù)概況
2.1 加拿大議會(huì)會(huì)議錄英-法平行語(yǔ)料庫(kù)
加拿大議會(huì)會(huì)議錄英-法平行語(yǔ)料庫(kù)(the Canadian Hansard Corpus)被認(rèn)為是世界上第一個(gè)雙語(yǔ)平行語(yǔ)料庫(kù),建成于上世紀(jì)90年代初,語(yǔ)料主要為加拿大議會(huì)的辯論記錄,是一個(gè)英-法平行語(yǔ)料庫(kù)。此語(yǔ)料庫(kù)也是世界上第一個(gè)非限制性(unconstrained)語(yǔ)料庫(kù),語(yǔ)料規(guī)模不斷增加,建成初期規(guī)模約為1百萬(wàn)詞,內(nèi)容為70年代中期的加拿大議會(huì)會(huì)議日程的官方記錄。之后很快擴(kuò)展到2千6百萬(wàn)詞,時(shí)間跨度從70年代中期至1987 年,語(yǔ)料內(nèi)容主要限于立法方面的話(huà)語(yǔ),但議題涉及較廣,除立法建議和事先有準(zhǔn)備的演講外,還包括即席討論、書(shū)面函電、聽(tīng)證會(huì)等(參見(jiàn)Roukos et al. 1995;McEnery & Wilson 2001:168)。該語(yǔ)料庫(kù)的語(yǔ)料來(lái)源主要為兩個(gè)途徑的二手文本,一個(gè)是IBM的托馬斯?J?沃森研究中心(IBM T. J. Watson Research Center),另一個(gè)則是Bell通訊研究有限公司(Bell Communications Research Inc./Bellcore)。到90年代初,該語(yǔ)料庫(kù)庫(kù)容進(jìn)一步擴(kuò)大到法英雙語(yǔ)共9千萬(wàn)詞(Kenny 2001:114)。
加拿大議會(huì)會(huì)議錄英法平行語(yǔ)料庫(kù)已被應(yīng)用于對(duì)齊算法(alignment algorithm)(如Church et.al. 1993)、“假朋友”(faux amis)考察,以及機(jī)讀雙語(yǔ)詞典詞匯信息研究(如Klavans & Tzoukermann 1995)等方面。
此雙語(yǔ)庫(kù)主要是以會(huì)議錄音轉(zhuǎn)寫(xiě)的書(shū)面文本,這樣的文本已經(jīng)大為范化(normalised),一些口語(yǔ)語(yǔ)料庫(kù)中較為常見(jiàn)的停頓、中斷和張口出錯(cuò)(false starts)等現(xiàn)象在此語(yǔ)料庫(kù)中被去掉了,因此更像是一個(gè)筆譯語(yǔ)料庫(kù)(McEnery & Wilson 2001:168)。也就是說(shuō),此語(yǔ)料庫(kù)是一個(gè)口、筆語(yǔ)混雜的語(yǔ)料庫(kù),就語(yǔ)料而言,無(wú)論作為口譯還是筆譯語(yǔ)料庫(kù)都缺乏一定的代表性。此語(yǔ)料庫(kù)主要被應(yīng)用于計(jì)算機(jī)語(yǔ)言處理方面,在語(yǔ)言對(duì)比和翻譯研究方面的應(yīng)用較少。
2.2 克姆尼茨英-德翻譯語(yǔ)料庫(kù)
克姆尼茨英-德翻譯語(yǔ)料庫(kù)(Chemnitz E-G Translation Corpus)項(xiàng)目開(kāi)始于1993年,是一個(gè)分別以英語(yǔ)和德語(yǔ)為源文本及對(duì)應(yīng)目標(biāo)文本的雙語(yǔ)雙向平行語(yǔ)料庫(kù),也就是說(shuō)包括英語(yǔ)原文與對(duì)應(yīng)的德語(yǔ)譯文、德語(yǔ)原文與對(duì)應(yīng)的英語(yǔ)譯文四類(lèi)語(yǔ)料。目標(biāo)庫(kù)容150萬(wàn)詞,但到2001年為止僅達(dá)到50萬(wàn)(Kenny 2001:114)。語(yǔ)料包括從當(dāng)代英美文學(xué)到科學(xué)教科書(shū),類(lèi)型多樣。此項(xiàng)目旨在創(chuàng)建一個(gè)機(jī)讀并經(jīng)過(guò)對(duì)齊的語(yǔ)料庫(kù),來(lái)發(fā)現(xiàn)介詞、功能動(dòng)詞、指示成分、隱喻或文化局限結(jié)構(gòu)等一系列語(yǔ)言項(xiàng)的翻譯對(duì)應(yīng)項(xiàng),并做出歸類(lèi)。在此基礎(chǔ)上探究影響每一類(lèi)語(yǔ)言現(xiàn)象各類(lèi)因素配置的規(guī)律性。除了語(yǔ)言結(jié)構(gòu)對(duì)比和翻譯過(guò)程認(rèn)知方面的理論探討外,研究結(jié)果還應(yīng)用于雙語(yǔ)詞典編纂、語(yǔ)言教學(xué)和翻譯輔助工具研發(fā)。現(xiàn)有源于此項(xiàng)目的一個(gè)教學(xué)工具就是一套基于語(yǔ)料庫(kù)的克姆尼茨因特網(wǎng)對(duì)比語(yǔ)法(Chemnitz Internet Grammar)。此項(xiàng)目是在與其它幾個(gè)類(lèi)似的翻譯語(yǔ)料庫(kù)項(xiàng)目合作基礎(chǔ)上進(jìn)行的,有利于促進(jìn)相近語(yǔ)言之間在翻譯研究、語(yǔ)料庫(kù)語(yǔ)言學(xué)和對(duì)比分析方面的進(jìn)展。合作項(xiàng)目包括倫敦-隆德語(yǔ)料庫(kù)(the London-Lund corpus)中的英語(yǔ)-瑞典語(yǔ)和蘭卡斯特-奧斯陸-卑爾根語(yǔ)料庫(kù)(The Lancaster-Oslo-Bergen Corpus )中的英語(yǔ)-挪威語(yǔ)語(yǔ)言結(jié)構(gòu)分析,于是英語(yǔ)與德語(yǔ)、瑞典語(yǔ)和挪威語(yǔ)這三種日爾曼語(yǔ)之間的對(duì)比研究就可以在同一模式下進(jìn)行。
以此語(yǔ)料庫(kù)為基礎(chǔ)的研究主要涉及翻譯與認(rèn)知結(jié)構(gòu)、翻譯共性、文化局限語(yǔ)項(xiàng)、搭配詞、對(duì)比語(yǔ)法等方面(詳見(jiàn)Schmied 1994,1998,1999;Schmied & Schaffler 1996;Schaffler 1997;Smitterberg et al. 2000等;The English/German Translation Corpus: The project http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm)。
此平行語(yǔ)料庫(kù)研制初期的主要目的是用于語(yǔ)言對(duì)比研究和應(yīng)用研究,主要是從詞匯對(duì)比入手,進(jìn)而關(guān)注修辭和搭配;诖苏Z(yǔ)料庫(kù)的研究成果表明,他們對(duì)翻譯的關(guān)注只是作為一種研究手段,最終目的是語(yǔ)言研究,研究結(jié)果也主要應(yīng)用于雙語(yǔ)詞典編纂、語(yǔ)言教學(xué)和翻譯輔助工具的研制與開(kāi)發(fā)。
2.3 德英文學(xué)文本平行語(yǔ)料庫(kù)
德語(yǔ)-英語(yǔ)文學(xué)文本平行語(yǔ)料庫(kù)(German-English Parallel Corpus of Literary Translation,GEPCOLT)是一個(gè)德譯英單向雙語(yǔ)平行的文學(xué)文本語(yǔ)料庫(kù)。建庫(kù)的初衷是為了進(jìn)行翻譯文本中詞匯范化(lexical normalisation)和詞匯創(chuàng)造性(lexical creativity)的考察。語(yǔ)料限制在敘事小說(shuō)文本方面,主要出于兩個(gè)方面的考慮:第一,有現(xiàn)成的德英小說(shuō)翻譯的抽樣模式;第二,前人對(duì)于翻譯小說(shuō)文本的研究已經(jīng)關(guān)注到對(duì)范化問(wèn)題,說(shuō)明翻譯小說(shuō)文本是這類(lèi)研究的一個(gè)理想文類(lèi)。語(yǔ)料主要是20世紀(jì)80至90年代出版的當(dāng)代德國(guó)文學(xué)作品的英譯,當(dāng)時(shí)(到2001年)的庫(kù)容為,源文本與譯文本共約2百萬(wàn)詞(其中德語(yǔ)文本970,270形符,英語(yǔ)譯文1,055,021形符)(Kenny 2001:114)。
該語(yǔ)料庫(kù)借鑒翻譯英語(yǔ)語(yǔ)料庫(kù)(TEC)中篇頭文件(header files)的做法,標(biāo)注了有關(guān)文本出版和翻譯過(guò)程等文本外信息(參見(jiàn)Olohan,2004:58-59)。
此語(yǔ)料庫(kù)主要應(yīng)用于翻譯共性問(wèn)題的考察。例如,Kenny(2000)以GEPCOLT為基礎(chǔ)對(duì)德文原語(yǔ)文本中特定創(chuàng)造性復(fù)合詞及搭配(creative compounds and collocations)在德英翻譯中范化情況進(jìn)行探討,結(jié)果表明在七個(gè)個(gè)案中有兩個(gè)的確發(fā)生了范化,只是尚不能根據(jù)有限的個(gè)案做出籠統(tǒng)的歸納。
Kenny(2001)以GEPCOLT為基礎(chǔ)對(duì)翻譯中的范化和譯者創(chuàng)造性進(jìn)行考察,她發(fā)現(xiàn)翻譯中的確存在詞匯范化現(xiàn)象,而原語(yǔ)文本中的創(chuàng)造性詞匯在大多數(shù)情況下卻沒(méi)有發(fā)生范化(2001:187、210)。這說(shuō)明對(duì)范化現(xiàn)象的研究還是不能完全脫離源語(yǔ)語(yǔ)篇的因素。針對(duì)Olohan & Baker(2000)采用的類(lèi)比語(yǔ)料庫(kù)方法,Kenny(2005)以德英文學(xué)文本平行語(yǔ)料庫(kù)對(duì)其非強(qiáng)制性that研究結(jié)果進(jìn)行重新驗(yàn)證后指出:英語(yǔ)譯者在say之后使用非強(qiáng)制性that的大多數(shù)情況并非為了去對(duì)應(yīng)德語(yǔ)中的daβ,乍看起來(lái)屬于語(yǔ)法上的顯化,但還需要確認(rèn)原語(yǔ)文本中是否使用了除daβ以外的其它連接詞形式來(lái)明示從句的敘述性質(zhì),如果有的話(huà),就很難斷定英語(yǔ)譯文中包含that的做法全都屬于顯化的現(xiàn)象 (Kenny 2005:161)。
GEPCOLT的語(yǔ)料僅限于小說(shuō)文本,從內(nèi)容上既屬于一般語(yǔ)言語(yǔ)料庫(kù),也屬于專(zhuān)門(mén)文體語(yǔ)料庫(kù)。此語(yǔ)料庫(kù)最大的特點(diǎn)是:研究目標(biāo)決定建庫(kù)類(lèi)型。在此語(yǔ)料庫(kù)基礎(chǔ)上的研究主要限于翻譯共性,尤其是范化方面的研究。GEPCOLT語(yǔ)料單一,而且為單向平行,語(yǔ)料規(guī)模較小,僅約2百萬(wàn)詞。目前的研究還僅限于詞匯方面,對(duì)搭配、句法等問(wèn)題的研究尚未開(kāi)展。
2.4 英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)
英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)(English-Norweigian Parallel Corpus,ENPC))是一個(gè)雙向平行語(yǔ)料庫(kù),由挪威奧斯陸大學(xué)(University of Oslo)文學(xué)院和英美研究系研制,研究團(tuán)隊(duì)的主要成員包括:奧斯陸大學(xué)的Stig Johansson,卑爾根(Bergen)挪威人文學(xué)科計(jì)算中心(Norwegian Computing Centre for the Humanities)的Knut Hofland,以及奧斯陸大學(xué)的研究助理 Jarle Ebeling和Signe Oksefjell。語(yǔ)料包括英語(yǔ)原文及其對(duì)應(yīng)挪威語(yǔ)譯文,和挪威語(yǔ)原文及其對(duì)應(yīng)英語(yǔ)譯文四類(lèi)文本,這一點(diǎn)與克姆尼茨英-德翻譯語(yǔ)料庫(kù)相似。研制的目標(biāo)是以對(duì)應(yīng)語(yǔ)料庫(kù)為核心,結(jié)合類(lèi)比的非翻譯語(yǔ)料庫(kù)進(jìn)行語(yǔ)言對(duì)比研究和翻譯研究。文本采用抽樣的方式,每一個(gè)完整文本節(jié)選1-1.5萬(wàn)詞的篇幅,包括文學(xué)和非文學(xué)文本兩大類(lèi),文學(xué)文本以小說(shuō)文本為主,全庫(kù)共100個(gè)源文本和100個(gè)對(duì)應(yīng)的譯文本,總庫(kù)容為260萬(wàn)詞(見(jiàn)表-1)。源文本與對(duì)應(yīng)譯文本實(shí)現(xiàn)句子層級(jí)對(duì)齊,由Knut Hofland 所開(kāi)發(fā)的程序自動(dòng)對(duì)齊,之后經(jīng)過(guò)人工校對(duì),貯存在數(shù)據(jù)庫(kù)中,使用Jarle Ebeling 開(kāi)發(fā)的翻譯語(yǔ)料庫(kù)瀏覽器(Translation Corpus Explorer)進(jìn)行檢索。
該語(yǔ)料庫(kù)為開(kāi)放語(yǔ)料庫(kù),在資源允許的條件下庫(kù)容會(huì)繼續(xù)擴(kuò)大。研究者對(duì)源文本和譯文本都做了詞匯標(biāo)注。
表-1 ENPC的語(yǔ)料構(gòu)成(參見(jiàn)Johansson 1999/2002: 3)
ENPC項(xiàng)目開(kāi)始于1994年,完成于1997年。1997-2001年期間,該語(yǔ)料庫(kù)的語(yǔ)料收集擴(kuò)展到德語(yǔ)、荷蘭語(yǔ)和葡萄牙語(yǔ)。ENPC的標(biāo)注系統(tǒng)采用《電子文本編碼語(yǔ)轉(zhuǎn)換指南》(Guidelines for Electronic Text Encoding and Interchange)所提出的TEI(Text Encoding Initiative)格式,即XML格式(Sperberg-McQueen & Burnard, 1994)。各層次文本開(kāi)始與結(jié)束分別用<..>和</..>標(biāo)出,最常用的就是段落標(biāo)記(<p>...</p>)和句子標(biāo)記(<s>...</s>)。
該語(yǔ)料庫(kù)基礎(chǔ)上的研究?jī)?nèi)容包括:英語(yǔ)與挪威語(yǔ)中的顯現(xiàn)結(jié)構(gòu)(presentative constructions)對(duì)比、英語(yǔ)與挪威語(yǔ)中的語(yǔ)序和信息結(jié)構(gòu)、英語(yǔ)與挪威語(yǔ)詞匯對(duì)比、同文類(lèi)文本跨語(yǔ)言對(duì)比、翻譯文本與目標(biāo)語(yǔ)中非翻譯文本的對(duì)比、翻譯語(yǔ)言共性等方面。以翻譯文本作為研究對(duì)象,目的不在于揭示翻譯錯(cuò)誤,而是將翻譯產(chǎn)品作為語(yǔ)言對(duì)比研究和翻譯研究的資源。?veras(1998)以英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)為基礎(chǔ),以Blum-Kulka(1986)的顯化假設(shè)為出發(fā)點(diǎn),對(duì)詞匯和語(yǔ)法兩方面的顯化進(jìn)行了考察,重點(diǎn)放在詞匯銜接上,以揭示拋開(kāi)語(yǔ)言差異的翻譯語(yǔ)言的具體特征,最終目標(biāo)是試圖得出關(guān)于目標(biāo)語(yǔ)語(yǔ)言社團(tuán)中所盛行的文學(xué)翻譯規(guī)范。
ENPC的建庫(kù)理念比較成熟,英語(yǔ)、挪威語(yǔ)文本實(shí)現(xiàn)雙向?qū)?yīng),英語(yǔ)原文與對(duì)應(yīng)挪威語(yǔ)譯文、挪威語(yǔ)原文與對(duì)應(yīng)英語(yǔ)譯文這四類(lèi)文本可以提供語(yǔ)言對(duì)比研究和翻譯研究所需要的語(yǔ)料。文本實(shí)現(xiàn)了句對(duì)齊,所采用的XML標(biāo)注適用于多類(lèi)檢索。其局限性在于語(yǔ)料收集采用抽樣的方法,對(duì)語(yǔ)言的銜接性有一定的影響,語(yǔ)料范圍也不夠廣泛。此外,其研究目標(biāo)較多而語(yǔ)料庫(kù)相對(duì)較小,有力不從心之感。
2.5 英語(yǔ)-瑞典語(yǔ)雙向平行語(yǔ)料庫(kù)
英語(yǔ)-瑞典語(yǔ)雙向平行語(yǔ)料庫(kù)(The English-Swedish Parallel Corpus,ESPC)的構(gòu)建開(kāi)始于1993年,在隆德大學(xué)(Lund University)展開(kāi),得到瑞典人文與社會(huì)科學(xué)研究委員會(huì)(Swedish Council for Research in Humanities and Social Sciences)的資助。自1997年起,哥德堡大學(xué)(G?teborg University)加入該項(xiàng)目。主要成員有和隆德大學(xué)的Bengt Altenberg、Mats Johansson、Mikael Svensson教授和哥德堡大學(xué)的Karin Aijmer教授。該項(xiàng)目與英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)(ENPC)和翻譯芬蘭語(yǔ)語(yǔ)料庫(kù)(Corpus of Translated Finnish)項(xiàng)目都有溝通與合作。該語(yǔ)料庫(kù)同ENPC一樣包括英語(yǔ)原文及其對(duì)應(yīng)瑞典語(yǔ)譯文,和瑞典語(yǔ)原文及其對(duì)應(yīng)英語(yǔ)譯文四類(lèi)文本語(yǔ)料,可以開(kāi)展多類(lèi)型語(yǔ)言對(duì)比與翻譯研究。該語(yǔ)料庫(kù)2001年的規(guī)模為2千8百萬(wàn)詞,包括64個(gè)英文文本抽樣及其對(duì)應(yīng)瑞典語(yǔ)譯文和72個(gè)瑞典語(yǔ)文本抽樣及對(duì)應(yīng)英語(yǔ)翻譯文本。每個(gè)文本抽樣通常為10,000-15,000 詞,部分篇幅較短的非小說(shuō)文本采取全文收錄。
該語(yǔ)料庫(kù)文本選擇遵循如下原則:1)以當(dāng)代語(yǔ)言為主,不局限于特定地區(qū)語(yǔ)言變體;2)包含多種文本類(lèi)型、多位作家和譯者;3)雙語(yǔ)文本在文類(lèi)、主題、讀者對(duì)象、語(yǔ)域等方面具備類(lèi)比關(guān)系;4)節(jié)選文本選擇作品開(kāi)頭或結(jié)尾部分的連貫章節(jié);5)盡可能保證所選英語(yǔ)文本除有對(duì)應(yīng)瑞典語(yǔ)翻譯文本外,還有挪威語(yǔ)和芬蘭語(yǔ)譯本。最后一點(diǎn)主要考慮將來(lái)與ENPC之間開(kāi)展兩種關(guān)系密切的語(yǔ)言在語(yǔ)言類(lèi)型學(xué)上的對(duì)比研究,以及與不同族的芬蘭語(yǔ)的對(duì)比研究。ESPC包含的文本類(lèi)型比較豐富(如表-2所示),分為小說(shuō)和非小說(shuō)兩大類(lèi),
表-2 ESPC語(yǔ)料的文本類(lèi)型構(gòu)成(參見(jiàn)Altenberg et al. 2001)
小說(shuō)文本又分為兒童小說(shuō)、犯罪與懸疑小說(shuō)和一般小說(shuō)三類(lèi),非小說(shuō)類(lèi)又包括回憶錄與傳記等8類(lèi),若干子類(lèi),幾乎涵蓋了各個(gè)領(lǐng)域的文本,有利于開(kāi)展特定文本或?qū)iT(mén)用途文本的語(yǔ)言與翻譯研究。ESPC基礎(chǔ)上的研究,除大量的語(yǔ)言對(duì)比分析外,與翻譯相關(guān)的研究涉及翻譯體、附加疑問(wèn)句、被動(dòng)語(yǔ)態(tài)、動(dòng)詞熟語(yǔ)、分裂句、定式與非定式結(jié)構(gòu)等的語(yǔ)際轉(zhuǎn)換考察(如Aijmer 2001;Axelsson 2006;Fredriksson 2006;Gustawsson 2006;Johansson 2001,2002;Ruin 2001等)。
ESPC語(yǔ)料規(guī)模較大,文本類(lèi)型比較豐富,有利于開(kāi)展多文類(lèi)的語(yǔ)言對(duì)比與翻譯研究。其最突出的一點(diǎn),就是在建庫(kù)時(shí)就已經(jīng)考慮到與其它語(yǔ)對(duì)語(yǔ)料庫(kù)之間的交叉研究,更大地發(fā)揮了語(yǔ)料庫(kù)的作用。其局限性表現(xiàn)在,盡管文類(lèi)比較豐富,但語(yǔ)料以抽樣為主,而且從表-2可以看出,具體的子文類(lèi)文本數(shù)量較小,缺乏一定的代表性。
2.6 英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)
英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)(Corpus of English-Italian translation,CEXI)1990年代后期由意大利博洛尼亞大學(xué)弗利校區(qū)(University of Bologna(Forlì))負(fù)責(zé)研制,是一個(gè)雙向?qū)?yīng)的平行語(yǔ)料庫(kù),語(yǔ)料中一半為英語(yǔ)源文本及其對(duì)應(yīng)的意大利語(yǔ)譯文本,另一半為意大利語(yǔ)源文本及其對(duì)應(yīng)的英語(yǔ)譯文本。該語(yǔ)料庫(kù)為翻譯驅(qū)動(dòng)的語(yǔ)料庫(kù),即語(yǔ)料選取以目標(biāo)文本為導(dǎo)向。此語(yǔ)料庫(kù)作為一個(gè)學(xué)習(xí)語(yǔ)言、文化和翻譯的資源,其建庫(kù)目的主要是從描寫(xiě)和應(yīng)用視角出發(fā)的語(yǔ)言學(xué)習(xí)和譯員培訓(xùn),使學(xué)生和研究者能更多地了解翻譯過(guò)程和翻譯產(chǎn)品。
CEXI的設(shè)計(jì)以英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)(ENPC)為基礎(chǔ)模式,實(shí)現(xiàn)句子層面的對(duì)齊,不僅用于平行檢索,還應(yīng)用于同一語(yǔ)言?xún)?nèi)翻譯文本與非翻譯文本的對(duì)比、跨語(yǔ)言對(duì)比、跨語(yǔ)言翻譯研究。語(yǔ)料包括文學(xué)(或虛構(gòu)文本)與非文學(xué)(信息性文本)兩大類(lèi),主要為散文(prose),不包括詩(shī)歌、戲劇等,也不包括自譯文本、兒童文學(xué)文本、教科書(shū)和簡(jiǎn)寫(xiě)本,時(shí)間跨度主要集中在1976-2000年間。語(yǔ)料采用抽樣的方法,上述四類(lèi)文本每個(gè)部分80個(gè)文本抽樣。原計(jì)劃庫(kù)容為4百萬(wàn)詞。實(shí)際收錄92個(gè)文本(其中文學(xué)文本40個(gè),非文學(xué)文本52個(gè))的368個(gè)抽樣(每個(gè)文本1-1.5萬(wàn)詞),共計(jì)460萬(wàn)詞,研制者計(jì)劃從文本范圍、數(shù)量和類(lèi)型等幾方面繼續(xù)擴(kuò)大語(yǔ)料庫(kù)的容量(參見(jiàn)Zanettin 2002)。
Bernardini & Zanettin(2004)以英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)(CEXI)為例指出,目前大多數(shù)基于語(yǔ)料庫(kù)的描寫(xiě)翻譯研究主要是在單語(yǔ)類(lèi)比語(yǔ)料庫(kù)的模式下進(jìn)行,由于社會(huì)文化等因素的制約,保證語(yǔ)料的類(lèi)比性是一個(gè)很棘手的問(wèn)題,比如兩種語(yǔ)言在對(duì)方文化中的社會(huì)地位不盡平等、原文與譯文的年代相差過(guò)于久遠(yuǎn)等,在此類(lèi)語(yǔ)料基礎(chǔ)上的研究結(jié)果必然會(huì)受到一定影響。
CEXI的設(shè)計(jì)以英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)(ENPC)為基礎(chǔ)模式,雙語(yǔ)雙向平行,句級(jí)對(duì)應(yīng)。語(yǔ)料同樣采用抽樣,規(guī)模較小。其中最突出的一個(gè)問(wèn)題就語(yǔ)料的不平衡。如Zanettin(2000)的研究表明,以意大利語(yǔ)出版的圖書(shū)中,翻譯作品的數(shù)量遠(yuǎn)遠(yuǎn)大于原創(chuàng)作品,其中一半是譯自英語(yǔ),而以英語(yǔ)出版的圖書(shū)中翻譯作品所占的比例卻要小得多,其中譯自意大利語(yǔ)的作品還不足5%。而且兩種翻譯作品在各自的目標(biāo)語(yǔ)文學(xué)系統(tǒng)中所享有的地位也不相同,譯自英語(yǔ)的意大利語(yǔ)作品是意大利流行小說(shuō)的主宰形式,而譯自意大利語(yǔ)的英語(yǔ)作品在英語(yǔ)世界并沒(méi)有同樣的地位。因此,倘若從翻譯作品中選擇意-英雙向平行語(yǔ)料庫(kù)的語(yǔ)料,它們就缺乏一定的可比性。
2.7 葡萄牙語(yǔ)-英語(yǔ)雙向平行語(yǔ)料庫(kù)(English-Portugese Parallel Corpus(Compara))
葡萄牙語(yǔ)-英語(yǔ)雙向平行語(yǔ)料庫(kù)也是以英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)(ENPC)為藍(lán)本設(shè)計(jì)的一個(gè)雙向?qū)?yīng)的平行語(yǔ)料庫(kù)。包括英語(yǔ)源文本及其對(duì)應(yīng)葡萄牙語(yǔ)譯文本,以及葡萄牙語(yǔ)源文本及其對(duì)應(yīng)英語(yǔ)譯文本四類(lèi)語(yǔ)料,對(duì)應(yīng)文本實(shí)現(xiàn)句子層面對(duì)齊。建成初期僅包括文學(xué)文本,但其它文類(lèi)陸續(xù)收錄。文本按照德國(guó)斯圖加特大學(xué)(University of Stuttgart)研發(fā)的IMS語(yǔ)料庫(kù)工作平臺(tái)系統(tǒng)(IMS Corpus Workbench system)進(jìn)行編碼,并且可以通過(guò)“葡萄牙語(yǔ)語(yǔ)言計(jì)算處理”項(xiàng)目所設(shè)計(jì)的“葡萄牙語(yǔ)計(jì)算機(jī)處理工程”(Computational processing of Portugese project)的DISPARA界面進(jìn)行在線(xiàn)檢索。
Frankenberg-Gacia(2004)以葡-英雙向平行語(yǔ)料庫(kù)(Compara)為基礎(chǔ),從譯文與原文文本長(zhǎng)度角度探討了非強(qiáng)制顯化問(wèn)題。通常認(rèn)為非強(qiáng)制性顯化往往表現(xiàn)為添加額外詞匯,F(xiàn)rankenberg-Gacia的研究以定量分析的方法證明了翻譯文本中詞匯數(shù)量的整體增加表明譯文往往比原文更為明晰,而且這并不受制于兩種語(yǔ)言之間的差異。此語(yǔ)料庫(kù)規(guī)模也不太大,目前開(kāi)展的相關(guān)研究不多。
2.8 歐洲議會(huì)口譯語(yǔ)料庫(kù)
歐洲議會(huì)口譯語(yǔ)料庫(kù)(The European Parliament Interpreting Corpus,EPIC)是由意大利博洛尼亞大學(xué)翻譯語(yǔ)言和文化研究小組負(fù)責(zé)研制的一個(gè)開(kāi)放的包括英語(yǔ)、意大利語(yǔ)和西班牙語(yǔ)的三語(yǔ)平行語(yǔ)料庫(kù)。語(yǔ)料庫(kù)建成于2004年,包含英語(yǔ)、意大利語(yǔ)和西班牙語(yǔ)以及每種語(yǔ)言同聲傳譯的其它兩種翻譯語(yǔ)言,這樣就構(gòu)成了一個(gè)復(fù)合的平行或類(lèi)比對(duì)應(yīng)關(guān)系,研究者可以根據(jù)需要任意選取組合,對(duì)翻譯現(xiàn)象進(jìn)行三角考察。語(yǔ)料內(nèi)容主要為一種語(yǔ)言的議會(huì)發(fā)言及其對(duì)應(yīng)的另一種語(yǔ)言的翻譯文本,所有語(yǔ)料都經(jīng)過(guò)POS 詞類(lèi)標(biāo)注處理。
語(yǔ)料內(nèi)容來(lái)自歐盟議會(huì)全體會(huì)議的口譯錄音,共有140個(gè)4小時(shí)的錄影帶,這些音像資料包括全體會(huì)議中的源語(yǔ)演講(標(biāo)識(shí)為“Org”)以及英語(yǔ),意大利語(yǔ)和西班牙語(yǔ)聲道的同聲傳譯(標(biāo)識(shí)為“Int”),亦有歐洲議會(huì)的新聞發(fā)布會(huì)的傳譯內(nèi)容。語(yǔ)料文本主要參考?xì)W盟在會(huì)議后發(fā)布的詳盡的官方稿件,完成文字初稿,再經(jīng)審閱而得。口譯錄音的轉(zhuǎn)寫(xiě)采用同傳培訓(xùn)中經(jīng)常使用的影子跟讀方法,一邊聽(tīng)口譯員的錄音,一邊大聲重復(fù)他們的譯文,同時(shí)利用語(yǔ)言識(shí)別軟件將復(fù)述的言語(yǔ)自動(dòng)輸出文字稿。譯文中的副語(yǔ)言特征(paralinguistic features)則由研究者補(bǔ)充完成。語(yǔ)料均帶有篇頭(header)標(biāo)注,包含與口譯輸出相關(guān)的信息,如言語(yǔ)的長(zhǎng)度(長(zhǎng)、短或中等)、發(fā)言模式(即興、帶稿或兩者兼有)和平均速度(快、中等、慢)以及有關(guān)講者的名字、國(guó)籍、性別和政治背景等,用作檢索的參數(shù)之一。EPIC語(yǔ)料庫(kù)采用POS標(biāo)注,意大利語(yǔ)和英語(yǔ)的文本用的是Treetagger軟件,西班牙語(yǔ)文本采用Freeling軟件。建成之后的語(yǔ)料庫(kù)共涵蓋三個(gè)源語(yǔ)文本(分屬意大利語(yǔ)、英語(yǔ)和西班牙語(yǔ))的子語(yǔ)料庫(kù)和六個(gè)譯語(yǔ)文本的子語(yǔ)料庫(kù)(參見(jiàn)李婧、李德超 2010:101-102)。
3 國(guó)外雙語(yǔ)語(yǔ)料庫(kù)研制與應(yīng)用評(píng)述
從以上述評(píng)可以看出,國(guó)外雙語(yǔ)語(yǔ)料庫(kù)在研制與應(yīng)用方面起步較早,已經(jīng)在語(yǔ)料庫(kù)技術(shù)和研究方法上有了相當(dāng)?shù)姆e累。但國(guó)外雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建和應(yīng)用方面也存在諸多問(wèn)題,主要表現(xiàn)出如下特點(diǎn):
第一,語(yǔ)料庫(kù)規(guī)模較小,語(yǔ)料代表性有限。
庫(kù)容方面,一些主要的語(yǔ)料庫(kù)在建庫(kù)初期的規(guī)模都較小,千萬(wàn)詞以上的大庫(kù)不多。如,克姆尼茨英-德翻譯語(yǔ)料庫(kù)項(xiàng)目開(kāi)始于1993年,目標(biāo)庫(kù)容150萬(wàn)詞,但到2001年為止僅達(dá)到50萬(wàn)(Kenny 2001:114);德語(yǔ)-英語(yǔ)文學(xué)文本平行語(yǔ)料庫(kù)(GEPCOLT)到2001年)的庫(kù)容為約2百萬(wàn)詞;英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)總庫(kù)容為260萬(wàn)詞;英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)到2000年左右?guī)烊轂榧s460萬(wàn)詞。但許多語(yǔ)料庫(kù)都定位為開(kāi)放式語(yǔ)料庫(kù),在不斷增加文本的收入量。
代表性問(wèn)題包括模式(mode)、文類(lèi)(genre)、時(shí)間跨度(time span)、語(yǔ)料選材等方面。總體而言,書(shū)面語(yǔ)語(yǔ)料庫(kù)多于口譯語(yǔ)料庫(kù),主要原因在于口譯語(yǔ)料庫(kù)建庫(kù)難度相對(duì)較大。文類(lèi)上以文學(xué)文本為主的通用型語(yǔ)料庫(kù)較多,語(yǔ)料時(shí)間跨度小。
以口譯語(yǔ)料庫(kù)為例,加拿大議會(huì)會(huì)議錄英法平行語(yǔ)料庫(kù)的語(yǔ)料主要為根據(jù)錄音轉(zhuǎn)寫(xiě)的書(shū)面文本,口語(yǔ)文本中較為常見(jiàn)的停頓、中斷和張口出錯(cuò)(false starts)等現(xiàn)象在轉(zhuǎn)寫(xiě)時(shí)被去掉了,文本在很大程度上已經(jīng)被范化(normalised)(McEnery & Wilson 2001:168)。這樣的語(yǔ)料庫(kù)并非完全真實(shí)的語(yǔ)料,用于口譯研究,難免會(huì)有一些誤差。歐洲議會(huì)口譯語(yǔ)料庫(kù)(EPIC)語(yǔ)料文本主要參考?xì)W盟在會(huì)議后發(fā)布的詳盡的官方稿件,完成文字初稿,再經(jīng)審閱而得。但對(duì)口譯錄音的轉(zhuǎn)寫(xiě)采用同傳培訓(xùn)中使用的影子跟讀方法,一邊聽(tīng)口譯員的錄音,一邊大聲重復(fù)他們的譯文,同時(shí)利用語(yǔ)言識(shí)別軟件將復(fù)述的言語(yǔ)自動(dòng)輸出文字稿,譯文中的副語(yǔ)言特征(paralinguistic features)則由研究者補(bǔ)充完成(參見(jiàn)李婧、李德超 2010:101)。由此看來(lái),這樣的口譯語(yǔ)料依然是從實(shí)驗(yàn)環(huán)境下得來(lái),盡管可以在一定程度上描寫(xiě)口譯過(guò)程,但這與真實(shí)情景下的口譯過(guò)程還存在一定的差異。
文類(lèi)方面,大多語(yǔ)料庫(kù)定位為通用語(yǔ)料庫(kù),但語(yǔ)料來(lái)源較為單一。如克姆尼茨英-德翻譯語(yǔ)料庫(kù)的語(yǔ)料包括從當(dāng)代英美文學(xué)到科學(xué)教科書(shū)等類(lèi)型;德語(yǔ)-英語(yǔ)文學(xué)文本平行語(yǔ)料庫(kù)(GEPCOLT)的語(yǔ)料限制在敘事小說(shuō)文本方面。英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)包括文學(xué)和非文學(xué)文本兩大類(lèi),文學(xué)文本以小說(shuō)文本為主;英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)的語(yǔ)料包括文學(xué)(或虛構(gòu)文本)與非文學(xué)(信息性文本)兩大類(lèi),主要為散文(prose),不包括詩(shī)歌、戲劇等,也不包括自譯文本、兒童文學(xué)文本、教科書(shū)和簡(jiǎn)寫(xiě)本,時(shí)間跨度主要集中在1976-2000年間;葡萄牙語(yǔ)-英語(yǔ)雙向平行語(yǔ)料庫(kù)建成初期僅包括文學(xué)文本;英語(yǔ)-意大利語(yǔ)雙向平行語(yǔ)料庫(kù)時(shí)間跨度主要集中在1976-2000年間。而且以上所述大多數(shù)語(yǔ)料庫(kù)都采用抽樣的方法來(lái)采集語(yǔ)料,使語(yǔ)料的代表性收到一定限制。
第二,研究切入點(diǎn)不夠,基于雙語(yǔ)庫(kù)的語(yǔ)言類(lèi)歷時(shí)研究闕如。
雙語(yǔ)平行語(yǔ)料庫(kù)研制初期,基于雙語(yǔ)庫(kù)的研究主要側(cè)重于語(yǔ)言對(duì)比,盡管也涉及到一些翻譯研究,但主要是與機(jī)器翻譯或計(jì)算機(jī)文字處理的輔助研究。研究的切入點(diǎn)主要在詞匯方面,研究成果的應(yīng)用主要是詞典編纂、語(yǔ)法研究等。2000年以后,對(duì)翻譯語(yǔ)言特征、語(yǔ)言共性等方面的關(guān)注越來(lái)越多。主要原因在于,為了區(qū)別于傳統(tǒng)的源文本-目標(biāo)文本的語(yǔ)際對(duì)比模式,語(yǔ)料庫(kù)翻譯學(xué)發(fā)展初期主要采用目標(biāo)語(yǔ)中翻譯文本與非翻譯文本比較的語(yǔ)內(nèi)類(lèi)比模式。之后一些學(xué)者(如Kenny 2001,2005)建議將平行語(yǔ)料庫(kù)重新引入語(yǔ)料庫(kù)翻譯研究中,作為對(duì)類(lèi)比模式的補(bǔ)充。目前的研究課題依然主要放在翻譯共性和譯者風(fēng)格方面。隨著語(yǔ)料庫(kù)規(guī)模的不斷擴(kuò)大,時(shí)間跨度可以作為一個(gè)參數(shù)來(lái)考察翻譯語(yǔ)言或翻譯給原創(chuàng)語(yǔ)言的歷時(shí)變化。近年來(lái),除了翻譯共性和譯者風(fēng)格外,通過(guò)語(yǔ)料庫(kù)方法探索翻譯對(duì)語(yǔ)言的影響開(kāi)始成為語(yǔ)料庫(kù)翻譯研究的一個(gè)新課題(參見(jiàn)黃立波、王克非 2011:917-918)。
第三,專(zhuān)門(mén)語(yǔ)料庫(kù)的研制與應(yīng)用滯后。
資金、版權(quán)、人力、技術(shù)等因素對(duì)語(yǔ)料庫(kù)的規(guī)模有一定的限制。各主要雙語(yǔ)庫(kù)對(duì)專(zhuān)門(mén)類(lèi)型的文本都有一定程度的收錄,但在數(shù)量上還遠(yuǎn)不能滿(mǎn)足現(xiàn)階段各專(zhuān)門(mén)用途類(lèi)翻譯理論研究與應(yīng)用研究的需求,語(yǔ)料的文類(lèi)對(duì)研究結(jié)果有一定的影響。目前國(guó)際上大多語(yǔ)料庫(kù)還僅限于文學(xué)和非文學(xué)兩種,較為籠統(tǒng)。文學(xué)文本則以小說(shuō)、散文為主,非文學(xué)作品則以新聞、政論、科技等為主。對(duì)文學(xué)文本之下的戲劇、詩(shī)歌等,以及非文學(xué)文本中的財(cái)經(jīng)、法律、歷史、農(nóng)林、醫(yī)藥等文類(lèi)細(xì)化不夠。近年來(lái),對(duì)專(zhuān)門(mén)文類(lèi)語(yǔ)料庫(kù)的關(guān)注開(kāi)始顯現(xiàn)。一些研究中的語(yǔ)料已不僅限于文學(xué)與非文學(xué)的劃分,而是涉及商業(yè)、旅游、醫(yī)學(xué)、以及航空等具體文類(lèi)。
第四,雙語(yǔ)庫(kù)基礎(chǔ)上的應(yīng)用研究和相關(guān)技術(shù)開(kāi)發(fā)不足。
大型的雙語(yǔ)庫(kù)還很少應(yīng)用于教學(xué)研究和譯員培訓(xùn)等方面,尤其表現(xiàn)在:1)這些雙語(yǔ)平行語(yǔ)料庫(kù)大都有在線(xiàn)檢索平臺(tái),但以這些雙語(yǔ)庫(kù)為基礎(chǔ)建立的教學(xué)平臺(tái)則很少。現(xiàn)有的平臺(tái)僅能提供詞語(yǔ)、搭配、句對(duì)等簡(jiǎn)單檢索,利用率不高。隨著今后語(yǔ)料標(biāo)注與加工技術(shù)的發(fā)展,更加完善的檢索平臺(tái)應(yīng)該能夠提供更多類(lèi)型的多重檢索服務(wù);2)口譯語(yǔ)料庫(kù)研究的最終目的,是在對(duì)口譯現(xiàn)象進(jìn)行描寫(xiě)和解釋的基礎(chǔ)上,達(dá)到將研究成果應(yīng)用于翻譯教學(xué)和譯員培訓(xùn),開(kāi)發(fā)以雙語(yǔ)口譯語(yǔ)料庫(kù)為基礎(chǔ)的教學(xué)或培訓(xùn)平臺(tái),目前此類(lèi)研究在理論上已取得了一定成果,但相關(guān)的應(yīng)用研究尚未大規(guī)模展開(kāi);3)現(xiàn)有的翻譯教學(xué)軟件大多為翻譯記憶軟件,適用性和效果還存在不少問(wèn)題。雙語(yǔ)庫(kù)可以作為翻譯教學(xué)軟件的豐富資源,但目前以雙語(yǔ)庫(kù)為基礎(chǔ)的翻譯教學(xué)軟件尚不多見(jiàn)。一個(gè)原因是版權(quán)的限制,另一個(gè)原因則是標(biāo)注技術(shù)的局限,使得有利于課堂教學(xué)的翻譯現(xiàn)象的計(jì)算機(jī)提取還不完善。
4 結(jié)語(yǔ)
語(yǔ)料庫(kù)翻譯學(xué)是語(yǔ)料庫(kù)語(yǔ)言學(xué)與描寫(xiě)翻譯研究相結(jié)合基礎(chǔ)上發(fā)展起來(lái)的,前者為這一新研究范式提供理念和技術(shù)支持,后者則為其提供研究課題。因此,新型語(yǔ)料庫(kù)的開(kāi)發(fā)與研制是今后語(yǔ)料庫(kù)翻譯學(xué)取得新突破的硬件基礎(chǔ),雙語(yǔ)庫(kù)在翻譯研究中的潛力還有待于進(jìn)一步開(kāi)發(fā)。上述對(duì)國(guó)外雙語(yǔ)語(yǔ)料庫(kù)的述評(píng)和討論,其實(shí)也提出了不少今后研究的課題,如何更好的構(gòu)建超大型、多用途的雙語(yǔ)平行語(yǔ)料庫(kù),是國(guó)內(nèi)外學(xué)界的一項(xiàng)新課題。同時(shí),進(jìn)一步注重方法論也是語(yǔ)料庫(kù)翻譯學(xué)研究的新趨勢(shì)。
參考文獻(xiàn)
Aijmer, K. 2001. Probably in Swedish translations—a case of translationese[A]? In S. Allén, S. Berg, S.-G. Malmgren, K. Norén & B. Ralph (eds.). G?ller stam, suffix och ord[C]. G?teborg: Meijerbergs institut f?r svensk etymologisk forskning, 1-13.
Altenberg, B., K. Aijmer & M. Svensson. 2001. The English-Swedish Parallel Corpus (ESPC): Manual of enlarged version[OL]. http://www.sol.lu.se/engelska/corpus/corpus/espc.html (acessed on 15/03/2012).
Axelsson, K. 2006. Tag questions in English translations from Swedish and Norwegian—are there differences[A]? In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som k?llspr?k och m?lspr?k[C]. G?teborg: ?vers?ttarutbildningen vid Humanistiska fakulteten, 4–21.
Bernardini, S. & F. Zanettin. 2004. When is a Universal not a Universal? Some limits of current corpus-based methodologies for the investigation of translation universals [A]. In A. Mauranen and P. Kujam?ki (eds.). Translation Universals — Do They Exist [C]? Amsterdam: John Benjamins, 51-62.
Blum-Kulka, S. 1986. Shifts of cohesion and coherence in translation[A]. In J. House & S. Blum-Kulka (eds.). Interlingual and Intercultural Communication. Discourse and Cognition in Translation and Second Language Acquisition Studies[C]. Tübingen: Gunter Narr Verlag, 17-35.
Frankenberg-Gacia, A. 2004. Are translations longer than source texts? A corpus-based study of explicitation[A]. Paper presented at the Third International CULT (Corpus Use and Learning to Translate) Conference, Barcelona, 22-24 January 2004[OL]. http://www.linguateca.pt/Repositorio/ Frankenberg-Garcia2004.doc (accessed 04/07/2006).
Fredriksson, A. 2006. On passives and translation strategies in parallel texts[A]. In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som k?llspr?k och m?lspr?k[C]. G?teborg: ?vers?ttarutbildningen vid Humanistiska fakulteten, 75–91.
Gustawsson, E. 2006. Translation of English verbal idioms into Swedish[A]. In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som k?llspr?k och m?lspr?k[C]. G?teborg: ?vers?ttarutbildningen vid Humanistiska fakulteten, 92–108.
Johansson, M. 2001. Clefts in contrast: a contrastive study of it clefts and wh clefts in English and Swedish texts and translations[J]. Linguistics 39: 547-582.
Johansson, M. 2002. Clefts in English and Swedish. A contrastive study of it-clefts and wh-clefts in original texts and translations[M]. unpublished PhD dissertation. Department of English, Lund University.
Johansson, S., J. Ebeling & S. Oksefjell. 1999/2002. English-Norwegian Parallel Corpus: Manual[Z]. Department of British and American Studies, University of Oslo,
Kenny, D. 1999. Translators at play: exploitations of collocational norms in German-English translation[A]. In B. Dodd (ed.). Working with German Corpora[C]. Birmingham: University of Birmingham Press, 143-160.
Kenny, D. 2001. Lexis and Creativity in Translation: A corpus-based study[M]. Manchester: St. Jerome.
Kenny, D. 2005. Parallel corpora and translation studies: old questions, new perspectives? Reporting that in Gepcolt: a case study[A]. In G. Barnbrook, P. Danielsson & M. Mahlberg (eds.). Meaningful Texts: The Extraction of Semantic Information from Monolingual and Multilingual corpora[C]. London: Continuum, 154-165.
Klavans, J. & E. Tzoukermann. 1995. Combining corpus and machine-readable dictionary data for building bilingual lexicons[J]. Machine Translation. 10(3): 185-218.
McEnery, T. & A. Wilson. 2001. Corpus linguistics: An introduction (2nd edition)[M]. Edinburgh: Edinburgh University Press.
Olohan, M. & M. Baker. 2000. Reporting that in Translated English: Evidence for Subconscious Processes of Explicitation[J]. Across Languages and Cultures 1(2): 141-158.
Olohan, M. 2004. Introducing Corpora in Translation Studies[M]. London: Routledge.
?ver?s, L. 1998. In search of the third code. An investigation of norms in literary translation[J]. Meta, 43(4): 571-588.
Roukos, S., D. Graff & D. Melamed. 1995. Hansard French/English[Z]. Philadelphia: Linguistic Data Consortium. (http://www.ldc.upenn.edu/Catalog/CatalogEntry. jsp?catalogId=LDC95T20 accessed on 24/03/2012)
Ruin, I. 2001. Nonfinite versus finite constructions—a problem in the translation of Swedish literary texts into English[A]? In W. Vagle & K. Wikberg (eds.). New directions in Nordic text linguistics and discourse analysis: Methodological issues[C]. Oslo: Novus Forlag, 243-253.
Schmied, J. & H. Schaffler. 1996. Explicitness as a universal feature of translation[A]. In M. Ljung (ed.). Corpus-based studies in English: Papers from the seventeenth International Conference on English Language Research on Computerized Corpora (ICAME 17)[C]. Amsterdam: Rodopi, 21-36.
Schmied, J. 1994. Translation and cognitive structures. Hermes[J]. Journal of Linguistics (13): 169-181.
Schmied, J. 1998. Differences and similarities of close cognates: English with and German mit[A]. In S. Johansson & S. Oksefjell (eds.). Corpora and cross-linguistic research: Theory, method and case studies[C]. Amsterdam: Rodopi, 255-176.
Schmied, J. 1999. Applying contrastive corpora in modern contrastive grammars: the Chemnitz Internet Grammar of English[A]. In H. Hasselgard & S. Oksefjell (eds.). Out of corpora. Studies in honour of Stig Johansson[C]. Amsteram: Rodopi, 21-30.
Zanettin, F. 2002. CEXI. Designing and English-Italian Translational Corpus[A]. In B. Ketteman & G. Marko (eds.). Teaching and Learning by Doing Corpus Analysis[C]. Amsterdam: Rodopi, 329-343.
黃立波、王克非,2011,語(yǔ)料庫(kù)翻譯學(xué):課題與進(jìn)展[J]. 外語(yǔ)教學(xué)與研究》43(6):911-923。
李婧、李德超,2010,基于語(yǔ)料庫(kù)的口譯研究:回顧與展望[J],《中國(guó)外語(yǔ)》7(5):100-105。
作者:王克非,北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心教授、博士,主要研究語(yǔ)言學(xué)和翻譯學(xué),電郵:kfwang@bfsu.edu.cn;黃立波,西安外國(guó)語(yǔ)大學(xué)英語(yǔ)學(xué)院副教授、博士,主要研究語(yǔ)料庫(kù)翻譯學(xué),電郵:libohuang2003@yahoo.com.cn。