最近2019中文字幕大全视频10,一出一进一爽一粗一大视频,中文www天堂网,中文字幕日韩三级片,亚洲欧洲av一区二区久久

舊版網(wǎng)站入口

站內(nèi)搜索

中外關(guān)系數(shù)據(jù)庫建設(shè)中期檢查報告

2019年11月18日14:13來源:全國哲學(xué)社會科學(xué)工作辦公室

一、研究進(jìn)展情況

主要內(nèi)容:

一、研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況

為了評估中國周邊外交環(huán)境,課題組整理了中外關(guān)系數(shù)據(jù)來分析中國與外交關(guān)系。

二、調(diào)查研究及學(xué)術(shù)交流情況

(1)調(diào)研數(shù)據(jù)及文獻(xiàn)整理運(yùn)用

為準(zhǔn)確衡量中外關(guān)系,本課題探究了大量相關(guān)數(shù)據(jù)庫,包括:

一、中國權(quán)威的外交新聞網(wǎng)站

二、西方整理的各類別專項數(shù)據(jù)庫:關(guān)于軍事沖突,有烏普薩拉沖突數(shù)據(jù)項目(Uppsala Conflict Data Program)與奧斯陸國際和平研究機(jī)構(gòu)(International Peace Research Institute, Oslo)聯(lián)合制作的“武裝沖突數(shù)據(jù)集”(UCDP/PRIO Armed Conflict Dataset, Version 4-2014a)。關(guān)于國內(nèi)政治治理,有Property Right Protection(PRS Group’s International Country Risk Guide)。關(guān)于經(jīng)濟(jì)風(fēng)險,有PRS Group’s International Country Risk Guide。國內(nèi)風(fēng)險有IMF數(shù)據(jù),投資風(fēng)險主要從法律政策變動風(fēng)險、貿(mào)易保護(hù)主義風(fēng)險、能源價格波動風(fēng)險、通貨膨脹風(fēng)險、匯率風(fēng)險等進(jìn)行評估。關(guān)于社會狀況,包括人口密度、民族數(shù)量, “世界概況(World Fact book)”。關(guān)于與中國經(jīng)貿(mào)關(guān)系,即與中國貿(mào)易往來,有COW數(shù)據(jù)庫的“國際貿(mào)易數(shù)據(jù)集”(International Trade Dataset, version 3.0)。關(guān)于各國的軍費(fèi)開支,有斯德哥爾摩沖突數(shù)據(jù)庫。

三、西方整理的外交事件數(shù)據(jù)庫:本課題組參考了大量關(guān)于沖突的事件數(shù)據(jù)。其中重要的數(shù)據(jù)庫有以下幾項:國際學(xué)界常用的奧布萊恩(O’Brien)研究的綜合沖突早期預(yù)警系統(tǒng)(the Integrated Conflict Early Warning System),該系統(tǒng)采用從多種渠道獲得關(guān)于175個國家的650萬條新聞,并用機(jī)器編碼將之建構(gòu)成數(shù)據(jù)集。賓夕法尼亞州立大學(xué)的“計算事件數(shù)據(jù)系統(tǒng)”項目(The Computational Event Data System),該項目嘗試將網(wǎng)絡(luò)上的大量關(guān)于沖突的新聞轉(zhuǎn)換成事件數(shù)據(jù)!罢蝿邮庮A(yù)測項目組”(Political Instability Task Force, 簡稱PITF,此前也稱國家失敗預(yù)測項目組State Failure Task Force),該項目試圖預(yù)測各國政治動蕩,建立對于全球政治穩(wěn)定性問題的預(yù)警系統(tǒng)。

四、引入網(wǎng)絡(luò)大數(shù)據(jù): “綜合沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System,ICEWS),以及使用電腦自動編碼的google提供的 GDELT全球事件數(shù)據(jù)項目(GDELT Event Database)。其他大數(shù)據(jù)來源,包括GIS地理信息系統(tǒng)(Geographic Information System或 Geo-Information system)和全球夜間燈光數(shù)據(jù)。

五、全球新聞媒體,包括《紐約時報》、《華盛頓郵報》、英國《鏡報》、《衛(wèi)報》、《路透社》、《法國新聞社》、新加坡《聯(lián)合早報》、《海峽時報》、馬來西亞《新海峽時報》 、《先鋒報》、《當(dāng)今大馬》、《星報》 、《星洲日報》 、印尼《雅加達(dá)郵報》、《指南針報》、菲律賓《星報》、《馬尼拉公報》、泰國《曼谷郵報》柬埔寨《柬華日報》、韓國韓聯(lián)社、朝鮮朝中社、俄羅斯俄通社、日本《朝日新聞》、《讀賣新聞》。

本課題組根據(jù)以上資料來源,通過整理海量新聞事件,建立了1950年至今的中國與美國、日本、俄羅斯、英國、法國、德國、印度、巴基斯擔(dān)、澳大利亞、越南、印尼、韓國、歐盟外交關(guān)系事件庫。與傳統(tǒng)的數(shù)據(jù)庫往往以年為單位不同,這一數(shù)據(jù)庫對于雙邊關(guān)系的衡量細(xì)化到以月為單位。例如,研究人員可以得到每個月中美關(guān)系正面事件的分值,負(fù)面事件的分值以及中美關(guān)系的分值。而且從具體事件看,該數(shù)據(jù)庫也細(xì)化到了以日為單位,例如研究者可以知道哪一天發(fā)生了雙邊首腦會晤或外長會晤等外交事件。每一個事件均被細(xì)分成多個維度。因此,這一數(shù)據(jù)庫對于學(xué)者們研究中國外交的特點(diǎn),發(fā)現(xiàn)其規(guī)律具有明顯幫助。

(2)學(xué)術(shù)會議

2015年10月至今,本課題組每月召開中國對外數(shù)據(jù)統(tǒng)計分析會議,包括中國各高校專家和助理學(xué)生15人左右,至今已召開40多次。會議對每個月的中外關(guān)系進(jìn)行數(shù)據(jù)挖掘、量化衡量、規(guī)律探究、經(jīng)驗總結(jié)和關(guān)系預(yù)測,有效提高了本課題組對中外關(guān)系的預(yù)測和預(yù)警成功率。

圍繞課題內(nèi)容,課題組舉辦了各類國內(nèi)的學(xué)術(shù)會議,包括:2015年12月舉行的“從清華路徑到道義現(xiàn)實主義”學(xué)術(shù)研討會,2018年7月舉行的 “中美關(guān)系再思考”研討會, 2018年7月舉辦的“大數(shù)據(jù)與國際關(guān)系研究”學(xué)術(shù)研討會。

(3)學(xué)術(shù)交流

在項目進(jìn)展過程中,本課題組與機(jī)構(gòu)進(jìn)行了密切的交流與合作。

(4)國際合作

課題組也舉辦相關(guān)的國際會議,2016年12月在清華大學(xué)舉行了“中國學(xué)者爭論國際關(guān)系”國際研討會,該會議由澳大利亞格里菲斯大學(xué)和清華大學(xué)國際關(guān)系研究院聯(lián)合主辦,來自格里菲斯大學(xué)、美利堅大學(xué)、劍橋大學(xué)、亞利桑那州立大學(xué)、內(nèi)華達(dá)大學(xué)以及國內(nèi)各高校的20余位專家學(xué)者參加此次會議。

三、成果宣傳推介情況

(1)成果發(fā)布會

由于本課題成果尚未徹底完成,當(dāng)前還沒有召開成果發(fā)布會

(2)《工作簡報》報送情況、國家社科基金?陡寮安捎们闆r

本課題組將在下一階段積極將現(xiàn)有成果投稿給《工作簡報》和國際社科基金?。

四、研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議

(1)主要問題

本課題總體進(jìn)展順利,相關(guān)研究成果陸續(xù)完成。研究成果的主要問題是:首先,本項課題只研究了1950年至今中國與七大國(美、日、俄、英、法、印、德)和五個周邊國家(韓、巴、印尼、越南、澳大利亞)的外交關(guān)系數(shù)據(jù),囿于人力所限,沒能對中國與世界所有國家的外交關(guān)系進(jìn)行數(shù)據(jù)梳理。其原因在于,為了確保數(shù)據(jù)的精確性,本課題只采用了人工編碼的方法。

其次,課題在進(jìn)程方面與國家社科規(guī)劃辦溝通不及時。

(2)改進(jìn)措施

對于以上兩項問題,將通過以下措施進(jìn)行改進(jìn)。

首先,采取人工編碼與機(jī)器編碼相結(jié)合的方法,爭取將中外關(guān)系衡量擴(kuò)展到世界各國。

其次,進(jìn)行及時的溝通匯報。

(3)研究心得

首先,本數(shù)據(jù)庫是關(guān)于中國外交關(guān)系的第一個具體到國別的雙邊關(guān)系數(shù)據(jù)庫。在國際關(guān)系領(lǐng)域,目前國外已經(jīng)有一些比較成熟和權(quán)威的數(shù)據(jù)庫,然而,國外的數(shù)據(jù)庫大多集中于西方資料,缺少與中國相關(guān)的數(shù)據(jù),因此我國需要建立與本國相關(guān)的數(shù)據(jù)。在數(shù)據(jù)建設(shè)中,關(guān)鍵是要找到可以量化的變量,通過對變量的數(shù)據(jù)進(jìn)行整理,可以有助與于推進(jìn)學(xué)界研究進(jìn)展。本數(shù)據(jù)庫解決了對中國外交相關(guān)變量和指標(biāo)的衡量問題:關(guān)于中國外交,本數(shù)據(jù)庫不僅僅是衡量雙邊關(guān)系的具體程度和分值,還按照所屬領(lǐng)域性質(zhì),將所有相關(guān)維度區(qū)分為經(jīng)濟(jì)類、安全類、政治類和文化類。例如,對于中國對于某一國家的外交關(guān)系,我們可以根據(jù)中國與這一國家的經(jīng)濟(jì)往來、貿(mào)易協(xié)議、軍事交流以及首腦互訪等指標(biāo)加以衡量。其中,上述指標(biāo)都可以數(shù)量化,因此,就可以建立對中國對不同國別的雙邊關(guān)系的數(shù)據(jù)庫。

第二、本課題組在分解事件維度時,按照國際關(guān)系專業(yè)的特性,將每一事件分成眾多維度。由于以上維度都可以直接變成國際關(guān)系領(lǐng)域的研究變量,這可以直接幫助研究人員進(jìn)行研究。

第三、本課題組借助大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,有效地提高了預(yù)測的準(zhǔn)確率。本課題組對于數(shù)據(jù)維度、變量和指標(biāo)進(jìn)行了精心的整理。不同于ICEWS和GDELT采取自動編碼的方式,本課題組采用人工編碼,確保了數(shù)據(jù)的準(zhǔn)確性。從數(shù)據(jù)維度上看ICEWS在CAMEO系統(tǒng)中總共有20大類超過300種不同的事件類型。而GDELT又將300多類的事件最終分成四個大類,即言語合作(verbal cooperation)、現(xiàn)實合作(material cooperation)、言語對抗(verbal conflict)和現(xiàn)實對抗(material conflict)。但以上維度容易忽視事件發(fā)生雙方的具體外交人員及其職務(wù)、以及合作或沖突的程度。

第四、本數(shù)據(jù)建立了完善的入庫數(shù)據(jù)的真?zhèn)闻袆e機(jī)制,能夠更真實地表達(dá)雙邊關(guān)系的特性。在大數(shù)據(jù)時代,有些研究人員會直接根據(jù)爬蟲等數(shù)據(jù)挖掘技術(shù),將相關(guān)新聞報道直接算入數(shù)據(jù),但是這會導(dǎo)致數(shù)據(jù)庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現(xiàn)以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復(fù)記入,導(dǎo)致數(shù)據(jù)庫不精確。此外,機(jī)器編碼還有可能在對事件編碼時錯誤抽取關(guān)鍵變量。

(4)意見建議

本課題組根據(jù)中外關(guān)系的大量數(shù)據(jù),能夠觀察到中外關(guān)系變化的趨勢,對于中外關(guān)系的變化能進(jìn)行成功預(yù)警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

首先,成功對于中美關(guān)系的競爭狀態(tài)進(jìn)行了早期預(yù)警。早在2017年,課題組就發(fā)布報告《2018年中美關(guān)系惡化但無冷戰(zhàn)危險》。

其次、成功預(yù)測中韓關(guān)系在薩德事件后不會明顯惡化。對于中韓關(guān)系,本課題組預(yù)測,盡管“薩德”事件發(fā)生后,有人擔(dān)心未來中韓關(guān)系會因此而持續(xù)惡化,但是根據(jù)本課題組對2000年以來中韓關(guān)系變化的衡量,課題組認(rèn)為“薩德”事件對中韓關(guān)系的負(fù)面影響不太嚴(yán)重,雙邊關(guān)系惡化程度不大(《“薩德”事件后中韓關(guān)系不會過度惡化》,《國際政治科學(xué)》2016年第4期)。根據(jù)課題組對中韓關(guān)系的衡量,自建交以來,中韓關(guān)系逐年穩(wěn)步提升。在下圖中比較了中韓關(guān)系和中日關(guān)系自2000年以來的變化,從中可以看出,在2000年,中韓關(guān)系與中日關(guān)系水平接近,然而“釣魚島事件”等矛盾導(dǎo)致中日關(guān)系急劇惡化,相較而言,中韓關(guān)系曲線穩(wěn)中有升,因此課題組預(yù)測,“薩德”問題對中韓關(guān)系未來變化的負(fù)面影響依然有限。

第三、課題組成功對于中越關(guān)系作出了正確判斷。對于中越關(guān)系,根據(jù)我們的長期跟蹤研究,認(rèn)為南海仲裁案對中越關(guān)系的影響是負(fù)面的,但尚不足以致使雙邊關(guān)系嚴(yán)重惡化。南海仲裁案結(jié)果發(fā)布后,越南政府無意改變南海地區(qū)的現(xiàn)狀,也無意為了南海爭端與中國全面對抗,故此中越關(guān)系可以維持現(xiàn)狀。(《2017年底前中越關(guān)系不會嚴(yán)重惡化》《國際政治科學(xué)》2016年第1卷第3期)

二、研究成果情況

主要內(nèi)容:

一、代表性成果簡介

(1)基本內(nèi)容

研究成果分為三部分:首先、建立了兩個數(shù)據(jù)庫:①定量衡量的1950-2014年的中國與大國關(guān)系數(shù)據(jù)庫,②定量衡量的1950-2014年的中國與周邊中等國家關(guān)系數(shù)據(jù)庫。

第三、完成了專著 1 本,發(fā)表中文 CSSCI 論文 18篇。自2015年以來課題組每月跟蹤中外關(guān)系變化,并且每季度發(fā)表對于中外關(guān)系衡量結(jié)果的報告,在CSSCI期刊《國際政治科學(xué)》發(fā)表了11篇中國對外關(guān)系的預(yù)測報告:此外,課題組成員在權(quán)威的國際關(guān)系期刊上,根據(jù)本數(shù)據(jù)庫和定量衡量發(fā)表了一系列相關(guān)研究,期刊包括《中國社會科學(xué)》、《世界經(jīng)濟(jì)與政治》和《當(dāng)代亞太》等。課題組就在整理數(shù)據(jù)庫的基礎(chǔ)上,出版了專著1本:閻學(xué)通與齊皓的著作《中國與周邊中等國家關(guān)系》(社會科學(xué)文獻(xiàn)出版2015年版)。

(2)主要觀點(diǎn)

本課題的主要目標(biāo)是結(jié)合大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)模型對中外關(guān)系進(jìn)行衡量、預(yù)測,有效提出對外環(huán)境合理應(yīng)對的建議。

(一)雙邊關(guān)系衡量賦值

本項目主要方法是對雙邊關(guān)系進(jìn)行定量衡量,核心是解決從事件賦值向關(guān)系賦值的轉(zhuǎn)化,首先是對數(shù)據(jù)來源進(jìn)行選擇。其次是將數(shù)據(jù)來源中與我們的研究對象和研究范圍有關(guān)的事件進(jìn)行篩選和歸類。第三是在“沖突-合作”這一維度上,根據(jù)對雙邊關(guān)系的影響力大小將已發(fā)生事件轉(zhuǎn)換成一維的事件分值。第四是把事件分值進(jìn)一步轉(zhuǎn)換成對雙邊關(guān)系的影響值。最后把由事件導(dǎo)致的雙邊關(guān)系的變化值疊加在上個月雙邊關(guān)系的分值上,得到當(dāng)月的雙邊關(guān)系分值。

要有效衡量國家雙邊關(guān)系友好或敵對程度,其核心問題是解決從事件賦值向關(guān)系賦值的轉(zhuǎn)化。我們的基本設(shè)想是,雙邊關(guān)系是由眾多事件組成的,這些事件隨著時間的推移形成了一個“事件流”,對雙邊關(guān)系的衡量需要在事件累積和流動兩個維度上同時進(jìn)行衡量。也就是說,對事件影響力進(jìn)行累積是我們衡量的起點(diǎn),測量事件影響力隨時間流動的變化是衡量的過程,雙邊關(guān)系現(xiàn)狀是衡量的終點(diǎn)。將事件分值轉(zhuǎn)化為雙邊關(guān)系分值的合理性,將取決于轉(zhuǎn)化后的雙邊關(guān)系分值能否與實際經(jīng)驗相一致,至少要有很強(qiáng)的相似性。為此,我們設(shè)計了如下定量衡量雙邊關(guān)系的流程。為此,我們設(shè)計了如下定量衡量雙邊關(guān)系的流程。

(二)中國外交數(shù)據(jù)庫編碼

為了更好地體現(xiàn)中外關(guān)系,使數(shù)據(jù)庫中的各個維度有利于對中外關(guān)系的研究,本課題組對具體事件的編碼維度做了如下劃分。按照外交事件的具體內(nèi)容劃分細(xì)類,對于具體事件的不同維度,課題組將之劃分為五大類別。

綜上可知,以上編碼是我們可以針對具體研究問題進(jìn)行研究的基礎(chǔ)。

(三)雙邊關(guān)系預(yù)測

本課題組根據(jù)中外關(guān)系的大量數(shù)據(jù),能夠觀察到中外關(guān)系變化的趨勢,對于中外關(guān)系的變化能進(jìn)行成功預(yù)警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

在對采集的數(shù)據(jù)建模中,本課題組也采用了大量適宜的模型,以提高預(yù)測的準(zhǔn)確率和對深層因果機(jī)制的探究。課題組綜合采用傳統(tǒng)回歸方法和機(jī)器學(xué)習(xí)算法,包括以下模型和方法: ①Logit模型,這一回歸對因變量為分類數(shù)據(jù)的情況進(jìn)行回歸,最后得出自變量對因變量概率變化的影響。②面板數(shù)據(jù)模型,包括動態(tài)面板模型和空間面板模型,本研究應(yīng)用面板數(shù)據(jù)模型從抽象層面綜合分析中國與諸大國和周邊國家歷年來外交關(guān)系走勢,判斷核心影響因素,進(jìn)而預(yù)測未來中國外交的情況!③時間序列預(yù)測:回歸預(yù)測對自變量的要求很高,若不能窮盡所有有影響的自變量,則可能預(yù)測準(zhǔn)確度較差。時間序列預(yù)測是根據(jù)變量的過去變化推斷其未來趨勢。適用于自變量過于復(fù)雜,難以建立精確模型的情況。時間序列分析的實質(zhì)是找到數(shù)據(jù)間的相關(guān)性,最后留下白噪聲(white noise)。在看似無序的數(shù)據(jù)中,分離出規(guī)律和無序。本課題將這一模型應(yīng)用于雙邊關(guān)系預(yù)測。④樸素貝葉斯模型,這一模型是根據(jù)特征預(yù)測出其類別。但是因為樸素貝葉斯模型假設(shè)屬性之間相互獨(dú)立,這個假設(shè)在實際應(yīng)用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好。而在屬性相關(guān)性較小時,樸素貝葉斯性能最為良好。課題組采用這一模型進(jìn)行事件預(yù)測,即預(yù)測未來三個月是否會發(fā)生首腦訪問等重大事件。⑤隱馬爾科夫模型(HMM),該模型假設(shè)模型的當(dāng)前狀態(tài)僅僅依賴于前面的幾個狀態(tài)。n階馬爾科夫模型中n是影響下一個狀態(tài)的(前)n個狀態(tài)。 一階馬爾科夫過程包括狀態(tài)、pi向量和狀態(tài)轉(zhuǎn)移矩陣。本課題組將之應(yīng)用于對中國與美國、日本、俄羅斯、英國、法國、印度和德國的雙邊關(guān)系進(jìn)行預(yù)測。預(yù)測的時間段為未來三個月雙邊關(guān)系的變化。預(yù)測的內(nèi)容包括兩方面:一方面是關(guān)系走向預(yù)測,即未來三個月雙邊關(guān)系是升、降還是平?另一方面是變化程度預(yù)測,即如果預(yù)測未來某個月雙邊關(guān)系會上升,那么將上升多少?⑥基于不完全信息的信號博弈。

(3)學(xué)術(shù)價值

本課題的學(xué)術(shù)價值是:首先、本數(shù)據(jù)庫是以中文權(quán)威材料為基礎(chǔ)的第一個最全的中國外交數(shù)據(jù)庫。盡管西方也有關(guān)于中國的研究。但往往來源于西方媒體,其研究結(jié)論可能受報道偏向引導(dǎo)。本數(shù)據(jù)庫資料來源權(quán)威。除此之外,本數(shù)據(jù)庫根據(jù)課題組成員的語言和研究專長,發(fā)掘研究對象國相關(guān)政府機(jī)構(gòu)和重要媒體對雙邊關(guān)系信息的發(fā)布和報道。這樣的雙向數(shù)據(jù)收集可以增加信息來源的多樣性,通過比對雙方對同一事實的不同反應(yīng),有助于全面地記錄事實并增加賦值的客觀性。這為中國與周邊國家關(guān)系研究提供了大量原始數(shù)據(jù)和研究方法方面的啟示,近幾年來出現(xiàn)大量應(yīng)用“數(shù)據(jù)庫”數(shù)據(jù)或者以此方法研究中國與其他國家關(guān)系的學(xué)術(shù)論文。

其次,本數(shù)據(jù)庫借鑒了大數(shù)據(jù)GDELT,對傳統(tǒng)數(shù)據(jù)庫進(jìn)行了補(bǔ)充,找出國際關(guān)系大數(shù)據(jù)挖掘的具體領(lǐng)域。同時,本課題組也采用大數(shù)據(jù)應(yīng)用的機(jī)器學(xué)習(xí)算法,如隱馬爾科夫(HMM)模型、神經(jīng)網(wǎng)絡(luò)分析等,用于對未來的關(guān)系變化的預(yù)測。建立在數(shù)據(jù)基礎(chǔ)上的關(guān)系研究可以為中國與周邊國家外交提供有價值的關(guān)系走向預(yù)測,幫助政策機(jī)構(gòu)了解中國與周邊國家關(guān)系的階段性趨勢。

(4)社會影響

本課題組對相關(guān)數(shù)據(jù)進(jìn)行了長期細(xì)致整理,得到了社會的廣泛關(guān)注。

研究成果受到同行廣泛好評:此項數(shù)據(jù)庫被國內(nèi)外學(xué)者廣泛應(yīng)用:例如美國哈佛大學(xué)教授Iain Johnston應(yīng)用該數(shù)據(jù)分析中美關(guān)系,參見Alastair Iain Johnston, “Stability and Instability in Sino-US Relations: A Respnse to Yan Xuetong’s Superficial Friendship Theory”, The Chinese Journal of International Politics, 2011, Vol.4. No.1, pp.5-29。國內(nèi)學(xué)者李巍、張萌、龐昌偉、郭銳、王簫軻、徐奇淵、陳思翀等也應(yīng)用此數(shù)據(jù)庫進(jìn)行研究,成果發(fā)表于各CSSCI雜志!

第三、本課題的核心成果——中外關(guān)系數(shù)據(jù)受到社會廣泛關(guān)注,被中國電子科技集團(tuán)公司第二十八研究所采用。

三、下一步研究計劃

在項目推進(jìn)的這幾年期間,大數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等建模技術(shù)突飛猛進(jìn),為了更好提高項目研究質(zhì)量,與時俱進(jìn),本項目希望在以下方面繼續(xù)展開進(jìn)一步的深入研究工作。

1、對相關(guān)數(shù)據(jù)進(jìn)行深入挖掘與整理

(1)本項目組希望將中外關(guān)系數(shù)據(jù)從原來的1950-2014年擴(kuò)展至1950年-2018年

由于本項目立項時間為2015年,因此項目組在初期工作時將外交數(shù)據(jù)庫的整理截止時間設(shè)定為2014年。

(2)本項目組希望引入GDEELT等大數(shù)據(jù)作為新的數(shù)據(jù)來源

在本項目組的初期工作中,為了保證數(shù)據(jù)的權(quán)威性,采用的數(shù)據(jù)來源主要為國內(nèi)權(quán)威新聞媒體和網(wǎng)站。然而在英文大數(shù)據(jù)中,GDELT全球事件數(shù)據(jù)項目(GDELT Event Database)提供了全球100多種語言的媒體、網(wǎng)頁上的事件信息,時間跨度為1979年至今。數(shù)據(jù)量上億,包括國家、事件類型、地理位置等多個維度。因此本項目組希望在下一階段將GDELT納入數(shù)據(jù)來源,增加本數(shù)據(jù)庫的完整性和權(quán)威性。

(3)本項目組希望擴(kuò)大雙邊關(guān)系衡量的研究對象數(shù)量

在項目組的初期工作中,研究對象包括大國和周邊國家:美國、日本、蘇聯(lián)(俄羅斯)、英國、法國、德國、印度、韓國、印尼、澳大利亞、越南、巴基斯坦。在下一階段的工作中,本項目組希望可以將既有的數(shù)據(jù)庫中對雙邊關(guān)系的衡量作為測試集,采用交叉驗證( Cross Validation) 法,將從大樹數(shù)中挖掘到的數(shù)據(jù)集作為訓(xùn)練集,用訓(xùn)練集建模,用測試集加以檢驗。從而可以將雙邊關(guān)系衡量模型推廣到中國與其他各國的關(guān)系,進(jìn)而衡量中國與其他國家外交關(guān)系的賦值。

2、改進(jìn)事件的編碼體系,使用人機(jī)結(jié)合的方式,將人工編碼與機(jī)器編碼有效結(jié)合

(1)改進(jìn)事件的編碼體系

在數(shù)據(jù)庫中,對各變量維度的編碼是核心內(nèi)容。在編碼分類上,西方的事件數(shù)據(jù)庫中,主要的研究動機(jī)是希望適用于沖突領(lǐng)域,因此其事件的劃分類型和具體維度往往圍繞沖突相關(guān)的變量而進(jìn)行展開。在分析中國外交事件時,有些對于雙邊關(guān)系影響重大的類別,在CAMEO或者 ICEWS系統(tǒng)等西方常用編碼系統(tǒng)中則受到忽視。例如GDELT大數(shù)據(jù)庫使用的編碼體系也是CAMEO系統(tǒng)。在CAMEO系統(tǒng)中,共分為20大類,包括的事件有300個以上。在GDELT數(shù)據(jù)庫中,這300多類事件劃分為四個類別:口頭合作類(verbal cooperation)、事實合作類(material cooperation)、口頭沖突類(verbal conflict)和事實沖突類(material conflict),具體的維度有事件的發(fā)生時間、事件主動方的國家名、事件接受方的國名、事件的性質(zhì)、事件的影響、該事件在各網(wǎng)址新聞等數(shù)據(jù)來源中被提及的次數(shù),事件被報道時的語氣,事件發(fā)生地的地理經(jīng)緯度、數(shù)據(jù)錄入時間、事件的信息來源等。因此,為了更好地體現(xiàn)中外關(guān)系,在新的數(shù)據(jù)庫中,將提供有利于分析和衡量中外關(guān)系程度的變量作為編碼系統(tǒng)。

(2)采用事件的自動編碼軟件,使用人機(jī)結(jié)合的方式,將人工編碼與機(jī)器編碼相結(jié)合

本數(shù)據(jù)庫的核心內(nèi)容是對外交事件的編碼。數(shù)據(jù)庫內(nèi)容中,最重要的就是對變量維度的編碼,因為這直接決定了研究的內(nèi)容和方向。在西方創(chuàng)建的事件數(shù)據(jù)庫中,早期大量采取人工編碼方式。查爾斯·麥克萊蘭 (Charles McClelland)對外交史采取了人工手動編碼的方式。隨著計算機(jī)技術(shù)的進(jìn)步,一些研究項目開始采取計算機(jī)自動編碼的方式。在上個世紀(jì)80、90年代,美國堪薩斯事件數(shù)據(jù)系統(tǒng)(Kansas Event Data System,KEDS)利用WEIS的事件編碼系統(tǒng)通過計算機(jī)自動編碼新聞事件。此外還有一些常用的編碼系統(tǒng):Conflict and Mediation Event Observations(CAMEO),the Integrated Data for Event Analysis (IDEA) (這一編碼系統(tǒng)被以下項目使用the Protocol for Nonviolent DirectAction (PANDA)),斯洛德特還開發(fā)了使用這個編碼系統(tǒng)的軟件(Textual Analysis by Augmented Replacement Instructions ,TABARI)。隨著大數(shù)據(jù)挖掘的深入發(fā)展,西方一些科研項目采取了大數(shù)據(jù)挖掘和自動編碼相結(jié)合的結(jié)束。21世紀(jì)的項目the Integrated Conflict Early Warning System(ICEWS)針對亞太地區(qū)收集數(shù)據(jù),這一項目采用的自動編碼程序為BBNACCENT。目前美國最新開發(fā)的新編碼系統(tǒng)是Political Language Ontology for Verifiable Event Records(PLOVER),編碼軟件是Python Engine for Text Resolution And Related Coding Hierarchy,PETRARCH-2。

本數(shù)據(jù)在下一步將建立人機(jī)結(jié)合的編碼方式,以完善入庫數(shù)據(jù)的真?zhèn)闻袆e機(jī)制。在大數(shù)據(jù)時代,很多數(shù)據(jù)是直接根據(jù)爬蟲等數(shù)據(jù)挖掘技術(shù),將相關(guān)新聞報道直接算入數(shù)據(jù),但是這會導(dǎo)致數(shù)據(jù)庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現(xiàn)以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復(fù)記入,導(dǎo)致數(shù)據(jù)庫不精確。此外,機(jī)器編碼還有可能在對事件編碼時錯誤抽取關(guān)鍵變量。

為了避免以上數(shù)據(jù)挖掘和機(jī)器編碼的常見失誤,本數(shù)據(jù)庫將建立了人工編碼和機(jī)器編碼結(jié)合的入庫數(shù)據(jù)的真?zhèn)闻袆e機(jī)制,主要依靠專業(yè)人士人為甄別。對于相關(guān)新聞和數(shù)據(jù)的真?zhèn)危梢杂蓪I(yè)人士進(jìn)行初步篩選,然后將所得數(shù)據(jù)給相關(guān)研究領(lǐng)域的專家進(jìn)行判別,看數(shù)據(jù)結(jié)果與專家感覺是否一致,若差異不大,可以認(rèn)為數(shù)據(jù)沒有大的疏漏。最后根據(jù)數(shù)據(jù)庫的研究問題,尋找數(shù)據(jù)庫來源以外的其他權(quán)威資料來源,根據(jù)多個資料對數(shù)據(jù)進(jìn)行檢驗,從而增強(qiáng)數(shù)據(jù)的真實性。因此,本數(shù)據(jù)庫依據(jù)專家檢驗和史料核實建立判別機(jī)制,可以保證數(shù)據(jù)庫內(nèi)容的準(zhǔn)確性。

(課題組供稿 )

(責(zé)編:孫爽、艾雯)