當(dāng)前位置: 首頁  >  國學(xué)經(jīng)典 > 正文

大數(shù)據(jù)時(shí)代的古典文學(xué)研究

來源:光明日?qǐng)?bào) 作者:      2018-10-21

 

  編者按

  對(duì)人文學(xué)者來說,作為工具的計(jì)算機(jī),已從文獻(xiàn)檢索時(shí)代進(jìn)入到數(shù)據(jù)分析時(shí)代。計(jì)算機(jī)不僅能幫助我們從海量文獻(xiàn)中快速檢索到所需的資料,還能以數(shù)據(jù)為基礎(chǔ)幫助我們發(fā)現(xiàn)問題和分析問題。隨著數(shù)字人文技術(shù)的發(fā)展,數(shù)據(jù)分析的技術(shù)和方法越來越有針對(duì)性和強(qiáng)效性,能清晰地揭示隱藏在文學(xué)史背后的作家與社會(huì)之間、作家與作家之間、文本與文本之間的直接與間接、顯性與隱性的多種關(guān)聯(lián),能以全知型的視角系統(tǒng)整體地還原和呈現(xiàn)文學(xué)史的立體景觀,改變傳統(tǒng)的思維方式和文學(xué)研究范式。

  目前的中國古代文學(xué)研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但還沒有完全跟上數(shù)字人文的發(fā)展步伐,可用于統(tǒng)計(jì)分析的關(guān)系型文學(xué)數(shù)據(jù)庫建設(shè)還比較薄弱,適用于古代文學(xué)研究的分析工具、分析方法、分析模型還相當(dāng)有限。近些年學(xué)界和業(yè)界推出了相當(dāng)豐富的數(shù)字化的文獻(xiàn)資源庫,如《中國基本古籍庫》《中華經(jīng)典古籍庫》等,但主要用于檢索,還不是結(jié)構(gòu)化的能進(jìn)行統(tǒng)計(jì)分析和再生知識(shí)的數(shù)據(jù)庫。運(yùn)用數(shù)字人文的分析工具和技術(shù)方法來研究古代文學(xué),也取得了一定的實(shí)績,但還處在嘗試性階段,未成規(guī)模,影響不大。

  為推進(jìn)數(shù)字人文技術(shù)在古代文學(xué)研究中的應(yīng)用與突破,本期約請(qǐng)清華大學(xué)中國古典文獻(xiàn)研究中心數(shù)字人文研究團(tuán)隊(duì)的劉石、孫茂松、張力偉和劉京臣四位先生從不同的角度筆談他們的構(gòu)想和規(guī)劃。劉石、孫茂松先生構(gòu)建了古典文學(xué)研究的分析模型,劉京臣先生闡述了基于社會(huì)網(wǎng)絡(luò)分析的文本與人物研究的理路,既有理論的前瞻性,也有方法的可操作性;張力偉先生提出了建設(shè)“中國古典知識(shí)庫”(CCKB)的宏大構(gòu)想,令人期待?。ㄍ跽座i)

  一

  20世紀(jì)60年代,電腦就被西方國家運(yùn)用于人文學(xué)科研究,稱為“人文計(jì)算”。美、英、法、德等國利用大數(shù)據(jù)技術(shù)研究文學(xué)開展得早、影響大,相繼成立了國家級(jí)項(xiàng)目組或研究中心,致力于莎士比亞戲劇、法國中世紀(jì)詩歌等多語種文學(xué)經(jīng)典的內(nèi)容分析,產(chǎn)生了一批引人注目的理論著述與應(yīng)用成果。

  進(jìn)入新世紀(jì),一些研究機(jī)構(gòu)及企業(yè)開始對(duì)書籍進(jìn)行大規(guī)模數(shù)據(jù)化。谷歌與哈佛大學(xué)共同研發(fā)的數(shù)據(jù)庫可對(duì)1600年至2000年間出版的500多萬冊(cè)書籍的單詞和短語的使用頻率進(jìn)行統(tǒng)計(jì),通過關(guān)鍵詞使用頻率的變化,可以嶄新的視角揭示500年來人類文化發(fā)展史的總體趨勢。伴隨人工智能技術(shù)的進(jìn)步,機(jī)器的深度學(xué)習(xí)在文本分析方面展現(xiàn)了驚人效率?!恫脊萨B的呼喚》原是《哈利·波特》的作者J. K. 羅琳于2013年匿名發(fā)表的小說。牛津大學(xué)的Peter Millican和杜肯大學(xué)的Patrick Juola運(yùn)用法律語言學(xué)的分析方法對(duì)比分析,推測它很可能是羅琳的新作,最后,羅琳承認(rèn)這部小說確出己手。

  國內(nèi)在20世紀(jì)80年代也出現(xiàn)了“人文計(jì)算應(yīng)用”的概念,一些學(xué)者開始致力于運(yùn)用電腦技術(shù)研究人文課題。早期對(duì)古典文學(xué)尤其詩詞的研究多為計(jì)算機(jī)或統(tǒng)計(jì)專業(yè)的學(xué)者。廈門大學(xué)周昌樂教授課題組針對(duì)宋詞風(fēng)格“豪放與婉約”的分類問題,研創(chuàng)了基于字和詞為特征的風(fēng)格分類模型、基于頻繁關(guān)鍵字共現(xiàn)的詩歌風(fēng)格判定方法以及基于詞和語義為特征的風(fēng)格分類模型。首都師范大學(xué)尹小林教授最早研發(fā)了“《全唐詩》檢索系統(tǒng)”,北京大學(xué)李鐸教授也研發(fā)了“《全宋詩》分析系統(tǒng)”“《全唐詩》分析系統(tǒng)”“《資治通鑒》分析系統(tǒng)”等。北京大學(xué)杜曉勤教授研發(fā)的“中國古典詩文聲律分析系統(tǒng)”首次實(shí)現(xiàn)對(duì)中國古典詩歌及有關(guān)韻文進(jìn)行批量四聲自動(dòng)標(biāo)注和八病標(biāo)識(shí)、數(shù)據(jù)統(tǒng)計(jì)功能,不僅有助于研究永明體詩歌的聲病情況,還可考察永明詩律向近體詩律演變的環(huán)節(jié)和過程。中南民族大學(xué)王兆鵬教授是較早采用量化分析研究古代文學(xué)經(jīng)典的專家,他先后主持了“中國古代詩歌史的計(jì)量分析”“20世紀(jì)唐五代文學(xué)研究論著目錄檢索系統(tǒng)與定量分析”等多個(gè)項(xiàng)目,尤其是唐宋詩詞名篇的定量分析(排行榜)及國家社科重大項(xiàng)目“唐宋文學(xué)編年系地信息平臺(tái)”引發(fā)了社會(huì)的普遍關(guān)注。

  鄭永曉先生數(shù)年前已經(jīng)呼吁古典文學(xué)研究從數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)變。基于大數(shù)據(jù)技術(shù)對(duì)古代文學(xué)經(jīng)典文本進(jìn)行高效和深度分析,可將文學(xué)研究納入到一個(gè)更宏觀的視野,提高研究結(jié)論的精準(zhǔn)性、穩(wěn)定性及可驗(yàn)證性,促生新的研究理念、方法與范式。但總體來看,古典文學(xué)研究領(lǐng)域目前還基本處在古籍?dāng)?shù)字化、數(shù)字化檢索和少數(shù)專題數(shù)據(jù)平臺(tái)建設(shè)階段。

  二

  現(xiàn)階段數(shù)字人文研究的主要技術(shù)方法,包括機(jī)器學(xué)習(xí)與人工智能、數(shù)據(jù)庫建設(shè)、計(jì)算語言學(xué)、社會(huì)網(wǎng)絡(luò)與地理信息系統(tǒng)、數(shù)據(jù)與文本挖掘等方面。這些技術(shù)方法可分別用于古典詩歌分析系統(tǒng)的嘗試、作家生平事跡研究、古典小說研究、文本與人物研究、文體與文論研究,涵蓋了古典文學(xué)研究的主要方面。

  基于這樣的理解,我們擬以先秦至明清品類紛繁的古代文學(xué)經(jīng)典文本為中心,利用計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、信息科學(xué)等學(xué)科的新興技術(shù)手段,形成如右上圖所示的研究結(jié)構(gòu)。

  研究的流程是文學(xué)專家提出問題——技術(shù)專家設(shè)計(jì)算法模型——借助知識(shí)庫或數(shù)據(jù)庫等平臺(tái)進(jìn)行文本分析——文學(xué)專家對(duì)分析結(jié)果進(jìn)行解析和研究。數(shù)據(jù)庫建設(shè)、技術(shù)創(chuàng)新運(yùn)用與文本研究三位一體。數(shù)據(jù)庫是基礎(chǔ),文本分析技術(shù)是關(guān)鍵,最終要落實(shí)到發(fā)掘依靠閱讀經(jīng)驗(yàn)難以發(fā)現(xiàn)的文本組織特征及相互關(guān)系,通過定量統(tǒng)計(jì)、定性分析,解決古典文學(xué)研究領(lǐng)域長期存在的疑而難決的作品歸屬、作品辨?zhèn)?、異文辨析、修辭特色、風(fēng)格生成、題材變遷、因革影響等方面的問題,期望在以下諸方向有所推進(jìn):

  1.重新驗(yàn)證已有成說的經(jīng)典史論問題。比如,提出“文必秦漢,詩必盛唐”的明代前后七子為代表的文人群體,其詩文創(chuàng)作是否落實(shí)和如何落實(shí)其文學(xué)創(chuàng)作的主張?利用共詞分析、語義分析、人物事件交雜等技術(shù)思路,嘗試全新分析和解決諸如文體形式、社團(tuán)流派、人物關(guān)系、情節(jié)演進(jìn)、階段特征、歷史影響等問題。

  2.解決人力難以徹底解決的疑難問題,為作品歸屬、重出異文、改編續(xù)寫、風(fēng)格流派、文類劃分等提供新的證據(jù)、思路與方法。如唐宋詩“體格性分之殊”的判斷,詩詞曲三種相近文類格律、用韻、題材、語詞、典故、句法、意象、風(fēng)格的窮盡性統(tǒng)計(jì),為定性分析提供數(shù)據(jù)支撐,可以提高研究結(jié)論的精確性、穩(wěn)定性及可驗(yàn)證性。

  3.超越主觀感受與印象分析層面,科學(xué)梳理文學(xué)史長時(shí)段中存在的特征、規(guī)律、關(guān)聯(lián)性問題。比如陸游詩近萬首,詞自中唐產(chǎn)生而歷經(jīng)各代,他或它們的題材、修辭、風(fēng)格變化軌跡究竟如何,數(shù)者之間的關(guān)系怎樣?通過對(duì)一個(gè)作家或一類作品的“深度學(xué)習(xí)”(計(jì)算語言學(xué)專業(yè)術(shù)語),發(fā)揮其文本比對(duì)、關(guān)聯(lián)分析等技術(shù)優(yōu)勢,追蹤挖掘以往不曾注意到的跡象或線索,以期提高文學(xué)經(jīng)典研究的可靠性與科學(xué)性。

  三

  利用大數(shù)據(jù)技術(shù)研究中國古代文學(xué),對(duì)學(xué)術(shù)發(fā)展和學(xué)科建設(shè)的意義是明顯的,特別體現(xiàn)在研究范式與思維方式的革新。

  傅斯年認(rèn)為,“凡一種學(xué)問能擴(kuò)張他所研究的材料便進(jìn)步,不能的便退步”。大數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)相關(guān)研究史料的全覆蓋,是對(duì)以往研究資料的極大擴(kuò)充。目前研究中普遍存在的檢索依賴會(huì)造成史料的類型遮蔽,特別是反證材料的遮蔽。檢索依賴也會(huì)導(dǎo)致對(duì)史料的解讀脫離歷史語境,無數(shù)孤零零的沒有歷史氣息的材料斷片的組合,無法反映真實(shí)的歷史場域中的問題。文學(xué)研究者接受的信息如果是非全息的,文史研究的科學(xué)性和有效性必然值得懷疑。全數(shù)據(jù)分析模式拋棄了隨機(jī)性的樣本研究模式,讓研究者具有“上帝視角”,重視對(duì)事情整體系統(tǒng)的感知,又強(qiáng)調(diào)基于全數(shù)據(jù)的細(xì)節(jié)化,提高認(rèn)知的精確度,是一種理想的學(xué)術(shù)研究模式。

  傳統(tǒng)的文獻(xiàn)材料彼此間基本上呈現(xiàn)出相對(duì)明顯的線性關(guān)系,可以找到前因后果,進(jìn)而形成相對(duì)完整和自洽的因果鏈。大數(shù)據(jù)時(shí)代面對(duì)的只是具有相關(guān)性的海量數(shù)據(jù),幾乎不可能找到每個(gè)數(shù)據(jù)的微觀因果鏈,如果堅(jiān)持因果路徑,將陷入無窮無盡的因果關(guān)系之中而茫然無措。因此,大數(shù)據(jù)時(shí)代不必非得知道現(xiàn)象背后的原因,而是讓數(shù)據(jù)自己發(fā)聲。對(duì)思想、情感和藝術(shù)為主體的古典文學(xué)學(xué)科而言,強(qiáng)調(diào)差異性、變異性和獨(dú)特性的相關(guān)性分析方法比因果性分析方法可能具有更強(qiáng)的裁斷力。

  大數(shù)據(jù)技術(shù)的興起,使數(shù)據(jù)采集、存儲(chǔ)和處理極大地智能化、自動(dòng)化?!叭珨?shù)據(jù)模式”將與問題相關(guān)的數(shù)據(jù)一網(wǎng)打盡,最大限度地?cái)[脫客觀條件局限造成的以局部論全部,問題可以得到更系統(tǒng)、更全面、更整體的刻畫,從而得到更精確、更徹底的解決。這是數(shù)據(jù)化帶來的一種嚴(yán)格意義上的整體論,將使思維方式從還原性思維走向整體性思維。

  歷史與邏輯、事實(shí)與價(jià)值的統(tǒng)一是人文社科研究的基本方法,大數(shù)據(jù)時(shí)代的研究尊重全體材料、重視量化分析和兼顧所有關(guān)系,這將有助于促進(jìn)人文學(xué)科的研究由“解釋性”向“求是性”轉(zhuǎn)向。隨著人的思想、情感、心理的數(shù)據(jù)化,人文學(xué)科的研究對(duì)象也能夠?qū)崿F(xiàn)數(shù)據(jù)化,可以通過數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)建模來進(jìn)行研究,這樣人文學(xué)科也就由以往被認(rèn)作非科學(xué)的學(xué)科躋身于科學(xué)成員的大家庭中,進(jìn)而發(fā)展出人文科學(xué)。

  總之,大數(shù)據(jù)思維為人文社科研究的變革與創(chuàng)新帶來了千載難逢的歷史機(jī)遇,正如美國康奈爾大學(xué)教授杰弗里·漢考克(Jeffrey T. Hancock)所說:“這是社科研究的一個(gè)全新時(shí)代,就好比顯微鏡的誕生對(duì)化學(xué)科學(xué)發(fā)展所起到的促進(jìn)作用。”

  需要指出的是,古典文學(xué)研究中新技術(shù)手段的應(yīng)用需要充分依靠計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的專業(yè)技術(shù),在尚缺乏此類技術(shù)力量的今天,必然會(huì)促進(jìn)學(xué)術(shù)研究人力資源的整合,倒逼跨學(xué)科合作研究的開展。但文學(xué)性問題的提出和分析處理不可能完全交給機(jī)器,也就不可能完全交給技術(shù)專家。相反,從問題的設(shè)置到語料的選取再到分析結(jié)果的解讀、意義的闡釋、體系的建構(gòu)等,都將由古代文學(xué)和文獻(xiàn)學(xué)相關(guān)領(lǐng)域高水平的專家學(xué)者完成。

 ?。ㄗ髡撸簞⑹?,系清華大學(xué)人文學(xué)院教授;孫茂松,系清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授)

  原文鏈接:http://www.guoxue.com/?p=53599

 

【責(zé)任編輯:堯日】

掃一掃關(guān)注北疆風(fēng)韻微信公眾號(hào)

微信