A. 當唐詩宋詞遇上大數據
文/戴玥
從數據的角度解讀唐詩宋詞,居然能得出超乎想像的結論。這是我所在的浙江大學計算機學院CAD&CG(計算機輔助設計與圖形學)國家重點實驗室與新華網合作推出的兩款數據新聞作品「我有柔情似水,亦有豪情萬丈——唐代女詩人群像」和「宋詞繾綣,何處畫人間」所研究的內容。
什麼是數據新聞?數據新聞又稱數據驅動新聞,是指基於數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式。如果把未經處理的數據比作新鮮的食材,那麼數據新聞就是將一道精心烹飪的菜餚呈現在讀者面前。「一千個讀者心中有一千個哈姆雷特」,每個人都能從中品出不同的滋味。
為了更加深入地了解「菜餚」的烹制方法,我在浙江大學紫金港校區采訪了兩個作品的總負責人陳為教授與項目的具體負責人張瑋老師。與兩位老師的談話,使得看似神秘的「烹制方法」逐漸清晰起來。
科學而嚴謹的「仕女圖」:唐代女詩人群像
唐詩項目「我有柔情似水,亦有豪情萬丈——唐代女詩人群像」分析了約5.5萬首唐詩,採用多樣化的圖表對唐代女詩人的創作情況進行了可視化呈現。
第一幅圖表是關於唐代詩人創作數量的一覽圖,分別對存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的詩人數量以點陣圖的方式進行了表述,每一個點都代表著一位詩人,滑鼠懸浮在點上便顯示出詩人的姓名與作品數,詩人的性別則用灰色與朱紅色區分。在不同階段,用畫像著重標出了著名的代表詩人,如在「3~5首」的階段里,存世3首作品的張若虛是其中的代表,而在「50首以上」的階段中,存世3009首的白居易又是其中的翹楚。面對單純的數字,我們或許不能敏銳地感知背後的意義,而在點陣圖中,較之於許許多多僅留下孤篇的詩人,我們便可以感受到有3009首作品傳世的香山居士在當時及後世擁有多麼驚人的影響力。三千餘篇詩作歷經一千多年時間長河的波濤洶涌仍然傳遞到了我們手中,這又是怎樣一份文化與 歷史 的厚重。
第二幅圖表是「唐代女詩人全景圖」,將唐朝劃分為初唐、盛唐、中唐、晚唐四個階段。此處同樣採用了點陣的表現方式,但用硃砂色的花朵代替了「點」,不同形狀的花朵代表著女性詩人的不同身份,她們有的是宮廷詩人,如上官婉兒,有的是士大夫妻女,有的則是民間女子或歌妓,而作品存留數量最多同時也最著名的幾人,如薛濤、李冶、魚玄機等人,則以盛開的荷花標記。人們常以花朵喻美人,而這些朱紅的花朵也彷彿承繼了這些女子的驚才絕艷,在紙卷上美好而熱烈地盛開。
在我們的印象里,盛唐才是詩人輩出的時代,其時有李杜等冠絕古今的大詩人出現,想必此時的女性詩人數量應該最多。但這張全景圖卻給出了不一樣的答案——盛唐時的女性詩人僅僅比初唐與中唐稍多,反而是晚唐時期女性詩人數量為最,幾是中唐與盛唐時期的兩倍。發現這個與認知大相徑庭的事實後,我開始嘗試為此找到一種解釋。聯系此前所學,我想或許是因為晚唐時 社會 狀況江河日下,詩風亦偏於陰柔細膩,恰與女性的特質相符,使得女性詩人數量劇增。而我們所認為是詩歌盛世的盛唐時期,詩風大氣而雄壯,這大概與女性氣質不符吧。
第三幅圖表是「詩人詩作字頻詞頻圖」,字詞的大小與深淺顯示著它們被使用的頻率。女性詩人作品中最高頻詞「相思」便可說明女詩人的一貫風格,與我們尋常的認知沒有太大出入,女詩人常常在詩中抒發「相思」與「寂寞」之情。同男性詩人一樣,「風」與「人」都是最高頻的字,而較之於男性,女性詩人又更喜歡運用「花」「月」「春」等柔美的意象,而通過這些意象,女性獨特的內心體驗可見一斑。
最後是「唐代女詩人社交圖」,圖中選取了最具代表的幾位女性詩人,將她們的社交關系以圓與線的方式表現出來,線的粗細則代表社交關系的深淺。通過這張圖可以發現,薛濤與李冶兩位著名的女詩人都與劉禹錫有過詩作唱和。或許我們未能知曉同時位列唐朝四大女詩人的這兩位才女是否有過交集,但此刻她們卻歷經遙遠的時空被線聯系在一起。
之後另有薛濤與李冶單獨的社交關系圖。在李冶的社交圖中,詩人與陸羽、皎然之間形成了一個三角,可見這也是一個詩人之間的「小圈子」,三人都對茶學、佛學等有很大的興趣,並且也曾互有酬和。而「女校書」薛濤的社交圖中類似的圈子更多也更大,最大的有元稹、白居易、劉禹錫、嚴綬等人,他們大多互相認識或者熟識,彷彿是古代版的「朋友圈共同好友」,隱匿在典籍中的錯綜復雜的關系網路具象為簡單明了的社交圖,似乎古人被時間重重遮掩的面貌也在霎時間清晰起來。
新聞的網頁背景模擬了泛黃古卷,配上古雅的圖案設計與字體設計,構成了一幅交織著理性與嚴謹的「仕女圖」,雖未有畫像出現,但透過數據架成的時光之橋,我們彷彿能透過千年的塵埃而窺見美人含羞的影子。
對於數據新聞作品的外觀設計,項目的具體負責人張偉老師表示,他們對每一個圖表都做了兩套以上的方案,經過不斷的篩選與考量之後才有我們所見的這一套外觀。網頁設計也如古時畫工制畫一般,如切如磋,如琢如磨,方能以美的姿態喚起觀者精神的共鳴。
宋朝詞人的情緒表達
宋詞項目「宋詞繾綣,何處畫人間」以《全宋詞》為樣本,從近21000首詞作、1330位詞人的龐大數據中呈現了豐富的圖表。有別於唐詩作品的精緻與古典氣息,宋詞作品的外觀則帶有朦朧的寫意風格,圖表亦多處採用了水墨元素,將精確的數據渲染出詩意之美。
整篇作品分為三個版塊,「萬水千山走遍」「草木皆有情,詞即人生」「春風化雨,歷久彌新」。在第一個板塊「萬水千山走遍」中,首先映入眼簾的就是一幅宋朝的疆域圖,其中以灰點代表著詞人們曾到達過的地方,灰點越大代表到達越多人次。灰點密集地覆蓋了宋朝的大半版圖,除了青藏高原一帶鮮有涉足外,天山南北亦有詞人們的足跡。滑鼠懸浮其上會顯示出詞人的行進路線,跨度最大的一條由疆域的最北端一直延伸到最南的臨海地區。孔子周遊列國的路線其實僅在河南至山東一帶,但今天高鐵幾個小時就能到達的路途,孔子卻走了十數年。這條從南至北貫穿宋朝疆域的路線,很有可能耗費了一位詞人一生的時間。
之後是宋朝詞人的全景圖,這幅全景圖採用了折線圖的方式,橫軸為北宋至南宋的各個 歷史 階段,而縱軸為詞人作品數量。每一段線條代表一位詞人,水平線是詞人的平民時期,向上的折線則是詞人的仕途時期,線條的灰色與棕色來區分婉約派與豪放派。在眾多詞人中,一生布衣「梅妻鶴子」的林逋與女性詞人李清照的線條都是一條水平線,其餘詞人的線條都有起有伏,一生的悲歡跌宕都被一條簡單的線所勾勒,引人唏噓。
在第二個版塊「草木皆有情,詞即人生」中,首先對《全宋詞》的詞頻進行了統計。最高頻詞分別為「東風」「何處」「人間」,宋朝的積貧積弱以及靖康之變加重了詞人心中的漂泊感,他們彷彿一直在尋覓,無論是「今宵酒醒何處」,還是陸放翁常書於詞中的「歸何處」,都是一聲聲對心靈的叩問。
第二幅圖表是宋代著名詞人常見意象及其表達情緒的統計,喜、怒、哀、樂、思五種情緒分別用不同顏色表示,每一種意象都有它所承載情緒表達次數的餅狀統計圖,滑鼠懸浮在詞人名上可以顯示出他們所使用的意象表達情緒次數的比例。王國維曾言「以我觀物,故物皆著我之色彩」,豪放派代表人物辛棄疾常用「酒」「月」等意象,使人聯想到邊關冷月、煮酒悲歌,而晏殊之子晏幾道詞風婉約,他少年時家道中落,此後一生流離,詞中多以落魄王孫的形象出現,常在「小樓」中流連時光,他的名句「舞低楊柳樓心月,歌盡桃花扇底風」恰能道出他詞中風情。
我好奇如何才能計算出意象中承載的情緒,陳為教授告知是根據已有的演算法和模型來計算的,「對文字當中的 情感 進行計算,是計算機學界研究了二十年的一個問題,已經有了標准方法」,「對於我們來說,這就是教科書上的東西」。原來文學與計算機的結合並不只是今年才興起的,早已產生了超越我們想像的進步。
最後一個版塊「春風化雨,歷久彌新」中將各個詞牌代表詞作的平仄以長短不一的線段標出,配以人聲朗誦,詞被還原了它原始的音樂功能,原先掩藏在字詞背後的韻律被直觀地展現出來。或許相隔千年時光,樂坊的客人也在與我們欣賞著同一首曲子詞,咀嚼同一段繁復綿長的 情感 。
數據化與詞學研究的碰撞引入了「定量」的思維方式
唐詩宋詞與大數據結合而產生的一大效果,即是效率的提升。一張張製作精美的圖表將關鍵信息在眼前一字排開,根據需要可以信手采擷。我不由感嘆,如果我之前作業所需的資料也能以這樣的方式呈現,想必可以省下不少時間。
陳為教授介紹,在大數據普及之前,人文學者們獲取信息需要依靠查閱實物典籍,將一本本書從頭翻到尾, 科技 進步後,很多典籍都有了電子掃描版,但還是需要人工檢索,在電腦上將所有的文字讀完。但大數據帶來了改變,「假設我能夠把它核心的、關鍵的特徵和信息提煉,並用計算機建模做出來,然後呈現在屏幕上,這些人的關鍵信息就這些,他跟誰有關系,他有什麼作品,他的生活環境怎樣,這就極大地提高了效率。」
就讀人文專業的我,時常為了解一位古代詩人在某一時間段生活的 社會 環境,對著許多影印版的史志和詩人年譜進行「肉眼檢索」,繁體豎排小字看久了讓人眼睛發花。
我想到自己曾做的一份唐宋詞名物意象變遷的作業,我選擇了「釵」的意象。在例舉含有該意象的詞作時,已經有現成的唐宋詞資料庫,其中收錄了相當數量的唐宋詞,我只需要輸入「釵」「銀釵」「鳳釵」等關鍵詞,就能輕松獲取與之相關的一篇篇作品,方便快捷。而在調查「釵」本身材質與形制的變遷時,我所查到的相關飾物名錄和圖鑒有些甚至沒有目錄和頁碼,只能面對繁體豎排字一頁一頁地查閱,看到可能有用的信息也只能使用pdf閱讀軟體自帶的標記功能。一次查找需要耗費很長的時間,而獲取的信息卻遠遠不能與付出的時間等價。有時候翻完了一本幾百頁的書,能夠得到的有用信息也只有幾句話。從這一點來說,大數據的普及著實是一種迫切的需要,它也為人文社科的研究者帶來了福音,省去了許多繁復而低效率的案頭勞作。
大數據除了能夠極大提高科研效率,同時也為研究提供了一種「定量分析」的思維角度。
唐宋詞的數據化研究是20世紀90年代開始興起的一種研究趨勢,與20世紀90年代的數據 科技 發展息息相關。而數據化與詞學研究的碰撞引入了「定量」的思維方式,譬如如何確定一首詞在宋代的受歡迎程度,這在以前的研究中是難以衡量的,即使能夠定性,也是「空口無憑」,沒有相應的證據。但大數據卻可以解決這個難題,統計宋代詞話中這首詞被收錄的次數,就可以大概得出其受歡迎程度的量化結果。統計數據本身就使得結果更精確,也更有說服力。
雖然大數據能夠帶來諸多益處,但大數據與文學研究的交匯中也產生了一些需要注意的問題。在一節專業課上,老師曾舉過一個大數據研究的例子。在《全金元詞》中,使用頻率最高的詞調有兩個,最高為《黑漆弩》,其次是《木蘭花慢》。《木蘭花慢》是我們耳熟能詳的詞調,而《黑漆弩》對於並不十分專業的我來說卻是聞所未聞。《黑漆弩》在宋代也幾乎沒有作品傳世,但它為何會成為使用頻率最高的詞調?原來《黑漆弩》到元代時,進入元雜劇成為了一種曲調,也就是說,它是一種曲化的詞調,可以稱之為曲調。由此反映出了問題,在利用大數據研究詞的時候,樣本問題需要得到重視,譬如在研究《全金元詞》中使用頻率最高的詞調時,像《黑漆弩》這樣曲化的詞調就不應該計入樣本中。采樣問題成為詞學研究大數據化的「攔路虎」。
除了已知樣本的問題,詞學研究領域樣本的不斷變動同樣也困擾著學者們。唐宋詞不斷有遺詞被發現,樣本在不斷地補充。而相對於現存數量有限的唐宋詞,明清詞的數量更是多如恆河之沙,幾乎難以窮盡,如此龐大的樣本本身就是一個令人頭疼的難題。
人文學科與大數據的合作,已經有了令人欣喜的發展,但仍舊任重而道遠。
作為一個人文專業的學生,我也期待著美好圖景成為現實的一天。
文章選自《大學生》
B. 悲,唐詩情緒的主流(節選自錢塘大數據)
對《全唐詩》近5萬首詩的情緒分析結果,展示如下:
可能出乎很多人的意料,代表大唐氣象的唐詩應該以積極昂揚的情緒為主,怎麼會是「悲」、「思」、「憂」這樣的情緒占據主流呢?而 「喜」、「樂」這樣的情緒卻占據末流呢?
接下來,筆者著重來分析下「悲」這個情緒占據主流的原因。
從常見的唐詩寫作題材上說,帶有「悲」字基調的唐詩較多,也多出名詩佳句,比如唐詩中常見的幾種情結,如」悲秋情結「、」別離情結「、」薄暮情結「和」悲怨情結「,都體現出濃重的「悲情」色彩。
古人雲:「悲憤出詩人」,它點破了人的成就與所處的環境、心境有某種關系。就像司馬遷所說:「夫《詩》、《書》隱約者,欲遂其志之思也。昔西伯拘羑里,演《周易》;孔子厄陳、蔡,作《春秋》…大抵賢聖發憤之所為作也。此人皆意有所郁結,不得通其道也…」回顧古今中外的著名的詩人和作家,幾乎無一不是曾有一段被排擠,誹謗,不得志和身處逆境之經歷,有些甚至還很悲慘。正是在這種悲難,惡劣環境中,才使得其奮發圖強。
重要的是,唐詩中的「悲」不僅僅是做「兒女態」的悲,更是具有超越時空純宴、憐憫蒼生以及同情至美愛情的大慈大悲。如下:
陳子昂的《登幽州台歌》,「前不見古人,後不見來者。念天地之悠悠,獨愴然而涕下。」從時間與空間兩個角度把悲涼拉長了。
李白的《將進酒》中「君不見明鏡高堂悲白發,朝如青絲暮成雪」,以及《夢游天姥吟留別》中「世間行樂亦如春褲族此,古來萬事東流水」讓人唏噓!還有《長相思》第一首中「天長路遠魂飛苦,夢魂不到關山難。長相思,摧心肝。」
杜甫的《登高》中「無邊落木蕭蕭下,不盡長江滾滾來。萬里悲秋常作客,百年多病獨登台。」老病殘軀,孤苦無依獨登台,心中悲涼陡然而生。《石壕吏》中「老嫗力雖衰,請從吏夜歸。急應河陽役,猶得備晨炊」等句語言朴實,但極具張力!
白居易的《長恨歌》末尾「七月七日長生殿,夜半無人私語時。在天願作比翼鳥,在地願為連理枝。天長地久有時盡,此恨綿綿無絕期。」相愛而不能相聚,生死遺恨,沒有盡頭扒弊!
C. 清華附小6年級學生用大數據分析蘇軾,你怎麼看
清華附小6年級學生用大數據分析蘇軾,我覺得是一個很好的現象。這個看上去是孩子們的創新行為,實際這就是現在公司運營時常用的方法,並且這種方法很有效、能提供很多解決方案。
作為小學生,能遵循發現問題---分析問題---解決問題的思路去系統的去解讀蘇軾,並且分工明確,邏輯性很強。
有的把蘇軾詩詞都找出來分析高頻詞,有的研究蘇軾三次被貶經歷的,有的研究蘇軾在「明月」、「飲酒」方面的愛好,有的研究蘇軾與「故人」、「道人」的關系,有的研究「使君」、「東坡」關系。並且各自分析,形成了5個不同附件。
我是職場達人樂易LEE老師,關於清華附小六年級學生用大數據分析蘇軾,你有什麼看法嗎?歡迎評論留言。
D. 古代詩人作詩也扎堆 大數據分析哪些城市盛產詩歌
清華附小的小學生用大數據分析發現,蘇軾曾為全國27家5A級景區寫過詩。古代其他詩人又喜歡版在哪抒發情感呢權?
大數據分析發現,唐宋詩人最鍾情的城市是開封,共有3563首詩在此誕生,比第二名西安1854首多了近一倍。
中南民族大學文學與新聞傳播學院王兆鵬教授發布的「唐宋文學地圖」,用大數據分析了古代眾多詩人的人生軌跡。統計顯示,全國產詩最多的前十個城市,其詩歌總量佔到全部唐宋詩的大約47.8%。
各個城市的古詩圈子中,撐場面的詩人也不同。處在第一梯隊的開封,「台柱子」蘇轍作詩最多,達到894首。而楊萬里在江西吉安共作詩1056首,絕對高產。
雖然在揚州「產量」不高,但李白一句「煙花三月下揚州」如今成了揚州市的宣傳語,比「台柱子」影響更大。
E. 大數據作文800字
大數據,聽到這個名字時,你一定想的是:「這一定是關於計算機的吧!」其實,大數據是數學的一類。
但具體什麼是大數據呢?我覺得可以這么理解:「大」就是指大的范圍,「數據」就是數的信息,合在一起就是大量的數的信息,但這個解釋似乎不太對,所以我又加了一句,大數據的意思是把大量的數據進行整理分析最後得到答案。
那怎麼進行數據分析?通過我的學習,我有了大概的了解,我認為首先要把信息集中起來,不能太分散,一樣的東西要放在一起;其次要找出每一類中的'相同點,再進行歸納;最後進行分析,比如什麼東西買的人多,什麼東西買的人少等等。
說到分析數據,我的老師還特意講了講數據分析的方法,比如算兩班的平均分差距可以將所有值加起來再除以總人數,但這個方法很麻煩;還可以用最高分減去最低分算出差距,但這種方法往往不準確;如果用最高分加上最低分再除以二,這種方法也不準確。從上面可以看出來,每一種方法都有利弊,要看具體情況選擇適當的方法。
光有方法可不行,還要實戰演練。老師在課上給了我們一張表,上面是超市五名顧客購買東西的記錄,進行分析後我發現尿布跟葡萄酒被同一個人買的幾率很大,我很疑惑:這兩樣毫無關系的物品怎麼會被同一個人購買呢?後來老師說,這是外國人做的一個調查:在國外,當他們有孩子後,年輕的爸爸們會去超市買孩子的尿布,往往也會買一些自己喝的啤酒,所以記錄單上酒和尿布才會出現在一起。真是個有趣的調查!
大數據還體現在很多方面,比如當你打開手機淘寶,裡面的推薦物品都是你想要的,那是計算機檢測到你最近搜索一個東西很頻繁,根據你的喜好設定的:再比如你看短視頻時,給你推薦的視頻也是系統根據你平時的愛好設定的……總之,大數據在我們的生活中隨處可見,此時你看的手機里也有大數據存在,那你知道是什麼嗎?
大數據是一門非常有趣的課程,或許這個名字讓你提不起興趣,但當你真正走進去研究它時,你就會發現:「哦,原來分析數據是一件多麼快樂的事!」你說「快樂」不對?那是因為你沒有體驗過分析出來一個數據的成就感。具體的感覺是什麼呢?你試試吧!
一年四季,桃花只盛開一次;一年有三百六十五天,而春天只有短短的三個月……數字可以用來對比,可以用來表達世間所有美好的事物。它觸摸不到卻能讓我們領略人間的溫暖與冷漠。當我們走進數據時代,你會發現世間冷暖,盡收眼底。
數據雖是生冷的數字,但它能折射出人間的冷暖。漫步於天地,沒有數據的世界一片茫然,它可以帶給我們准確的度量,可以讓我們知曉天下事。可以讓我們的生活更加豐富多彩,充滿生機。數據折射出人間冷暖。
數據提醒著人們過錯的同時。也反映出時間的冷酷無情。到了上世紀九十年代。長江里僅剩二百餘頭白鰭豚,到了1997年,這種身長六英尺左右的動物只剩下了十七頭。到了2004年,這種白鰭豚已經幾乎消失在人們的視線。這一系列逐漸變少的數字無一不敲打著人們的警鍾,提醒著人們保護環境的重要性,這些數據反映的不只是人們意識淡薄,更是對人間冷酷無情的極大反射!生命如此脆弱卻被人類毫不留情地親手扼殺。這些直擊人心的數字是冷漠無情後付出的慘痛的代價,它時時刻刻都讓我們為自己的所做所為感到羞恥。
數字也會如陽光般輕柔,帶給我們溫暖。當你考試得了滿分,拿著卷子看至那鮮紅的數字,你會感到無以言表的快樂與激動:當賣水果的老大爺今天顧客滿員,多掙了一百元錢,看著那鮮紅的鈔票,就會感到幸福滿滿,生活幸福指數提高,經濟發展的進步,每項數據都那麼鼓舞人心,溫暖心靈。數據有時就像烏雲上的陽光,他會帶你穿過層層阻礙,走向未知的世界。即使是很微小的事情,也會被數據折射幸福的光芒。
數據豐富著人們的生活,改變著我們的思維方式,彷彿離開了數據就會將自己陷入無邊的黑暗。古人也常常用數據描述著事物的發展,曹劌論戰中一鼓作氣,再而衰,三而竭;登高中萬里悲秋常作客,百年多病獨登台。詩人們多運用數字誇張的手法表現內心情感,數字使他們的情感表達的更加淋漓盡致。作為新一屆高三生,我們每天也會看到許多數字,距離高考僅剩二百餘天,這將激勵著我們去女里奮斗,為了明天的輝煌而放手一搏!
數字如微風吹過,激起陣陣漣漪;數字如陽光拂過,留下絲絲溫暖,我們在這條數據時代的道路上走過,留下了我們的足跡,感受世間冷暖,感受著數據帶給我們的幸福生活。