導航:首頁 > 網路數據 > 大數據古代的

大數據古代的

發布時間:2024-04-20 13:15:03

⑴ 古代詩人作詩也扎堆 大數據分析哪些城市盛產詩歌

清華附小的小學生用大數據分析發現,蘇軾曾為全國27家5A級景區寫過詩。古代其他詩人又喜歡版在哪抒發情感呢權?
大數據分析發現,唐宋詩人最鍾情的城市是開封,共有3563首詩在此誕生,比第二名西安1854首多了近一倍。

中南民族大學文學與新聞傳播學院王兆鵬教授發布的「唐宋文學地圖」,用大數據分析了古代眾多詩人的人生軌跡。統計顯示,全國產詩最多的前十個城市,其詩歌總量佔到全部唐宋詩的大約47.8%。

各個城市的古詩圈子中,撐場面的詩人也不同。處在第一梯隊的開封,「台柱子」蘇轍作詩最多,達到894首。而楊萬里在江西吉安共作詩1056首,絕對高產。
雖然在揚州「產量」不高,但李白一句「煙花三月下揚州」如今成了揚州市的宣傳語,比「台柱子」影響更大。

⑵ 大案牘術是大數據嗎

在今年暑假熱播的電視劇《長安十二時辰》中,靖安司利用大案牘術選出了張小敬替他們辦案,同時也使用大案牘術來推測各種事情。這個大案牘術聽起來非常像古代版的大數據,那麼它究竟是不是大數據呢?

大數據在於發現和理解信息內容及信息與信息之間的關系,建立在相關關系分析法基礎上的預測是大數據的核心。「大數據」不僅僅指「大」的數據集;它要是具有足夠的規模、足夠的維度的數據量的數據集,可以基於此數據集進行一些預測、分析及更有價值的信息提取。

預測這件事啊,我們一直都在做。古人通過觀天象預測天氣,我們通過看天氣預報決定明天穿什麼衣服。球迷們請章魚來預測球隊的輸贏,無數的股民們想知道明天股市的走向會如何。

預測和預測有什麼不同嗎?有。如果有一個熊孩子在我的正上方高空拋物,扔了一個鋼鏰下來,我判定這個鋼鏰會砸我臉上,所以我趕緊躲開了。地球的重力和熊孩子在我正上方扔的鋼鏰是因,砸我臉上是果,我是基於因果關系來進行預測的。而大數據的預測是基於相關關系進行預測的。通過發現數據之間的關系來進行預測,它不解釋,不說明「為什麼」,只回答「是什麼」。

可見,大案牘術即沒有足夠體量的數據,也不是利用相關關系進行分析,並不是真的大數據。

⑶ 什麼和什麼是數據收集的兩大重要渠道引導了大數據時代的來臨

讓大數據區別於數據的,是其海量積累、高增長率和多樣性

什麼是數據?數據(data)在拉丁文里是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。籠統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為數據。古人「結繩記事」,打了結的繩子就是數據。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是數據,文字是數據,圖像、音頻、視頻等都是數據。


⑷ 古代的數據是怎麼統計出來的

任何統計都無法精確,即便是我們現在利用大數據,也不可能精確。
所以,我認為對各朝各代的平均年齡之類的統計,主要是根據歷史記載的人物的年齡,進行模糊的統計。

⑸ 當唐詩宋詞遇上大數據

文/戴玥

從數據的角度解讀唐詩宋詞,居然能得出超乎想像的結論。這是我所在的浙江大學計算機學院CAD&CG(計算機輔助設計與圖形學)國家重點實驗室與新華網合作推出的兩款數據新聞作品「我有柔情似水,亦有豪情萬丈——唐代女詩人群像」和「宋詞繾綣,何處畫人間」所研究的內容。

什麼是數據新聞?數據新聞又稱數據驅動新聞,是指基於數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式。如果把未經處理的數據比作新鮮的食材,那麼數據新聞就是將一道精心烹飪的菜餚呈現在讀者面前。「一千個讀者心中有一千個哈姆雷特」,每個人都能從中品出不同的滋味。

為了更加深入地了解「菜餚」的烹制方法,我在浙江大學紫金港校區采訪了兩個作品的總負責人陳為教授與項目的具體負責人張瑋老師。與兩位老師的談話,使得看似神秘的「烹制方法」逐漸清晰起來。

科學而嚴謹的「仕女圖」:唐代女詩人群像

唐詩項目「我有柔情似水,亦有豪情萬丈——唐代女詩人群像」分析了約5.5萬首唐詩,採用多樣化的圖表對唐代女詩人的創作情況進行了可視化呈現。

第一幅圖表是關於唐代詩人創作數量的一覽圖,分別對存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的詩人數量以點陣圖的方式進行了表述,每一個點都代表著一位詩人,滑鼠懸浮在點上便顯示出詩人的姓名與作品數,詩人的性別則用灰色與朱紅色區分。在不同階段,用畫像著重標出了著名的代表詩人,如在「3~5首」的階段里,存世3首作品的張若虛是其中的代表,而在「50首以上」的階段中,存世3009首的白居易又是其中的翹楚。面對單純的數字,我們或許不能敏銳地感知背後的意義,而在點陣圖中,較之於許許多多僅留下孤篇的詩人,我們便可以感受到有3009首作品傳世的香山居士在當時及後世擁有多麼驚人的影響力。三千餘篇詩作歷經一千多年時間長河的波濤洶涌仍然傳遞到了我們手中,這又是怎樣一份文化與 歷史 的厚重。

第二幅圖表是「唐代女詩人全景圖」,將唐朝劃分為初唐、盛唐、中唐、晚唐四個階段。此處同樣採用了點陣的表現方式,但用硃砂色的花朵代替了「點」,不同形狀的花朵代表著女性詩人的不同身份,她們有的是宮廷詩人,如上官婉兒,有的是士大夫妻女,有的則是民間女子或歌妓,而作品存留數量最多同時也最著名的幾人,如薛濤、李冶、魚玄機等人,則以盛開的荷花標記。人們常以花朵喻美人,而這些朱紅的花朵也彷彿承繼了這些女子的驚才絕艷,在紙卷上美好而熱烈地盛開。

在我們的印象里,盛唐才是詩人輩出的時代,其時有李杜等冠絕古今的大詩人出現,想必此時的女性詩人數量應該最多。但這張全景圖卻給出了不一樣的答案——盛唐時的女性詩人僅僅比初唐與中唐稍多,反而是晚唐時期女性詩人數量為最,幾是中唐與盛唐時期的兩倍。發現這個與認知大相徑庭的事實後,我開始嘗試為此找到一種解釋。聯系此前所學,我想或許是因為晚唐時 社會 狀況江河日下,詩風亦偏於陰柔細膩,恰與女性的特質相符,使得女性詩人數量劇增。而我們所認為是詩歌盛世的盛唐時期,詩風大氣而雄壯,這大概與女性氣質不符吧。

第三幅圖表是「詩人詩作字頻詞頻圖」,字詞的大小與深淺顯示著它們被使用的頻率。女性詩人作品中最高頻詞「相思」便可說明女詩人的一貫風格,與我們尋常的認知沒有太大出入,女詩人常常在詩中抒發「相思」與「寂寞」之情。同男性詩人一樣,「風」與「人」都是最高頻的字,而較之於男性,女性詩人又更喜歡運用「花」「月」「春」等柔美的意象,而通過這些意象,女性獨特的內心體驗可見一斑。

最後是「唐代女詩人社交圖」,圖中選取了最具代表的幾位女性詩人,將她們的社交關系以圓與線的方式表現出來,線的粗細則代表社交關系的深淺。通過這張圖可以發現,薛濤與李冶兩位著名的女詩人都與劉禹錫有過詩作唱和。或許我們未能知曉同時位列唐朝四大女詩人的這兩位才女是否有過交集,但此刻她們卻歷經遙遠的時空被線聯系在一起。

之後另有薛濤與李冶單獨的社交關系圖。在李冶的社交圖中,詩人與陸羽、皎然之間形成了一個三角,可見這也是一個詩人之間的「小圈子」,三人都對茶學、佛學等有很大的興趣,並且也曾互有酬和。而「女校書」薛濤的社交圖中類似的圈子更多也更大,最大的有元稹、白居易、劉禹錫、嚴綬等人,他們大多互相認識或者熟識,彷彿是古代版的「朋友圈共同好友」,隱匿在典籍中的錯綜復雜的關系網路具象為簡單明了的社交圖,似乎古人被時間重重遮掩的面貌也在霎時間清晰起來。

新聞的網頁背景模擬了泛黃古卷,配上古雅的圖案設計與字體設計,構成了一幅交織著理性與嚴謹的「仕女圖」,雖未有畫像出現,但透過數據架成的時光之橋,我們彷彿能透過千年的塵埃而窺見美人含羞的影子。

對於數據新聞作品的外觀設計,項目的具體負責人張偉老師表示,他們對每一個圖表都做了兩套以上的方案,經過不斷的篩選與考量之後才有我們所見的這一套外觀。網頁設計也如古時畫工制畫一般,如切如磋,如琢如磨,方能以美的姿態喚起觀者精神的共鳴。

宋朝詞人的情緒表達

宋詞項目「宋詞繾綣,何處畫人間」以《全宋詞》為樣本,從近21000首詞作、1330位詞人的龐大數據中呈現了豐富的圖表。有別於唐詩作品的精緻與古典氣息,宋詞作品的外觀則帶有朦朧的寫意風格,圖表亦多處採用了水墨元素,將精確的數據渲染出詩意之美。

整篇作品分為三個版塊,「萬水千山走遍」「草木皆有情,詞即人生」「春風化雨,歷久彌新」。在第一個板塊「萬水千山走遍」中,首先映入眼簾的就是一幅宋朝的疆域圖,其中以灰點代表著詞人們曾到達過的地方,灰點越大代表到達越多人次。灰點密集地覆蓋了宋朝的大半版圖,除了青藏高原一帶鮮有涉足外,天山南北亦有詞人們的足跡。滑鼠懸浮其上會顯示出詞人的行進路線,跨度最大的一條由疆域的最北端一直延伸到最南的臨海地區。孔子周遊列國的路線其實僅在河南至山東一帶,但今天高鐵幾個小時就能到達的路途,孔子卻走了十數年。這條從南至北貫穿宋朝疆域的路線,很有可能耗費了一位詞人一生的時間。

之後是宋朝詞人的全景圖,這幅全景圖採用了折線圖的方式,橫軸為北宋至南宋的各個 歷史 階段,而縱軸為詞人作品數量。每一段線條代表一位詞人,水平線是詞人的平民時期,向上的折線則是詞人的仕途時期,線條的灰色與棕色來區分婉約派與豪放派。在眾多詞人中,一生布衣「梅妻鶴子」的林逋與女性詞人李清照的線條都是一條水平線,其餘詞人的線條都有起有伏,一生的悲歡跌宕都被一條簡單的線所勾勒,引人唏噓。

在第二個版塊「草木皆有情,詞即人生」中,首先對《全宋詞》的詞頻進行了統計。最高頻詞分別為「東風」「何處」「人間」,宋朝的積貧積弱以及靖康之變加重了詞人心中的漂泊感,他們彷彿一直在尋覓,無論是「今宵酒醒何處」,還是陸放翁常書於詞中的「歸何處」,都是一聲聲對心靈的叩問。

第二幅圖表是宋代著名詞人常見意象及其表達情緒的統計,喜、怒、哀、樂、思五種情緒分別用不同顏色表示,每一種意象都有它所承載情緒表達次數的餅狀統計圖,滑鼠懸浮在詞人名上可以顯示出他們所使用的意象表達情緒次數的比例。王國維曾言「以我觀物,故物皆著我之色彩」,豪放派代表人物辛棄疾常用「酒」「月」等意象,使人聯想到邊關冷月、煮酒悲歌,而晏殊之子晏幾道詞風婉約,他少年時家道中落,此後一生流離,詞中多以落魄王孫的形象出現,常在「小樓」中流連時光,他的名句「舞低楊柳樓心月,歌盡桃花扇底風」恰能道出他詞中風情。

我好奇如何才能計算出意象中承載的情緒,陳為教授告知是根據已有的演算法和模型來計算的,「對文字當中的 情感 進行計算,是計算機學界研究了二十年的一個問題,已經有了標准方法」,「對於我們來說,這就是教科書上的東西」。原來文學與計算機的結合並不只是今年才興起的,早已產生了超越我們想像的進步。

最後一個版塊「春風化雨,歷久彌新」中將各個詞牌代表詞作的平仄以長短不一的線段標出,配以人聲朗誦,詞被還原了它原始的音樂功能,原先掩藏在字詞背後的韻律被直觀地展現出來。或許相隔千年時光,樂坊的客人也在與我們欣賞著同一首曲子詞,咀嚼同一段繁復綿長的 情感 。

數據化與詞學研究的碰撞引入了「定量」的思維方式

唐詩宋詞與大數據結合而產生的一大效果,即是效率的提升。一張張製作精美的圖表將關鍵信息在眼前一字排開,根據需要可以信手采擷。我不由感嘆,如果我之前作業所需的資料也能以這樣的方式呈現,想必可以省下不少時間。

陳為教授介紹,在大數據普及之前,人文學者們獲取信息需要依靠查閱實物典籍,將一本本書從頭翻到尾, 科技 進步後,很多典籍都有了電子掃描版,但還是需要人工檢索,在電腦上將所有的文字讀完。但大數據帶來了改變,「假設我能夠把它核心的、關鍵的特徵和信息提煉,並用計算機建模做出來,然後呈現在屏幕上,這些人的關鍵信息就這些,他跟誰有關系,他有什麼作品,他的生活環境怎樣,這就極大地提高了效率。」

就讀人文專業的我,時常為了解一位古代詩人在某一時間段生活的 社會 環境,對著許多影印版的史志和詩人年譜進行「肉眼檢索」,繁體豎排小字看久了讓人眼睛發花。

我想到自己曾做的一份唐宋詞名物意象變遷的作業,我選擇了「釵」的意象。在例舉含有該意象的詞作時,已經有現成的唐宋詞資料庫,其中收錄了相當數量的唐宋詞,我只需要輸入「釵」「銀釵」「鳳釵」等關鍵詞,就能輕松獲取與之相關的一篇篇作品,方便快捷。而在調查「釵」本身材質與形制的變遷時,我所查到的相關飾物名錄和圖鑒有些甚至沒有目錄和頁碼,只能面對繁體豎排字一頁一頁地查閱,看到可能有用的信息也只能使用pdf閱讀軟體自帶的標記功能。一次查找需要耗費很長的時間,而獲取的信息卻遠遠不能與付出的時間等價。有時候翻完了一本幾百頁的書,能夠得到的有用信息也只有幾句話。從這一點來說,大數據的普及著實是一種迫切的需要,它也為人文社科的研究者帶來了福音,省去了許多繁復而低效率的案頭勞作。

大數據除了能夠極大提高科研效率,同時也為研究提供了一種「定量分析」的思維角度。

唐宋詞的數據化研究是20世紀90年代開始興起的一種研究趨勢,與20世紀90年代的數據 科技 發展息息相關。而數據化與詞學研究的碰撞引入了「定量」的思維方式,譬如如何確定一首詞在宋代的受歡迎程度,這在以前的研究中是難以衡量的,即使能夠定性,也是「空口無憑」,沒有相應的證據。但大數據卻可以解決這個難題,統計宋代詞話中這首詞被收錄的次數,就可以大概得出其受歡迎程度的量化結果。統計數據本身就使得結果更精確,也更有說服力。

雖然大數據能夠帶來諸多益處,但大數據與文學研究的交匯中也產生了一些需要注意的問題。在一節專業課上,老師曾舉過一個大數據研究的例子。在《全金元詞》中,使用頻率最高的詞調有兩個,最高為《黑漆弩》,其次是《木蘭花慢》。《木蘭花慢》是我們耳熟能詳的詞調,而《黑漆弩》對於並不十分專業的我來說卻是聞所未聞。《黑漆弩》在宋代也幾乎沒有作品傳世,但它為何會成為使用頻率最高的詞調?原來《黑漆弩》到元代時,進入元雜劇成為了一種曲調,也就是說,它是一種曲化的詞調,可以稱之為曲調。由此反映出了問題,在利用大數據研究詞的時候,樣本問題需要得到重視,譬如在研究《全金元詞》中使用頻率最高的詞調時,像《黑漆弩》這樣曲化的詞調就不應該計入樣本中。采樣問題成為詞學研究大數據化的「攔路虎」。

除了已知樣本的問題,詞學研究領域樣本的不斷變動同樣也困擾著學者們。唐宋詞不斷有遺詞被發現,樣本在不斷地補充。而相對於現存數量有限的唐宋詞,明清詞的數量更是多如恆河之沙,幾乎難以窮盡,如此龐大的樣本本身就是一個令人頭疼的難題。

人文學科與大數據的合作,已經有了令人欣喜的發展,但仍舊任重而道遠。

作為一個人文專業的學生,我也期待著美好圖景成為現實的一天。

文章選自《大學生》

⑹ 《長安十二時辰》中的「大案牘術」到底是個什麼東西,真有劇終描述的那麼神奇

大案牘術就是古代的「大數據」技術。
雖然它與現在的大數據技術有很大的區別,但在那個時候,這種方式已經有了數據分析的雛形。
不過,所謂的「大案牘」之術不過是作者為了劇情的發展以及契合時代的熱點編纂想像出來的這么一種古代「秘術」,然而在真實的唐史中,這大案牘之術是不存在的。

雖然大案牘之術並不真實存在,但類似大案牘之術這種模式的應用,在古代卻很早就出現了。

⑺ 大數據在古代叫什麼

大數據在古代叫大案牘之術。

⑻ 銆庣傳寰鏂楁暟銆忥細鍏跺疄灝辨槸鍙や唬鐨勫ぇ鏁版嵁錛

縐戞櫘涓涓嬨庣傳寰鏂楁暟銆忥細

鈥滅傳寰鏂楁暟鈥濇槸鏈縐戝︾殑鍛界悊娉曪紝鍙浠ユ垚涓烘瘡涓涓浜哄績涓鐨勪竴鐩忔槑鐏銆

鈥滅煡閬撳懡榪愨濆凡緇忎笉鏄鏈閲嶈佺殑錛屸滃備綍鏀歸犲懡榪愨濇墠鏄閲嶇偣銆

緔寰鏂楁暟鏄灝嗕釜浜虹敓杈幫紝閫忚繃瀹囧畽榪愯屾椂澶╁湴鏄熻景鐨勪氦浜掑獎鍝嶏紝鎵鎺掑嚭鐨勬枟鏁板懡鐩樸

鍏跺疄灝辨槸鍙や唬鐨勫ぇ鏁版嵁錛

鍏朵腑鍖呮嫭鍛藉錛屽厔寮燂紝澶濡伙紝瀛愬コ錛岃儲甯涳紝鐤懼巹錛岃縼縐伙紝浜ゅ弸錛屼簨涓氾紝鐢板畢錛岀忓痙錛岀埗姣嶏紝韜瀹絳夛紝鍛堢幇鍑虹敓鍛界姸鎬佺殑鍗冨彉涓囧寲銆

紲炴槑鐨勫彉鍖栧敖鍦ㄥ叾涓錛屽洜涓轟漢鐨勨滃叓瀛椻濅覆鑱斾簡榪囧幓銆佺幇鍦ㄥ拰鏈鏉ワ紝姣忎釜浜虹殑鍏瀛楅兘鏄鍥犳灉瀹氬緥鐨勬墽琛岃呭拰鏈虹紭鐨勫壋閫犺呫

緔寰鏂楁暟璁哄懡鐨勭洰鐨勪笉鏄瑕侀勬祴鏈鏉ワ紝鑰屾槸瑕佽勫垝鏈鏉ャ

閱讀全文

與大數據古代的相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接