A. 当唐诗宋词遇上大数据
文/戴玥
从数据的角度解读唐诗宋词,居然能得出超乎想象的结论。这是我所在的浙江大学计算机学院CAD&CG(计算机辅助设计与图形学)国家重点实验室与新华网合作推出的两款数据新闻作品“我有柔情似水,亦有豪情万丈——唐代女诗人群像”和“宋词缱绻,何处画人间”所研究的内容。
什么是数据新闻?数据新闻又称数据驱动新闻,是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。如果把未经处理的数据比作新鲜的食材,那么数据新闻就是将一道精心烹饪的菜肴呈现在读者面前。“一千个读者心中有一千个哈姆雷特”,每个人都能从中品出不同的滋味。
为了更加深入地了解“菜肴”的烹制方法,我在浙江大学紫金港校区采访了两个作品的总负责人陈为教授与项目的具体负责人张玮老师。与两位老师的谈话,使得看似神秘的“烹制方法”逐渐清晰起来。
科学而严谨的“仕女图”:唐代女诗人群像
唐诗项目“我有柔情似水,亦有豪情万丈——唐代女诗人群像”分析了约5.5万首唐诗,采用多样化的图表对唐代女诗人的创作情况进行了可视化呈现。
第一幅图表是关于唐代诗人创作数量的一览图,分别对存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的诗人数量以点阵图的方式进行了表述,每一个点都代表着一位诗人,鼠标悬浮在点上便显示出诗人的姓名与作品数,诗人的性别则用灰色与朱红色区分。在不同阶段,用画像着重标出了著名的代表诗人,如在“3~5首”的阶段里,存世3首作品的张若虚是其中的代表,而在“50首以上”的阶段中,存世3009首的白居易又是其中的翘楚。面对单纯的数字,我们或许不能敏锐地感知背后的意义,而在点阵图中,较之于许许多多仅留下孤篇的诗人,我们便可以感受到有3009首作品传世的香山居士在当时及后世拥有多么惊人的影响力。三千余篇诗作历经一千多年时间长河的波涛汹涌仍然传递到了我们手中,这又是怎样一份文化与 历史 的厚重。
第二幅图表是“唐代女诗人全景图”,将唐朝划分为初唐、盛唐、中唐、晚唐四个阶段。此处同样采用了点阵的表现方式,但用朱砂色的花朵代替了“点”,不同形状的花朵代表着女性诗人的不同身份,她们有的是宫廷诗人,如上官婉儿,有的是士大夫妻女,有的则是民间女子或歌妓,而作品存留数量最多同时也最著名的几人,如薛涛、李冶、鱼玄机等人,则以盛开的荷花标记。人们常以花朵喻美人,而这些朱红的花朵也仿佛承继了这些女子的惊才绝艳,在纸卷上美好而热烈地盛开。
在我们的印象里,盛唐才是诗人辈出的时代,其时有李杜等冠绝古今的大诗人出现,想必此时的女性诗人数量应该最多。但这张全景图却给出了不一样的答案——盛唐时的女性诗人仅仅比初唐与中唐稍多,反而是晚唐时期女性诗人数量为最,几是中唐与盛唐时期的两倍。发现这个与认知大相径庭的事实后,我开始尝试为此找到一种解释。联系此前所学,我想或许是因为晚唐时 社会 状况江河日下,诗风亦偏于阴柔细腻,恰与女性的特质相符,使得女性诗人数量剧增。而我们所认为是诗歌盛世的盛唐时期,诗风大气而雄壮,这大概与女性气质不符吧。
第三幅图表是“诗人诗作字频词频图”,字词的大小与深浅显示着它们被使用的频率。女性诗人作品中最高频词“相思”便可说明女诗人的一贯风格,与我们寻常的认知没有太大出入,女诗人常常在诗中抒发“相思”与“寂寞”之情。同男性诗人一样,“风”与“人”都是最高频的字,而较之于男性,女性诗人又更喜欢运用“花”“月”“春”等柔美的意象,而通过这些意象,女性独特的内心体验可见一斑。
最后是“唐代女诗人社交图”,图中选取了最具代表的几位女性诗人,将她们的社交关系以圆与线的方式表现出来,线的粗细则代表社交关系的深浅。通过这张图可以发现,薛涛与李冶两位著名的女诗人都与刘禹锡有过诗作唱和。或许我们未能知晓同时位列唐朝四大女诗人的这两位才女是否有过交集,但此刻她们却历经遥远的时空被线联系在一起。
之后另有薛涛与李冶单独的社交关系图。在李冶的社交图中,诗人与陆羽、皎然之间形成了一个三角,可见这也是一个诗人之间的“小圈子”,三人都对茶学、佛学等有很大的兴趣,并且也曾互有酬和。而“女校书”薛涛的社交图中类似的圈子更多也更大,最大的有元稹、白居易、刘禹锡、严绶等人,他们大多互相认识或者熟识,仿佛是古代版的“朋友圈共同好友”,隐匿在典籍中的错综复杂的关系网络具象为简单明了的社交图,似乎古人被时间重重遮掩的面貌也在霎时间清晰起来。
新闻的网页背景模拟了泛黄古卷,配上古雅的图案设计与字体设计,构成了一幅交织着理性与严谨的“仕女图”,虽未有画像出现,但透过数据架成的时光之桥,我们仿佛能透过千年的尘埃而窥见美人含羞的影子。
对于数据新闻作品的外观设计,项目的具体负责人张伟老师表示,他们对每一个图表都做了两套以上的方案,经过不断的筛选与考量之后才有我们所见的这一套外观。网页设计也如古时画工制画一般,如切如磋,如琢如磨,方能以美的姿态唤起观者精神的共鸣。
宋朝词人的情绪表达
宋词项目“宋词缱绻,何处画人间”以《全宋词》为样本,从近21000首词作、1330位词人的庞大数据中呈现了丰富的图表。有别于唐诗作品的精致与古典气息,宋词作品的外观则带有朦胧的写意风格,图表亦多处采用了水墨元素,将精确的数据渲染出诗意之美。
整篇作品分为三个版块,“万水千山走遍”“草木皆有情,词即人生”“春风化雨,历久弥新”。在第一个板块“万水千山走遍”中,首先映入眼帘的就是一幅宋朝的疆域图,其中以灰点代表着词人们曾到达过的地方,灰点越大代表到达越多人次。灰点密集地覆盖了宋朝的大半版图,除了青藏高原一带鲜有涉足外,天山南北亦有词人们的足迹。鼠标悬浮其上会显示出词人的行进路线,跨度最大的一条由疆域的最北端一直延伸到最南的临海地区。孔子周游列国的路线其实仅在河南至山东一带,但今天高铁几个小时就能到达的路途,孔子却走了十数年。这条从南至北贯穿宋朝疆域的路线,很有可能耗费了一位词人一生的时间。
之后是宋朝词人的全景图,这幅全景图采用了折线图的方式,横轴为北宋至南宋的各个 历史 阶段,而纵轴为词人作品数量。每一段线条代表一位词人,水平线是词人的平民时期,向上的折线则是词人的仕途时期,线条的灰色与棕色来区分婉约派与豪放派。在众多词人中,一生布衣“梅妻鹤子”的林逋与女性词人李清照的线条都是一条水平线,其余词人的线条都有起有伏,一生的悲欢跌宕都被一条简单的线所勾勒,引人唏嘘。
在第二个版块“草木皆有情,词即人生”中,首先对《全宋词》的词频进行了统计。最高频词分别为“东风”“何处”“人间”,宋朝的积贫积弱以及靖康之变加重了词人心中的漂泊感,他们仿佛一直在寻觅,无论是“今宵酒醒何处”,还是陆放翁常书于词中的“归何处”,都是一声声对心灵的叩问。
第二幅图表是宋代著名词人常见意象及其表达情绪的统计,喜、怒、哀、乐、思五种情绪分别用不同颜色表示,每一种意象都有它所承载情绪表达次数的饼状统计图,鼠标悬浮在词人名上可以显示出他们所使用的意象表达情绪次数的比例。王国维曾言“以我观物,故物皆著我之色彩”,豪放派代表人物辛弃疾常用“酒”“月”等意象,使人联想到边关冷月、煮酒悲歌,而晏殊之子晏几道词风婉约,他少年时家道中落,此后一生流离,词中多以落魄王孙的形象出现,常在“小楼”中流连时光,他的名句“舞低杨柳楼心月,歌尽桃花扇底风”恰能道出他词中风情。
我好奇如何才能计算出意象中承载的情绪,陈为教授告知是根据已有的算法和模型来计算的,“对文字当中的 情感 进行计算,是计算机学界研究了二十年的一个问题,已经有了标准方法”,“对于我们来说,这就是教科书上的东西”。原来文学与计算机的结合并不只是今年才兴起的,早已产生了超越我们想象的进步。
最后一个版块“春风化雨,历久弥新”中将各个词牌代表词作的平仄以长短不一的线段标出,配以人声朗诵,词被还原了它原始的音乐功能,原先掩藏在字词背后的韵律被直观地展现出来。或许相隔千年时光,乐坊的客人也在与我们欣赏着同一首曲子词,咀嚼同一段繁复绵长的 情感 。
数据化与词学研究的碰撞引入了“定量”的思维方式
唐诗宋词与大数据结合而产生的一大效果,即是效率的提升。一张张制作精美的图表将关键信息在眼前一字排开,根据需要可以信手采撷。我不由感叹,如果我之前作业所需的资料也能以这样的方式呈现,想必可以省下不少时间。
陈为教授介绍,在大数据普及之前,人文学者们获取信息需要依靠查阅实物典籍,将一本本书从头翻到尾, 科技 进步后,很多典籍都有了电子扫描版,但还是需要人工检索,在电脑上将所有的文字读完。但大数据带来了改变,“假设我能够把它核心的、关键的特征和信息提炼,并用计算机建模做出来,然后呈现在屏幕上,这些人的关键信息就这些,他跟谁有关系,他有什么作品,他的生活环境怎样,这就极大地提高了效率。”
就读人文专业的我,时常为了解一位古代诗人在某一时间段生活的 社会 环境,对着许多影印版的史志和诗人年谱进行“肉眼检索”,繁体竖排小字看久了让人眼睛发花。
我想到自己曾做的一份唐宋词名物意象变迁的作业,我选择了“钗”的意象。在例举含有该意象的词作时,已经有现成的唐宋词数据库,其中收录了相当数量的唐宋词,我只需要输入“钗”“银钗”“凤钗”等关键词,就能轻松获取与之相关的一篇篇作品,方便快捷。而在调查“钗”本身材质与形制的变迁时,我所查到的相关饰物名录和图鉴有些甚至没有目录和页码,只能面对繁体竖排字一页一页地查阅,看到可能有用的信息也只能使用pdf阅读软件自带的标记功能。一次查找需要耗费很长的时间,而获取的信息却远远不能与付出的时间等价。有时候翻完了一本几百页的书,能够得到的有用信息也只有几句话。从这一点来说,大数据的普及着实是一种迫切的需要,它也为人文社科的研究者带来了福音,省去了许多繁复而低效率的案头劳作。
大数据除了能够极大提高科研效率,同时也为研究提供了一种“定量分析”的思维角度。
唐宋词的数据化研究是20世纪90年代开始兴起的一种研究趋势,与20世纪90年代的数据 科技 发展息息相关。而数据化与词学研究的碰撞引入了“定量”的思维方式,譬如如何确定一首词在宋代的受欢迎程度,这在以前的研究中是难以衡量的,即使能够定性,也是“空口无凭”,没有相应的证据。但大数据却可以解决这个难题,统计宋代词话中这首词被收录的次数,就可以大概得出其受欢迎程度的量化结果。统计数据本身就使得结果更精确,也更有说服力。
虽然大数据能够带来诸多益处,但大数据与文学研究的交汇中也产生了一些需要注意的问题。在一节专业课上,老师曾举过一个大数据研究的例子。在《全金元词》中,使用频率最高的词调有两个,最高为《黑漆弩》,其次是《木兰花慢》。《木兰花慢》是我们耳熟能详的词调,而《黑漆弩》对于并不十分专业的我来说却是闻所未闻。《黑漆弩》在宋代也几乎没有作品传世,但它为何会成为使用频率最高的词调?原来《黑漆弩》到元代时,进入元杂剧成为了一种曲调,也就是说,它是一种曲化的词调,可以称之为曲调。由此反映出了问题,在利用大数据研究词的时候,样本问题需要得到重视,譬如在研究《全金元词》中使用频率最高的词调时,像《黑漆弩》这样曲化的词调就不应该计入样本中。采样问题成为词学研究大数据化的“拦路虎”。
除了已知样本的问题,词学研究领域样本的不断变动同样也困扰着学者们。唐宋词不断有遗词被发现,样本在不断地补充。而相对于现存数量有限的唐宋词,明清词的数量更是多如恒河之沙,几乎难以穷尽,如此庞大的样本本身就是一个令人头疼的难题。
人文学科与大数据的合作,已经有了令人欣喜的发展,但仍旧任重而道远。
作为一个人文专业的学生,我也期待着美好图景成为现实的一天。
文章选自《大学生》
B. 悲,唐诗情绪的主流(节选自钱塘大数据)
对《全唐诗》近5万首诗的情绪分析结果,展示如下:
可能出乎很多人的意料,代表大唐气象的唐诗应该以积极昂扬的情绪为主,怎么会是“悲”、“思”、“忧”这样的情绪占据主流呢?而 “喜”、“乐”这样的情绪却占据末流呢?
接下来,笔者着重来分析下“悲”这个情绪占据主流的原因。
从常见的唐诗写作题材上说,带有“悲”字基调的唐诗较多,也多出名诗佳句,比如唐诗中常见的几种情结,如”悲秋情结“、”别离情结“、”薄暮情结“和”悲怨情结“,都体现出浓重的“悲情”色彩。
古人云:“悲愤出诗人”,它点破了人的成就与所处的环境、心境有某种关系。就像司马迁所说:“夫《诗》、《书》隐约者,欲遂其志之思也。昔西伯拘羑里,演《周易》;孔子厄陈、蔡,作《春秋》…大抵贤圣发愤之所为作也。此人皆意有所郁结,不得通其道也…”回顾古今中外的著名的诗人和作家,几乎无一不是曾有一段被排挤,诽谤,不得志和身处逆境之经历,有些甚至还很悲惨。正是在这种悲难,恶劣环境中,才使得其奋发图强。
重要的是,唐诗中的“悲”不仅仅是做“儿女态”的悲,更是具有超越时空纯宴、怜悯苍生以及同情至美爱情的大慈大悲。如下:
陈子昂的《登幽州台歌》,“前不见古人,后不见来者。念天地之悠悠,独怆然而涕下。”从时间与空间两个角度把悲凉拉长了。
李白的《将进酒》中“君不见明镜高堂悲白发,朝如青丝暮成雪”,以及《梦游天姥吟留别》中“世间行乐亦如春裤族此,古来万事东流水”让人唏嘘!还有《长相思》第一首中“天长路远魂飞苦,梦魂不到关山难。长相思,摧心肝。”
杜甫的《登高》中“无边落木萧萧下,不尽长江滚滚来。万里悲秋常作客,百年多病独登台。”老病残躯,孤苦无依独登台,心中悲凉陡然而生。《石壕吏》中“老妪力虽衰,请从吏夜归。急应河阳役,犹得备晨炊”等句语言朴实,但极具张力!
白居易的《长恨歌》末尾“七月七日长生殿,夜半无人私语时。在天愿作比翼鸟,在地愿为连理枝。天长地久有时尽,此恨绵绵无绝期。”相爱而不能相聚,生死遗恨,没有尽头扒弊!
C. 清华附小6年级学生用大数据分析苏轼,你怎么看
清华附小6年级学生用大数据分析苏轼,我觉得是一个很好的现象。这个看上去是孩子们的创新行为,实际这就是现在公司运营时常用的方法,并且这种方法很有效、能提供很多解决方案。
作为小学生,能遵循发现问题---分析问题---解决问题的思路去系统的去解读苏轼,并且分工明确,逻辑性很强。
有的把苏轼诗词都找出来分析高频词,有的研究苏轼三次被贬经历的,有的研究苏轼在“明月”、“饮酒”方面的爱好,有的研究苏轼与“故人”、“道人”的关系,有的研究“使君”、“东坡”关系。并且各自分析,形成了5个不同附件。
我是职场达人乐易LEE老师,关于清华附小六年级学生用大数据分析苏轼,你有什么看法吗?欢迎评论留言。
D. 古代诗人作诗也扎堆 大数据分析哪些城市盛产诗歌
清华附小的小学生用大数据分析发现,苏轼曾为全国27家5A级景区写过诗。古代其他诗人又喜欢版在哪抒发情感呢权?
大数据分析发现,唐宋诗人最钟情的城市是开封,共有3563首诗在此诞生,比第二名西安1854首多了近一倍。
中南民族大学文学与新闻传播学院王兆鹏教授发布的“唐宋文学地图”,用大数据分析了古代众多诗人的人生轨迹。统计显示,全国产诗最多的前十个城市,其诗歌总量占到全部唐宋诗的大约47.8%。
各个城市的古诗圈子中,撑场面的诗人也不同。处在第一梯队的开封,“台柱子”苏辙作诗最多,达到894首。而杨万里在江西吉安共作诗1056首,绝对高产。
虽然在扬州“产量”不高,但李白一句“烟花三月下扬州”如今成了扬州市的宣传语,比“台柱子”影响更大。
E. 大数据作文800字
大数据,听到这个名字时,你一定想的是:“这一定是关于计算机的吧!”其实,大数据是数学的一类。
但具体什么是大数据呢?我觉得可以这么理解:“大”就是指大的范围,“数据”就是数的信息,合在一起就是大量的数的信息,但这个解释似乎不太对,所以我又加了一句,大数据的意思是把大量的数据进行整理分析最后得到答案。
那怎么进行数据分析?通过我的学习,我有了大概的了解,我认为首先要把信息集中起来,不能太分散,一样的东西要放在一起;其次要找出每一类中的'相同点,再进行归纳;最后进行分析,比如什么东西买的人多,什么东西买的人少等等。
说到分析数据,我的老师还特意讲了讲数据分析的方法,比如算两班的平均分差距可以将所有值加起来再除以总人数,但这个方法很麻烦;还可以用最高分减去最低分算出差距,但这种方法往往不准确;如果用最高分加上最低分再除以二,这种方法也不准确。从上面可以看出来,每一种方法都有利弊,要看具体情况选择适当的方法。
光有方法可不行,还要实战演练。老师在课上给了我们一张表,上面是超市五名顾客购买东西的记录,进行分析后我发现尿布跟葡萄酒被同一个人买的几率很大,我很疑惑:这两样毫无关系的物品怎么会被同一个人购买呢?后来老师说,这是外国人做的一个调查:在国外,当他们有孩子后,年轻的爸爸们会去超市买孩子的尿布,往往也会买一些自己喝的啤酒,所以记录单上酒和尿布才会出现在一起。真是个有趣的调查!
大数据还体现在很多方面,比如当你打开手机淘宝,里面的推荐物品都是你想要的,那是计算机检测到你最近搜索一个东西很频繁,根据你的喜好设定的:再比如你看短视频时,给你推荐的视频也是系统根据你平时的爱好设定的……总之,大数据在我们的生活中随处可见,此时你看的手机里也有大数据存在,那你知道是什么吗?
大数据是一门非常有趣的课程,或许这个名字让你提不起兴趣,但当你真正走进去研究它时,你就会发现:“哦,原来分析数据是一件多么快乐的事!”你说“快乐”不对?那是因为你没有体验过分析出来一个数据的成就感。具体的感觉是什么呢?你试试吧!
一年四季,桃花只盛开一次;一年有三百六十五天,而春天只有短短的三个月……数字可以用来对比,可以用来表达世间所有美好的事物。它触摸不到却能让我们领略人间的温暖与冷漠。当我们走进数据时代,你会发现世间冷暖,尽收眼底。
数据虽是生冷的数字,但它能折射出人间的冷暖。漫步于天地,没有数据的世界一片茫然,它可以带给我们准确的度量,可以让我们知晓天下事。可以让我们的生活更加丰富多彩,充满生机。数据折射出人间冷暖。
数据提醒着人们过错的同时。也反映出时间的冷酷无情。到了上世纪九十年代。长江里仅剩二百余头白鳍豚,到了1997年,这种身长六英尺左右的动物只剩下了十七头。到了2004年,这种白鳍豚已经几乎消失在人们的视线。这一系列逐渐变少的数字无一不敲打着人们的警钟,提醒着人们保护环境的重要性,这些数据反映的不只是人们意识淡薄,更是对人间冷酷无情的极大反射!生命如此脆弱却被人类毫不留情地亲手扼杀。这些直击人心的数字是冷漠无情后付出的惨痛的代价,它时时刻刻都让我们为自己的所做所为感到羞耻。
数字也会如阳光般轻柔,带给我们温暖。当你考试得了满分,拿着卷子看至那鲜红的数字,你会感到无以言表的快乐与激动:当卖水果的老大爷今天顾客满员,多挣了一百元钱,看着那鲜红的钞票,就会感到幸福满满,生活幸福指数提高,经济发展的进步,每项数据都那么鼓舞人心,温暖心灵。数据有时就像乌云上的阳光,他会带你穿过层层阻碍,走向未知的世界。即使是很微小的事情,也会被数据折射幸福的光芒。
数据丰富着人们的生活,改变着我们的思维方式,仿佛离开了数据就会将自己陷入无边的黑暗。古人也常常用数据描述着事物的发展,曹刿论战中一鼓作气,再而衰,三而竭;登高中万里悲秋常作客,百年多病独登台。诗人们多运用数字夸张的手法表现内心情感,数字使他们的情感表达的更加淋漓尽致。作为新一届高三生,我们每天也会看到许多数字,距离高考仅剩二百余天,这将激励着我们去女里奋斗,为了明天的辉煌而放手一搏!
数字如微风吹过,激起阵阵涟漪;数字如阳光拂过,留下丝丝温暖,我们在这条数据时代的道路上走过,留下了我们的足迹,感受世间冷暖,感受着数据带给我们的幸福生活。