导航:首页 > 网络数据 > 大数据古代的

大数据古代的

发布时间:2024-04-20 13:15:03

⑴ 古代诗人作诗也扎堆 大数据分析哪些城市盛产诗歌

清华附小的小学生用大数据分析发现,苏轼曾为全国27家5A级景区写过诗。古代其他诗人又喜欢版在哪抒发情感呢权?
大数据分析发现,唐宋诗人最钟情的城市是开封,共有3563首诗在此诞生,比第二名西安1854首多了近一倍。

中南民族大学文学与新闻传播学院王兆鹏教授发布的“唐宋文学地图”,用大数据分析了古代众多诗人的人生轨迹。统计显示,全国产诗最多的前十个城市,其诗歌总量占到全部唐宋诗的大约47.8%。

各个城市的古诗圈子中,撑场面的诗人也不同。处在第一梯队的开封,“台柱子”苏辙作诗最多,达到894首。而杨万里在江西吉安共作诗1056首,绝对高产。
虽然在扬州“产量”不高,但李白一句“烟花三月下扬州”如今成了扬州市的宣传语,比“台柱子”影响更大。

⑵ 大案牍术是大数据吗

在今年暑假热播的电视剧《长安十二时辰》中,靖安司利用大案牍术选出了张小敬替他们办案,同时也使用大案牍术来推测各种事情。这个大案牍术听起来非常像古代版的大数据,那么它究竟是不是大数据呢?

大数据在于发现和理解信息内容及信息与信息之间的关系,建立在相关关系分析法基础上的预测是大数据的核心。“大数据”不仅仅指“大”的数据集;它要是具有足够的规模、足够的维度的数据量的数据集,可以基于此数据集进行一些预测、分析及更有价值的信息提取。

预测这件事啊,我们一直都在做。古人通过观天象预测天气,我们通过看天气预报决定明天穿什么衣服。球迷们请章鱼来预测球队的输赢,无数的股民们想知道明天股市的走向会如何。

预测和预测有什么不同吗?有。如果有一个熊孩子在我的正上方高空抛物,扔了一个钢镚下来,我判定这个钢镚会砸我脸上,所以我赶紧躲开了。地球的重力和熊孩子在我正上方扔的钢镚是因,砸我脸上是果,我是基于因果关系来进行预测的。而大数据的预测是基于相关关系进行预测的。通过发现数据之间的关系来进行预测,它不解释,不说明“为什么”,只回答“是什么”。

可见,大案牍术即没有足够体量的数据,也不是利用相关关系进行分析,并不是真的大数据。

⑶ 什么和什么是数据收集的两大重要渠道引导了大数据时代的来临

让大数据区别于数据的,是其海量积累、高增长率和多样性

什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。


⑷ 古代的数据是怎么统计出来的

任何统计都无法精确,即便是我们现在利用大数据,也不可能精确。
所以,我认为对各朝各代的平均年龄之类的统计,主要是根据历史记载的人物的年龄,进行模糊的统计。

⑸ 当唐诗宋词遇上大数据

文/戴玥

从数据的角度解读唐诗宋词,居然能得出超乎想象的结论。这是我所在的浙江大学计算机学院CAD&CG(计算机辅助设计与图形学)国家重点实验室与新华网合作推出的两款数据新闻作品“我有柔情似水,亦有豪情万丈——唐代女诗人群像”和“宋词缱绻,何处画人间”所研究的内容。

什么是数据新闻?数据新闻又称数据驱动新闻,是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。如果把未经处理的数据比作新鲜的食材,那么数据新闻就是将一道精心烹饪的菜肴呈现在读者面前。“一千个读者心中有一千个哈姆雷特”,每个人都能从中品出不同的滋味。

为了更加深入地了解“菜肴”的烹制方法,我在浙江大学紫金港校区采访了两个作品的总负责人陈为教授与项目的具体负责人张玮老师。与两位老师的谈话,使得看似神秘的“烹制方法”逐渐清晰起来。

科学而严谨的“仕女图”:唐代女诗人群像

唐诗项目“我有柔情似水,亦有豪情万丈——唐代女诗人群像”分析了约5.5万首唐诗,采用多样化的图表对唐代女诗人的创作情况进行了可视化呈现。

第一幅图表是关于唐代诗人创作数量的一览图,分别对存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的诗人数量以点阵图的方式进行了表述,每一个点都代表着一位诗人,鼠标悬浮在点上便显示出诗人的姓名与作品数,诗人的性别则用灰色与朱红色区分。在不同阶段,用画像着重标出了著名的代表诗人,如在“3~5首”的阶段里,存世3首作品的张若虚是其中的代表,而在“50首以上”的阶段中,存世3009首的白居易又是其中的翘楚。面对单纯的数字,我们或许不能敏锐地感知背后的意义,而在点阵图中,较之于许许多多仅留下孤篇的诗人,我们便可以感受到有3009首作品传世的香山居士在当时及后世拥有多么惊人的影响力。三千余篇诗作历经一千多年时间长河的波涛汹涌仍然传递到了我们手中,这又是怎样一份文化与 历史 的厚重。

第二幅图表是“唐代女诗人全景图”,将唐朝划分为初唐、盛唐、中唐、晚唐四个阶段。此处同样采用了点阵的表现方式,但用朱砂色的花朵代替了“点”,不同形状的花朵代表着女性诗人的不同身份,她们有的是宫廷诗人,如上官婉儿,有的是士大夫妻女,有的则是民间女子或歌妓,而作品存留数量最多同时也最著名的几人,如薛涛、李冶、鱼玄机等人,则以盛开的荷花标记。人们常以花朵喻美人,而这些朱红的花朵也仿佛承继了这些女子的惊才绝艳,在纸卷上美好而热烈地盛开。

在我们的印象里,盛唐才是诗人辈出的时代,其时有李杜等冠绝古今的大诗人出现,想必此时的女性诗人数量应该最多。但这张全景图却给出了不一样的答案——盛唐时的女性诗人仅仅比初唐与中唐稍多,反而是晚唐时期女性诗人数量为最,几是中唐与盛唐时期的两倍。发现这个与认知大相径庭的事实后,我开始尝试为此找到一种解释。联系此前所学,我想或许是因为晚唐时 社会 状况江河日下,诗风亦偏于阴柔细腻,恰与女性的特质相符,使得女性诗人数量剧增。而我们所认为是诗歌盛世的盛唐时期,诗风大气而雄壮,这大概与女性气质不符吧。

第三幅图表是“诗人诗作字频词频图”,字词的大小与深浅显示着它们被使用的频率。女性诗人作品中最高频词“相思”便可说明女诗人的一贯风格,与我们寻常的认知没有太大出入,女诗人常常在诗中抒发“相思”与“寂寞”之情。同男性诗人一样,“风”与“人”都是最高频的字,而较之于男性,女性诗人又更喜欢运用“花”“月”“春”等柔美的意象,而通过这些意象,女性独特的内心体验可见一斑。

最后是“唐代女诗人社交图”,图中选取了最具代表的几位女性诗人,将她们的社交关系以圆与线的方式表现出来,线的粗细则代表社交关系的深浅。通过这张图可以发现,薛涛与李冶两位著名的女诗人都与刘禹锡有过诗作唱和。或许我们未能知晓同时位列唐朝四大女诗人的这两位才女是否有过交集,但此刻她们却历经遥远的时空被线联系在一起。

之后另有薛涛与李冶单独的社交关系图。在李冶的社交图中,诗人与陆羽、皎然之间形成了一个三角,可见这也是一个诗人之间的“小圈子”,三人都对茶学、佛学等有很大的兴趣,并且也曾互有酬和。而“女校书”薛涛的社交图中类似的圈子更多也更大,最大的有元稹、白居易、刘禹锡、严绶等人,他们大多互相认识或者熟识,仿佛是古代版的“朋友圈共同好友”,隐匿在典籍中的错综复杂的关系网络具象为简单明了的社交图,似乎古人被时间重重遮掩的面貌也在霎时间清晰起来。

新闻的网页背景模拟了泛黄古卷,配上古雅的图案设计与字体设计,构成了一幅交织着理性与严谨的“仕女图”,虽未有画像出现,但透过数据架成的时光之桥,我们仿佛能透过千年的尘埃而窥见美人含羞的影子。

对于数据新闻作品的外观设计,项目的具体负责人张伟老师表示,他们对每一个图表都做了两套以上的方案,经过不断的筛选与考量之后才有我们所见的这一套外观。网页设计也如古时画工制画一般,如切如磋,如琢如磨,方能以美的姿态唤起观者精神的共鸣。

宋朝词人的情绪表达

宋词项目“宋词缱绻,何处画人间”以《全宋词》为样本,从近21000首词作、1330位词人的庞大数据中呈现了丰富的图表。有别于唐诗作品的精致与古典气息,宋词作品的外观则带有朦胧的写意风格,图表亦多处采用了水墨元素,将精确的数据渲染出诗意之美。

整篇作品分为三个版块,“万水千山走遍”“草木皆有情,词即人生”“春风化雨,历久弥新”。在第一个板块“万水千山走遍”中,首先映入眼帘的就是一幅宋朝的疆域图,其中以灰点代表着词人们曾到达过的地方,灰点越大代表到达越多人次。灰点密集地覆盖了宋朝的大半版图,除了青藏高原一带鲜有涉足外,天山南北亦有词人们的足迹。鼠标悬浮其上会显示出词人的行进路线,跨度最大的一条由疆域的最北端一直延伸到最南的临海地区。孔子周游列国的路线其实仅在河南至山东一带,但今天高铁几个小时就能到达的路途,孔子却走了十数年。这条从南至北贯穿宋朝疆域的路线,很有可能耗费了一位词人一生的时间。

之后是宋朝词人的全景图,这幅全景图采用了折线图的方式,横轴为北宋至南宋的各个 历史 阶段,而纵轴为词人作品数量。每一段线条代表一位词人,水平线是词人的平民时期,向上的折线则是词人的仕途时期,线条的灰色与棕色来区分婉约派与豪放派。在众多词人中,一生布衣“梅妻鹤子”的林逋与女性词人李清照的线条都是一条水平线,其余词人的线条都有起有伏,一生的悲欢跌宕都被一条简单的线所勾勒,引人唏嘘。

在第二个版块“草木皆有情,词即人生”中,首先对《全宋词》的词频进行了统计。最高频词分别为“东风”“何处”“人间”,宋朝的积贫积弱以及靖康之变加重了词人心中的漂泊感,他们仿佛一直在寻觅,无论是“今宵酒醒何处”,还是陆放翁常书于词中的“归何处”,都是一声声对心灵的叩问。

第二幅图表是宋代著名词人常见意象及其表达情绪的统计,喜、怒、哀、乐、思五种情绪分别用不同颜色表示,每一种意象都有它所承载情绪表达次数的饼状统计图,鼠标悬浮在词人名上可以显示出他们所使用的意象表达情绪次数的比例。王国维曾言“以我观物,故物皆著我之色彩”,豪放派代表人物辛弃疾常用“酒”“月”等意象,使人联想到边关冷月、煮酒悲歌,而晏殊之子晏几道词风婉约,他少年时家道中落,此后一生流离,词中多以落魄王孙的形象出现,常在“小楼”中流连时光,他的名句“舞低杨柳楼心月,歌尽桃花扇底风”恰能道出他词中风情。

我好奇如何才能计算出意象中承载的情绪,陈为教授告知是根据已有的算法和模型来计算的,“对文字当中的 情感 进行计算,是计算机学界研究了二十年的一个问题,已经有了标准方法”,“对于我们来说,这就是教科书上的东西”。原来文学与计算机的结合并不只是今年才兴起的,早已产生了超越我们想象的进步。

最后一个版块“春风化雨,历久弥新”中将各个词牌代表词作的平仄以长短不一的线段标出,配以人声朗诵,词被还原了它原始的音乐功能,原先掩藏在字词背后的韵律被直观地展现出来。或许相隔千年时光,乐坊的客人也在与我们欣赏着同一首曲子词,咀嚼同一段繁复绵长的 情感 。

数据化与词学研究的碰撞引入了“定量”的思维方式

唐诗宋词与大数据结合而产生的一大效果,即是效率的提升。一张张制作精美的图表将关键信息在眼前一字排开,根据需要可以信手采撷。我不由感叹,如果我之前作业所需的资料也能以这样的方式呈现,想必可以省下不少时间。

陈为教授介绍,在大数据普及之前,人文学者们获取信息需要依靠查阅实物典籍,将一本本书从头翻到尾, 科技 进步后,很多典籍都有了电子扫描版,但还是需要人工检索,在电脑上将所有的文字读完。但大数据带来了改变,“假设我能够把它核心的、关键的特征和信息提炼,并用计算机建模做出来,然后呈现在屏幕上,这些人的关键信息就这些,他跟谁有关系,他有什么作品,他的生活环境怎样,这就极大地提高了效率。”

就读人文专业的我,时常为了解一位古代诗人在某一时间段生活的 社会 环境,对着许多影印版的史志和诗人年谱进行“肉眼检索”,繁体竖排小字看久了让人眼睛发花。

我想到自己曾做的一份唐宋词名物意象变迁的作业,我选择了“钗”的意象。在例举含有该意象的词作时,已经有现成的唐宋词数据库,其中收录了相当数量的唐宋词,我只需要输入“钗”“银钗”“凤钗”等关键词,就能轻松获取与之相关的一篇篇作品,方便快捷。而在调查“钗”本身材质与形制的变迁时,我所查到的相关饰物名录和图鉴有些甚至没有目录和页码,只能面对繁体竖排字一页一页地查阅,看到可能有用的信息也只能使用pdf阅读软件自带的标记功能。一次查找需要耗费很长的时间,而获取的信息却远远不能与付出的时间等价。有时候翻完了一本几百页的书,能够得到的有用信息也只有几句话。从这一点来说,大数据的普及着实是一种迫切的需要,它也为人文社科的研究者带来了福音,省去了许多繁复而低效率的案头劳作。

大数据除了能够极大提高科研效率,同时也为研究提供了一种“定量分析”的思维角度。

唐宋词的数据化研究是20世纪90年代开始兴起的一种研究趋势,与20世纪90年代的数据 科技 发展息息相关。而数据化与词学研究的碰撞引入了“定量”的思维方式,譬如如何确定一首词在宋代的受欢迎程度,这在以前的研究中是难以衡量的,即使能够定性,也是“空口无凭”,没有相应的证据。但大数据却可以解决这个难题,统计宋代词话中这首词被收录的次数,就可以大概得出其受欢迎程度的量化结果。统计数据本身就使得结果更精确,也更有说服力。

虽然大数据能够带来诸多益处,但大数据与文学研究的交汇中也产生了一些需要注意的问题。在一节专业课上,老师曾举过一个大数据研究的例子。在《全金元词》中,使用频率最高的词调有两个,最高为《黑漆弩》,其次是《木兰花慢》。《木兰花慢》是我们耳熟能详的词调,而《黑漆弩》对于并不十分专业的我来说却是闻所未闻。《黑漆弩》在宋代也几乎没有作品传世,但它为何会成为使用频率最高的词调?原来《黑漆弩》到元代时,进入元杂剧成为了一种曲调,也就是说,它是一种曲化的词调,可以称之为曲调。由此反映出了问题,在利用大数据研究词的时候,样本问题需要得到重视,譬如在研究《全金元词》中使用频率最高的词调时,像《黑漆弩》这样曲化的词调就不应该计入样本中。采样问题成为词学研究大数据化的“拦路虎”。

除了已知样本的问题,词学研究领域样本的不断变动同样也困扰着学者们。唐宋词不断有遗词被发现,样本在不断地补充。而相对于现存数量有限的唐宋词,明清词的数量更是多如恒河之沙,几乎难以穷尽,如此庞大的样本本身就是一个令人头疼的难题。

人文学科与大数据的合作,已经有了令人欣喜的发展,但仍旧任重而道远。

作为一个人文专业的学生,我也期待着美好图景成为现实的一天。

文章选自《大学生》

⑹ 《长安十二时辰》中的“大案牍术”到底是个什么东西,真有剧终描述的那么神奇

大案牍术就是古代的“大数据”技术。
虽然它与现在的大数据技术有很大的区别,但在那个时候,这种方式已经有了数据分析的雏形。
不过,所谓的“大案牍”之术不过是作者为了剧情的发展以及契合时代的热点编纂想象出来的这么一种古代“秘术”,然而在真实的唐史中,这大案牍之术是不存在的。

虽然大案牍之术并不真实存在,但类似大案牍之术这种模式的应用,在古代却很早就出现了。

⑺ 大数据在古代叫什么

大数据在古代叫大案牍之术。

⑻ 銆庣传寰鏂楁暟銆忥細鍏跺疄灏辨槸鍙や唬鐨勫ぇ鏁版嵁锛

绉戞櫘涓涓嬨庣传寰鏂楁暟銆忥細

鈥滅传寰鏂楁暟鈥濇槸鏈绉戝︾殑鍛界悊娉曪紝鍙浠ユ垚涓烘瘡涓涓浜哄績涓鐨勪竴鐩忔槑鐏銆

鈥滅煡閬撳懡杩愨濆凡缁忎笉鏄鏈閲嶈佺殑锛屸滃備綍鏀归犲懡杩愨濇墠鏄閲嶇偣銆

绱寰鏂楁暟鏄灏嗕釜浜虹敓杈帮紝閫忚繃瀹囧畽杩愯屾椂澶╁湴鏄熻景鐨勪氦浜掑奖鍝嶏紝鎵鎺掑嚭鐨勬枟鏁板懡鐩樸

鍏跺疄灏辨槸鍙や唬鐨勫ぇ鏁版嵁锛

鍏朵腑鍖呮嫭鍛藉锛屽厔寮燂紝澶濡伙紝瀛愬コ锛岃储甯涳紝鐤惧巹锛岃縼绉伙紝浜ゅ弸锛屼簨涓氾紝鐢板畢锛岀忓痉锛岀埗姣嶏紝韬瀹绛夛紝鍛堢幇鍑虹敓鍛界姸鎬佺殑鍗冨彉涓囧寲銆

绁炴槑鐨勫彉鍖栧敖鍦ㄥ叾涓锛屽洜涓轰汉鐨勨滃叓瀛椻濅覆鑱斾簡杩囧幓銆佺幇鍦ㄥ拰鏈鏉ワ紝姣忎釜浜虹殑鍏瀛楅兘鏄鍥犳灉瀹氬緥鐨勬墽琛岃呭拰鏈虹紭鐨勫垱閫犺呫

绱寰鏂楁暟璁哄懡鐨勭洰鐨勪笉鏄瑕侀勬祴鏈鏉ワ紝鑰屾槸瑕佽勫垝鏈鏉ャ

阅读全文

与大数据古代的相关的资料

热点内容
ps入门必备文件 浏览:348
以前的相亲网站怎么没有了 浏览:15
苹果6耳机听歌有滋滋声 浏览:768
怎么彻底删除linux文件 浏览:379
编程中字体的颜色是什么意思 浏览:534
网站关键词多少个字符 浏览:917
汇川am系列用什么编程 浏览:41
笔记本win10我的电脑在哪里打开摄像头 浏览:827
医院单位基本工资去哪个app查询 浏览:18
css源码应该用什么文件 浏览:915
编程ts是什么意思呢 浏览:509
c盘cad占用空间的文件 浏览:89
不锈钢大小头模具如何编程 浏览:972
什么格式的配置文件比较主流 浏览:984
增加目录word 浏览:5
提取不相邻两列数据如何做图表 浏览:45
r9s支持的网络制式 浏览:633
什么是提交事务的编程 浏览:237
win10打字卡住 浏览:774
linux普通用户关机 浏览:114

友情链接