① 大数据在未来生活中的运用
哈尔滨理工大学孙名松谈大数据在高校智慧校园中的应用
摘要: 2月15日,哈尔滨理工大学软件学院院长、教授孙名松在CIO时代APP微讲座栏目作了题为《大数据在高校智慧校园中的应用》的主题分享,
关键词:
CIO时代APP
微讲座
一、小数据时代与大数据时代
“数据(data)”在拉丁文里的意思是“已知”,也可以理解为“存在”。所以“数据”就是“存在”,“大数据”就是“大存在”。研究大数据,就是研究大存在,亦即研究一切物质、一切行为、一切思想,以及人类自身。
数据充斥并改造着人们的生活、工作。数据化是指把现象转变为可指标分析的量化形式的过程,其中包含对世界的梳理、理解,并形成可保存的经验。计算和记录共同促成了数据的产生,是数据化的根基。而数字化是把模拟数据转换成0、1表示的二进制码,方便人类使用现代技术对数据进行更好的处理。数据化是一种思想,数字化是一种手段;数据化古而有之,数字化方兴未艾。
小数据时代依靠随机采样,其原则是以最少的数据获得最多的信息。但如此,则无法了解一些微观细节,不利于对某些特定子类进行分析。而“参差不齐是世界的本质”,细节缺失将会影响到对整个自然活动、人类活动的探索与研究。此外,随机采样以研究者的理论前提为设计基础,只能对已遴选的问题进行解答,而难以虑及其他问题。也就是说小数据时代是以极其有限的信息面对有“偏见”的问题。
大数据时代,意味着将世界数据化,意味着世界的本质就是信息。世界不仅被看成一串事件的组合,更被看做信息的集合,数据的集合。这是世界观的深刻变革:人类具备以往认识并处理事件的经验而不盲从于经验,人类采集“数据”但更明确“所见、所思、所得”皆为“数据”,我们生活在数据的海洋之中,我们自身即为数据。
以上,从小数据时代到大数据时代,伴随或产生了以下几种转变与认识:
1、意识到“样本”等于总体。用更大、更全、更综合的态度来观察、理解、关照世界。
2、大数据对于精确性的要求降低。在小数据时代,因为数据少,所以对数据的精确度要求非常之高,而当大量数据出现时或者要求数据量大时,必然需要接受数据的纷繁复杂。
3、要意识到数据错误并不是大数据的固有特性,而是需要处理的实际问题,该问题可能长期存在。
4、混杂绝不等于错误。混杂是大数据的常态,且应该是一种基本态和标准态。
5、大数据揭示了传统样本无法揭示的细节信息,大数据是通往“精准”处理的基本途径。
6、大数据时代,不再热衷于追求因果关系,而是试图探寻不同事物之间的关系,在此基础上找到可供观察的关联物,以进行预测。而预测,是大数据应用的核心所在。
7、相关关系被阐释之后,可进行因果关系的分析。但是必须注意到,因果关系只是相关关系的特殊形式,因果关系在大数据时代已经不是解释世界的基础;相关关系是一种较为普通的存在,在大数据时代更容易被发掘,可以更高效地指导实践,甚或随着大数据的发展,以往的因果关系可能会被证伪,或被视为相关关系。
其中第1点是大数据对于认识论的改造;第2—5点体现了大数据时代与传统时代对数据要求的迥然不同;第6和7点则是数据间逻辑关系的优先性的颠覆。从实践的角度而言,第1点可以作为前提,第2—5点可以作为数据搜集与处理的准则,第6和7点或可作为数据解释的指导方向。
二、大数据在高校智慧校园中的应用
2015年国家提出并制定了“互联网+”行动计划,将“互联网+”上升到了国家战略。“互联网+”的提出必将给高校智慧校园建设增加新的内涵、注入新的动力。借助“互联网+”推动数字校园加速向智慧校园升级,充分利用云计算、物联网、移动互联、大数据等一系列新技术、新理念、新模式,打造全新的大学智慧校园,有力支撑大学未来发展战略,带动人才培养及评价方式的创新、提升校务治理水平,提供多层次的个性化服务和智能化管理决策,大学智慧校园建设的核心内涵可以概括为“全面的环境感知、无缝的网络互通、弹性的云生态圈、海量的数据支撑、开放的学习环境、个性化师生服务、智能化管理决策、高效的校务治理”。
高校在信息化进程中,产生了各类结构化和非结构化的数据,包括教学管理数据、教学资源数据、学生信息数据等,大到高校的治校方针策略,小到学生的日常消费,数据繁多,类型复杂。利用大数据技术对这些数据进行搜集、分析,转化为高校管理与服务可利用的资源,将对智慧校园建设起到非常重要的作用。
下面举例说明大数据技术在智慧校园中的应用。
1、综合校情展示
对学校管理者而言,通过综合校情分析展示,可以对学校的在校生情况(本科生、研究生)、课程情况、科研成果情况、奖助情况、就业情况、教工情况、教师分布、干部情况、家具情况、资产情况、房屋情况、排名情况、消费情况等方面进行直观的了解和横向纵向的对比。结合历年数据变化规律可以为辅助决策提供依据。不同系统之间数据的关联性或许能够给管理者决策提供新的思路。
综合校情展示主要包括基础数据分析展示和行为数据分析展示。
基本数据分析:如招生数据分析、学生数据分析、毕业数据分析、教师数据分析、课程数据分析、成绩数据分析、就业数据分析、高校资产数据分析等。
行为数据分析:学校食堂就餐情况分析、一卡通消费行为分析、上网行为分析、图书借阅行为分析、图书馆使用时长、上网时长/流量和成绩之间的相关性分析、重点人群群体的特征刻画分析和预警等等。
举例说明:
(a)高校就业信息统计。从高校学生的毕业去向、就业单位、就业地区、就业行业、就业薪资等多维度进行统计分析,全面呈现高校就业情况,为高校就业办发现学生就业规律、有针对性的进行学生就业指导提供支撑。
(b)教学信息统计分析。为校领导呈现了高校热门课程排行、各院系开设课程统计和学生成绩统计分析、挂科率分析,全面呈现学生在校期间的学习与成绩分布,为指导高校课程开设、提高学生成绩提供支撑。
(c)一卡通统计分析。展现了高校学生整体消费能力、消费偏好,为后勤部门了解学生餐饮、购物偏好,有针对性的提升服务水平提供支撑。
(d)各生源地消费能力。按照生源地统计该地区学生的消费能力,来详细查看在某一段时间学生消费额和消费次数的统计。
(e)学校网络使用状况分析和学生上网行为统计。通过对学生上网的地址进行统计、分析,结合其基础的个人信息数据,可按不同的维度,比如性别、籍贯、院系等来统计出不同类别的人群,对于某类网站的使用频率。如果记录的日志足够详细,甚至可以统计出学生在网上消费的喜好或偏向,对于后勤或学工等部门也是一个比较重要的参考。
应用到的相关技术有:数据关联分析、多源数据整合、海量日志数据处理、benchmark、指标体系建立、AgileBI、全文检索引擎。
2、公共资源使用情况分析
对于高校而言,食堂就餐、体育场馆、教室、图书馆、校医院等各类公共资源有限,师生没有很好的途径获知这些资源的服务能力情况,导致经常发生排队、拥挤的情况,给师生学习、生活带来了不好的体验。随着学校信息化的推进,各部门管理信息系统逐步建设并投入使用;随着技术的发展,特别是物联网和智能感知设备的出现,使数字校园智能服务成为了可能。
数据来源于一卡通消费、一卡通门禁、无线网、校园安全视频监控等。
(a)食堂、澡堂人员密度状况及建议各食堂、公共澡堂各时段就餐人员密度情况,各类人员(年级、籍贯、职称等)就餐爱好、习惯等。
(b)教室使用状况、人员密度、各时间段教室使用情况、教室人数等;基于无线网络进行考勤。
(c)会议场馆、体育场馆使用状况及人员密度。为师生提供会议场馆的可用性查询,体育场馆的使用情况(有课、无课等),以及人员密度发布。
(e)图书馆座位使用状况及人员密度发布,提供图书馆座位空闲情况及图书馆内人数等。
(f)校内人员密度分布。根据学校无线网数据、安全视频监控信息,识别学校人员热力分布图。
应用到的相关技术有:数据关联分析、数据挖掘(聚类分析)、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、高速内存数据库、分布式全文检索引擎。
3、个人数据报告
面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等
方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。
数据来源自一卡通消费、图书馆门禁、图书借阅系统、校园网络系统、体育场馆门禁等。
(a)校园卡账单及消费习惯分析报告;
(b)图书馆进出频次、时长及借阅习惯分析报告;
(c)网络账单及上网习惯分析报告;
(d)体育健身锻炼学期报告。
通过高校官方微信号、APP进行手机推送,移动互联网时代方便用户及时阅读、分享、传播。
面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。
应用到的相关技术有:数据关联分析、数据挖掘(用户画像)、海量日志数据处理、多源数据整合。
4、图书馆电子期刊资源使用效率分析
高校每年花费资金购买著名期刊论文集,为师生用户提供便捷的文献检索和下载服务。图书馆电子期刊资源的使用情况、不同学科对于不同电子期刊资源使用偏好的差异,是图书馆亟需了解的内容。通过对高校用户期刊文献检索记录的大数据分析,优化论文期刊购买方案,使图书馆可以采购到师生更加需要的资源(传统纸质+电子资源),提高现有采购效率。
学校通常的做法是向数据商(如万方、CNKI)购买电子期刊资源访问统计数据,而这种方式基于学校整体访问数据做统计分析,无法基于用户做访问详情的分析统计,从而无法获取到基于不同学科门类、不同学院和专业特点、不同教师等级的不同人群期刊访问情况分析,也无法了解到不同资源库的使用情况横向对比分析。对师生的检索关键词进行挖掘也是非常重要的方向,而传统的做法无法了解学校师生用户检索电子期刊资源的检索偏好、检索热门等具体信息。
出口网络日志数据记录了师生访问电子期刊资源库的行为,通过大数据技术对出口URL日志等数据进行处理及关键信息提取,关联学校内部用户信息数据,将实现图书馆电子资源使用的全面分析以及人群分析,为图书馆采购决策提供辅助。
数据来源自图书馆采购电子期刊资源列表、师生上网URL日志、师生上网身份认证等。
应用到的相关技术有:数据关联分析、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、分布式全文检索引擎。
5、校园舆情监测
在移动互联网大潮之下,无论是正面信息还是负面信息都会以更快的速度传播。学校声誉对学校招生、就业、评优评先等方面有很大影响,随着移动互联网和社交媒体的普及,高校越来越重视学校的社会评价。目前部分高校会利用互联网数据监测学校声誉,通过大数据的手段通过实时监测互联网新媒体上与学校相关的新闻、传播话题和用户反馈,了解学校舆情、声誉及影响力。
应用到的相关技术有:文本挖掘、语义分析(正负面判断)、语义相似度计算、弹性爬虫引擎、分布式全文检索引擎。
我所了解的大数据在智慧校园中的应用还包括教学信息统计分析,通过对课程知识结构进行样本分析,结合教育过程,综合学生学习成绩分布来验证课程讲授过程的合理性和工程教育认证中的达成度来综合分析课程开设的合理性。
又如,学校资产管理信息分析,借助于资产管理信息平台实现对校园基础设施、教学实验设备、校园通信网络设备等数据的采集分析,为学校基础建设方向、教学实验设备的维护、校园网通信设备的升级改造提供数据支持。
“智慧网格学生管理平台”,以高校信息技术和数字化校园建设成果为基础支撑,建设以社区网格、管理网格、教育网格三个维度的网格为载体,面向学生发展的综合管理与服务流程优化的总体框架。对学生培养全生命周期中的生活、学业、思想等发展过程进行主动辅导,形成协同可持续的智慧管理与导引发展新模式,具有学生画像、学生行为预警(在校状况、学业、消费、身心健康)、学生家庭经济状况分析、学生综合数据检索、学生群体分析等功能,能够辅助学工部门、院系管理者和辅导员开展学生安全教育管理、学生心理健康辅导、精准资助等工作,提升工作效率,促进学生管理工作创新与实践。
由于时间关系,今天就交流这么多。谢谢!
② 我们应以何种思维方式来适应大数据时代
我们应以何种思维方式来适应大数据时代
目前,在报刊文献和各种媒体中,大数据这个概念,几乎是处处可见、不绝于耳;同时,学术界的学术研究,使人们对大数据的理性认识水平不断提高。有学者认为,2012年世界迎来了大数据元年,而2013年则是中国的大数据元年。正是因为如此,从世界到中国的学术界,特别是科技界,大多数人都比较一致地认为,我们已经进入到大数据时代——一个全新的信息时代。
大数据将为整个社会的全面发展带来全新的动力。大数据的运行及其作用的发挥,一方面需要相应的社会条件,另一方面它也必然会创造出自己所需要的全新的社会条件。很显然,要迎接这样的革命性的新科技时代,需要我们做好各方面的准备,而这其中的一个关键,是与社会体制变革相适应的人们的思想变革。质而言之,就是大数据时代要求人们的思维方式进行一次深刻的改造。
大数据时代需要实证思维
这个问题的解决,首先是需要我们对大数据这个概念有一个真正的科学认识。现在的一些权威性研究性机构和文献,都在试图对大数据进行学术性的界定,其观点,大体上比较一致。什么是大数据呢?美国、英国等国家的有关专门机构和专业刊物上,对大数据概念的内涵都提出了自己的解释,我国的有关机构,特别是专业学者,也同时提出了自己的一些独立学术见解。综合起来看,基本观点主要是,所谓大数据是指一般传统工具无法处理的海量的、高增长率、多样化的信息资源;大数据反映的是网络时代的一种客观存在,即那些难以用传统工具认知的有巨大挑战性质的数据;大数据是指那种无法在一定时间内用常规软件工具处理的数据集合;如此等等。因为大数据作为一种巨量的数据集,能够从其中挖掘出各种有价值的信息,所以日益受到重视。
从这些界定中可以看出,大数据是超出了传统意义上的、极其巨大的、具有特殊价值的数据信息资源。但是,对大数据这样的界定,仍然是一种实体性质的描述,所以,还不能说是揭示了它的本质。那么,大数据的本质究竟是什么呢?在我看来,所谓“大数据”,已经不是一种具体的物理时空概念,而是一种哲学理论层次上的科学概念,也就是说,大数据本身已经具有了高度的理论抽象性质。据此,我们还可以大胆做出这样的判断:大数据已经不是一种具体的物质实体,本质上是一种抽象的哲学概念。面对着物质发展的这个崭新世界——大数据,我们那些常规的认识方式,已经不可能深刻认识它的特殊本质特征了,这就决定了在大数据时代,我们在认识领域必须来一次思维方式的根本性改造。
大数据作为人类实践和认识的一种特殊形式、特殊成果,要求我们对长期以来形成的经验主义主观演绎思维方式进行认真改造,牢固形成客观理性的实证思维方式。
作为现代科学认识形式的大数据,标志着自然科学已经走进了理性认识即理论认识的领域,这本身意味着在这个问题上,我们必须克服方法论上的经验主义,而代之以客观理性的实证思维方式。对这一点,恩格斯是有先见之明的。他说过:“经验自然科学积累了如此庞大数量的实证的知识材料,因而在每一个研究领域中系统地和依据其内在联系来整理这些材料,简直成了不可推卸的工作。于是,自然科学便走上理论的领域,而在这里经验的方法不中用了,在这里只有理论思维才管用。”
如果我们认真思考一下就可以明白,对作为现代科技发展高级阶段的大数据的研究和运用,仍然靠以经验主义为基础的那种演绎思维方式来进行,不走进理性的思辨思维即理论领域中去,显然是不行了。这就是说,在面对着大数据这个现代高科技形式,思维方式的根本改造,已经是不能回避的事情了。当然,在这里,我们所面对的大数据,毕竟是处理信息数据这样的客观问题,所以,不能搬用纯粹的理论思维,而必须运用以理性为基础的实证思维方式。这里所说的理性实证思维,是指以理论形态的信息数据这样的客观根据,来证明结论的真理性。认识论的经验教训告诉我们,这样的思维方式,能够在更高的理论层次上达到追求真理的目的,从而避免经验主义思维方式的弊端。
大数据时代塑造开放性思维
大数据这样特殊的高新科技发展形式,它的正常运行和充分作用发挥,另一个重要条件,是要求我们克服各种各样实际上的封闭性思维方式,树立起真实的开放性思维方式。
很显然,大数据时代思维方式的这种改造,是由大数据本身的本质特征决定的。我们可以看到,无论是一个地区、一个国家,还是在世界范围,大数据的形成和运行,是以一种真正的开放形态存在着的。我们甚至可以这样说,不管是在什么样的范围里,没有真正开放的社会环境,就不可能有大数据这样高科技形式的真正存在,这样的现代高科技也不可能发挥它的特殊作用。
我们这里所说的大数据的开放性,是指它本身的无限发展特点。我们可以想象,就任何一个数据集合本身而言,无论是在时间上还是在空间上,不存在一种量的框框,因为它总是处在一种不断的生生息息的发展过程中。这就决定了大数据的存在和运行是没有边界局限的,也就是说,对大数据来说,不存在地区界限、国家界限;这个事实本身也在告诉我们,任何一种大数据、每一种数据本身是开放性的存在,各种数据之间也必然是互相开放着的,否则,它们就不成其为大数据了。实践证明,大数据这种彻底的开放性本质,对思维方式的改造是具有革命意义的。
大数据的这种特殊本质,要求我们必须以完全开放的心态对待它的运行和发展,从而形成与大数据本身相一致的广阔思想视野,这样才能把大数据真正视为各个地区、各个民族、各个国家的共同财富,互通有无、共有共享。这恰恰是真正的开放性思维方式的本质要求。
大数据时代所要求的开放性思维方式改造,对于我们目前的社会科学研究,特别是马克思主义研究,是非常重要的,而且也是社会科学深入发展的一个契机。因为,我们在这方面的许多研究工作,实际上还是在封闭的状态中进行的,特别是在世界范围内,更是如此。事实证明,这样的研究方式,无异于把自己禁锢在某种理论框架中走投无路,或者是陷入某种思想深坑不能自拔。出路何在?在广阔的开放视野中,放眼世界,走人类文明发展的共同道路。
大数据时代呼唤多元性思维
大数据科技形式的正常运行、其作用的充分发挥,还有一个重要条件,这就是要求我们把一元性思维方式改造为充满活力的多元性思维方式。事实证明,由大数据催生的这种思维方式改造,其意义远远超出了大数据的运用范围,它的深刻影响将在各个方面显示出来。
大数据为什么会催生思维方式的这种根本性的改造呢?这里涉及对大数据之“大”的科学理解问题。一般来说,数据之“大”,与数据之“多”是具有相同意思的。当然,这里说的“多”,并不仅仅是个实体量的概念,而是数据——信息之质与量统一的表现形式。这就是说,大数据不仅是一种极为巨大数量的信息群,而且同时也是各种各样不同性质数据形成的信息集。这样,就必然形成各种各样不同性质数据的独立并存,这就是我们称之为大数据的多元性存在之本来意义。很显然,大数据存在和运行多元性的这个客观事实,要求我们对其所应该形成的正确思想反映,在逻辑上只能是多元性思维方式,而绝不应该是单一性思维方式。
为了适应大数据时代的要求,甚至可以说,为了迎接高新科技时代的到来,我们必须对一元性思维方式进行根本改造,代之以多元性思维方式。从本质上看,所谓“大数据”,是一个实际上的多元世界,丰富多彩的世界,异彩纷呈的世界,个性鲜明的世界,因而是一个充满了活力的世界。这个科学技术发展的事实,必然要求我们改变陈旧的思维方式,破除一元性思维方式,确立起一种能够正确反映这个新科技时代的世界本来面目的那种多元性思维方式。
改革开放以来的鲜活经验告诉我们,面对着充满活力的现代社会,特别是高新科技带来的勃勃生机,必须下决心改造各种陈旧的思维方式,更快地确立多元性思维方式。
在现代科技发展中,通过思维方式的改造,特别是确立开放性、多元性思维方式,其意义不仅有益于科技事业发展本身,而且还会推动社会的发展。因为这种开放性、多元性思维方式的形成,意味着整个社会正在朝着自由人的联合体这一历史性方向前进。虽然这只是一个起步,但是,却具有极为深远的历史意义。
③ 大数据带来的大影响
大数据带来的大影响_数据分析师考试
如果把“数据化”视为信息社会的初级阶段,则名不见经传的英国科学家维克托·迈尔-舍恩伯格,用他别具洞见的天才新著《大数据时代》首次告诉我们:人类正在进入“数据颠覆传统”的信息社会中级阶段。
在此阶段,信息无所不在无所不包,其无限膨胀的天文海量催生了“统计+分类-推理分析=决策”的计算机处理程序(有点像刷卡消费一步到位,节省了算账找补等繁琐环节),悄然挑战“去粗取精、去伪存真、由表及里、由此及彼”的传统认识论模式,冥冥之中潜移默化,对我们的生活、工作与思维,对人类“阶级斗争、生产斗争、科学试验”三大实践活动产生着重大而深刻的影响。
大数据点燃
美国政府曾为定期公布消费物价指数CPI以监控通胀率,雇用了大量人员向全美90个城市的商店、办公室进行电话、传真拜访,耗资2.5亿美元搜集反馈8万种商品价格的延时信息。然而麻省理工学院两位经济学家采取“大数据”方案,通过一个软件在互联网上每天搜集50万种商品价格即时信息。2008年9月雷曼兄弟公司破产后,该软件马上发现了通胀转为通缩的趋势,而官方数据直到11月才发现。之后该软件被畅销到70多个国家。这一案例充分体现出“大数据”颠覆传统的力量和变革思维的智慧。
“小数据”时代追求精准,竭力避免不精准信息误导误判。然而95%被传统数据库拒绝接受的非结构化(非标准)数据,在“大数据”时代的模糊化数据库中发挥了重要的作用,因为数据越模糊越全面,才能有效避免误导误判。
从因果关系到相关关系的思维变革,是“大数据”颠覆传统认识论模式的关键。电脑毕竟不是人脑,电脑永远搞不懂气候与机票价格之间有什么因果关系。公鸡打鸣和天亮之间虽无因果关系,但古人通过公鸡打鸣来预报天亮却很少失败。“如果数百万条医疗记录显示橙汁和阿司匹林的特定组合对癌症治疗有效果,那就用不着通过一次次实验来探索其具体的药理机制了”。“苹果之父”乔布斯就主动试用过一些医疗记录有效但未经临床验证的疗法同癌症抗争。你可以嘲笑乔布斯“不讲科学”,但他却因此多活了好几年。
从根本上说,所谓“大数据挑战传统认识论”,其实是人类把复杂的认识过程“全部打包”给了电脑,而电脑懒得分析推理验证,只通过统计分类对比,交出“最终答案”就OK了。大数据的精髓在于变“少而精”为“多而全”,变“因果”为“相关”。当实地调研开始被数据采集所替代,当严密的实验开始被非线性逻辑所替代,当“唯一真理”开始被多项选择所替代,“大数据”就用事实向人类宣告:“知其然不知其所以然”,既是电脑望尘人脑的劣势,也是电脑超越人脑的优势!
大数据渗透大世界
不要以为“大数据”只是科幻故事或政府与科学家的“专利”。环顾四周,“大数据”早已渗透我们生活和工作的方方面面,衍生出形形色色的数据超市、数据易趣、数据交友、数据联谊、数据作坊、数据课堂、数据IB等传奇版本。从治安管理、交通运输、医疗卫生、商业贸易、批发零售、公益救援直到政治、军事、经济、金融、社会、环境、文艺、体育。
UPS国际快运公司从2000年开始通过“大数据”检测其遍布全美的6万辆货车车队,统计出各损耗零部件的生命周期,改“备份携带”为提前更换,有效预防了半路抛锚造成的严重麻烦和巨大损失,每年节省数百万美元。UPS还依靠“大数据”优化行车路线(例如尽量右转弯,避免左转弯),2011年全公司车辆少跑4828万公里,节省燃料300万加仑,减少碳排放3万公吨。
为纽约提供电力支持的爱迪生电力公司,针对每年多起电缆沙井盖爆炸造成严重事故,采取“大数据”手段统计出106种预警先兆,预测2009年可能出事的沙井盖并严加监控。结果位列前十分之一的高危井盖中,预测准确率达44%。
美国里士满市警察当局凭经验认定枪击事件往往导致犯罪高峰期,“大数据”证明这种高峰期往往出现在枪击事件后2周左右。孟菲斯市2006年启动“大数据”系统锁定了更容易发生犯罪的地点和更容易抓捕罪犯的时间,使重大犯罪发生率下降26%。
沃尔玛2004年依靠“大数据”发现了飓风前夕销量增加的各类商品,进而每逢预报便及时设立飓风用品专区,并将手电筒、早餐零食蛋挞等摆放于专区附近,明显增加了“顺便购买”的销量。
至于“大数据”的经济价值,仅需略举数例:2006年微软以1.1亿美元购买了埃齐奥尼的Farecast公司,2008年谷歌以7亿美元购买了为Farecast提供数据的ITA Software公司。同年在冰岛成立的DataMarket网站干脆专靠搜集提供联合国、世界银行、欧盟统计局等权威机构的免费信息来获利生存,包括倒卖各类研究机构公开发布的研究数据——只要找到买主,往往愿出高价!
大数据创造大金融
金融领域当然是“大数据”的主战场之一。程序化交易也许是现今最主要的“大数据”新式武器。美国股市每天成交量高达70亿股,但其中三分之二的交易量并非由人操作,而是由建立在数学模型和算法之上的计算机程序自动完成。日新月异的程序化交易只能运用海量数据来预测收益、降低风险。几乎所有银行、券商、保险、期货、QFII和投资公司都开发了自己的程序化交易工具。谁的武器更先进?竞争到最后恐怕还是比谁搜集处理的数据更海量。
一家投资基金通过统计大商场周边停车场及路口交通拥挤状况,来预测商场经营及当地经济状况,进而预测相关股价走势,最后居然拿数据统计资料换得了该商场的部分股权。
不少对冲基金通过搜集统计社交网站推特上的市场心情等信息来预测股市的表现。伦敦和加利福尼亚的两家对冲基金,利用“大数据”形成119份表情图和18864项独立的指数,向许多客户推销股市每分钟的“动态表情”:乐观、忧郁、镇静、惊恐、呆滞、害怕、生气、激愤等,以帮助和带动投资决策。
在金融机构竞相拉客理财的今天,如果能及时搜集处理海量的微博、微信、短信,自然也能从茫茫人海中及时发现怦然心动打算开户的,或一气之下打算“跳槽”的投资者。
当然,如果投资者都能通过“大数据”直接决策,将“刷卡消费”拓展成“刷卡投资”,那藏龙卧虎的分析师群体和争雄斗妍的研究报告未来还有市场吗?
大数据暗藏大隐患
像所有新生事物一样,大数据也是一把双刃剑。宏观上看,“大数据”在各个不同的领域将人类虚拟分割为“数据化”与“被数据化”两大阵营。持续发酵的“棱镜门”事件披露了美国政府长期监控全世界的“最高机密”,但美国总统、国会和政府都认定这种监控“天经地义”,是“维护国家核心利益”。虽然社会早已建立起庞大的法律法规体系来保障个人信息安全,但在“大数据”时代,这些体系正蜕变为固若金汤但可以随意绕过的“马其诺防线”。
“大数据”导致个人信息被交易、个人隐私被外泄还不算,更大的危险在于“个人行为被预测”。正如作者预言——“这些能预测我们可能生病、拖欠还款甚至犯罪的算法程序,会让我们无法购买保险、无法贷款,甚至在犯罪实施前就预先被逮捕”——也许你认为这对全社会来说无疑是好事。可是如果预测系统不完善、软硬件出差错、数据搜集处理不当、临时数据未经检验、黑客攻击、有人恶意或善意开玩笑制造假信息……导致你、你的家庭、你的亲朋好友、你的所在单位甚至你的祖国被冤枉被制裁,你还能无动于衷吗?
微观上看,即使是出于正当目的采集的“大数据”,仍可能在“扩展开发”过程中产生无法想象的副作用。例如谷歌的街景拍摄和GPS数据为卫星定位和自动驾驶仪提供了关键的支持,但同时因其有助于黑帮盗贼便捷挑选有利目标而引发了多国民众的强烈抗议。当谷歌对图像背景上的业主房屋、花园等目标进行模糊化处理后,反而引起盗贼更加注意。
无论你惊奇还是恐惧,欢迎还是躲避,关注还是漠视,理解还是拒绝,“大数据”都在加快步伐向我们走来。我们只有顺势而为,趋利避害,才不至于被这个充满机遇和挑战的新时代提前淘汰。
以上是小编为大家分享的关于大数据带来的大影响的相关内容,更多信息可以关注环球青藤分享更多干货
④ 如何正确认识大数据的价值和效益
1、数据使用必须承担保护的责任与义务
我国数据流通与数据交易主要存在以下问题:数据源活性不够,数据中介机构还处于起步阶段;多源数据的汇集技术尤其是非结构化数据分析技术滞后;缺乏熟悉不同行业并掌握在特定领域使用数据技术的人才。
数据的价值在于融合与挖掘,数据流通、交易有利于促进数据的融合和挖掘,搞活数据从而产生效益。数据共享开放、流通交易和数据保护及数据安全对数据技术提出严峻挑战,对法律的制定及执行提出了很高要求。为此,数据使用必须承担保护的责任与义务。
⑤ 大数据时代,我国数据量究竟有多大
从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大 数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们中国到底有多少数据量,它们都分布在哪些行业,哪些数据是目 前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?
可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以 及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数 据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只 有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。
从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB(1EB=多少),存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总 容量可能达到18个EB。从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。
鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近 1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数 量在300万台以上。
从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些 被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量 。
公开数据显示,互联网搜索巨头网络2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金 融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。
在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告 预测到2020年,全球数字宇宙将会膨胀到40ZB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们 看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对 合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记 并用于分析的数据更是不到10%。
作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的 数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB。这些数据中,目前已被标记并用于分析的数据仅 达到500PB左右,也是接近10%的一个比例。
伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一 定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能 突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相 对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显。
⑥ 大数据 大变革、大机遇
大数据:大变革、大机遇
从来没有哪一次技术变革能像大数据革命一样,在短短的数年之内,从少数科学家的主张,转变为全球领军公司的战略实践,继而上升为大国的竞争战略,形成一股无法忽视、无法回避的历史潮流。互联网、物联网、云计算、智慧城市、智慧地球正在使数据沿着“摩尔定律”飞速增长,一个与物理空间平行的数字空间正在形成。在新的数字世界当中,数据成为最宝贵的生产要素,顺应趋势、积极谋变的国家和企业将乘势崛起,成为新的领军者;无动于衷、墨守成规的组织将逐渐被边缘化,失去竞争的活力和动力。毫无疑问,大数据正在开启一个崭新时代。
大数据时代有什么本质特征?大数据的来源是什么?大数据又将流向哪里?大数据在提升政府治理、改善经济治理、再造公共服务模式、激发商业创新方面有哪些卓越案例?中国需要怎么样的战略反应才能抓住大数据带来的宝贵机遇?一系列问题亟待研究者给出深入解析。
“数据驱动发展”成为时代主题
如今,大数据已经被赋予多重战略含义。从资源的角度,数据被视为“未来的石油”,作为战略性资产进行管理;从国家治理角度,大数据被用来提升治理效率、重构治理模式、破解治理难题,它将掀起一场国家治理革命;从经济增长角度,大数据是全球经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分;从国家安全角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。总之,国家竞争焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数据强国与数据弱国。
宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略响应,将大数据置于非常核心的位置,推出国家级创新战略计划。美国2012年发布《大数据研究和发展计划》,并成立“大数据高级指导小组”,2013年又推出“数据—知识—行动”计划,2014年进一步发布《大数据:把握机遇,维护价值》政策报告,启动“公开数据行动”,陆续公开50个门类的政府数据,鼓励商业部门进行开发和创新。欧盟正在力推《数据价值链战略计划》,英国发布《英国数据能力发展战略规划》,日本发布《创建最尖端IT国家宣言》,韩国提出“大数据中心战略”。中国多个省市发布了大数据发展战略,国家层面的《关于促进大数据发展的行动纲要》也于2015年8月19日正式通过。
微观上看,大数据重塑了企业的发展战略和转型方向。美国的企业以GE提出的“工业互联网”为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有的生产体系,构成一个“以数据为核心”智能化产业生态系统。德国企业以“工业4.0”为代表,要通过信息物理系统(CPS——cyber physical system),把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生产系统。中国的企业以阿里巴巴董事局主席马云提出的“DT时代”(data technology)为代表,认为未来驱动发展的不再是石油、钢铁,而是数据。这三种新的发展理念可谓异曲同工、如出一辙,共同宣告了“数据驱动发展”成为时代主题。
与此同时,大数据也是促进国家治理变革的基础性力量。正如《大数据时代》作者舍恩伯格在定义中所强调的,“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的”。在国家治理领域,阳光政府、责任政府、智慧政府建设,大数据为解决以往的“顽疾”和“痛点”提供了强大支撑;精准医疗、个性化教育、社会监管、舆情监测预警,大数据使以往无法实现的环节变得简单、可操作;大数据也使一些新的主题成为国家治理的重点,比如维护数据主权、开放数据资产、保持在数字空间的国家竞争力等。
从哲学意义上来看,大数据不仅仅是一场技术革命,也不仅仅是一场管理革命或者治理革命,它给人类的认知能力带来深刻变化,可谓是认识论的一次升华。具体而言,大数据可以为决策者解决“四个问题”,提升“两种能力”。一是解决“坐井观天”的问题,以往人们决策只能基于视野之内极为有限的局部信息,和井底之蛙无异,大数据则可以实现整个苍穹尽收眼底;二是解决“一叶障目”的问题,以往不具备全样本数据分析能力,只能用小样本分析近似推理,犹如从“泰山”中取来“一叶”,而真理可能存在于全样本的海量数据之中,借助大数据则可完全克服;三是解决“瞎子摸象”的问题,七个瞎子根本无法根据各自的认识加总出完整的大象,因为他们的信息是相互离散的,无法有效关联起来,而大数据的基本优点是在深入关联中还原事物的原貌;四是解决“城门失火,殃及池鱼”的问题,人们习惯于因果分析,遇到这种“稀奇古怪”的因果链则很难前瞻和推理,但大数据注重相关关系,可以准确地发掘出规律。提升两种能力,一个是“一叶知秋”的能力,体现大数据敏锐的洞察能力,另一个是“运筹帷幄,决胜千里”的能力;体现大数据对时空约束的突破。这些足以说明,大数据是人类认识世界和改造世界能力的一次升华。
中国成为数据强国的优势、挑战与路径
值得振奋的是,中国具备成为数据强国的优势条件。从2013年至2020年,全球数据规模将增长十倍,每年产生的数据量由当前的4.4万亿GB,增长至44万亿GB,每两年翻一番。从全球占比来看,中国成为数据强国的潜力极为突出,2010年中国数据占全球比例为10%,2013年占比为13%,2020年占比将达到18%,届时,中国的数据规模将超过美国的数据规模,位居世界第一。中国成为数据大国并不奇怪,因为我们是人口大国、制造业大国、互联网大国、物联网大国,这都是最活跃的数据生产主体,未来几年成为数据大国也是逻辑上必然的结果。
尽管存在成为数据强国的潜力,但在目前的政策环境之下,我国推进大数据战略仍存在以下几个清晰的挑战。第一,顶层设计方面,全球大国之间围绕大数据的竞争颇为激烈,中国作为一个后发国家,想要实现弯道超车,后来居上并非易事。如何能够紧扣创新前沿,把准未来趋势,超前战略部署,对政策设计来说是一个非常现实的挑战。第二,数据开放方面,“数据孤岛”广泛存在,虽然政府掌握着80%的数据,但现实中却相互割裂,自成体系,“部门墙”“行业墙”“地区墙”阻碍了数据的流动共享,数据被视为部门的利益和隐私,这与大数据时代的基本理念准则相悖。第三,大数据相关的法律、法规、标准缺位,导致能够开放的数据不开放,需要保护的隐私不保护,企业由于标准模糊而无法大胆创新。第四,“数据主权”容易受到侵蚀,由于数据空间是国家新的战略维度,尚没有完备的安全保障体系,再加上电脑、手机、芯片、服务器、搜索引擎、操作系统、软件等核心的数据“基础设施”大量依赖进口,数据资产极易流失,数据主权极易受到侵蚀。
把握优势,克服挑战,抓住大数据革命带来的“机会窗口”,建设数据强国,是实现中华民族伟大复兴的一个有力支撑。然而,我们需要怎样做才能更好地拥抱大数据时代,确保在数字化趋势中立于不败之地呢?首先,需要在国家顶层设计上有一个清晰的行动框架,包括由什么部门主导、哪些部门参与、什么样的协作机制、沿着什么优先次序、克服哪些既有的障碍、达到什么战略目标,只有这样,各部门、各地区、企业界、学术界才能形成合力,在一个共同的路线图上协作推进。其次,盘活数据资产,在数据开放上取得实质性突破。一些基本的建议包括:加快G2G(政府与政府之间)、G2B(政府与企业之间)、G2C(政府与公民之间)大数据开放与共享;推动基础性、战略性大数据资源库整合;加强大数据基础设施建设,编制国家大数据档案。最后,把强大的“国家企业”和活跃的“万众创新”结合起来。一方面,要培育可以和国际“八大金刚”并驾齐驱的巨型企业作为大数据环境中竞争的中坚力量,同时,鼓励和引导大众创业、万众创新成为数据生态系统中的活跃力量。
以上是小编为大家分享的关于大数据 大变革、大机遇的相关内容,更多信息可以关注环球青藤分享更多干货
⑦ 大数据再掀经济学方法论之争
大数据再掀经济学方法论之争
大数据时代带来的信息风暴,不仅改变着我们的生活、工作和思维,而且影响着人类认知视角,冲击着科学研究的基本方法。经济学被誉为社会科学“皇冠上的明珠”,其主要原因正是强调经验数据验证的实证主义较早在经济研究中得到应用。对经济学而言,大数据究竟是主流范式的革命,还是一个新的噱头?带着这样的问题,笔者于2015年6月下旬参加了中国社会科学院的“电子社会科学”考察团,赴英国了解当代信息和数据科技对社会科学研究的影响。
“相关性与因果性”:
新方法论之争?
当前关于大数据的一个重要分歧,就是“相关性与因果性”之争。大数据倡导者维克托·迈尔·舍恩伯格明确指出,大数据时代最大的转变就是放弃对因果关系的渴求,而代之以关注相关关系。在诺森比亚大学培训第一天的课堂讨论中,考察团就围绕这个问题展开了激烈辩论。
实际上,早在大数据时代之前,“因果性与相关性”问题就已经是认知哲学、统计学、经济学等领域中的一个老问题。从经济学基础方法论的角度来看,对“因果性与相关性”的辩论,是人类认知逻辑和科学研究基本问题“演绎与归纳”的现代升级版。19世纪中后期,德国历史学派与奥地利学派之间展开了“方法论之争”。奥地利学派创始人卡尔·门格尔坚持以逻辑演绎为基本分析方法。德国历史学派则怀疑抽象逻辑演绎对现实理解和解释的有效性,主张由于人类社会的复杂性,首先应该大量收集、整理各种历史数据,并且从历史数据中发现经验规律。这与当前大数据方法论主张放弃或者弱化对因果性的追求,注重从海量数据中发现相关性的观点如出一辙。从这个角度来说,德国历史学派可谓大数据“先锋”。
大数据带来的“相关性与因果性”新方法论之争不过是新瓶装旧酒,实质问题仍然是哲学认识论中经验论和唯理论对立的老问题。虽然是老问题,但在现代科学哲学认识论和新兴的知识社会学之中,仍然是一个争论焦点。
“你的理论假设是什么?”
“你的理论假设是什么?”这是在英国雷丁大学访问时,考察团成员钟春平教授向Jornvande Wetering博士提出的一个问题。Wetering博士介绍了正在进行的大数据项目“智慧城市”,该项目旨在通过收集整理大量城市相关数据和信息,改善城市治理和人民生活。在笔者看来,这个问题直指大数据的核心——大数据方法的应用是否可以脱离理论假设?
这个问题与前面的“方法论之争”密切相关。主流经济学对“方法论之争”的当事双方各打五十大板,认为“演绎与归纳”两者不可偏废,并且形成了标准的经济学实证模式——提出假设和模型,使用数据进行计量检验,由此将“演绎与归纳”在哲学认知上的冲突掩盖起来。新的“相关性与因果性”方法论之争迫使人们重新面对这个问题,并对实证主义经济学提出了挑战。如果按照弗里德曼的“实证主义经济学方法论”,预测是经济理论的根本目标和检验手段的话,对经济学理论而言,重要的问题就是“能否做出准确的预测”,而非“是否理解了真实的因果关系”。但是,大数据在探寻相关性方面的优势,正好构成了对目前主流经济学范式的批判和革命。至少有一部分大数据论者认为,不需要甚至不应该预设理论前提和假设,只需让数据自我呈现出规律。按照这种“大数据经济学”观点,“假设建模—数据检验”的现行标准方法似乎已经过时了。
就自身逻辑而言,奥地利学派的先验主义和逻辑演绎法倒是可以固守自身立场,并展开对大数据方法论的批判。毕竟探究世界真实状况和因果关系才是科学研究的核心目标,预测只不过是副产品。在奥地利学派看来,没有演绎逻辑和理论指导,历史学派甚至不能确定什么样的历史资料和数据才是重要的,值得收集和整理。这个批判对大数据同样有效。同样是在雷丁大学的访问之中,Nanda博士引述了IBM的报告:“人类社会每天生成的数据高达250兆亿个字节。”从奥地利学派的视角来看,如果脱离具体的理论前提和需要,这个数据量没有任何意义。生成数据实际上完全依赖于观察者的目标和理论假设。脱离了这个前提,在不同测量工具精度的条件下,人们完全可以生成无限的观察数据。
大英图书馆
在大数据时代会破产吗?
大英图书馆是英国的国家图书馆,拥有超过1.5亿件馆藏。大英图书馆不仅大量收录各种电子出版物,而且已经着手保存各种互联网网页内容。考虑到大数据时代还只是初露头角,未来人类社会所能产生的各种文本、图像等信息数据,无疑还会以指数级别增长。即使英国政府可以颁布法律使图书馆免费获得这些信息,保存信息所消耗的成本无疑也会以指数级别增长。大英图书馆乃至英国政府能否承受如此高的成本,着实令人怀疑。
这个“杞人忧天”的疑问,其实关系到“数据”或者“信息”的经济学属性,即从“要素”或“财货”角度来看待“数据”的成本收益问题。大数据理论有一种倾向,认为几乎所有数据都是有价值的,至少是具有潜在价值,哪怕暂时不知道如何利用,也许在未来可以得到重新认识,因此都值得收集和整理。这看起来似乎很有道理,但从经济学的角度看却是不能成立的,因为经济学的核心问题是“效率”,核心视角是“成本—收益”分析。不只是数据,任何事物都具有所谓“潜在”价值,但如果获得和保存它的成本超过了收益,那么在经济学者看来就是无效率的。
事实上,在信息时代之初,就有学者指出信息和数据具有“零边际成本”特性,将完全改造经济学,还有学者提出“新信息经济学”,主张软件等信息产品免费共享。大数据时代仍然面临同样的问题。部分学者主张数据是免费公共资源,具有巨大的数据分析外部性,最好由政府来提供。但经济学的基本逻辑在此仍然是有效的。虽然具有某些新特性,信息和数据仍然是“要素”和“财货”,需要付出成本,并且能够产生收益。不计成本地收集整理大数据是行不通的。类似地,经济学效率观点还对另一个大数据观点——所谓“全体数据”代替“随机样本”的新方法提出了挑战。“全体数据”固然有其优势,但放到经济学“成本—收益”的框架下来看,其方法本身就未必有效率了。
以上是小编为大家分享的关于大数据再掀经济学方法论之争的相关内容,更多信息可以关注环球青藤分享更多干货
⑧ 我国树立大数据战略的认识论原理是什么
物质决定意识。树立大数据战略是时代发展的要求。意识具有能动作用。正确的意识促进事物的发展。树立大数据战略有利于促进我国经济社会的发展。
⑨ 哲学如何认识大数据时代
哲学如何认识大数据时代
最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。
数据与大数据
技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样描述:最近两年生成的数据量,相当于此前一切时代人类所生产的数据量的总和。
大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。
在大数据的上述特征中,其多样多变性值得特别关注。它表现为所生成数据格式的多样,如文字、图片、视频等各有多种不同的格式,取决于生成数据的技术与设备,却反映出数据生产的时代性以及数据处理的能力与条件,也反映出被描摹自然和社会的多姿多彩。另外,随着技术发展和数据量急剧增长,新的数据格式还会层出不穷,多变和多样特征更加突出。
大数据既是一个技术概念,又是一个商业概念,它的出现,有其特定背景,即IT领域的商业和渲染新技术的考量。大数据包揽了人类获取数据的所有途径,提示哲学研究一个全新时代的到来,这个时代的先声,很久远之前就已经响起,那时,它仅仅被称作数据。在我们的讨论中,主要考虑数据与哲学的关联。
数据与认识
这里的认识,指的是人的认识,是人对外部世界的认识。
大数据的出现和引起关注,使得一个事实得到确认,这就是,数据覆盖了人类对于外部世界的感知。感官及其所获得的经验退居到显示屏之后,退居到各种类型的技术装置之后,这些装置将自然和外部世界的映像“转译”成人类感官可以接受的图像、声音甚至触觉和嗅觉味觉。这既是技术发展的必然,又是始料未及的情况。如果说,此前,哲学还试图在技术系统生成的数据之外寻找世界的直观映像,到了大数据时代,这种人类的直接感知即使没有被完全取代,也失去了其传统意义上的优势。一言以蔽之,哲学,需要从数据中寻求对世界的认识,舍此即失去认识的来源。
这似乎是一个惊人的变故,其实不然。在影响人类认识的议题上,大数据带来的变化,只是数量和范围上的,并非根本意义上的改变。事实上,回顾历史,我们发现,我们的对外部世界的感知,从来都是依赖于某些技术装置的,也就是说,人的认识,其实是通过数据获得的。
最早的技术装置,可能是直尺,它用于测量长度,例如田亩;更早的述说技术装备,也许是绳结,它用来述说一件重要的事件。在我国,从河北泥河湾先民打造石器,到安阳殷墟龟甲上刻画的文字,都可以看作是某种“数据”,表达着人类对外部世界的某种认知。而面对着所有这些早期的承载数据的技术装备,人们获得对外部世界的某种最早的抽象认识。古代人先后发明过算筹、斗和称、漏刻、浑象仪、量角器等等,无不是用来产生认知外部世界的数据,人们也发明笔、纸张、雕版印刷术,也是用来记录和生产数据。依托所有这些,数据成为人们认识的依据,思考的源泉,表达的工具。
近代以来,西方的技术和科学异军突起,望远镜、显微镜、六分仪、光谱仪、质谱仪乃至加速器、射电望远镜相继出现,成为人类认识外部世界的有力工具。这些技术装备产生的数据成为近现代思想的新的依托。到了当代,伴随着电子计算机的强大数据处理能力的出现,各种延伸和阔展人类感官感知能力的器皿设备层出不穷,终于完全或接近于完全取代人类对外部世界的直接感知,通过把数据呈现给人类,成为人类认识的来源。这就是大数据的时代。
关键点在于,我们所知的世界,全部是数据表达的,其中一部分获得理解和解释,更多的只是数据,没有得到解释甚至没有得到关注,它只是像自在自然那样在那里,等待人们去搜索发现它,解释它,运用它。
数据与本体
根据上述认识,似乎可以通过观察数据的形成和生产,来理解哲学与科学的在解释客观自然议题上彼此消长。
在近代科学初兴时期,它并没有从传统哲学中分离出来,它被冠之以自然哲学。与之相并行不悖的,有哲学本体论和形而上学。后两者都是试图以某些观念描述和解释外部自然,寻求事物的本质,并在哲学领域合法存在。伽利略、牛顿等人推崇的使用先进观测和实验手段观察与调控自然,用数学述说自然过程。当这一切成为风气之后,哲学本体论逐渐衰退,哲学似乎放弃了对客观世界的描蓦和解释,让位于自然科学。
最后一位试图运用科学数据来解释自然的哲学家是康德,他研习了牛顿的运动力学和天体力学,提出宇宙演化学说。然而,拉普拉斯在康德基础上,用物理理论和数学表述了星云说,在无限时空中的恒星和星系演化学说。拉普拉斯之后,科学之描摹自然优越于传统哲学得到公认。
一般认为,在经典科学时代,哲学与科学在描摹自然方面的差异,在于是否运用数据和使用数学方法。今天我们发现,这并非全部问题所在。经典时代,直至大数据崛起的今天,自然科学的确在使用各种技术装备获得的数据方面占据优势地位,哲学则固守传统的概念分析和一般推理方法,这还是指的好的哲学。这与其说是哲学落后于科学,勿宁说人类获得数据的能力尚有不逮,给传统哲学留有施展余地。
大数据的出现,包围了人类认知世界的所有方面,情况发生变化。在科学界开始讨论并实施“计算一切”的时候,同时也给哲学重新回到讨论本体打开方便之门。这里发生的变化是,数据成为认知的源泉,思维的质料;我们对世界的解释转变为对数据的解读,舍此无他。大数据的出现,使得我们发现,我们所知的称作外部世界的东西,是通过数据来呈现的,当我们寻求世界的本质和意义时,我们实际上是在数据中徜徉;当我们觉得有所发现有所体悟时,实际上是自觉找到了一些数据之间的关联。
数据的物理学气质
所谓物理学气质,指的是思考事物的本质,从原理层面上对事物的本质进行探究,揭示出事物的基本规律。当前备受热议的数据和大数据是否具有揭示事物基本规律的功能,可能还有待于观察,但是,数据,就其现象而言,似乎已经展示出某种物理学气质,考察这一特性,既有利于认识数据的本质,也有利于深化对物理学的认识。
这里所说的物理学,主要指的是量子力学。
众所周知,量子力学无论在理论上还是在应用上都获得巨大成功,在场论、粒子物理和天体物理学研究上都扮演者基础角色,在固体物理、半导体物理以及超导物理等应用学科上都有极出色表现。量子力学与哲学的联系,比其他任何自然科学领域都要来得紧密,其中最重要的就是认识论问题。
量子力学发现,建立在测不准关系基础上的认识,受到基本物理原理的限制,客观世界原则上不可能真正被观察到,我们只能根据物理测量结果认识世界。而测量本身形成对客观世界的干扰,导致无法真正认清它的本来面目。所以,我们对于世界的认识,唯一来源就是测量的结果,即所谓经验。
量子力学的这一认识原则引发将近一百年的讨论,至今未能平息。
尼尔斯·玻尔认为我们必须接受量子力学给出的认识原则,承认和接受自然作出的安排,量子力学已经很好地描绘了自然;爱因斯坦则不愿接受玻尔的“绥靖哲学”,他觉得一定是量子力学本身的不完备造成,人对自然的认识应该是能够穷尽的,不可能也不应该像量子力学所描绘的那样。
当我们回顾前述数据与大数据的认识论与本体论含义时,就明白,一直以来有关量子力学问题的争论,本质上就是对于数据的意义的争论。显然,爱因斯坦不愿意接受数据给出的结果,以及对于数据的解释,而玻尔则认为数据揭示的自然正是自然本体,无论我们是不是喜欢它。
有趣的是,人们一直在争论量子力学的测量问题,此前却几乎从来没有人意识到测量的结果本身就是数据,而数据已经成为事实上的认识来源。离开数据,我们对于世界一无所知。
在这个大数据时代,当我们认识到,数据正是我们认识世界的源泉,所谓世界其实就是数据构成的,我们也会看到数据本身所具有的物理学气质,正像量子力学所强调的那样,世界隐藏在经验表象背后,我们所能谈论的,只是经验本身。
以上是小编为大家分享的关于哲学如何认识大数据时代的相关内容,更多信息可以关注环球青藤分享更多干货