Ⅰ 大数据是什么时候提出来的
大数据的概念最早可以追溯到上乱禅岩个世纪 90 年代,当时美国 IT 公司 Teradata 提出了“大型数据库管理系统”(DBMS)的概念,这就是“大数据”的前身。然而,大数据这一术语的真正流行是在 2000 年之后的。随着互联网、移动设备和传感器技术袭尺的普及,越来越多的数据被持续地产生、收集、存储和分析,这使得大数哗御据概念得到了广泛关注和应用。Ⅱ 大数据时代发展历程是什么
可按照时间点划分大数据的发展历程。
Ⅲ 大数据时代网络舆情管理变革探讨
大数据时代网络舆情管理变革探讨
大数据时代的到来对人类的生活、工作与思维产生变革性影响,深刻改变着商业王国及公共管理等各个领域的面貌,“大数据”日渐成为各行业创新的助推器。当前中国网络舆情环境复杂,网络舆情危机时有发生,社会热点舆情事件和涉官涉政舆情事件不断涌现,造成社会民主生活和政治稳定间的不平衡等诸多影响。大数据背景下的网络舆情正在发生巨大的变化,网络舆情管理变得日益复杂和重要,如何抓住大数据时代为网络舆情管理变革带来的机遇,以“大数据观”变革传统网络舆情管理思维,准确把握网络舆情的内在特征及其在演变过程中的潜在规律,实现网络舆情管理在思维、模式以及技术上的创新,对于新形势下做好网络舆情引导工作,加强和改进网络内容建设,具有重要的理论意义和实践价值。
一、大数据时代必然要求网络舆情管理变革
“大数据”概念最早在20世纪80年代提出,2011年麦肯锡咨询公司发布其研究成果《大数据:下一个创新、竞争和生产率的前沿》,使这个概念得以大范围推广。2012年3月29日,奥巴马宣布将投入2亿多美元启动“大数据发展和研究计划(Big Data Research and Development Initiative)”,将“大数据战略”上升为国家战略。近两年,大数据备受学术界、产业界和政府部门的关注,成为国内外强有力的前沿词汇。大数据又称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具在合理时间内进行抓取、管理和处理的数据集合,是必须通过深度挖掘、计算、分析才能创造价值的海量信息。大数据在体量、复杂性、产生速度及价值密度四个方面都极大地超越了传统的数据形态,具有4V特征:大量(Volume)、多样(Variety)、高速(Velocity)、价值(Value)。数量庞大的网民通过论坛、微博、微信等多种途径方便快捷地发表言论观点,网络舆情的规模和复杂性急速上升,体量巨大而价值密度低,其内在特征的变化必然要求实现网络舆情管理的变革以适应大数据时代的发展,这些要求主要体现在四个“转向”上。
(一)从监测转向预测。大数据的核心和目标就是预测。复杂网络的研究专家巴拉巴西认为,“93%的人类行为是可以预测的,当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。生活如此抵触随机运动,渴望朝更安全、更规则的方向发展,人类行为看上去很随意、很偶然,却极其容易被预测”[1]。例如,亚马逊可以推荐我们想要的图书,淘宝知道我们的喜好,而人人网可以猜出我们认识谁。传统网络舆情管理把监测已经产生的舆情信息作为起点,这种明显的滞后性使其在网络舆情危机的应对中处于消极被动的位置。而目前留给突发事件的处理时间越来越少,从传统的“黄金24小时”变为“黄金4小时”,如此短的时间使舆情分析和决策尚未来得及参与进来,整个事件就已经造成了爆炸性的效果。在大数据时代,通过挖掘数据相关性,把数学算法运用到海量的数据上进行分析,在敏感消息进行网络传播的初期就提前开始监测,然后建立模型,模拟仿真网络舆情的演变过程,使网络舆情突发事件发生的可能性和倾向性变得可以预测。
(二)从节点转向网络。由监测舆情转向预测舆情的目标实现,最关键的大数据技术就是挖掘数据的相关性。在小数据时代,由于受到数据库和计算分析能力的限制,无论是对于因果关系还是相关关系的追寻,都耗资耗时,并且易受传统的思维模式和特定领域隐含的固有偏见的影响,无法保证舆情分析结果的准确性。因此传统的网络舆情管理只注重舆情内容的监测,通过分析单个数据节点,如网民“说什么”来抓住比较浅层的社会语义表达。大数据则在保留了原始数据的同时,记录了网民“为什么这么说”背后的社会心理和社会关系网。按照大数据思维,每一个数据都是一个节点,可无限次地与其他关联数据形成舆情链上的乘法效应——类似微博裂变传播路径,数据裂变式的关联状态蕴含着无限可能性[2]。通过对海量信息的解构与重构,充分整合政府和企业的数据资产,利用一系列飞速发展的新技术和新工具,描绘、测量、计算各节点之间的关系,深度挖掘数据的相关性,以此排除偏见和视觉盲点,掌握易被忽略的社会动态,预测舆情的发展趋势。因此大数据时代必然要求网络舆情管理变革其监测系统,由节点转向网络,把握相关性,进而分析舆情背后的社会互动,乃至网络族群之间的界限和相互勾连。
(三)从定性转向定量。舆情分析师或解读者从自身经验和视角出发,在传统网络舆情管理的过程中进行定性分析时,必然使其分析结果带有个人价值与理念的主观印记,甚至不同的舆情机构对同一舆情事件会得出相悖的结论。在大数据时代,所有元数据都可通过量化关联转化为有价值的信息,并实现多次利用,每一次利用都是一种创新,大数据成为网络舆情定量管理的力量源泉。尽管数据的相关性决定了某些数据价值的潜藏性,但新技术、新软件的出现使得通过数学分析实现数据的价值转化变为可能。而多维解读舆情和新的深刻洞见的揭示,使舆情分析结果的全面性和客观性大大超越传统的网络舆情管理。但数据的量化并不等同于简单的“数字化”,而是数据的可计算化,舍恩伯格将其称之为“数据化”,是指一种把现象转变为可制表分析的量化形式的过程[3]。“数据化”使态度和情绪转变为一种可以分析的形式,网络舆情的相关信息得以进行深入分析,一些社交媒体如Facebook、Twitter、QQ、微博、微信等坐拥大型数据的宝藏,一旦实现对其自身数据库的深度利用,就能轻易获得社会各个领域和所有用户的几乎全部动态信息。
(四)从样本转向全体。在传统的网络舆情工作模式中,所采集的舆情关联数据仅为样本信息,构建的数据库结构单一、数据量有限。其数据源一般是基于抽样或者针对重点网络站点进行的数据抓取,仅能对小规模、有结构或类结构的数据进行分析,标准不一,难以在不同领域中通用。同时,样本分析并不能保证结果的准确,即使分析方法和操作没有问题,但采样过程的任何偏误都将使舆情分析结果与事实相去甚远。大数据体量巨大,从TB级别跃升至PB乃至ZB级别,完整记录了社情民意,成为人类生存痕迹和心理变化的记录仪。采样的目的是以尽可能少的数据获得尽可能多的信息,但大数据是建立在掌握所有数据,至少是海量数据的基础上的,在数据处理技术日新月异的今天,变革传统舆情管理思维与方法,改变采样的惯性行动成为必要。通过运用大数据技术,建立网络舆情自动分析系统,全天候自动搜索并采集与目标舆情看似毫不相关实则具有内在关联的信息,在抓取和收集页面之后,对信息自动分类、自动获取关键词、自动内容分析和自动报警等。样本扩大至几乎全体,舆情分析的结果更加客观可靠。
二、大数据时代网络舆情管理变革的效应前瞻
抓住大数据时代变革网络舆情管理的新机遇,迎接大数据时代网络舆情管理的新挑战,顺应大数据时代网络舆情管理的新要求,变革与创新网络舆情管理将会产生良好的管理效应,实现新时期网络舆情管理的升级转型。
(一)实现“防火”式管理。传统的网络舆情管理因为无法把握数据相关性,不能准确预测舆情未来的发展趋势,因此采用的是“灭火”式管理模式。政府通常在舆情产生或者已形成舆情危机的情况下才开始采取措施,如发布信息、引导舆情、满足诉求等,以此达到“灭火”效果。在此种模式下,政府经常被动陷入网络舆情漩涡,由此形成视网络舆情为“敌情”的偏见。为了摆脱这一困境,政府总是试图“控制”、“引导”和“应对”网络舆情,以一种上位者的姿态去支配、主宰网民及其舆情表达的方式。然而,若网民在网络舆情中的主体地位得不到保证,网络舆情就会失去其“减压阀”的功能,网络舆情问题将会是治标不治本。大数据时代,政府转变网络舆情管理思路,变革网络舆情管理模式,应用大数据技术对网络舆情进行关联分析、级别划分、聚类分析和倾向性分析,将实现“灭火”式管理到“防火”式管理的转变。通过寻找“导火索”与“减压阀”之间的平衡点,在发挥网络“民间舆论场”作用的同时,将网络舆情危机扼杀在摇篮里。例如美国中央情报局通过抓取海量数据来追踪恐怖分子和监控社会情绪,在“阿拉伯之春”中,通过大数据分析多少人和哪些人的立场从温和变为激进,并“算出”谁有可能会采取有害行为。
(二)打捞“沉没的声音”。大数据源于互联网的分享、开放,但“数字鸿沟”的存在却使“信息穷人”与网络隔绝。尽管互联网的发展使这一部分人的比例越来越低,但发展不均衡性的扩大意味着现在和将来仍然有一个不容忽视的群体将无法提供任何数据。即使是那些能够充分利用网络的人群,也有可能因为在某种情境下成为舆论中的弱势群体,或者因其在舆情主流中的异质思维而选择不在网络上发声。当然,这种选择既可能是主动也可能是被动的。正如美国哲学家埃里克·霍弗所言,“一个国家最不活跃的人群,为占大多数的中间层次。他们是在城市工作和在乡间务农的正派老百姓,然而,他们的命运却受分据社会光谱两头的少数人——最优秀的人和最低劣的人所左右”[4]。显而易见的是,单凭技术体系构筑的大数据平台无法真正获取“全部数据”,通过改革网络舆情管理去打捞那些可能代表某一个群体或一定数量级的“沉没的声音”十分必要。因此,全面思考和理清大数据时代网络舆情管理面临的机遇和挑战,通过“大舆情”观念的构建,变革网络舆情管理的工作理念和模式,将有利于打捞“沉没的声音”。例如,将舆情服务与社会调查相结合,重视实地调研与第一手材料的采集,而不是把网络舆情管理捆绑在技术上,将避免得到不全面的舆情或做出误导性决策。
(三)识破“伪舆情”。当前备受关注的网络舆情,越来越成为依存于影星式的学者、影星式的记者、影星式的商人和影星式的政客为中心的“伪舆情”[5]。重大敏感事件发生后,部分网管和有影响力的舆情机构快速封堵其主观上认为的“有害信息”,选择性地编撰舆情报告,以片面、虚假的“伪舆情”影响决策层对形势的研判,使其做出符合自身利益诉求的决策。有些利益集团则精心扶植和培育自己的网络发言人,引导网民思考的内容和方向。结果,这些舆论领袖对关键事件和问题的看法在网络上大行其道,并淹没其他异质言论,使群众对真相的认知产生巨大偏差。当舆情被各方利益集团的政治力量和经济力量操纵时,它便丧失了独立性,一旦“伪舆情”被识破,舆情机构就可能失去其公信力。基于全网的完整、准确和极速的信息抓取有利于为舆情分析报告提供一手的材料、纯粹的事实,从而获得真实全面的舆情,使网民在不知道“为什么”的情况下,依然能获得对“是什么”的比较公正客观的认知,并以此助力网络舆情的引导。同时,通过变革网络舆情管理的体制机制,保持舆情管理的独立性将有力识破“伪舆情”,剔除“杂音”与“噪音”,使大数据时代的网络舆情真正成为现实世界的“镜像”。
(四)克服“盲人摸象”和“信息孤岛”。海量信息无限增长与网民关注、分析能力有限之间的矛盾,造成了“数据爆炸”与“知识贫乏”的怪象,加剧了社会舆论的“盲人摸象”效应。大数据时代下,网络媒体促进了信息的开放和沟通的便捷,人们对公共事件的参与达到了一个前所未有的高度,但是分众传播、个性化传播的凸显以及信息的碎片化,使得全面、深刻地关注和分析事件变得越来越困难。网民非理性、易激动的特点导致网络舆情的偏激和情绪化,网络的“群体极化”被放大。大数据时代的舆情监测是建立在传统人工和软件无法进行的全网舆情信息采集的基础上,样本扩大到全体。通过运用大数据技术,建立网络舆情自动分析系统,避免因数据源不全面而造成的重要信息监测缺失,将有利于消弭“盲人摸象”现象。与此同时,由于信息化应用水平参差不齐,政府和企业不同的部门之间都存在“信息孤岛”问题:有多少个部门就有多少个信息系统,每个系统都有自己的数据库、应用软件和用户界面,完全是独立的体系,阻碍了数据的互通互联[6]。变革大数据时代网络舆情管理的工作模式,统一舆情行业的技术标准,共享数据,建立网络舆情服务联盟,统筹政府、企业、媒体及社会力量,实现网络舆情的多元共治将有利于解决“信息孤岛”问题。
三、大数据时代网络舆情管理的变革路径
当大数据给各行各业带来变革性影响时,全世界都没做好迎接这场产业革命的准备。但与英美等发达国家相比,中国更像是处在大数据时代的前夜。而中国的人口和经济规模决定了中国大数据的规模为全球最大,为中国抓住时代的脉搏进行改革提供了难得的机遇。在这种大背景下,大数据对传统舆情管理也产生了深刻的影响,要使网络舆情管理变革产生应有的预期效应,适应时代的发展要求,须从思维观念、方法手段、体制机制、技术保障、人才建设等路径着手。
(一)树立大舆情观念。大数据时代网络舆情管理的变革,首要在于树立大舆情观念。这里的大舆情,包括两层含义。第一,强调“大数据观”,即充分实现网络数据平台的开放共享。按照“一切皆可量化”的大数据逻辑,一个新增的相关性数据的产生,通常会带来一个新的分析结果。因此只有形成“大数据观”,实现数据的动态分享,才能有效防止信息“碎片化”,最大限度地消除“盲人摸象”和“信息孤岛”现象。第二,强调网上和网下数据的整合。网络舆情与社会调查结合不足,可能降低舆情的真实性,误导决策。例如,对于假期调整方案的选择,各舆情机构组织的网络投票的结果各不相同,其做出的舆情分析报告也和真实民意相左。因此只有真正掌握“大舆情”,打捞“沉没的声音”,才能正确决策,打造一个更安全、更高效的社会。树立大舆情观念,首先,必须实现数据分析的动态化,打破数据垄断,统一标准,共享数据,预防孤立的舆情机构闭门造车,制定片面或错误的舆情分析报告。其次,应把网上网下各方面数据整合起来,挖掘网络舆情与社会动态背后的深层次关系,实现网络舆情管理和社会治理的紧密联动、同步推进[7]。最后,完善和创新包括舆情抓取、预警、研判到决策、评估等在内的网络舆情管理的各个环节,使舆情管理功能不仅仅限于危机处理,更能发挥辅助决策的作用。
(二)变革网络舆情的引导战略。做好舆论引导工作,应把握好时、度、效。但是目前许多地方和部门对如何进行网络舆情的引导仍然缺乏正确认识,于“时”不能把握好“黄金4小时”,于“度”不能掌握火候,拿捏分寸,于“效”不能保证网络舆情引导的实效质量。大数据由于自身具有的特点,使其利于变革网络舆情的引导战略,变“封改删”、“鸵鸟战术”为“网上引导,网下落地”,使“伪舆情”失去生存的土壤。因此,我们要充分发挥大数据的优势来提高舆情引导工作的能力。其一,利用大数据提升网络舆情引导的预见性和目的性。通过数据抓取和相关性分析,构建网民意见倾向分析模型,了解网民的偏好和特点,建设和完善政府网站、官方微博,扶植和借助意见领袖,做到“善说话、说对话、接地气、办实事”。其二,通过数据的价值转化,实现网络舆情的价值引导。在充分收集相关数据的基础上,运用图表等数据可视化技术揭示事件的前因后果,让数据“发声”,使网民既“知其然”也“知其所以然”,从而全方位360度无死角了解事件的来龙去脉,消除“盲人摸象”现象。其三,提升舆情引导的公信力。一方面加强新老媒体间的互动,发挥各自的优势与公众沟通,破解谣言和流言,达到时效性和权威性的双重保障;另一方面要避免舆情分析师在处理数据的过程中受经验偏好的影响,并防止大数据沦为某些机构和个人更便捷地操纵舆论的手段。
(三)健全大数据舆情管理体制机制。当前,网络舆情管理的体制机制尚不完善,很多地区尚不具备系统规范的舆情应对与处理的管理体系。舆情分析和预测手段落后,危机应对系统缺失,舆情管理组织机构不健全、不稳定,以及多头管理等问题非常普遍。健全大数据舆情管理的体制机制,对于从源头上解决网络舆情管理过程中出现的问题和困难,实现标本兼治,具有决定性作用。因此,为使网络舆情管理取得实效,提升网络舆情工作的规范化和科学化水平,我国应加快建立健全大数据舆情管理的体制机制。首先,建立网络舆情多元管理的互动机制,由国家出台大数据发展战略规划,产学研相结合,统筹政府、企业、社会和公民的力量,形成合力,实现共治。其次,变革网络舆情管理的机构设置,改变以往通过临时组建领导小组或临时办公室等机构,或者以宣传部门为“消防队”等方式被动应对舆情危机的模式,通过常态化机构的设置和专业人员的配备,使网络舆情管理专门化、精细化。再次,建立权责明确的责任机制,通过加快数据立法进程明确各级各部门包括政府部门、企业媒体、人民团体等的权利义务;通过建立由网信部门牵头的大数据舆情管理体制,改变多头管理的局面,并设立政府首席信息官责任制度等。最后,健全大数据网络舆情管理的资源保障机制,大数据时代变革网络舆情管理面临初期成本高、短期效益不明显等问题,需要加大资金、技术、物资、人力等资源的投入。
(四)创新大数据网络舆情管理的方法与技术。大数据时代的到来,要求网络舆情管理必须采用更为先进的技术,这主要表现在对各种相关软件的大量应用以及对大数据技术支撑平台的依托。目前中国网络舆情监测采集软件中较具代表性的有TRS互联网舆情信息监控系统、北大方正智思舆情监控系统、军犬网络舆情监控系统、乐思网络舆情监测系统等。此外,还应完善和创新大数据技术支撑平台的五大基石——数据监测技术、数据挖掘技术、数据存储技术、数据分析技术、数据安全技术,使大数据为网络舆情管理服务的同时又不超出我们的控制。同时,我们也不能陷入“技术是万能的”误区而盲目迷信和依赖技术,更不能因相信大数据强大的预测功能而导致“数据独裁”,变成数据的奴隶。因此,网络舆情管理还需要依靠其他方法和手段相辅相成,共同作用。法律因其具备最大的强制性和权威性,成为最有效的管理控制的手段。法律与道德相互联系,在极具复杂性和特殊性的虚拟空间里,教育和自律被摆在重要的位置上。例如,欧美发达国家如美国、英国、加拿大等都通过倡导用户自律和自我管理来提高网民的媒介素养,加强自我把关能力。此外,还可以效仿韩国、新加坡等运用行政手段,要求网络用户在获得国家有关部门颁发的许可证的情况下,才能访问政府严格控制的信息等。
(五)培育大数据时代的网络舆情管理人才。大数据时代的网络舆情将会形成多向度的研究,例如对社会话语表达、社会心理描绘、社会关系呈现、社会诉求预测等的分析研究。网络舆情将真正成为一门与多学科交叉的社会显学,对人才的全面性要求很高。中国教育的学科划分和培养体系,客观导致培养出来的人才很难跨界。换句话说,真正进入这个行业的门槛是很高的。正因如此,各国越来越重视对数据科学家的培养,如美国在大学专门开设研究大数据技术的课程,通过严格的业务培训和职业资格认证,培养下一代的数据科学家。2013年9月,我国人社部联合人民网启动“网络舆情分析师职业培训计划”,“网络舆情分析师”成为一项被正式认可的职业。但是我国现有舆情工作人员的水平仍然严重滞后,很多舆情机构尤其是地方政府并没有专业的数据处理、分析团队和专门的网络舆情管理部门。为突破大数据时代变革网络舆情管理的人才瓶颈,从短期看,可以通过招考、录用等方式引进数据挖掘、分析人才,通过委托培养、网络培训等方式强化已有专业人才力量,通过购买服务的方式短期租赁大数据舆情管理的高素质人才。从长远看,则要系统梳理网络舆情管理所需人才目录,培养和壮大既精通数据挖掘、数学建模,又拥有较高学习能力、分析能力和知识水平,横跨统计学、社会学、计算机学、传播学、管理学等学科的复合型人才,打造一支大数据网络舆情管理的专业人才队伍。
以上是小编为大家分享的关于大数据时代网络舆情管理变革探讨的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅳ 大数据的概念是由( )首先提出的
大数据的概念最早可以追溯到20世纪60年代,由美国技术先驱道格拉斯·克罗克福特(Douglas Carl Engelbart)首次提出。随着时间的推移,特别是互联网、移动通信和物联网技术的迅猛发展,数据量激增,大数据的概念得到了进一步的发展和普及。在21世纪初,大数据已经成为一个广泛讨论的术语,并且在信息技术、商业和科学研究等多个领域中扮演着至关重要的角色。大数据的处理和分析涉及数据的收集、存储、管理和分析等多个环节,其特点是数据量庞大、类型繁多、处理速度快以及价值密度高。利用大数据技术,我们能够更准确地洞察市场动态、社会变迁和自然现象,从而为决策制定和创新发展提供支持。
Ⅳ 大数据一词最早出现于20世纪90年代
“大数据”一词,最早出现于20世纪90年代,当时的数据仓库之父比尔·恩门经常提及BigData。
Ⅵ 什么叫大数据
什么叫大数据?
大数据-网络
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据-维基网络
大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息[3][4]。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学[9]、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018)的数据。
大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”
随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对big data感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。
大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含了各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决Google应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。
Ⅶ 什么叫大数据.有什么用.
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集版合,是需要新处理模式权才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据,就是数据量大、来源广、种类繁多(日志、视频、音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据。
大数据的7大特征:海量性,多样性,高速性,可变性,真实性,复杂性,价值性
随着大数据产业的发展,它逐渐从一个高端的、理论性的概念演变为具体的、实用的理念。
很多情况下大数据来源于生活。
比如你点外卖,准备什么时候买,你的位置在哪,商家位置在哪,想吃什么……这都是数据,人一多各种各样的信息就越多,还不断增长,把这些信息集中,就是大数据。
大数据的价值并不是在这些数据上,而是在于隐藏在数据背后的——用户的喜好、习惯还有信息。