『壹』 阿里巴巴大数据将严重威胁国家安全吗
阿里巴巴大数据对个人隐私的威胁的确存在,但并不是没有解决的办法,即便担忧对国家安全产生威胁,也不必动辄高呼“国有化”。
阿里巴巴并不能掌握“各种战略资源的流转”,阿里的大数据本身就包含各种商品流转的数据,通过各种商品的流转很容易分析出国家各种资源的流转,由此绘制出中国各种战略资源的流转及节点图。显然,无论战时还是平时,这样一份战略资源的流转及节点图都可用作瓦解国家安全的导航图。
首先,虽然阿里巴巴在中国电商中占据主导地位,但据国家统计局和商务部数据显示,阿里巴巴还远未达到掌握绝大多数商品流转数据的程度。
更重要的是,阿里巴巴即便掌握商品流转的数据,距离分析出各种资源的流转也很远,更不要说在目前的占有规模下分析出“各种战略资源的流转”。
事实上,在今年稍早些时候,在药品领域,阿里巴巴曾面临过更具体的指责。南方周末报道称,按照国家食药总局的监管要求,中国各类药品从生产、流通、经营和消费等所有节点的全部信息,将会储存在“阿里云”上。当时就有人认为,阿里健康将就此“运用大数据的研究方法,分析药品电子监管码所蕴含的信息,能够绘制出国内的疾病发生的时间、地域、周期,进而掌握国人的健康情况;甚至还能通过药品流转,绘制出中国各种战略资源节点图。”
仅凭阿里巴巴掌握了很多电子商务数据,就认为这些数据有可能被制作成“瓦解国家安全的导航图”,是耸人听闻的说法。
大数据的能力不应该被过度夸大,声称“大数据威胁国家安全”的这篇文章,还一个说法是,“阿里巴巴的大数据和云计算简直就是有史以来最为强大的情报搜集和分析系统——通过其大数据和云计算,中国人的一举一动及行为偏好都可以尽在其掌握之中。”这种说法完全是过分虚夸了大数据的能力。
『贰』 马云 互联网大会 这是一个什么时代
事实上,这已经不是马云第一次推出DT的概念了,在去年的首届世界互联网大会和马云赴台湾的演讲中,他都有不同程度地提及DT。那么,问题来了:DT时代究竟是怎样的一个时代?1、DT时代以服务大众、激发生产力为主。
DT是数据处理技术(Data Technology)的英文缩写。马云提出,IT时代是以自我控制、自我管理为主,而DT时代,它是以服务大众、激发生产力为主的技术。简而言之,IT是以我为中心,DT是以别人为中心。这两者之间看起来似乎是一种技术的差异,但实际上是思想观念层面的差异。
2、DT让别人愈来愈强大。
马云表示,IT能让自己愈来愈强大,而DT能让别人愈来愈强大,"DT是让你的消费者、让你的客户、让你的员工更具能力。"
3、DT更讲究开放、透明、分享及合作。
马云还表示,DT更讲究开放、透明、分享及合作,"IT时代诞生无数剧透"。未来,大数据的云端计算处理,将消除商业社会的边界,让一切商业主体相互自由连通。而这些都是建立在全世界数据信息完全"透明"的基础之上。
4、从IT时代到DT时代,小企业是关键。
在马云看来,IT时代到DT时代,小企业变成关键。他认为互联网一定是做昨天做不到的事情。那么什么事情昨天做不到?其实就是帮助那些小企业,解放那些小企业的生产力,能够让这些小企业具有IT的能力。
马云说,"小企业的需求是很多的,需要物流、诚信、信息、数据和支付,这整个体系,我们是没有办法全做完,所以必须引进各种各样的合作伙伴,大家一起来干,每个人在这里面拿到一点点,你才可能有机会成功。"
5、DT时代重体验,女性越来越"厉害"。
马云指出DT时代一个非常重要的特征是体验。对于体验,马云提出了一个比较新颖的观点,他认为体验时代会出现女人越来越厉害的现象,因为她们身上有着独特的东西,懂得怎么服务别人、怎么理解别人、怎么支持别人。所以,未来的DT时代,可千万不要小看了女人。
6、DT时代最大的机遇和挑战:能否把IT行业和传统行业进行完美融合。
马云认为在未来的20年,那些不能和传统行业进行完美结合的互联网公司将会被淘汰,同样那些不能与互联网技术、思想进行融合的传统行业也将活不长久。能否把IT行业和传统行业进行完美融合,这是未来DT时代最大的机遇也是最大的挑战,也是关乎能否把互联网经济做起来的关键。马云指出,当前最好的办法是建立一个良好的互联网生态环境,搭好一个很好的基础设施,同时培养出一批DT时代的人才。
『叁』 大数据营销会给企业和用户带来什么价值
随着大数据应用的普及,企业越来越重视从大数据中挖掘潜在的商业价值,大数据在企业管理中的应用主要在于提高企业整体分析研究能力、市场快速反应能力,建立以知识管理为核心的“竞争情报数据仓库”,提高核心竞争力 。
在大数据时代,企业将是完全以数据分析驱动的企业,利用大数据分析,能够转化成洞察的能力,充分释放企业潜能,实现转型与进化,本文重在分析大数据在企业当中所起到的作用。
瑶贝网路是基于移动互联门户基于用户细分的大数据整合服务平台,用数据说话,我们更在行。公司面向社会化用户开展精细化服务,打造线上精品商城,给老百姓提供更多便利、产生更大价值。
『肆』 多大的数据才算“大数据”
多大的数据才算“大数据”
什么是大数据有一个故事,说的是一位顾客订购披萨时,披萨店可以立即调出这位顾客的许多信息,比如送披萨上门必有的家庭、单位等地址和电话,顾客的消费习惯从而推荐适合他的披萨种类,顾客名下的银行卡透支情况从而确定他的支付方式,甚至顾客要自取披萨时,还能根据顾客名下车辆的停放位置预估他的到店时间等等。
从这个故事,我们可以看出大数据的一些关键特征,比如容量大、类型多、关联性强、有价值等等。“大数据是以高容量、多样性、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”工信部信息化和软件服务业司副司长李冠宇接受经济日报·中国经济网记者采访时说。
仅仅规模大不是大数据
大数据,顾名思义,“大”该是应有之义。“大数据的定义最初与容量有关系。”李冠宇分析说,业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。
正如中国电子信息产业发展研究院副院长樊会文接受记者采访时指出的,大数据概念产生就是因为数据量和数据类型急剧增加,以至于原有的数据存储、传输、处理以及管理技术不能胜任,需要全新的技术工具和手段。
信息技术日新月异,大数据的定义也在发生变化。工信部赛迪研究院软件所所长潘文说,数据即时处理的速度(Velocity)、数据格式的多样化(Variety)与数据量的规模(Volume)被称为大数据“3V”。但随着近几年数据的复杂程度越来越高,“3V”已不足以定义新时代的大数据,准确性(Veracity)、可视性(Visualization)、合法性(Validity)等特性又被加入大数据的新解,从“3V”变成了“6V”。
对于“多大容量的数据才算大数据”,潘文说,大数据的规模并没有具体的标准,仅仅规模大也不能算作大数据。规模大本身也要从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。
李冠宇说,比如一份现在看起来很小的数据,但是纵向积累久了也可以变成大数据,横向与其他数据关联起来也可能形成大数据。而一份很大的数据如果没有关联性、没有价值也不是大数据。
运满满研究院院长徐强认为,“大”是必要条件,但非充分条件。基于移动互联网用户规模红利,国内平台型企业比较容易获取大量数据,但数据不是越多越好,无用数据就像噪音,会给数据分析、清洗、脱敏和可视化带来负担。
这也正如阿里巴巴集团董事局主席马云在某次演讲中说的:“很多人以为大数据就是数据量很大,其实大数据的大是大计算的大,大计算+数据,称之为大数据。”
“水涨船高”的大数据
今年麦收时节,在雷沃重工的全国“三夏”跨区作业信息服务中心,显示屏的全国电子地图上有许多大小不一、颜色不同的圆圈,这是每个区域正在作业的收割机。智能化的收割机会自动获得许多数据,包括机器运行情况、收割量、小麦含水量等,数据传回后台汇总后,总体收割情况一目了然。
“大数据概念正是来自信息技术的飞速发展和应用,特别是随着云计算、物联网、移动互联网的应用,数据量迅猛增长。数据来源有两种,一种与人有关,比如政府、企业等为人们服务时产生的数据;另一种与物有关,在移动泛在、万物互联时代,物联网应用的浪潮将带动数据量爆发式增长。”李冠宇说。
这也就不难理解,为何当下数据产生的速度如此之快。正如樊会文所分析的,一方面,信息终端大面积普及,信息源大量增加;另一方面,基于云计算的互联网信息平台快速增长,数据向平台大规模集中。
大数据与云计算、物联网、人工智能等新一代信息技术之间相互影响、相互促进、相互融合。徐强说,运满满通过车联网设备和信息平台,每天获取3TB至4TB的数据,运用先进的大数据算法模型,实现了智能车货匹配、智能实时调度等。
樊会文认为,云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。简单来说,云计算是大数据的基础,有了云计算才能大量集中数据从而产生大数据。同时,大数据也支撑了云计算应用创新,带动云计算发展。
人工智能的核心在于大数据支撑。围棋人工智能程序“阿尔法狗”打败柯洁,离不开大数据的支持。“大数据技术能够通过数据采集、分析等方式,从海量数据中快速获得有价值的信息,为深度学习等人工智能算法提供坚实的素材基础。反过来,人工智能技术也促进了大数据技术的进步。两者相辅相成,任何一方技术的突破都会促进另外一方的发展。”潘文说。
核心价值在于应用
刚刚过去的“6·18”再次掀起网购热潮。网购消费者基本都被精准推送过广告信息,如曾浏览过电饭煲的消费者,很长一段时间内会在登录页面后看到各品牌电饭煲信息。
阿里、京东、360等互联网平台接触消费者众多,也因此获得了很多数据。但是正如精准推送一样,不对这些数据进行处理、挖掘就没法产生价值。比如雷沃收割机传回的数据进行汇总后还要分析处理,从而得出对收割作业乃至整个农业都有意义的结论才是这些数据的价值所在。
“大数据作为重要的基础性战略资源,核心价值在于应用,在于其赋值和赋能作用,在于对大量数据的分析和挖掘后所带来的决策支撑,能够为我们的生产生活、经营管理、社会治理、民生服务等各方面带来高效、便捷、精准的服务。”李冠宇强调。
我们正在步入万物互联时代。华为预测,到2025年,物联网设备的数量将接近1000亿个。工信部统计数据显示,目前我国网民数量超过7亿,移动电话用户规模已经突破13亿,均居世界第一。
“全球数据总量呈现指数级增长,企业级用户拥有的数据量在快速增加。互联网的社会化生产出巨量数据。”
『伍』 大数据的定义是什么
大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
『陆』 云计算,大数据,数据挖掘,机器学习,模式识别。这些概念之间的关系是怎么样的
给你解释一下这些术语:
云计算:就是个炒得很热的商业概念,其实说白了就是将计算任务转移到服务器端,用户只需要个显示器就行了,不过服务器的计算资源可以转包。当然,要想大规模商业化,这里还有些问题,特别是隐私保护问题。
大数据:说白了就是数据太多了。如今几兆的数据在20年前也是大数据。但如今所说的大数据特殊在哪呢?如今的问题是数据实在是太多了,这已经超过了传统计算机的处理能力(区别与量子计算机),所以对于大数据我们不得不用一些折衷的办法(比如数据挖掘),就是说没必要所有数据都需要精确管理,实际上有效数据很有限,用数据挖掘的方法把这些有限的知识提取出来就行了。·此外,数据抽样,数据压缩也是解决大数据问题的一些策略。
数据挖掘:从数据中提取潜在知识,这些知识可以描述或者预测数据的特性。有代表性的数据挖掘任务包括关联规则分析、数据分类、数据聚类等,这些你在任一本数据挖掘教材都可以了解。下面我说说和大数据的区别:数据挖掘只是大数据处理的一个方法。马云所说的大数据,或者如今商业领域所说的大数据,实际上指的就是数据挖掘,其实真正所谓大数据,或者Science杂志中提到的大数据,或者奥巴马提出的大数据发展战略,我的理解是,这些都远远大于数据挖掘的范畴,当然数据挖掘是其中很重要的一个方法。真正目的是如何将大数据进行有效管理。
机器学习:这个词很虚,泛指了一大类计算机算法。重点是学习这个词,如果想让计算机有效学习,目前绝大多数方法都采用了迭代的方法。所以在科研界,只要是采用了这种迭代并不断逼近的策略,一般都可以归到机器学习的范畴。此外,所谓学习,肯定要知道学什么,这就是所谓训练集,从训练集数据中计算机要学到其中的某个一般规律,然后用一些别的数据(即测试集)来看看学得好不好,之后才能用于实际应用。所以,选取合适的训练集也是个学问。
模式识别:意思就是模式的识别。模式多种多样,可以是语言,可以是图像,可以是事物一些有意义的模块,这些都算。所以总体来说,模式识别这个词我是觉得有点虚,倒是具体的人脸图像识别、声音识别等,这些倒是挺实在的。也许是我不太了解吧。
另外说说你的其他问题。
传统分析方法不包括数据挖掘。对于数据分析这块我不是很了解,不过可以肯定的是,传统分析都有一定的分析方向,比如我就想知道这两个商品的关联情况,那我查查数据库就行了。数据挖掘虽说有些历史,不过也挺时髦的,它是自动将那些关联程度大的商品告诉你,这期间不需要用户指定数据分析的具体对象。
如果想应对大数据时代,数据挖掘这门课是少不了的。此外对数据库,特别是并行数据库、分布式数据库,最好了解点。至于机器学习和模式识别,这些总的来说和数据挖掘关系不太大,除了一些特殊的领域外。
总之,概念挺热,但大数据还很不成熟,无论从研究上还是商业化上。我目前在作大数据背景下的算法研究,说实话,目前基本没有拓展性非常强的算法,所以未来大数据的发展方向,我也挺迷茫。
PS:将数据挖掘应用于商业,最最重要的就是如何确定挖掘角度,这需要你对具体应用的领域知识非常了解,需要你有非常敏锐的眼光。至于数据挖掘的具体算法,这些就交给我们专门搞研究的吧!(对算法的理解也很重要,这可以把算法拓展到你的应用领域)