Ⅰ 脏数据潜在的隐患以及数据整合
很少有什么IT项目比数据整合更令人头疼的了 如果我们换个方式思考 就会发现有一件事是比数据整合更可怕的 那就是数据整合出现了问题
有时候 这是由于用户出错或者恶意用户的蓄意破坏 导致不良数据堆积引起的问题 有时候原始数据是完好无损的 但是从一个系统/数据库转移到另一个系统/数据库的过程中丢失 被删截或者被修改了 也会造成麻烦 数据会过时 也会在你企业内部的人事斗争过程中不幸被流弹击中 要知道每个人都是死抱着自己的一小片数据存储地盘 不愿与其他人分享
有很多的方式会导致数据项目的流产 本文列举了其中五种最常见的情况 告诉你究竟是什么地方出错了 将会导致什么样的后果 以及可以采取什么措施避免同样的情况发生在自己身上 文中所涉及的公司名字一概隐去 希望不要让你自己的经历像本文所叙述的对象那样沦为他人口中的经验教训
亲爱的 *** 邮件事件
小心你的数据来源 它有可能会反过来摆你一道 这个事例源于一个大型金融服务机构的客户呼叫中心 就像几乎所有的客服柜台一样 这里的客户服务代表们要做的就是接听电话 并把客户信息输入到一个共享数据库里
这个特殊的数据库里有一列是用来记录称谓的 并且是可编辑的 但是数据库管理员并没有对这一列的输入规则进行约束 例如只能输入某某先生 某某女士之类的称谓 反而可以接受客服代表输入的任何长达 或 字符的内容 在倾听一些客户愤怒的投诉时 部分客服代表就会给每条记录添加一些他们自己想出来的不完全友善的注释 例如 这个客户真是个 *** 这类的注释
这种情况持续了很多年 因为机构里的其他系统都不会从这个称谓列中提取数据 所以没有人注意到这一情况 其后某天 市场部决定发起一次直接邮寄活动来推广一项新服务 他们想出了一个绝妙的点子 与其花钱购买一份名单 不如利用客服柜台的数据库
于是 以诸如 亲爱的 *** 客户Linlin 这样的措词抬头的邮件开始源源不断的发到客户邮箱里
当然没有任何客户会签约使用这项新服务 该机构直到开始检查他们所发出的邮件时 才弄清楚前因后果
我们拥有的数据不是属于我们自己的 如今世界的联系日趋紧密 很可能会有人找到了你的数据 并把它利用在一个你完全想象不到的地方 如果你从别的地方获取数据 那么在你利用它们执行新任务时 必须要确保你的数据质量管理水平过关了
判断水平 过不过关 取决于你要如何利用这些数据 正确性是判断数据质量的基本要素之一 对于直邮产业 数据的准确率达到 %至 %就可能就够了 而对于制药业 你就必须达到 %甚至更高 不过 没有什么公司想要或者需要完美的数据 更不用说为了得到完美数据而付出金钱 因为要数据保持完美的代价太昂贵了 问题是要怎样利用数据 以及数据的准确率达到什么程度才足够好
死去的人有没有选举权
相信大家对数据清洗(Data cleansing)这个术语并不陌生 它是数据整合过程中必须进行的一个复杂过程 通过检测和清除掉垃圾数据(包括不正确 过时 冗余以及不完整的数据) 以保证数据的正确性 可靠性 完整性和一致性 从字面上 我们就可以看出数据清洗是一个 生死攸关 的问题 下面讲述的也是 生死攸关 的事例 年美国国会选举期间 某 *** 工作志愿者在通过电话让已登记的选民来投票的过程中发现 每十个选民中有三个是已经死裂芦滑去的人 因此没有资格投票 现代肆腊社会里死者数据不全所引发的问题很常见 确实也给生者带来了很大的困扰
对于诸如保险公司 投资公司 基金公司 通讯公司等拥有大量客户的服务类企业而言 客户数据是其重要的财富来源 然而 客户数据质量问题却一直是困扰企业开发新服务项目的绊脚石 在一项关于客户数据质量的调查研究中发现 平均而言 %的客户数据记录存在各种问题 例如各种证件号码输入错误 联系方式过期等等 其中有五分之一的数据问题是由于客户的死亡造成的 其中一部分客户死亡时间超过十年却仍保留着股东的身份
这并不是客户的疏忽 只是自然发生的问题 私营企业上市 被并购或者拆分 而他们的股东数哗蚂据却一直被保留着 甚至长达数十年之久 不过这些垃圾数据所引起的问题可能比起在不必要的邮寄费用上浪费一点钱更为严重 最令人担心的问题莫过于欺诈和盗窃ID 如果这些情况发生在颇具影响力的机构组织里 必会导致更为严重的现实问题 例如已故股东的红利被陌生人兑现 继承人的继承权被剥夺 公司机密泄漏等等
那么要怎么解决这个问题呢?利用商业评测软件可以识别不同系统的异常数据并做好标记方便检查 即便如此 所有的企业都应当加强重视 做好内部监控 严格执行例行的基本检查 事实上 每一个企业都或多或少存在垃圾数据方面的问题 从风险管理的观点来看 最好的解决方案就是持之以恒地检查 如果你从上文的内容能认识到这个自然发生的现象可能会对你产生什么影响的话 已经有了一个好的开始
数据重复的代价
用户出错会引发麻烦事 用户自作聪明造成的问题可能更严重 某保险公司从上世纪 年代开始就将大部分客户资料保存在一个主应用软件中 并规定数据录入操作员录入新数据前先要搜索数据库中是否已经有该客户的记录 但是搜索功能执行起来非常慢而且不够准确 所以大多数操作员不再执行这一步骤 而从头开始输入新记录 这样做确实简单轻松多了 然而 结果是很多客户公司的记录在数据库里重复达几百次 使系统运行地更慢 数据搜索结果更加不准确 形成了恶性循环
不幸的是 这个应用软件已经根深蒂固的嵌入到该公司的其他系统了 管理部门不愿意花钱把它替换掉 最后 该公司的IT部门发现如果公司再也无法查找用户资料了 将会造成的每天 万美元的损失 直到这时候 公司才如梦初醒 使用识别系统来清洗数据 最终清除了近四万条重复记录
重复数据的问题一直都让IT管理员头痛不已 数据库越庞大 这个问题越严重 但是 很少有人真正认识到问题的严重性 如果有人告诉你他的客户数据库里有 %的重复数据 很可能低估了 不过 我们也没有什么灵丹妙药彻底解决这个问题 即使我们能够利用数据匹配技术来沙里淘金 跨越多个数据库找出唯一有用的信息 最难的一关可能是让企业里的不同利益团体就什么数据可以大家共享以及如何构建匹配达成一致 同一个机构里的两个不同的部门可能对匹配和重复项有完全不同的定义 类似的数据整合工作会因为相关人员不能对 谁才是数据的所有者 以及 什么数据可以拿来与别人交换 的意见不和而土崩瓦解
小心老化的数据
相信很多人对魔域大冒险(Zork)这款最经典的文字冒险游戏还记忆犹新 通过问答形式由游戏设置提供情景描述 而玩家输入选择关键词判断来推动游戏发展 是现代RPG游戏的鼻祖 现在 还有不少人仍在开发这类古老的游戏 这也没什么 问题是他们数据库里保存的用户资料也同样的古老
某老款游戏开发商利用MailChimp的网络营销服务来联系以前的一万名客户 就是为了提醒他们游戏的第二版终于完成了 他们所用的大部分电子邮件地址至少是十年前的 其中有一部分是Hotmail帐户 很久之前就被遗弃不用了 以致微软已经把这些邮件地址当成垃圾邮件陷阱了 于是 一天之内 所有的MailChimp邮件都被Hotmail的垃圾邮件过滤器列入了黑名单
幸好游戏开发商以前保留了原始记录 包括每位客户下载其游戏时的IP地址 这成了MailChimp的救命稻草 MailChimp给Hotmail的客服发了紧急申明 证明这些邮箱帐户是合法客户 只是年代比较久远 第二天 hotmail就把MailChimp从黑名单中解救出来了
所有的数据都会快速老化 就像放射性物质发生衰变一样 而联络数据比其他数据老化得更快 数据库管理人员必须定期更新每一个系统的数据
美国工商资料库是个巨额产业 而联络资料是所有资料中最受销售人员青睐的 但也是最难维护的 年成立于美国的是一个在线商务联络资料数据库 面向销售专业人员 采用Wiki式数据清洗方式来维护 该网站的三十多万名用户通过上传新名片资料或纠正错误的名片资料来换取点数 上传的每条记录必须完整 如果上传不正确或是资料太老旧 就会扣除相应的点数 而用户能得到的利益就是用获得的点数购买自己所需要的名片资料
Jigsaw的首席执行官Jim Fowler称一家科技公司想要把他们公司的数据库和Jigsaw的数据库进行比较 以便清除不良数据 该科技公司拥有四万条记录 其中只有 %是当前可用的 而且全部数据都不完整 Jigsaw发现他们大部分合作客户都拥有很多毫无价值的数据 根本就没办法去匹配纠正 公司花费了数百万美元在客户关系管理软件上 可见这些数据有多糟糕 有时候公司的真正价值不在拥有的数据本身 而在于有没有能力与时俱进地跟上数据变化的速度 Jigsaw的能力正是在于完善数据并进行自我清洗 如果没有自我修正的机制 Jigsaw也只不过是一家毫无价值的数据公司而已
小错误与大麻烦
好数据和不良数据之间的差别很可能就体现在一个小点上 某专案优化解决方案供应商的高级顾问告诉我们 他曾为一个大型数据整合项目做顾问 这个项目看起来一切都运行正常 但六个月后 某人打开一个数据表 只看到了一排排符号 什么数据都没有
这其实只是一个字符代码错误 本来在一些域里应该用省略号(三个点)的 但有人只输入了两个点 导致了整个数据线的崩溃 该公司不得不费尽力气从备份中重新创建整个数据库 查找省略号 然后用正确数据替换
很多时候 问题不仅仅是简单的数据录入错误或者是 脏数据进脏数据出 的问题而已 很多企业在进行不同操作系统之间的数据移植或从老的SQL版本中升级数据等操作时并没有做好充分计划 他们总是希望利用手头上任何可利用资源火速进行 而把数据清洗任务冀望于以后完成 更甚者 他们的测试环境和操作环境可能并不一致 或者他们只用少量数据子集来测试 没有测试过的数据很可能会在后面的操作引发大麻烦
企业经历著深刻的技术革命 却没有在数据整合和维护的管理上花费足够的时间和精力 最终只会成为不良数据的牺牲品 在数据迁移的过程中 有无数的机会让它们成为不良数据
不要指望IT部门来验证你的数据 让与这些数据密切相关的有能力的用户来帮助你做好数据整合计划和测试 在你决定进行整合之前 先查看一下所有数据 确定用于从中提取数据的应用软件 如果可以 最好测试所有的数据而不是其中某个子集 要知道正如上面的例子所示 就算是一个小的不能再小的错误都会把你和你的数据拉进痛苦的深渊
我们最后再用一个实例来说明小错误和大麻烦之间的关系
某商业风险管理解决方案供应商的某位客户创建了一个SQL服务器数据库 用来确定是否有错误的CAD文件在其网络内部流窜 原本的设想是 如果错误的数据包超过某设定阈值 公司管理员就会知道并进行数据挖掘和清洗工作 问题是他们不小心颠倒了数据库的规则设置(把两个阈值放反了) 导致错误数据包越多 提交公司的报告里显示的网络运行情况就越好 最后该公司网络被某种蠕虫病毒入侵 破坏了他们的工程CAD档案 他们不得不重头开始花费大量的金钱来重建大部分的文档 这一切都是因为一个非常简单数据提取设置错误造成的
lishixin/Article/program/Oracle/201311/17541
Ⅱ 大数据给人们带来巨大利益的同时,有哪些弊端
1、数据不够安全
无论是企业还是个人,在实践过程中都会或多或少地产生数据。这些内数据在当今时代容并不安全,会有很多方法使它们泄露。
2、数据泄露产生不平等
对于用户来讲,数据是一笔财富,但是遭到了别人的窃取,而自己并未得到任何收益,这对于用户来说是不公平的。
3、用户隐私问题
当用户在网上注册信息后,这些信息很有可能已经被扩散,当用户收到一些莫名其妙的邮件、电话、短信时,其实用户的各种信息早已被非法的商业机构卖了。
Ⅲ “无现金化”有多危险为何发达国家,都不用支付宝和微信支付
在我国,电子支付盛行,几乎人人都使用支付宝和微信支付,现金在年轻一代几乎已经消失了。
“无现金化”有多危险?首先是个人信息透明化。要使用电子支付,就要绑定个人的身份信息,银行卡信息。这些信息都有被泄露的可能,如果被不法分子利用,那么用户将会接收到各种各样的推销信息,相当于用户在网络上裸奔。
其次是网络诈骗比例上升。不能说“无现金化”是网络诈骗的主因,但它确实给网络诈骗带来了很大的便利性。现在的网络诈骗,只要你输入银行卡,手机验证码等信息,骗子即可在几百公里外转走你银行卡里的余额。
对此,你有什么想说的呢?欢迎在评论区告诉我。
Ⅳ 什么数据可以成为数据资产数据资产化如何实现
我们来看一下资产的概念: “资产是指由企业过去的交易或事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”
在资产的释义中,我们可以看出“拥有或者控制”和“带来经济利益”是资产最核心的内涵。由资产的概念引申到数据资产,我们可以得到,数据资产是由企业拥有或控制,能够为企业带来经济利益的数据资源。
石油在未得到利用之前,只是一种黑色的液体。数据得不到利用也只是一堆毫无价值的信息,那么什么样的数据资源可以转换为数据资产呢?
可明确作为“资产”的数据资源,表现为以下两种形式:可帮助现有产品实现收益的增长;数据本身可产生价值。
数据为业务赋能
数据助力现金流,即数据本身不产生价值,但通过数据作用于现有产品 ,使其在创造收益、降低成本上有更好的表现。企业通过这种数据“内消”的方式,将生产经营中产生的数据进行收集、整理、分析,用于服务自身经营决策、业务流程,从而提高产品收益。
数据本身产生价值
通过利用数据优化业务的方式,是数据间接产生收益的方式,这种情况下,数据能够产生的价值是难以评估的。在合法合规的前提下,让数据以各种形式进行交易,这是数据产生价值的直接方式。
能够直接产生价值的数据,数据变现的过程就是数据交易的过程,此过程的成本在于数据收集、处理、存储的成本,属于比较容易的数据变现;而利用数据为业务赋能拥有更复杂、专业的资产化流程。我们通过一个案例来解析数据资产化的过程:
某金融机构在投融资交易的过程中,一直苦恼于没有固定的标准来界定企业的可投资性,难以找到符合其投资标准的融资企业和项目,导致出现“有钱找不到投资项目,有投资项目的企业融不到钱”的现象。这时候此机构急需解决信息不完整、不对称、不透明、缺乏客观分析与评价的问题,所以找到探码,希望通过大数据来解决这个事情。
我们了解了该机构的诉求后,得出了数据资产化解决方案:通过机器学习、人工智能等方式对企业大数据进行分析,以得到解决办法。具体步骤为:
通过社会数据、网络采集、机构数据、企业填报等数据源采集到企业数据,主要包括工商信息、股权信息、行政处罚、销售年报、司法信息、知识产权、法律诉讼、税务信息等。
利用大数据技术等进行数据清洗、数据合并、数据挖掘、数据标准、安全脱敏、多维关联等数据治理操作,提高数据质量。
利用机器学习技术学习专家打分,模拟专家对企业价值评价的决策过程,先建立评价模型,自动高效的对企业数据进行多维度、全方位解析,最终生成企业评价报告。
随着数据资源越来越丰富,数据资产化将成为企业提高核心竞争力、抢占市场先机的关键。我们也将以扎实的技术,打破数据之间信息孤岛状态,应用云计算、大数据和人工智能技术帮助企业实现数据资产化运营。
Ⅳ 一只股票好不好,看哪些数据
1、净利润:净利润代表了企业的业绩,业绩越高越好,越高代表企业盈利能力越好。
2、每股收益:每股收益是企业每年每股的利润,每股收益越高越好,越高代表企业的盈利能力越强。
3、现金流量:现金流量代表了企业的周转资金,周转资金越多越好,说明企业不会出现资金断裂的情况。
4、净资产收益率:净资产收益率是综合评价一家公司盈利能力的最佳指标,净资产收益率越高越好,最低标准在15%以上。
5、流动比率和速动比率:流动比率和速动比率代表了公司的偿债能力,流动比率和速动比率越高越好,越高代表企业的偿债能力越强。
除此之外还可以看上市公司主营业务是否具有发展前景,上市公司股票是否有机构投资者,上市公司是否有财务造假等历史。
拓展资料
股票净值:股票上市后,形成了实际成交价格,这就是通常所说的股票价格,即股价。股价大半都和票面价格大有差别,一般所谓股票净值是指已发行的股票所含的内在价值,从会计学观点来看,股票净值等于公司资产减去负债的剩余盈余,再除以该公司所发行的股票总数。
股票周转率:一年中股票交易的股数占交易所上市股票股数、个人和机构发行总股数的百分比。
委比:是衡量某一时段买卖盘相对强度的指标。它的计算公式为委比=(委买手数-委卖手数)/(委买手数+委卖手数)×100%。
量比:是一个衡量相对成交量的指标,它是开市后每分钟的平均成交量与过去5个交易日每分钟平均成交量之比。
市盈率:是最常用来评估股价水平是否合理的指标之一,由股价除以年度每股盈余(EPS)得出(以公司市值除以年度股东应占溢利亦可得出相同结果)。
市净率:指的是每股股价与每股净资产的比率。市净率可用于投资分析,一般来说市净率较低的股票,投资价值较高,相反,则投资价值较低。
开盘价 :上午9:15—9:25为集合竞价时间,在集合竞价期间内,交易所的自动撮合系统只储存而不撮合,当申报竞价时间一结束,撮合系统将根据集合竞价原则,产生该股票的当日开盘价。按上海证券交易所规定,如开市后半小时内某证券无成交,则以前一天的收盘价为当日开盘价。有时某证券连续几天无成交,则由证券交易所根据客户对该证券买卖委托的价格走势,提出指导价格,促使其成交后作为开盘价。首日上市买卖的证券经上市前一日柜台转让平均价或平均发售价为开盘价。
收盘价:收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最后一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。
Ⅵ 大数据时代已经到来,什么是大数据
大数据时代已经到来,什么是大数据
大数据时代已经到来,你了解吗?什么是大数据?一、大数据出现的背景进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的 挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日, 却因为近年来互联网和信息行业的发展而引起人们关注。大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、什么是大数据?信息技术领域原先已经有“海量数据”、“大规模数据”等概念,但这些概念只着眼于数据规模本身,未能充分反映数据爆发背景下的数据处理与应用需求,而“大数据”这一新概念不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术与应用三者的统一。1、大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据库,也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、 大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:“大数据是最大的 宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据是可能不包含所有的 信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。2、大数据技术,是指从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。3、大数据应用,是 指对特定的大数据集合,集成应用大数据技术,获得有价值信息的行为。对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务 需求、数据集合和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展,才 能充分实现大数据的价值。当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。三、大数据的类型和价值挖掘方法1、大数据的类型大致可分为三类:1)传统企业数据(Traditionalenterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。2)机器和传感器数据(Machine-generated/sensor data):包括呼叫记录(CallDetail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。2、大数据挖掘商业价值的方法主要分为四种:1)客户群体细分,然后为每个群体量定制特别的服务。2)模拟现实环境,发掘新的需求同时提高投资的回报率。3)加强部门联系,提高整条管理链条和产业链条的效率。4)降低服务成本,发现隐藏线索进行产品和服务的创新。四、大数据的特点业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。具体来说,大数据具有4个基本特征:1、是数据体量巨大数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量; 网络资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前 为止,人类生产的所有印刷材料的数据量仅为200PB。2、是数据类别大和类型多样数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化 数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。3、是处理速度快在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。4、是价值真实性高和密度低数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。五、大数据的作用1、对大数据的处理分析正成为新一代信息技术融合应用的结点移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。2、大数据是信息产业持续高速增长的新引擎面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。3、大数据利用将成为提高核心竞争力的关键因素各 行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费 者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作 用。4、大数据时代科学研究的方法手段将发生重大改变例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。六、大数据的商业价值1、对顾客群体细分“大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。2、模拟实境运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以 数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案 投入回报最高。3、提高投入回报率提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。4、数据存储空间出租企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用 户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚 马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。5、管理客户关系客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失 率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新 产品预告、特价销售通知,完成售前售后服务等。6、个性化精准推荐在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分 析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。7、数据搜索数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。七、大数据对经济社会的重要影响1、能够推动实现巨大经济效益比如对中国零售业净利润增长的贡献,降低制造业产品开发、组装成本等。预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。2、能够推动增强社会管理水平大数据在公共服务领域的应用,可有效推动相关工作开展,提高相关部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择最佳路径,从而改善城市交通状况。3、如果没有高性能的分析工具,大数据的价值就得不到释放对大数据应用必须保持清醒认识,既不能迷信其分析结果,也不能因为其不完全准确而否定其重要作用。1) 由于各种原因,所分析处理的数据对象中不可避免地会包括各种错误数据、无用数据,加之作为大数据技术核心的数据分析、人工智能等技术尚未完全成熟,所以对 计算机完成的大数据分析处理的结果,无法要求其完全准确。例如,谷歌通过分析亿万用户搜索内容能够比专业机构更快地预测流感暴发,但由于微博上无用信息的 干扰,这种预测也曾多次出现不准确的情况。2)必须清楚定位的是,大数据作用与价值的重点在于能够引导和启发大数据应用者的创新思维,辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。所以,客观认识和发挥大数据的作用,不夸大、不缩小,是准确认知和应用大数据的前提。八、总结不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。1、从大数据的价值链条来分析,存在三种模式:1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。2、未来在大数据领域最具有价值的是两种事物:1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。大 数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不 断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于 数据的应用需求和应用水平进入新的阶段。