Ⅰ 从预测到“现测” 大数据商业建模的新发展
从预测到“现测”:大数据商业建模的新发展
大数据商业建模的新发展方向在哪里?怎么样预测才能真正发挥大数据的特有优势?从预测到“现测”是如何实现的?百分点首席模型科学家陈宇新教授为我们做了更深一层的阐述,从预测到“现测”:大数据商业建模的新发展。
以下是陈宇新教授在2015百分点大数据操作系统(BD-OS)暨D轮融资发布会上的演讲摘录:
谢谢大家,谢谢各位来宾!非常荣幸在今天这个场合给大家分享关于大数据商业建模新发展的一些思考,这也是现在百分点研发的一个前沿。
大家都知道预测是大数据商业应用的一个核心,大数据预测需要大量的高质量数据加上非常先进的模型,在当前的情况下什么是预测领域新的热点或者一个新的发展方向?怎么样预测才能真正发挥大数据特有的优势?这是我想分享的,在这之前给大家先介绍两条最近媒体报道的新闻,从新闻上大家或许能够看出一些新的发展趋势。这两条新闻都是8月份华尔街日报刊登的。
第一条,苹果和谷歌正在开发在用户想要之前就知道用户想要什么的技术,在你不知道想要什么之前就告诉你想要什么,这两款产品大家也听说过,对苹果来说叫“主动助手”,对谷歌来说这个产品叫“谷歌现代”。这两家公司通过对你未来肯定要做的事情的一个探知反过来推测你最近的将来想干什么。谷歌通过邮件可以知道你今天下午六点有班飞机,下午三点的时候根据你现在的位置,根据北京的交通流量告诉你现在该走了,如果走的话该打什么车,滴滴或者Uber,这是它预测的思路,通过对一些已知的未来的事件的掌握来推测即将发生的未来应该干什么的一个预测。
跟这个看起来没有特别关系,但是有共通之处的另一条新闻,宏观经济指标预测,这家公司名字叫“现测”,创始人是哥伦比亚大学诺贝尔经济学奖得主的博士生,大数据预测宏观经济指标,比如物价指数。为什么叫“现测”?不是预测,而是很快的把刚刚发生的整个美国各种物价变化归纳出来呈现给用户,描述刚刚发生的事件,而不是真正预测未来的物价怎么样。为什么这件事有意义?因为通常政府颁布的指标是一个月或者一个季度以前的,它能做到一分钟之前。
这两条新闻有一个共同的关键词就是“现”,NOW,这是目前对于大数据应用的一个非常重要的趋势,那就是从预测到现测,预测是大数据建模技术的一个核心,但同时也是大数据建模的一个最大的难点,大家都说大数据很厉害,能预测很多东西,你能不能告诉我明天中国的股票是涨100点还是跌50点,没有人可以做到。但是大数据的优势在于很多时候我们真正需要的并不是预测,而是所谓的现测,是对极近过去的描述和极近将来的预测。
什么叫极近?一天以前或者一小时以前?这实际上是取决于我们现在数据量的多少和技术的发展,趋势是这个极越来越短,本来一个月前的经济数据,现在可以知道一分钟之前的,高频交易之前的我们需要知道一秒钟之前的数据。这是我们想到的现测的定义,现是一个动态过程,现测是指我们目前状况之前一点时间和之后一点时间情况的描述或者预测,这实际上是大量的大数据应用所真正用到的预测模型,比如高频交易,实际上已经知道市场的情况,但是在别人反应之前我们就知道了极近的过去发生的。
推荐引擎,这是大数据应用非常重要的,也是百分点最原始的DNA,根据消费者在这个页面上当前的状态,马上给他一个现时的推荐,这个推荐可能只是在一秒甚至半秒之内,实时投放的RTB广告,还有打车软件,大家用过滴滴专车,他们背后的原理是现测的原理,我知道车在什么地方,你在什么地方,交通状况,我就可以推测下一分钟车开到哪儿,知道前一秒车在什么地方。现测刚刚发生的事情,即将发生的事情,背后有一个非常重要的科学原理。自然也好,给了我们一个非常重要的预测手段,万世万物都有一个所谓的惯性,这个惯性效率发生的时候就使得我们预测能够比较准确。一个物体从斜面上往下滑,下一秒这个木块在什么地方可以预测的非常准确,现测为什么有它的准确性,来源于万世万物背后的惯性。
放在社会领域,惯性是由场景驱动的,比如明天我的太太过生日,生日要买生日礼物,有了这个目标,根据惯性原理,预测就变成一个现测。
现测的优势一个是利用所谓的惯性原理,另外利用了时间差,这是大数据的特点,因为大数据往往是实时的数据,海量高频的数据,这张图大家可以看到如果我每十分钟照一个这样的照片,可能就错过这个镜头,如果每一个微秒或者每半秒拍一个照片可能就看到这个镜头,看到这个镜头就有一个惯性的应用,这个女士拿起这个橘子,如果没有时间差,比如5分钟拍一次照这个镜头就错过了,但是如果频率高的话,我们知道她拿这个橘子看一下,虽然孩子拉走了,但她对这个橘子有兴趣,这个情况下我们可以有一些营销手段。
说起来跟预测一样,实际上这是一个描述问题,高频的描述效果跟预测是非常像的,我们并不在预测她到底喜欢苹果还是橘子,只不过我们描述从预测变成了实测,描述非常有优势,这样我们把一个非常艰难的预测问题变成一个描述问题。这是我讲的为什么对大数据来说我们具有现测的优势。
我有一些博士生在做模型的建立和模型的测试,根据现测的概念,我们可以发展出一系列的技术模型,这些模型有一系列商业的应用。一个是协同过滤和时间序列的分析,通常在计算机科学领域,大家都知道协同过滤的算法,如果放在现测的考量中,就像计量经济学的时间序列分析,在高频交易中大量用的是时间序列分析,现在做的把协同过滤和时间序列分析结合起来,大家可以做出一个相应的应用。
第二是用户画像,结合快速迭代的贝叶斯学习,我们知道用户大概是一个什么样的人,什么样的人会做什么样的事情,但是这个惯性趋势放在一个特定的场景中我们可以看以前的需要,到一个修正,这个修正必须在实时中完成,很快的迭代。
第三,百分点开发了一些数据动态可视化和人机互动的产品。人脑的优势在于对一个场景的综合把握能得到一个比计算机更好的预测,但是大数据能快速实时的截取这样的信息,如果我们动态的展现出一些数据来,通过人机互动就可以判断,有超市人员在的条件下,判断这位女士喜欢橘子,让电脑直接判断的话不一定很准确,但是我们通过动态数据可视化使得人对一些全景的预测和电脑对数据的抓取有机的结合。
现在一些学者重点研究的就是基于运筹优化和行为科学的反时序预测,换句话说用未来来预测当下,听上去有点儿悬乎,很多时候我们远处的未来,你可能飞机票买好了明天要飞这是确切的未来,我们有了确切的未来用它来帮助预测当下,比如你在一家百货商店,王府井百货,我起码知道你肯定是要出去的,你不可能一辈子呆在里面,你要出这家百货店就这几条路径,根据这一条就可以通过运筹优化的方法告诉你大约几条选择,每条选择经过哪几个货架,有几个可能的商品推荐,把几个非常难以把握的预测问题变成已知终点反推回来的运筹优化问题,有相当多的应用,这也是百分点以前做和现在做的非常紧密的结合点,百分点的DNA本来就有实时推荐,和现测是不谋而合的理念。
百分点在建模方面做的非常多的就是用户画像和细化场景,仔细推敲,细化场景更往前走一步不光研究用户场景,而是研究用户在这个场景里的目标是什么,在这个会场上我的目标是跟大家交流,任何用户在任何商业环境或者任何场景当中,它实际上都有一个目的所在,到一个饭店的目的是吃饭,到学校的目的是读书,我们把这个目的找到,刚才我讲的技术,通过目的知道未来你想要的东西,反推回来当下想干什么。已知用户画像推他当下的想法行为,目前建立的这套数据体系和场景细分,包括用户画像,为什么在现测的范围里有很多的应用。所以,积累大量的数据,有非常好的前景。
像大数据预测公司一样,很多金融相关的信息及实时经济指数,对过去的描述来预测未来。还有一个跟金融信息相关的领域,个人征信。从现测角度,以前所谓的人口学指标,过去行为的指标,现在有更多的做法,一个人购买大件的商品,买一辆车,这个信息马上反馈到你个人的征信系统,你的现金流水平发生变化,这样一种实时监控的做法,类似的有在做个性化的企业营销。
同样刚才举的例子,个人的金融,信用卡根据你实时消费情况的变化可以计算出你这个月大概还能用多少钱,每个月开销钱的总数,银行存款多少,根据这个反推回来,反推你买什么东西,否则你推荐的用户可能没有财力消费。
第三个应用,旅游出行管理。你的航班,比如我知道明天天气要变化,可以通过这个反推回来知道你在北京要开会,明天天气不好,可以实时提醒你是不是把机票换成火车票,这是现测的概念,知道未来的一些确定性反过来帮助你解决不确定性。
个人健康管理,目标三个月减重五斤,根据这个可以反推回来每天该减多少,吃多少,实时调整你的健康管理计划。
最后把一些东西放在一起,就可以打造所谓的数字生活的助理,把你整个生活各个方面管理起来,给你提供最佳的体验。
为什么刚才反复强调现测的重要性,而且大数据应用有极大的优势,以前大数据经常提到这一点,所谓的三个V或者四个V,但是通常大家对大数据的探讨,这个V往往是Velocity,能够很快的把海量的数据进行处理,当你知道刚刚过去的事情和即将到来的未来。另外,大数据的相对优势,对短尺度的应用性具有特别的优势,但是对长尺度的应用性反而不具有明显的优势。
在长尺度上我可以说我也不需要大数据,用小数据就能获得成功。但是短尺度的预测,我说不出来今天晚上大家晚饭吃什么,大数据往往知道这一点,因为它知道你中午吃了什么,是哪里人,爱吃什么,现在在什么位置,周围有什么饭店,往往通过这个能推出来你要吃什么,而且通过你什么时候吃的中饭,身高体重,推出你什么时候一定饿得不行了,我们可以反推回来做一系列的介绍。这是大数据非常大的优势,在商业中应该特别重视这一点。通过大数据用户画像和细化场景建模发掘和利用行为惯性。这就是大数据价值提升和扬长避短的一个新的发展趋势,希望大家多多指正和交流。谢谢!
以上是小编为大家分享的关于从预测到“现测” 大数据商业建模的新发展的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅱ 遵循数据落地模型 “大数据操作系统”亮剑
遵循数据落地模型 “大数据操作系统”亮剑
大数据发展行动纲要中提出了:企业“+大数据”,无论互联网企业还是实体企业都在思考和探索如何“+大数据”。
大数据挑战 依然存在! 企业在面对海量、实时、多源异构的大数据时,往往因为缺少平台、技术团队和经验而束手无策。其难度不亚于历史中任何一次企业转型。而目前的大数据技术和应用提供商中真正能够做到落地的少之又少。并非这些公司不愿意帮助实体企业落地大数据,而是因为面临的困难太艰巨,缺乏经验或者可以借鉴的案例,正所谓知易而行难。
百思可(BASIC)模型 应运而生 在为众多行业和企业提供大数据技术与应用的过程中,百分点总结了让大数据落地的五大要素:百思可(BASIC)模型。顾名思义,这个模型由BASIC五个字母组成。 首先是核心信念(Belief)。数据是企业的“核心资产”,这必须成为企业最高层决策者的核心信念。未来,数据=生产资料;数据技术=生产力;数据+数据技术=核心竞争力。如果企业的最高决策者没有这样的核心理念和战略,企业的“+大数据”之路必将失败。 第二个要素是是架构设计(Architecture)。对数据价值的信念只有通过设计和调整相应的组织架构才能得以渗透和传递到企业的各个层级。数据驱动的管理和运营的思想应该充分体现在面向数据业务的组织架构中。这并不是说要把原有的组织架构完全推倒,需要的只是局部的精心设计和调整。政府成立大数据管理局或大数据办,企业开始设立首席数据官。很多企业的未来接班人将来自这些能够带来新思想和新架构设计的数据业务管理者。 第三个要素是专业团队(Staff)。搭建专业的数据团队不难做到,但问题往往发生在团队建起来后。一个常见的错误就是把数据团队孤立起来,或者与业务完全隔离,或者仅仅让他们被动地提供数据。业务决策者往往因为不懂数据的处理过程或作用而不重视与数据团队的协作,导致数据价值无法发挥。只有让数据团队直接与其他业务团队沟通,主动思考业务机会,参与和支持业务决策,才能增加整个公司的数据利用效率。 第四,基础设施(Infrastructure)。为了实现 “+大数据”战略,企业需要建设从数据的采集、存储和处理到分析和应用的软硬件设施。整套基础设施对人力财力和物力投入的要求是较高的,由于技术的进化,还需要持续的投入。不论出于节约成本还是专业化管理的原因,基础设施云化,交予专业的云平台公司全部或部分代管代运营,是大趋势,只是不同企业实现云化的程度有所不同。无论是本地化还是云端,基础设施的缺失将导致“+大数据”成为空中楼阁。
企业常常问到的一个问题是:如何快速获得数据资产和进行数据变现。百思点公司表示:临渊羡鱼不如退而结网。没有一个容器,如何能承载和存留下来水呢?
最后,机构能力(Capability)。对于实体企业而言,大数据能力是一种新型的综合能力。如果只有少数的高管和数据团队能够理解和运用,它还不能成为一种机构能力;只有数据核心信念从组织架构的顶层渗透和传递到了底层、且专业的数据团队嵌入式地参与和支持了各业务团队和决策流程,机构能力才有可能形成。一个企业是否具备了大数据这项机构能力,取决于它是否持续地运用大数据创造的新的商业价值。在百分点服务过的企业中,把数据能力融入到整体机构能力,并创造额外价值的成功企业典范是华为公司。数据驱动与技术驱动已进入华为的血液中,无时无刻不在通过数据发挥出巨大的商业价值。 我们发现,BASIC模型的五大要素缺一不可,缺乏其中任何一环的企业,总是需要花费更多的成本和时间将该要素补上,才能达到预期的效果。对企业来说,如何高效落地执行“+大数据”这一战略,将成为与虚拟经济企业颠覆之战的胜负关键。
时代需要:大数据操作系统 在大数据时代,我们面临的是难以想象的数据量及其复杂的程度,以及全社会对数据的极度依赖以及对数据技术的高度渴望,各路高手从自己的实践业务出发创造了很多的技术,但这些技术点往往解决一种问题,因为是他从自己的业务角度出发的,而不能解决面上的问题,但实际上我们却遇到很多的业务场景和业务问题,它不是单一的技术就能解决的,不是一个点一种技术可以解决的,往往需要多种技术的协同工作才可以,市场及业界都需要:全流程的大数据的解决方案。 在这样的契机下,百分点根据自己的实践摸索出一套科学的解决方案,也是一套理论加上实践完美结合的方案:BD-OS,大数据操作系统。 如同计算机操作系统的概念,我们认为标准的大数据操作系统必须具备5个基础要素。存储管理,主要解决系统内部的数据存储问题;资源管理,主要解决资源的分配、调度的问题;任务调度管理,主要解决在系统里海量的调度,如何生成,然后协调、执行这样的问题;人机交互主要解决的是给用户提供一个什么样的方便的交互界面和工作环境;数据生命周期管理,这是非常重要的一点,如果没有它,就没有办法真正成为一款数据操作系统,这也是数据操作系统里最重要的一个特点之一。 BD-OS从它的设计和开发基于这五个要素出发,很好的满足了这五个要素,其设计思想和产品亮点包括三个方面。首先,它开创了面向数据流程的架构(DPOA)这一方法论。基于既定的业务逻辑,DPOA定义相应的数据处理流程,并自动生成底层技术架构,将业务语言转化为大数据处理语言。其次,BD-OS还是一个高效的数据作业平台,它融入了数据流程管理(DPM)的思想,将业务链条中的各个环节和相互之间的关系,映射成对数据集、数据关系和处理逻辑的管理,通过对数据流程的创建、组合、调度和监控,将业务流程管理转化为数据流程管理。最后,BD-OS采用了企业级服务总线(ESB)的理念,支持以热插拔的方式灵活集成各种异构系统及数据服务。即使是企业的传统IT系统,也能便捷并低成本地融入主流大数据架构。
百分点研发总监兼BD-OS总架构师刘国栋表示:在数据2.0时代,传统结构型数据存储与计算已不能满足企业对海量与非结构化数据使用的需求。BD-OS为企业提供了端到端的大数据管理解决方案和可视化服务,其意义类似于PC时代从DOS向WINDOWS的革命性进化。
以上是小编为大家分享的关于遵循数据落地模型 “大数据操作系统”亮剑的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅲ 百分点的大数据资产管理平台主要用在什么地方
针对媒体出版、政府、制造、金融、零售、电商等各行业,对其全产业链的数据版进行战略性规划与权运用,构建统一的数据资产体系,将多源异构的数据接入到大数据资产管理平台,基于统一的数据标准进行数据整合与打通,通过数据分析与洞察,实现数据资产增值和变现。
Ⅳ 大数据操作系统中,哪家的最好百分点的如何
百分点的不来错,技术专业,系源统是一套多工种协同作业的、可视化的,管理大数据采集、加 工 和 应 用 环 境 所 有 资 源 和 任 务 的 大 数据操作系统。打造企业级数据治理体系,提供数据存储,加工处理,挖掘分析,消费全生命周期的数据资产管理,帮助客户管理数据资产并创造商业价值。另外还有针对各行业的智能决策产品,很多合作过的公司评价都特别好的