『壹』 大数据时代红华新天地引领商业模式转型
大数据时代红华新天地引领商业模式转型
曾经,提起城市名片,贵阳人首先想到的就是“森林之城、避暑之都”。这源自于几代人努力绿化的成果。而今,互联网经济热潮席卷全球,地处祖国腹地的贵阳也迎来了自己的涅盘时刻,以《贵州省云计算产业发展规划》出台为起点,以李克强总理视察贵阳大数据应用展示中心做出重要指示为契机,贵州省成立了省委书记、省长陈敏尔领衔的大数据产业发展工作领导小组,全力发展大数据产业。彼时,“贵阳数博会”盛大启幕,吸引了经济与产业界人的士纷繁踏至,据不完全统计,一年多来,贵阳共引进大数据相关项目知此150余个,投资总额达1402亿元,产业整体规模突破605亿元。如今,紧握“大数据”城市名片,围绕“机遇、安全、能源、气候、人才”五大优势,打造全产业链的大数据产业生态环境,促进大数据产业加快发展,已经成为贵阳各界的一致共识。而具有十五年互联网大数据应用经验的贵州红华集团,自然成为了这个波澜壮阔的大时代里,罕有的贵阳本土派领军人物。
【20年深耕本土 引领贵阳大数据经济】
贵州红华集团始建于1993年,最初主要从事家电连锁销售,最先开创了贵州省综合性家电商场,并借助独创的“三流合一”(资金流、信息流、物流)商业模式和“买的容易,卖的简单”的经营理念,成功走出贵州,辐射西南,并连续数年成为全国销售额前十的区域连锁品牌。经过十余年经营,红华物流、红华便利店、红华房开、黔电趋势、红华科技、红华物业等多元产业相继崛起,红华成为集团性公司。早在2000年,红华就率先试水了网上家电购销的模式,启动数字化商务平台,成为中国大陆地区最早的电商平台。肩负企业数据集成与分析系统的红华科技公司、 红华网络公司呼叫中心等也相继成立。十五年弹指一挥间,随着社会经济的快速发展,城市综合体、互联网+、大数据、电子商务、020等新型概念开始对传统业态发起强有力冲击,已经在商业模式和经营管理上成功实现大数据化雏形的红华集团,果断开启了整体战略转型的计划。
2014年,红华集团与贵阳市政府联合打造的百万方大型商业互联体——红华新天地正式运营,开启展贸电商双引擎O2O模式,这是一个充满商机的“大数据全渠道平台”,以“双城一网”为基本结构,实现全业态、全渠道、全时空商业功能的互联体商圈。其中,搭派迅双城分别代表红华实体商城和红华虚拟电商平台,一网为红华地面终端网络。开业伊始,红华新天地就启动了一系列引发行业震动的大数据产业链竞合:与中国联通合作,打造首席智慧商城;携手富基融通,打造大数据全渠道电商平台;同时进一步整合资源,建立服务团队,实现覆盖贵州的终端服务网络。双城协同,由一网渠道引导海量物流、客流进入,红华形成了聚合 “红华网上商城+红华实体商城+遍布贵州终端+红华物流体系”优质资源的商户、消费者、平台三方共赢全业态商圈。
得益于红华新天地释放出的价值魅力,同年12月,被贵阳市政府列为大数据产业发展的重点项目“中关村贵阳科技园观山湖大数据科技产业园”正式落户红华新天地,“双城一网”基础上,再度赋予红华新天地“政府数据共享平台、区域互联网交换中心、贵州CA认证中心、大数据众筹工场”等大数据特征的新内涵,红华自身也提供了40万方物业,以发展云计算、数据中心、呼叫中心等大数据相关产业。
【坐拥中心之中 孕育互联网时代繁华】
事实上,诞生20多年来,红华一直在为一个商业梦想努力——整合资源,搭建平台。最终这个梦想从云端之上的虚拟电商网络,到地处贵阳中心之中,“新贵阳大十字”黄金地段的实体商业综合体,化作现实。四通八达的交通路网、依山傍水的生态设计、汇聚40万高端居住人群和300万会展商务人羡早群的贵阳最大消费性商圈,成为其孕育互联网时代商业繁华的动力源泉。红华能够为大数据创业、工作人群提供的,将远不止一站式购物的便利生活。
以上是小编为大家分享的关于大数据时代红华新天地引领商业模式转型的相关内容,更多信息可以关注环球青藤分享更多干货
『贰』 3000字概括《大数据时代》
有言在先
近期有些起伏,这种情况最适合回归书本,寻找一些你内心认同的东西。这几天花了点时间重温《大数据时代》,整理、总结出了精华的东西,分享给大家。
大数据引起了变革
当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见。
? 震人心魄的数据
2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是邮件里在数学模型和算法之上的计算机程序自动完成的。
在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;在2000年时,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
? 大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
? 大数据的核心是预测
大数据的核心就是预测,它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。大数据不是要教机器人像人一样思考,而是把数学算法运用到海量的数据上来预测事情发生的可能性。
●●●
不是随机样本,而是全体数据
历史上,因为记录、储存、分析数据的工具都不够好,为了让分析变得简单,我们选择了把数据量减少,
统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。
? 传统抽样的精确性
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,大致原因是当样本数量达到某个值后,我们从新个体身上得到的信息会越来越少,这与经济学中的边际效应类似。
? 随机采样的问题
随机采样有一个很大的问题:人们只能从随机采样中得出事先设计好的问题的结果,调查得出的数据不可以重新分析以实现计划之外的目的,而且一旦采样过程中存在任何偏见,分析结果就会相去甚远。
? 样本=总体
采样的目的就是用最少的数据得到最多的信息,当我们可以获得海量数据的时候,它就没有什么意义了;生活中真正有趣的事情经常藏匿在细节之中,而采样分析却无法捕捉到这些细节(因为采样不能得到计划之外的东西);大数据建立在掌握所有数据,至少是尽可能多的数据的基础上,所以我们就可以正确地考察细节并进行新的分析。
●●●
不是精确性,而是混杂性
执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不能接受混乱,剩下的95%的非结构化数据都无法被利用。
? 小数据时代的精确性
在“小数据时代”,人们收集、处理数据的能力有限,对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量(收集信息的有限意味着细微错误会被放大,甚至有可能影响整个结果的准确性)。人们创造了很多精确的系统,这些系统试图让我们接受一个世界困乏而规整的惨象——假装世间万物都是整齐地排列的;事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。
? 我们要的是概率
我们总是为了一个“答案”而活着,精确性似乎一直是我们生活的支撑,但认为每个问题只有一个答案的想法是站不住脚的。“一个唯一的真理“的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。大数据也许是拯救我们的关键方法:大数据通常用概率说话,而不是板着“准确无疑”的面孔。
●●●
不是因果关系,而是相关关系
在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。我们不再一味追求人们为什么这么做,知道人们为什么这么做可能是有用的,但这个问题目前并不是很重要,重要的是我们能通过大数据分析出人们的相关行为。
? 相关关系
相关关系的核心是量化两个数据值之间的数理关系:相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加;相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。相关关系没有绝对,只有可能性。
? 人们的直接目的就是寻找因果关系
人们的直接愿望就是了解因果关系,我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考。以前我们用实验来证明因果关系,它是通过是否有诱因来分别观察所产生的结果是不是和真实情况相符。但是,凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受到因果关系的控制了——这显然是不正确的。
? 相关关系和因果关系并不矛盾
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础,通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一步找出原因。在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。在小数据时代,我们会假象世界是怎么运作的,然后通过收集和分析数据来验证这种假象;在大数据时代,我们会在数据的指导下探索世界,不再受限于各种假想;我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
A.大量的数据意味着“理论的终结”:用一系列的因果关系来验证各种猜测的传统研究范式已经不实用了,如今它已经被无需理论指导的相关关系研究所取代;
B.现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题,如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就迎刃而解了;
C.“理论的终结”:所有的普遍规则都不重要了,重要的是数据分析,它可以揭示一切问题;但大数据并不意味着理论已死,因为大数据就是在理论的基础上形成的。
●●●
大数据时代的商业变革
在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了;行业并不会消失,但是他们必须与数据表达的信息进行博弈。
? 数据化:一切皆可量化
大数据的核心发展动力来源于人类测量、记录和分析世界的渴望。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要:
A.数据化:一种把现象转变为可制表分析的量化形式的过程;
B.数字化:把模拟数据转换成0和1表示的二进制码;
数字化带来了数据化,但是数字化无法取代数据化;数字化是把模拟数据变成计算机课读的数据,和数据化有着本质的不同。
? 当方位变成了数据
1978年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,通过与技术手段的融合,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。地理位置信息汇集起来,可能会揭示事情的发展趋势;位置信息一旦被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
? 当沟通变成数据
社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为,这些行为难以跟踪,特别是在广大的社区和其中的子人群环境中。
A.Facebook将关系数据化——社交关系在过去一直被视作信息而存在,但从未被正式界定为数据,直到Facebook“社交图谱”的出现;
B.Twitter通过创新,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现。
? “取之不尽,用之不竭“的数据创新
尽管数据长期以来一直是有价值的,但通常只是被视作附属企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别,但在大数据时代,所有数据都是有价值的。我们的时代,数据收集不再存在固有的局限性,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,这使得以较低成本获得更多数据的可能性比以往任何时候都大。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理,信息不会像其他物质产品一样随着使用而有所损耗。数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可用于其他目的。 作者 _Glen_ 本文转自简书,转载需授权
『叁』 拓荒卫星新基建,这家公司为何押注“天地一体”的网络融合
时空道宇低轨导航增强首发双星
全球商业航天领域迎来加速期。
美东时间12月19日早9点,在布满乌云的肯尼迪航天发射场上,美国太空 探索 技术公司(SpaceX)利用“猎鹰9号”商业运载火箭,顺利将NROL-108有效载荷发射升空,并成功入轨。
更早之前,该公司成功执行了Crew-1商业载人航天任务,利用猎鹰9号火箭将四名宇航员送入太空中,从而揭开了商业载人航天的帷幕,成为商业公司 探索 载人航天方向的重要实践。
不仅如此,SpaceX还正加速发射进程。据不完全统计,2020年SpaceX共执行了26次发射任务,将854个航天器送入轨道,打破了之前在2018年创下的21次发射历年记录。
与此同时,中国加速推进民营航天领域的商业化、产业化的国策已经开始落地,并逐步形成产业集群。SpaceX的中国学徒们,正在竞争之下寻找差异化的发展之路。
随着今年4月国家发改委明确将卫星互联网纳入“新基建”,资本加大对商业航天赛道的投资力度。公开数据显示,2020年中国商业航天领域新融资总额已达40亿元,比2019年的22.35亿元增长78.9%。
即便是新冠疫情带来的不确定性,也未能中断商业航天的迅猛发展。5月以来,上海、北京、福州、重庆、成都、深圳等城市相继提出涉及卫星互联网的行动方案,计划构建覆盖火箭、卫星、地面终端、应用服务的商业航天产业生态。
“在政策引导、政府支持下,中国商业航天迎来了新的发展时代,井喷状态仍将持续。”时空道宇创始人王洋在接受钛媒体采访时表示,虽然目前商业卫星行业还属于投入初期,但该领域市场潜力巨大,包括星基导航、无人驾驶等重要场景下,商业卫星将会发挥更重要的作用。
“在网络技术、 星座 测控、网络运营等方面,中国有着丰富的技术经验。”
公开数据显示,到2025年前,全球卫星互联网产值可达5600亿美元至8500亿美元。在中国,商业航天市场规模总体呈逐年增长态势。2019年中国商业航天市场规模为8362.3亿元,同比增长23.5%。
截止目前,中国超160家的商业航天企业,涵盖产业链上游的卫星、火箭等供应配套和总体制造、发射服务;下游的卫星导航应用、卫星测控、卫星遥感运营等多个环节。
2018年11月,时空道宇正式成立,其作为中国第一梯队的商业航天公司,隶属于吉利 科技 集团。目前,时空道宇已拥有微小卫星产品级设计及批量生产交付能力,并积累了150余项发明专利。除卫星制造外,其业务范围还涉及卫星地面设备制造激轿、卫星运营与应用等全产业链。
事实上,在创立时空道宇之前,王洋曾在中科院微小卫星创新研究院工作了近十年,其间作为软、硬件工程师负责过卫星及地面系统等多个项目的研发。2014年6月,王洋走出体制,创立了中国首家商业航天公司,有媒体评价其为“中国商业航天的拓荒者”。
时空道宇总经理、首席科学家 王洋
在新兴市场拓荒,也成为王洋的第二次创业历程。凭借扎实的科研与项目经验,他对于时空道宇在行业中的定位有着明确的判断。
王洋认为,在商业航天这个热门赛道中,时空道宇最大的差异点,一个是横跨 汽车 、航天产业的能力,另一个则是人才优势。
这也是王洋把时空道宇定位于“航天全产业链”的逻辑,他认为清晰的定位,是保证这家公司高竞争能力的核心。“时空道宇的第一目标是要成为商业航天卫星制造里面的第一梯队,第二个目标是围绕着商业航天的应用场景,进行不断布局,最明乎肆终目标是形成全产业解决方案。”王洋在接受钛媒体采访时表示。
时空道宇介绍,团队核心成员均来自于国家航天重点单位,人均拥有10年以上卫星研制经验及3颗以上重大型号项目经验,并具有全技术链完整研发能力。
经过1年多有序的研制工作,共计完成12次大型试验,超200项测试项目,超1800小时的测试,时空道宇首发双星顺利通过出厂评审,具备发射条件,将于近期择机发射入轨。
“一个客观的事实是,中国的航天行业技术壁垒很高、系统某种程度也较为封闭,一家创业公司想要跑出来,必须要具备清晰的发展目标,足够的技术实力,以及对于目标的准确实践。”王洋对钛媒体表示,基于这一明确判断,时空道宇或将在2021年底实现节点式成果。
目顷卜前,时空道宇的主营业务有两块,即卫星制造和高精定位。
在卫星制造方面, 2020年3月,时空道宇位于浙江台州的卫星超级工厂破土动工,计划投资22.7亿元,涵盖卫星研发、核心部组件制造、测运控、航天材料等产业链的交付。最终该工厂将成为中国首个脉动式模块化卫星智能AIT(总装集成测试)中心,以及中国首个深度融合航天器制造和 汽车 制造能力的卫星量产超级工厂。
王洋表示,卫星超级工厂将致力于实现低成本、高性价比、智能化、自动化的卫星制造。突破传统卫星设计理念,改变卫星制造模式。并利用 汽车 工业级元器件选用和筛选技术、民用产品和民用技术,从而节约人工成本和时间成本,改变了原有航天产品的供应链体系,提供高性价比产品,同时保证产品的品质。
王洋向钛媒体透露,该工厂将于2021年底完成建设,并逐步实现年产300颗以上卫星的制造能力。
而在高精定位方面, 时空道宇将通过发射低轨首发双星方式,开展全球首个商用低轨导航增强系统验证,并推动构建全球首个服务未来出行的天地一体化高精时空信息系统。
预计在2021年底,时空道宇建设的覆盖中国本土及东南亚地区的天地一体化出行高精度服务将投入商业运营。
王洋表示,这一系统将基于低轨卫星 星座 及卫星地面监测网协同操作,将为用户提供全球无缝瞬时高精度定位服务,深度融合智慧出行行业完好性功能要求。
王洋强调,通过这两大业务模块,时空道宇可以在商业卫星制造领域为用户提供低成本、高可靠的卫星及其供应链产品,在卫星通信网络、卫星数据应用、天地一体化高精度服务领域提供极具竞争力、安全可靠的定制化解决方案,与智能制造、未来出行、大数据等行业深度融合,持续为客户创造价值、建立开放共赢的合作生态。
“未来的世界,天地的网络将融合成一体。我们最终希望打造出一个天地一体化高精时空信息系统,构建丰富的商业航天业态,持续推动中国航天产业进步。”
(本文首发钛媒体App,作者 林志佳)
『肆』 详解大数据的思想如何形成与其价值维度
详解大数据的思想如何形成与其价值维度
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。
『伍』 “中关村贵阳科技园观山湖大数据产业园”落户红华新天地了,啥时候的事情
2014年12月份的时来候,贵阳市自政府与贵州红华物流有限公司就观山湖大数据中心项目建设签署合作协议书,将位于观山湖区观山东路与长岭南路交汇处的“贵州红华商贸物流园“项目变更为“观山湖大数据中心”项目,为政府实施大数据产业企业招商引资提供便利。贵阳市政府同意将“观山湖大数据中心”项目作为贵阳市大数据产业发展的重点项目,并给予各方面相应政策支持。