一张图阿里大数据之路_马云布局的大数据有多牛

❶ 如何看待阿里成立大文娱版块

今年5月10日，阿里巴巴市值超过了3000亿美元，什么概念。相当于 3个中石化、4.4个建行、5个网络、10个万科，这头巨大的醒狮备受瞩目。去年6月，阿里宣布成立大文娱版块，向文娱版块发力。万事开头难，然而在竞争激烈的泛娱乐版块，阿里能够有这样的勇气和魄力花大力气希望在这上面分一杯羹，其实在一定程度上为文娱市场解渴。在优质内容紧缺的时代，确实也需要越来越多的企业有这样的担当去尝试。两个月前，阿里宣布收购大麦，今天刚看到新闻，原新浪总编周晓鹏出任阿里文娱集团副总裁，负责UC头条和大鱼号（土豆）的内容生态方面业务。UC作为阿里文娱集团的重要的组成部分，是阿里大文娱板块的核心旗舰。周小鹏的加入，用他接受媒体采访时说的话：算法能力结合阿里体系内打通的各种内容资源和用户特征数据资源，能够做的事情想想就令人兴奋。其实现在看来，阿里大文娱的生态已经初见雏形，大文娱版块一年下来，说长不长，说短不短，对于一个放长线钓大鱼的企业来说，现在断定他的未来，似乎还为时过早。

❷ 阿里巴巴大数据将严重威胁国家安全吗

阿里巴巴大数据对个人隐私的威胁的确存在，但并不是没有解决的办法，即便担忧对国家安全产生威胁，也不必动辄高呼“国有化”。

阿里巴巴并不能掌握“各种战略资源的流转”，阿里的大数据本身就包含各种商品流转的数据，通过各种商品的流转很容易分析出国家各种资源的流转，由此绘制出中国各种战略资源的流转及节点图。显然，无论战时还是平时，这样一份战略资源的流转及节点图都可用作瓦解国家安全的导航图。
首先，虽然阿里巴巴在中国电商中占据主导地位，但据国家统计局和商务部数据显示，阿里巴巴还远未达到掌握绝大多数商品流转数据的程度。
更重要的是，阿里巴巴即便掌握商品流转的数据，距离分析出各种资源的流转也很远，更不要说在目前的占有规模下分析出“各种战略资源的流转”。
事实上，在今年稍早些时候，在药品领域，阿里巴巴曾面临过更具体的指责。南方周末报道称，按照国家食药总局的监管要求，中国各类药品从生产、流通、经营和消费等所有节点的全部信息，将会储存在“阿里云”上。当时就有人认为，阿里健康将就此“运用大数据的研究方法，分析药品电子监管码所蕴含的信息，能够绘制出国内的疾病发生的时间、地域、周期，进而掌握国人的健康情况；甚至还能通过药品流转，绘制出中国各种战略资源节点图。”
仅凭阿里巴巴掌握了很多电子商务数据，就认为这些数据有可能被制作成“瓦解国家安全的导航图”，是耸人听闻的说法。
大数据的能力不应该被过度夸大，声称“大数据威胁国家安全”的这篇文章，还一个说法是，“阿里巴巴的大数据和云计算简直就是有史以来最为强大的情报搜集和分析系统——通过其大数据和云计算，中国人的一举一动及行为偏好都可以尽在其掌握之中。”这种说法完全是过分虚夸了大数据的能力。

❸ 从IT到DT 阿里大数据背后的商业秘密

从IT到DT：阿里大数据背后的商业秘密

空气污染究竟在多大程度上影响了人们的网购行为？有多少比重的线上消费属于新增消费？为什么中国的“电商百佳县”中浙江有41个而广东只有4个？
这些电商的秘密就隐藏在阿里巴巴商业生态的“大数据”中。
“未来制造业的最大能源不是石油，而是数据。”阿里巴巴董事局主席马云如此形容“数据”的重要意义。
在他看来，阿里巴巴本质上是一家数据公司，做淘宝的目的是为了获得零售的数据和制造业的数据；做蚂蚁金服的目的是建立信用体系；做物流不是为了送包裹，而是这些数据合在一起，“电脑会比你更了解你”。与此同时，产业的发展也正在从IT时代走向以大数据技术为代表的DT时代。
而在阿里巴巴内部，由电子商务、互联网金融、电商物流、云计算与大数据等构成的阿里巴巴互联网商业生态圈，也正是阿里研究院所扎根的“土壤”。
具体而言，阿里巴巴平台的所有海量数据来自于数百万充满活力的小微企业、个人创业者以及数亿消费者，阿里研究院通过对他们的商务活动和消费行为等进行研究分析，从某种程度上可以反映出一个地方乃至宏观经济的结构和发展趋势。
而随着阿里巴巴生态体系的不断拓展和延伸，阿里巴巴的数据资源一定程度上将能够有效补充传统经济指标在衡量经济冷暖方面存在的滞后性，帮助政府更全面、及时、准确地掌握微观经济的运行情况。
从IT到DT
不同于一些企业以技术研究为导向的研究院，阿里研究院副院长宋斐告诉《第一财经日报》记者，阿里研究院定位于面向研究者和智库机构，主要的研究方向包括未来研究（如信息经济）、微观层面上的模式创新研究（如C2B模式、云端制组织模式）、中观层面上的产业互联网化研究（如电商物流、互联网金融、农村电商等）、宏观层面上新经济与传统经济的互动研究（如互联网与就业、消费、进出口等）、互联网治理研究（如网规、电商立法）等。
具体到数据领域，就是在阿里巴巴互联网商业生态基础上，从企业数据、就业数据、消费数据、商品数据和区域数据等入手，通过大数据挖掘和建模，开发若干数据产品与服务。
例如，将互联网数据与宏观经济统计标准对接的互联网经济数据统计标准，包括了中国城市分级标准；网络消费结构分类标准；网上商品与服务分类标准等。
而按经济主题划分的经济信息统计数据库则包括商品信息统计数据库；网购用户消费信息统计数据库；小企业与就业统计数据库；区域经济统计数据库。
还有反映电商经济发展的“晴雨表”——阿里巴巴互联网经济系列指数。其中包括反映网民消费意愿的阿里巴巴消费者信心指数aCCI、反映网购商品价格走势的阿里巴巴全网网购价格指数aSPI和固定篮子的网购核心价格指数aSPI-core、反映网店经营状态的阿里巴巴小企业活跃度指数aBAI、反映区域电子商务发展水平的阿里巴巴电子商务发展指数aEDI等等。其中，现有aSPI按月呈报给国家统计局。
而面向地方政府决策与分析部门的数据产品“阿里经济云图”，则将分阶段地推出地方经济总览、全景分析、监测预警以及知识服务等功能。宋斐告诉记者，其数据可覆盖全国各省、市、区县各级行政单位，地方政府用户经过授权后，可以通过阿里经济云图看到当地在阿里巴巴平台上产生的电子商务交易规模、结构特征及发展趋势。
“借助数据可视化和多维分析功能，用户可以对当地优势产业进行挖掘、对消费趋势与结构变动进行监测、与周边地区进行对比等等。”宋斐表示，该产品未来还可以提供API服务模式，以整合更多的宏观经济数据和社会公开数据，为当地经济全貌进行画像，给大数据时代的政府决策体系带来新的视角和工具。
数据会“说话”
对于如何利用“大数据”，马云在公司内部演讲中曾提到：“未来几年内，要把一切业务数据化，一切数据业务化。”
其中，后半句话可以理解为，让阿里巴巴各项业务所产生、积累的大数据来丰富阿里的生态，同时让生态蕴含的数据产生新的价值，再反哺生态，这是一个相辅相成的循环逻辑。
宋斐对记者举例称，蚂蚁金服旗下的芝麻信用已获得人民银行个人征信牌照批准筹备，未来将通过分析大量的网络交易及行为数据，如用户信用历史、行为偏好、履约能力、身份特质、人脉等信息，对用户进行信用评估，这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论，继而为用户提供快速授信及现金分期服务。本质上来说，“芝麻信用”是一套征信系统，该系统收集来自政府、金融系统的数据，还会充分分析用户在淘宝、支付宝等平台的行为记录。
再如，对于如火如荼的农村电商领域，阿里研究院从2010年就已开始对“沙集模式”个案进行研究，后续一系列基于数据和案例调研所驱动的农村电商研究成果，对于地方政府科学决策，推动当地农村电子商务发展、创造就业和发展地方经济起到了助力作用。到2014年底，全国已经涌现了212个淘宝村，而阿里巴巴也在这一年启动千县万村计划,将在三至五年内投资100亿元,在农村建立起电子商务服务体系。
除了通过数据分析去助力业务外，宋斐告诉记者，有时候大数据报告可能会与传统的印象结论差异很大。
以区域电子商务为例，在阿里研究院发布的2014年中国电商百强县排行榜中，浙江有41个县入围，福建有16个，而广东只有4个，这个结果与传统的印象相差比较大。而事实上，这是因为浙江和广东两省电商发展在地理分布、产业结构等方面的明显不同而带来的。
再如，外界常常认为网络零售替代了线下零售，但事实上，麦肯锡《中国网络零售革命：线上购物助推经济增长》的研究报告，通过借鉴阿里研究中心（阿里研究院前身）和淘宝网UED用户研究团队的大量报告与数据，最后发现：“约60%的线上消费确实取代了线下零售；但剩余的40%则是如果没有网络零售就不会产生的新增消费。”
“这一研究成果，有助于社会各界准确认识网络零售与线下零售的关系，共同探索和建设良好的商业发展环境。”

❹ 马云布局的大数据有多牛

你好：阿里在09年就把大数据作为一项公司基本战略，要知道那个时候甚至还没几个内人开始谈论“大数据”，可以说在容大数据方面相比于国内其他互联网公司，阿里是走在前面的。
按马云的话讲，我们正从information technology转向data technology。数据是灵魂。也许并不能保证大数据能给阿里巴巴赚很多钱，但是阿里认为数据对人类有用，所以他们做了。
举一个阿里CTO认为大数据应用和价值的例子：淘宝小贷团队，很小的队伍，完全依赖数据对客户的信用程度作分析，将数据转化为信用，将信用转化为财富，这是传统商业银行冗杂的审核程序，低效和高成本所不能比的。更重要的是，这个项目给近百万的小商户提供了生命线，哪怕只贷一元钱。没有哪个银行会这么做。大数据应该是未来发展的方向。

❺ 阿里云的MaxCompute数加（原ODPS）用的怎样

我觉得他们在开发这个的时候，可能考虑了很多中国的传统元素，所以在设计方面比较的符合中国的国情，不管是用户的体验方式还是怎样，都特别的能够拉好感。

但是从程序员的角度来说，我觉得它们的功能和模型做的也还是一般，虽然说在系统方面兼容性更好，但是缺点也还是蛮多的。

层次

之所以这样说，是因为他整个层次是非常丰富的，他很好的做了分层，也就是说，给不同的软件提供了不同的接入口，最底层是Linux+PC Server，上层软件是飞天，飞天是阿里云09年开始开发的一款分布式系统软件，主要提供分布式存储和分布式计算的调度、编程框架。开发语言是C++, 2013年该系统在生产环境支持调度5000台机器的集群。

总结

总的来说，他们开发的初衷是好的，但是出来的效果并不尽如人意，后续可能还要再看。

❻ 7.阿里大数据——大数据建模

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。
适合业务和基础数据存储环境的模型，大数据能获得以下好处：

大数据系统需要数据模型方法来帮助更好的组织和存储数据，以便在性能、成本、效率和质量之间取得最佳平衡。

不管是Hadoop、Spark还是阿里巴巴集团的MaxCompute系统，仍然在大规模使用SQL进行数据的加工和处理，仍然在用Table存储数据，仍然在使用关系理论描述数据之间的关系，只是在大数据领域，基于其数据存取的特点在关系数据模型的范式上有了不同的选择而已。

从全企业的高度设计一个3NF模型，用实体关系（Entity Relationship，ER）模型描述企业业务，在范式理论上符合3NF。数据仓库中的3NF与OLTP中不同过，有以下特点：

ER模型建设数据仓库的出发点是整合数据，为数据分析决策服务。建模步骤分为三个阶段：

维度建模从分析决策的需求出发构建模型，为分析需求服务，因此它重点关注用户如何更快速地完成需求分析，同时具有较好的大规模复杂查询的响应性能。其典型代表事星形模型，以及在一些特殊场景下使用的雪花模型。其设计步骤如下：

它是ER模型的衍生，其设计的出发点也是为了实现数据的整合，但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层，也就是强调数据的历史性、可追溯性和原子性，而不要求对数据进行过度的一致性处理和整合。该模型由一下几部分组成：

Anchor对Data Vault模型做了进一步规范化处理，设计的初衷是一个高度可扩展的模型，其核心思想是所有的扩展只是添加而不是修改，因此将模型规范到6NF，基本变成了k-v结构化模型。组成如下：

经历了多个阶段：

❼ 阿里巴巴如何利用大数据提高财务信息的例子

财务信息只有你们那财务去管。

❽ 阿里的总监将大数据、数字化的经验，总结成资料干货，可以收藏

阿里把企业的数字化转型划分为“数字化重构”和“数字化增长”两大类别，这个概念是不是听着很难懂？

重构，就是转型嘛；增长，就是更进一步嘛，说白了还是原来的老样子，换了个解释而已。

说到数字化转型，我觉得这是一个非常好的话题，甚至能衍生出很多干货，无论是传统企业，还是顶尖的互联网大公司，如阿里腾讯，老板都在朝这个方向努力。

所以和大数据有关的知识，还是很有必要学习的。

我给大家整理了很多干货，我从一个10年从业者和管理者的角度，这份干货，无论是底层干活的，中层管控的，上层布局的，都能够很清楚的学习到。

涉及到的方面还是很广的：大数据、数仓、中台、AI、IT规划、大数据平台、BI工具。

我是怎么总结的？

从架构入手，到每个模块的分解，再到每个地方的注意点，基本上就行了，太细的也不是通过文字去说清楚的。

只要能做到，看了干货资料，能对实际工作产生指导，就可以了。

这只是一部分，还有更多，自己来看就好。

❾ 大数据之路

人类从“IT时代”进入“DT时代”。本书介绍了阿里巴巴的大数据系统架构，为了满足不断变化的业务需求，同时实现系统的 高扩展性 、 灵活性 以及 数据展现的高性能 。
数据体系主要包括： 数据采集 、 数据计算 、 数据服务 和 数据应用 四大层次。

事实表包括引用的维度和描述具体业务的度量。

事实表中一条记录描述的业务的细节程度称为粒度。粒度可以使用两种方式来表示：（1）维度属性组合（2）所表示的具体业务含义。

事实包括可加性、半可加性和不可加性三种类型：
半可加性：只可以针对特定维度做聚合，例如库存（不能按照日期，可按照仓库聚合）。
可加性：可以按照任意维度聚合。
不可加性：完全不具备可加性。（例如：比率，事实表可以拆分存储分子分母）

维度属性也可以存到事实表中，称为 退化维度 。

事实表有三种类型：事务事实表、周期快照事实表、累计快照事实表。
事务事实表描述的是业务过程上的原子事务，也称为 原子事实表 。
周期快照事实表是按照周期性规律的时间间隔记录事实。
累计快照事实表：累计快照事实表用来表示过程开始和结束过程之间的关键步骤事件，覆盖整个生命周期，通常用多个日期字段记录关键时间点，记录会随着时间变化而修改。

事实表设计原则：
原则1：尽可能包含所有与业务过程相关的事实。
即时存在冗余，也尽可能存储。

原则2：只选择与业务过程相关的事实。

原则3：分解不可加事实为可加的组件。
例如：不存成单率，转而存储成单数和提单数。

原则4：选择维度和事实前，必须先声明粒度。
建议粒度设置的越细越好，这样可以最大限度的提高灵活性。可以通过业务描述或者维度属性组合的方式来定义粒度。

原则5：在同一个事实表中，不应该有不同粒度的事实。
例如：一个事实表中不应该包含某些精确到订单粒度的度量，同时又包含只精确到城市的度量。

原则6：事实的单位一致。

原则7：尽量处理掉事实表中的null值。
SQL中大于，小于的条件不适用与null值，所以尽量用数值替代null，例如0.

原则8：使用退化维度增加事实表的易用性。
在Kimball的维度设计模型中，分拆出单独的维度表，为了节省存储。但是为了减少使用时的关联次数，可以多使用退化维度提供事实表易用性。

事实表设计方法：
1.选择业务过程及确定事实表类型。2. 声明粒度。3.确定维度。4.确定事实。5.冗余维度（设计退化维度）。

事务事实表，即针对业务过程构建的一类事实表，用来跟踪定义业务过程的个体行为，提供丰富的分析能力，作为数据仓库原子的明细数据。

单事务事实表，即针对每一个业务过程设计一个事实表，这样可以方便地对每一个业务过程进行分析研究。

表示同一个事实表包含不同的业务过程。多事务事实表有两种实现方法：（1）使用两个不同的事实字段来保存各自业务过程。（2）使用同一个字段保存，但是增加一个业务过程标签。
下面举例说明，淘宝交易事务事实表同时包含下单、支付和成功完结三个过程，三个过程粒度一致，可以放在一个事实表。下面确定维度和事实，该表中的下单度量、支付度量和成功完结度量信息分别存在不同字段，如果不是当前业务处理，则用0来处理。
当不同业务过程的度量比较相似、差异不大时使用第二种事实表（使用一个字段保存），当不同业务过程的度量差异大时，使用第一种（多字段保存）。

对于单事务事实表和多事务事实表的选择上，可以从以下一些方面来区分：
业务过程、粒度和维度（不同业务过程粒度相同，并且维度相似时，可以选用单事务事实表）、事实、下游业务使用、计算存储成本。电商环境下，有父子订单的概念，店铺多商品各生成一个订单，在一个店铺合成一个父订单。

1.事实完整性：事实表包含与其描述的过程有关的所有事实。
2.事实一致性：明确存储每一个事实以确保度量一致性。例如，有下单商品数和商品价格2个事实，同时保存下单金额（价格*商品数）。这样下游使用时，直接取下单金额，而不是再次计算，以保证指标的一致性。
3.事实可加性：为确保下游使用时，指标的可聚合性，尽量保存原始数，而不是计算后的比率指标。

对于事务度量，事务性事实表可以很好地表征。但是对于一些 状态度量 ，例如买卖家累计交易金额、商品库存、买卖家星级、温度（事务事实表无法聚合得到）等，事务事实表的效率较低或者无法处理。为了解决状态度量问题，引入周期性快照事实表（也称为 快照事实表 ）。

1.用快照采样状态：快照事实表以预定的间隔采样状态度量。
2.快照粒度：快照事实表通常总是被多维声明，即快照需要采样的周期以及什么将被采样。
3.密度和稠密性：稠密性是快照事实表的重要特征。事务事实表一般都是稀疏的，只要发生业务才会有相应记录。
4.半可加性：快照事实表的状态度量都是半可加的，例如商品库存，只针对商品维度可加，对日期维度不可加。

设计快照事实表，首先确定快照粒度，然后确定采样的状态度量。下面介绍几个快照事实表实例。
单维度每天快照事实表、混合维度每天快照事实表，这两种快照表都可以从事务事实表汇总得到。另外的一种产出模式是直接使用操作型系统作为数据源来加工，例如淘宝卖家的星级评分是在操作型系统中计算得出的，仓库直接拿来这部分数据加入事实表。全量快照事实表，是特殊类型的周期快照表，例如设计无事实的事实表来记录评论的状态度量。

对于研究事件之间的时间间隔需求时，累计快照事实表能较好符合需求。
特点：
1.数据不断更新：例如，在下单、支付和确认收货三个业务过程中，事务事实表会生成3条记录，而累计快照表会不断更新一条记录（不生成新记录）。
2.多业务过程日期：
累计快照表适用于具有较明确起止时间的短生命周期的实体，对于每个实体都经历从诞生到消亡等步骤。
3.存储历史全量数据。

1.事件类的，例如浏览日志。
2.条件范围资格类的，例如客户和销售人员的分配情况。

主要是提前聚合，为了增加数据访问的效率（不用再聚合了），减少数据不一致的情况。这类聚集汇总数据，被称为“公共汇总层”。
聚集的基本步骤：1.确定聚集维度。2.确定一致性上钻。3.确定聚集事实。

元数据主要记录数据仓库中模型的定义、各层级间映射关系、监控数据仓库的数据状态及ETL任务的运行状态。元数据分为 技术元数据 和 业务元数据 。
阿里巴巴技术元数据包括：
数据表、列等信息；ETL作业的信息；数据同步、任务调度、计算任务等信息。数据质量和运维相关元数据。
阿里巴巴业务元数据包括：
维度属性、业务过程、指标等。数据应用元数据，例如数据报表、数据产品等。

元数据价值：
元数据在数据管理方面为集团数据在计算、存储、成本、质量、安全、模型等治理领域上提供数据支持。

阿里MaxCompute提供了archive压缩方法，采用了具有更高压缩比压缩算法，将数据以RAID file的形式存储。这样可以节省空间，但是恢复起来也更复杂，所以适用于冷备份的数据。

MaxCompute基于列存储，通过修改表的数据重分布，避免列热点，将会节省一定存储空间。

存储治理项以元数据为基础，列出例如“62天内未访问的分区”、“数据无更新的任务列表”等等管理项推动ETL优化。形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化的闭环。

生命周期管理的目的是用最少的存储成本来满足最大业务需求，实现数据价值最大化。
1.周期性删除策略：
2.彻底删除策略：主要针对无用表，ETL中间过程表。
3.永久保存策略：
4.极限存储策略：
5.冷数据管理策略：针对重要且访问频率低的数据。
6.增量表merge全量表策略：

将一个数据表的成本分为存储成本和计算成本，除此之外，上游表对该表的扫描成本也应该计入。相应的计费分别核算为：计算付费、存储付费和扫描付费。数据资产的成本管理分为数据成本计量和数据使用计费。

导航:首页 > 网络数据 > 一张图阿里大数据之路

一张图阿里大数据之路

层次

与一张图阿里大数据之路相关的资料

友情链接