导航:首页 > 数据分析 > 雅虎大数据业务有哪些

雅虎大数据业务有哪些

发布时间:2024-09-07 17:31:32

1. 全球最具影响力的大数据企业排行榜

全球最具影响力的大数据企业排行榜

目前全球大数据企业主要分为两大阵营。一部分属于单纯以大数据技术为核心的新兴企业,希望为市场带来创新方案并推动技术发展。另有一些原本打理数据库/数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。下面我们就一起来看今天的十五家大数据企业名单,其中十家早已名满天下、另外五家则属初来乍到。

1、IBM
根据Wikibon发布的报告,作为2012年大数据业务营收成绩最好的公司,IBM过去一年从大数据相关产品及服务中获得了13亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、分析应用程序以及相关服务等。在IBM围绕大数据开发出的产品中,DB2、Informix与InfoSphere数据库平台、Cognos与SPSS分析应用可谓最为知名。IBM同时也为Hadoop开源数据分析平台提供支持。

2、惠普
惠普在2012年获得的大数据营收名列第二,总值为6.64亿美元。这家供应商还提供与之相关的硬件、软件以及服务,其最为知名的方案当数Vertica分析平台。

3、Teradata
Teradata在2012年获得全球第三大大数据厂商头衔,其营收总额达4.35亿美元。Teradata凭借自家硬件平台、数据库以及分析软件而声名远播。它同时针对零售及运输行业推出了专门的分析工具

4、甲骨文
尽管在大家眼中,甲骨文一直以其冠绝群雄的数据库产品闻名,但事实上他们也是大数据领域的主要竞逐者之一。其甲骨文大数据设备将英特尔服务器、Cloudera Hadoop发行版以及甲骨文的NoSQL数据库结合到了一起。2012年甲骨文名列大数据企业榜单第五位,营收总额为4.15亿美元。

5、SAP
SAP推出了一系列分析工具,但其中知名度最高的当数其HANA内存内数据库。2012年该公司在大数据企业竞争中位居第六,营收总额为3.68亿美元。

6、EMC
EMC一方面帮助客户保存并分析大数据,另外也充当着大数据分析智囊“营销科学实验室”的所在地——这家实验室专门分析营销类数据。EMC推出的最新爆炸性消息是与VMware及通用电气一道支持Pivotal公司。Pivotal将对Hadoop与EMC的Greenplum数据库与HAWQ查询工具进行整合。EMC在2012年的大数据企业排行榜中位列第七,营收总额为3.36亿美元。

7、Amazon
Amazon向来以企业云平台闻名于世,但同时也推出过一系列大数据产品,其中包括基于Hadoop的Elastic MapRece、DynamoDB大数据数据库以及能够与Amazon Web Services顺利协作的Redshift规模化并行数据仓储方案。

8、微软
微软的大数据发展战略可谓雄心勃勃,包括与Hortonworks建立合作关系、建立一家大数据新兴企业以及推出基于Hortonworks数据平台的HDInsights工具。微软的SQL Server数据库也颇具知名度,且于2012年的大数据企业比拼之中位列第九,营收总额为1.96亿美元。

9、谷歌
谷歌公司推出的大数据产品包括BigQuery——一款基于云的大数据分析平台。该公司在过去一年中拿下3600万美元大数据营收。

10、VMware
VMware向来以云计算及虚拟化解决方案著称,不过近来也开始逐步踏入大数据领域。今年六月虚拟巨头公布的VMware vSphere大数据扩展版就很说明问题,这套方案使得vSphere能够控制Hadoop部署并帮助企业用户简化大数据项目启动流程。VMware在过去一年中获得3200万美元大数据营收,几乎与谷歌公司持平。

11、业界新生代:Cloudera
相信目前已经没人敢在列举顶级大数据供应商时漏掉Cloudera。这家新兴企业获得1.41亿美元风险投资,支持阵营中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大数据领域赫赫有名的老将。该公司于2008年首次为企业客户带来Apache Hadoop平台。

12、Hortonworks
Hortonworks是另一家Hadoop供应商,并在2011年从雅虎公司分离出来之后获得超过7000万美元的风险投资支持。它在发展中将矛头直指Cloudera,这位年轻选手背后则站着微软、Rackspace、红帽、Teradata等多家战略合作伙伴。

13、Splunk
根据WIkibon的统计,Splunk是目前纯大数据供应商中占据市场份额最大的企业,2012年全年营收总额达1.86亿美元。该公司主要关注机器数据分析业务。

14、10Gen
10Gen最具影响力的得意佳作要数其开源MongoDB——一款业界领先的NoSQL数据库。该公司的战略投资伙伴包括英特尔、红帽以及In-Q-Tel。10Gen去年在纯Hadoop及NoSQL业务企业中名列第三,营收总额为3600万美元。

15、MapR
大家想必听说过MapR推出的NoSQL数据库M7,这家公司与Amazon的云平台及谷歌计算引擎达成了协作关系。去年MapR在纯Hadoop与NoSQL业务企业中位列第四,营收总额为2300万美元。

以上是小编为大家分享的关于全球最具影响力的大数据企业排行榜的相关内容,更多信息可以关注环球青藤分享更多干货

2. 大数据时代的产生背景

一、大数据时代城市管理的机遇:
首先,有利于数字化城市建设。城市化过程中出现的管理问题,传统的城市管理方式早已对我国出现的城市问题束手无策,在大数据时代到来的背景下,数字化城市建设就呼之欲出。
其次,有利于电子政务建设。长期以来,我国政府在处理公共事务时都基本采用了传统的处理方式,纸质化的模式占据了主要地位。随着信息技术的不断更新以及大数据时代的到来,电子政务也随之应运而生。由于大数据时代的特点以及不断更新发展,电子政务的形式也不断得到更新。
最后,有利于智慧城市建设。智慧城市建设则是在大数据技术上产生的城市建设和管理方案。可见,大数据时代的到来更加有利于我国的智慧城市建设,为智慧城市的最终建成提供真实可靠的信息基础。会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
二、大数据时代城市管理的挑战 :
大数据时代,机遇存在的同时也不可避免会遇到许多挑战,数据开放不足、数据共享不足、数据质量不优等等都面临着严峻的挑战。
首先,数据开放不足。数据是信息的重要载体,信息的公开在一定意义上就是数据的公开。在所有的数据公开中,政府相关数据公开尤为引人瞩目。国外早就对数据公开确立了“公开为原则,不公开为例外”的原则,我国也有类似规定,但是真实执行情况令人堪忧。
其次,数据共享不足。就目前来看,谁掌握了大量真实可靠的信息,谁就掌握了主动权,信息在一定程度上就是权威的象征,权力和利益的象征。再者,政府各部门大部分存在利己倾向, 信息就会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
然后,数据质量不优。数据质量问题直接影响依靠数据获得的信息的真实有效性,最终影响整体决策的有效性。数据质量主要包括数据的真实性、完整性和有效性。数据在收集、整合、存储和使用四个阶段当中,每个阶段都极有可能出现数据质量问题。在我国城市管理中,各级各部门每天都会面对大量繁琐的数据,数据收集渠道主要有下级单位上报数据、调查统计、普查等等,每一个渠道也同样会有很多因素影响数据质量。

3. 大数据技术领域工具都有哪些

1、Hadop
Hadoop诞生于2005年,是雅虎(Yahoo)为解决网络搜索问题而设计的一个项目。由于它的技术效率,后来被Apache软件基金会作为开源应用程序引入。Hadoop本身不是一个产品,而是一个软件产品的生态系统,这些软件产品结合在一起,实现了全面的功能和灵活的大数据分析。从技术上讲,Hadoop包括两个关键服务:使用Hadoop分布式文件系统(HDFS)的可靠数据存储服务和使用MapRece技术的高性能并行数据处理服务。
2、蜂巢
Hive是建立在Hadoop文件系统之上的数据仓库架构,用于分析和管理存储在HDFS中的数据。Facebook的诞生和发展是为了应对管理和机器学习Facebook每天产生的大量新社交网络数据的需求。后来,其他公司开始使用和开发Apache
Hive,如Netflix、Amazon等。
3、风暴
Storm是一个主要由Clojure编程语言编写的分布式计算框架。这家营销和情报公司由Nathan
Marz和他在BackType的团队创立,2011年被Twitter收购。Twitter随后将该项目开源,并将其推广到GitHub。Storm最终于2014年9月加入Apache孵化器项目,正式成为Apache的顶级项目之一。

4. 什么是大数据分析Hadoop

要了解什么是Hadoop,我们必须首先了解与大数据和传统处理系统有关的问题。前进,我们将讨论什么是Hadoop,以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究,以突出使用Hadoop的好处。

在之前的博客“ 大数据教程”中,我们已经详细讨论了大数据以及大数据的挑战。在此博客中,我们将讨论:

1、传统方法的问题

2、Hadoop的演变

3、Hadoop的

4、Hadoop即用解决方案

5、何时使用Hadoop?

6、什么时候不使用Hadoop?

一、CERN案例研究

大数据正在成为组织的机会。现在,组织已经意识到他们可以通过大数据分析获得很多好处,如下图所示。他们正在检查大型数据集,以发现所有隐藏的模式,未知的相关性,市场趋势,客户偏好和其他有用的业务信息。

这些分析结果正在帮助组织进行更有效的营销,新的收入机会,更好的客户服务。他们正在提高运营效率,与竞争对手组织相比的竞争优势以及其他业务利益。


什么是Hadoop –大数据分析的好处

因此,让我们继续前进,了解在兑现大数据机会方面与传统方法相关的问题。

二、传统方法的问题

在传统方法中,主要问题是处理数据的异构性,即结构化,半结构化和非结构化。RDBMS主要关注于银行交易,运营数据等结构化数据,而Hadoop则专注于文本,视频,音频,Facebook帖子,日志等半结构化,非结构化数据。RDBMS技术是一种经过验证的,高度一致,成熟的系统许多公司的支持。另一方面,由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。

现在让我们了解与大数据相关的主要问题是什么。因此,继续前进,我们可以了解Hadoop是如何成为解决方案的。


什么是Hadoop –大数据问题

第一个问题是存储大量数据。

无法在传统系统中存储大量数据。原因很明显,存储将仅限于一个系统,并且数据正在以惊人的速度增长。

第二个问题是存储异构数据。

现在,我们知道存储是一个问题,但是让我告诉您,这只是问题的一部分。由于我们讨论了数据不仅庞大,而且还以各种格式存在,例如:非结构化,半结构化和结构化。因此,您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。

第三个问题是访问和处理速度。

硬盘容量正在增加,但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释:如果您只有一个100 Mbps I / O通道,并且正在处理1TB数据,则大约需要2.91个小时。现在,如果您有四台具有一个I / O通道的计算机,则对于相同数量的数据,大约需要43分钟。因此,与存储大数据相比,访问和处理速度是更大的问题。

在了解什么是Hadoop之前,让我们首先了解一下Hadoop在一段时间内的发展。

Hadoop的演变



2003年,道格·切特(Doug Cutting)启动了Nutch项目,以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月,Google发布了MapRece论文。在2005年,Nutch使用GFS和MapRece进行操作。2006年,雅虎与Doug Cutting及其团队合作,基于GFS和MapRece创建了Hadoop。如果我告诉您,您会感到惊讶,雅虎于2007年开始在1000个节点的群集上使用Hadoop。

2008年1月下旬,雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月,Apache通过Hadoop成功测试了4000个节点的集群。2009年,Hadoop在不到17小时的时间内成功整理了PB级数据,以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月,Apache Hadoop发布了1.0版。2013年8月下旬,发布了2.0.6版。

当我们讨论这些问题时,我们发现分布式系统可以作为解决方案,而Hadoop提供了相同的解决方案。现在,让我们了解什么是Hadoop。

三、什么是Hadoop?

Hadoop是一个框架,它允许您首先在分布式环境中存储大数据,以便可以并行处理它。 Hadoop中基本上有两个组件:

1、大数据Hadoop认证培训

2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程


什么是Hadoop – Hadoop即解决方案

第一个问题是存储大数据。

HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中,您可以指定块的大小。基本上,如果您拥有512MB的数据,并且已经配置了HDFS,那么它将创建128MB的数据块。 因此,HDFS将数据分为512/128 = 4的4个块,并将其存储在不同的DataNode上,还将在不同的DataNode上复制数据块。现在,由于我们正在使用商品硬件,因此存储已不是难题。

它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点,而不是扩展DataNodes的资源。让我为您总结一下,基本上是用于存储1 TB的数据,您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。

下一个问题是存储各种数据。

借助HDFS,您可以存储各种数据,无论是结构化,半结构化还是非结构化。由于在HDFS中,没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此,您只需写入一次数据,就可以多次读取数据以寻找见解。

Hird的挑战是访问和处理数据更快。

是的,这是大数据的主要挑战之一。为了解决该问题,我们将处理移至数据,而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapRece中,处理逻辑被发送到各个从属节点,然后在不同的从属节点之间并行处理数据。然后,将处理后的结果发送到主节点,在该主节点上合并结果,并将响应发送回客户端。

在YARN架构中,我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。 但是,应该将NodeManager配置在存在DataNode的同一台计算机上。

YARN通过分配资源和安排任务来执行您的所有处理活动。

什么是Hadoop – YARN

它具有两个主要组件,即ResourceManager和NodeManager。

ResourceManager再次是主节点。它接收处理请求,然后将请求的各个部分相应地传递到相应的NodeManager,什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。

我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进,了解何时使用和何时不使用Hadoop。

何时使用Hadoop?

Hadoop用于:

1、搜索 – Yahoo,亚马逊,Zvents

2、日志处理 – Facebook,雅虎

3、数据仓库 – Facebook,AOL

4、视频和图像分析 –纽约时报,Eyealike

到目前为止,我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下,不建议使用Hadoop。

5. 大数据时代正扑面而来

大数据时代正扑面而来
随着大数据在各个企业扎根应用,相应的商业模式也慢慢浮出水面。
在大数据时代,营销将会更多地依赖海量的数据,从而更精准地找到用户。根据来自不同平台的数据作进一步挖掘和分析,找到这些数据相对应的人群,再将这些群体进行个性化的分析、并以此展开个性化的营销服务。
大数据向传统行业延伸
大数据的发展从以Google、Amazon、Yahoo!为代表的互联网大公司,蔓延到越来越多的创业公司以及金融、电力、电信等各种传统行业,这些公司和行业在不同的维度进行数据挖掘和分析,创造出更多的商业模式和经济增长点。同时,包括美国在内的诸多国家,都将大数据管理上升到国家战略层面,从国家层面通盘考虑其发展战略。从目前国内外大数据发展历程和趋势来看,掌握海量有效数据和具有强大数据处理分析能力的公司和企业将走在大数据发展的前沿。为了掌握更多数据,各大企业均在抢占互联网入口,包括移动浏览器、搜索引擎、操作系统、应用商店等。
当前,关注企业级大数据解决方案的IBM[微博]、Oracle等公司已经提供了商业化的产品;基于自己业务和互联网特点的Google、网络、腾讯、阿里巴巴[微博]等公司都在构建自己的大数据体系;同时,一些研究机构或者学术机构,也开始投入更多的经历从事相关理论和实际研究。“大数据”中的数据主要包括“在线”大数据和“离线”大数据,虽然从事大数据研究和开发的公司及研究单位对于这些数据有不同的业务逻辑,但是大的处理技术基本类似,包括数据采集、导入和预处理、统计和分析、挖掘。
大数据商业模式初步形成
大数据在国内外各大企业中已经有了成熟和广泛的应用。作为中国最大的电子商务平台,淘宝有海量的商业数据,现今淘宝面临数据量大、内容多样、维度丰富(涵盖近百个不同行业的商品维度,五级商品类目体系、近十万个品牌)、源数据质量不高(非法交易、恶意评价、用于自定义属性)等问题。对于淘宝面临的挑战,分布式存储计算、实时计算、实时流处理、基于云计算的数据挖掘、数据可视化和数据产品实践等是应对大数据浪潮的关键技术。
对于中国最大的搜索公司网络,凭借入口优势,拥有了中国最大的消费者行为数据库,覆盖95%的中国网民,日均响应50亿次搜索请求,搜索市场占比达67%。网络副总裁王湛介绍,网络已经建成了包括网络指数、司南、风云榜、数据研究中心和网络统计在内的五大数据体系平台,帮助企业实时了解消费者行为、兴趣变化,以及行业发展状况、市场动态和趋势、竞争对手动向等信息,以便适时调整营销策略。
腾讯是在大数据时代下,最令人期待和遐想的一家互联网公司。腾讯更加完整的记录了人们在互联网上的行为轨迹和社会属性。根据腾讯披露的信息显示,截至目前,腾讯拥有超过8.254亿QQIM活跃账户,6亿的空间用户,5.4亿微博注册用户和5亿微信用户。这些海量信息汇聚在一起,就能够获取到用户的兴趣爱好、归属地、社会关系链等一系列有价值的信息。然后,利用大数据和关系链,腾讯就能为用户筛选、推荐最适合他的内容。
雅虎作为一个老牌互联网企业,在大数据领域有着深厚的技术积累和影响力。雅虎有全球最大的Hadoop集群,大约25000个节点,主要用于支持广告系统和个性化新闻系统。而且雅虎也是Hadoop开源社区最主要的贡献者,贡献率超过70%。另外,雅虎也非常注重在大数据其它领域的投资,其在中国刚刚收购了大数据分析公司智拓通达,完成了新CEO梅耶尔上任以来的首次真正意义上的海外收购。
通过海量的数据,还可以给用户提供更好的、更具个性化的服务。国内最大的门户新浪最近推出了新版的首页,最显着的变化,就是增加了一个“猜你喜欢”的栏目。新浪通过对微博上海量数据进行收集、挖掘,然后给每个用户推荐个性化的新闻。
文字、声音、图片以及用户的行为习惯和关系网络构成了互联网上这些庞大的数据资源,伴随着国内外互联网、移动互联网的大爆发,数据量也相应地剧增,而越发成熟的云计算带来的计算能力革命,使得对于这些大数据资源的挖掘处理以及商业变现成为可能。大数据的时代正扑面而来。

阅读全文

与雅虎大数据业务有哪些相关的资料

热点内容
手机安卓培训机构 浏览:819
英语版本的哈面宝宝 浏览:567
手机动态壁纸教学视频教程 浏览:543
网络摄像机sip 浏览:757
湘潭编程学校哪里好 浏览:389
win10设置桌面小图标怎么去掉吗 浏览:122
网络安全创业 浏览:787
修改linux 浏览:464
如何编程计算机cpu高占用程序 浏览:808
程序员活动策划方案 浏览:130
数据漫游什么意思需不需要开启 浏览:804
qq图片刷新很慢 浏览:40
数据的采集方法都有什么 浏览:401
pps影音iphone版282 浏览:214
影梭安卓客户端341 浏览:636
有网络为什么qq登不上去 浏览:87
视频插上不显示视频文件 浏览:665
投标制作软件生成文件失败 浏览:756
什么是数据指标 浏览:243
三菱plc编程用什么语言比较好 浏览:496

友情链接