導航:首頁 > 數據分析 > 雅虎大數據業務有哪些

雅虎大數據業務有哪些

發布時間:2024-09-07 17:31:32

1. 全球最具影響力的大數據企業排行榜

全球最具影響力的大數據企業排行榜

目前全球大數據企業主要分為兩大陣營。一部分屬於單純以大數據技術為核心的新興企業,希望為市場帶來創新方案並推動技術發展。另有一些原本打理資料庫/數據倉儲業務的老牌廠商,他們打算利用自身優勢地位沖擊大數據領域,將現有安裝基礎及產品線口碑推廣到新一輪技術浪潮當中。下面我們就一起來看今天的十五家大數據企業名單,其中十家早已名滿天下、另外五家則屬初來乍到。

1、IBM
根據Wikibon發布的報告,作為2012年大數據業務營收成績最好的公司,IBM過去一年從大數據相關產品及服務中獲得了13億美元收益。其具體產品包括伺服器與存儲硬體、資料庫軟體、分析應用程序以及相關服務等。在IBM圍繞大數據開發出的產品中,DB2、Informix與InfoSphere資料庫平台、Cognos與SPSS分析應用可謂最為知名。IBM同時也為Hadoop開源數據分析平台提供支持。

2、惠普
惠普在2012年獲得的大數據營收名列第二,總值為6.64億美元。這家供應商還提供與之相關的硬體、軟體以及服務,其最為知名的方案當數Vertica分析平台。

3、Teradata
Teradata在2012年獲得全球第三大大數據廠商頭銜,其營收總額達4.35億美元。Teradata憑借自家硬體平台、資料庫以及分析軟體而聲名遠播。它同時針對零售及運輸行業推出了專門的分析工具

4、甲骨文
盡管在大家眼中,甲骨文一直以其冠絕群雄的資料庫產品聞名,但事實上他們也是大數據領域的主要競逐者之一。其甲骨文大數據設備將英特爾伺服器、Cloudera Hadoop發行版以及甲骨文的NoSQL資料庫結合到了一起。2012年甲骨文名列大數據企業榜單第五位,營收總額為4.15億美元。

5、SAP
SAP推出了一系列分析工具,但其中知名度最高的當數其HANA內存內資料庫。2012年該公司在大數據企業競爭中位居第六,營收總額為3.68億美元。

6、EMC
EMC一方面幫助客戶保存並分析大數據,另外也充當著大數據分析智囊「營銷科學實驗室」的所在地——這家實驗室專門分析營銷類數據。EMC推出的最新爆炸性消息是與VMware及通用電氣一道支持Pivotal公司。Pivotal將對Hadoop與EMC的Greenplum資料庫與HAWQ查詢工具進行整合。EMC在2012年的大數據企業排行榜中位列第七,營收總額為3.36億美元。

7、Amazon
Amazon向來以企業雲平台聞名於世,但同時也推出過一系列大數據產品,其中包括基於Hadoop的Elastic MapRece、DynamoDB大數據資料庫以及能夠與Amazon Web Services順利協作的Redshift規模化並行數據倉儲方案。

8、微軟
微軟的大數據發展戰略可謂雄心勃勃,包括與Hortonworks建立合作關系、建立一家大數據新興企業以及推出基於Hortonworks數據平台的HDInsights工具。微軟的SQL Server資料庫也頗具知名度,且於2012年的大數據企業比拼之中位列第九,營收總額為1.96億美元。

9、谷歌
谷歌公司推出的大數據產品包括BigQuery——一款基於雲的大數據分析平台。該公司在過去一年中拿下3600萬美元大數據營收。

10、VMware
VMware向來以雲計算及虛擬化解決方案著稱,不過近來也開始逐步踏入大數據領域。今年六月虛擬巨頭公布的VMware vSphere大數據擴展版就很說明問題,這套方案使得vSphere能夠控制Hadoop部署並幫助企業用戶簡化大數據項目啟動流程。VMware在過去一年中獲得3200萬美元大數據營收,幾乎與谷歌公司持平。

11、業界新生代:Cloudera
相信目前已經沒人敢在列舉頂級大數據供應商時漏掉Cloudera。這家新興企業獲得1.41億美元風險投資,支持陣營中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大數據領域赫赫有名的老將。該公司於2008年首次為企業客戶帶來Apache Hadoop平台。

12、Hortonworks
Hortonworks是另一家Hadoop供應商,並在2011年從雅虎公司分離出來之後獲得超過7000萬美元的風險投資支持。它在發展中將矛頭直指Cloudera,這位年輕選手背後則站著微軟、Rackspace、紅帽、Teradata等多家戰略合作夥伴。

13、Splunk
根據WIkibon的統計,Splunk是目前純大數據供應商中占據市場份額最大的企業,2012年全年營收總額達1.86億美元。該公司主要關注機器數據分析業務。

14、10Gen
10Gen最具影響力的得意佳作要數其開源MongoDB——一款業界領先的NoSQL資料庫。該公司的戰略投資夥伴包括英特爾、紅帽以及In-Q-Tel。10Gen去年在純Hadoop及NoSQL業務企業中名列第三,營收總額為3600萬美元。

15、MapR
大家想必聽說過MapR推出的NoSQL資料庫M7,這家公司與Amazon的雲平台及谷歌計算引擎達成了協作關系。去年MapR在純Hadoop與NoSQL業務企業中位列第四,營收總額為2300萬美元。

以上是小編為大家分享的關於全球最具影響力的大數據企業排行榜的相關內容,更多信息可以關注環球青藤分享更多干貨

2. 大數據時代的產生背景

一、大數據時代城市管理的機遇:
首先,有利於數字化城市建設。城市化過程中出現的管理問題,傳統的城市管理方式早已對我國出現的城市問題束手無策,在大數據時代到來的背景下,數字化城市建設就呼之欲出。
其次,有利於電子政務建設。長期以來,我國政府在處理公共事務時都基本採用了傳統的處理方式,紙質化的模式占據了主要地位。隨著信息技術的不斷更新以及大數據時代的到來,電子政務也隨之應運而生。由於大數據時代的特點以及不斷更新發展,電子政務的形式也不斷得到更新。
最後,有利於智慧城市建設。智慧城市建設則是在大數據技術上產生的城市建設和管理方案。可見,大數據時代的到來更加有利於我國的智慧城市建設,為智慧城市的最終建成提供真實可靠的信息基礎。會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
二、大數據時代城市管理的挑戰 :
大數據時代,機遇存在的同時也不可避免會遇到許多挑戰,數據開放不足、數據共享不足、數據質量不優等等都面臨著嚴峻的挑戰。
首先,數據開放不足。數據是信息的重要載體,信息的公開在一定意義上就是數據的公開。在所有的數據公開中,政府相關數據公開尤為引人矚目。國外早就對數據公開確立了「公開為原則,不公開為例外」的原則,我國也有類似規定,但是真實執行情況令人堪憂。
其次,數據共享不足。就目前來看,誰掌握了大量真實可靠的信息,誰就掌握了主動權,信息在一定程度上就是權威的象徵,權力和利益的象徵。再者,政府各部門大部分存在利己傾向, 信息就會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
然後,數據質量不優。數據質量問題直接影響依靠數據獲得的信息的真實有效性,最終影響整體決策的有效性。數據質量主要包括數據的真實性、完整性和有效性。數據在收集、整合、存儲和使用四個階段當中,每個階段都極有可能出現數據質量問題。在我國城市管理中,各級各部門每天都會面對大量繁瑣的數據,數據收集渠道主要有下級單位上報數據、調查統計、普查等等,每一個渠道也同樣會有很多因素影響數據質量。

3. 大數據技術領域工具都有哪些

1、Hadop
Hadoop誕生於2005年,是雅虎(Yahoo)為解決網路搜索問題而設計的一個項目。由於它的技術效率,後來被Apache軟體基金會作為開源應用程序引入。Hadoop本身不是一個產品,而是一個軟體產品的生態系統,這些軟體產品結合在一起,實現了全面的功能和靈活的大數據分析。從技術上講,Hadoop包括兩個關鍵服務:使用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務和使用MapRece技術的高性能並行數據處理服務。
2、蜂巢
Hive是建立在Hadoop文件系統之上的數據倉庫架構,用於分析和管理存儲在HDFS中的數據。Facebook的誕生和發展是為了應對管理和機器學習Facebook每天產生的大量新社交網路數據的需求。後來,其他公司開始使用和開發Apache
Hive,如Netflix、Amazon等。
3、風暴
Storm是一個主要由Clojure編程語言編寫的分布式計算框架。這家營銷和情報公司由Nathan
Marz和他在BackType的團隊創立,2011年被Twitter收購。Twitter隨後將該項目開源,並將其推廣到GitHub。Storm最終於2014年9月加入Apache孵化器項目,正式成為Apache的頂級項目之一。

4. 什麼是大數據分析Hadoop

要了解什麼是Hadoop,我們必須首先了解與大數據和傳統處理系統有關的問題。前進,我們將討論什麼是Hadoop,以及Hadoop如何解決與大數據相關的問題。我們還將研究CERN案例研究,以突出使用Hadoop的好處。

在之前的博客「 大數據教程」中,我們已經詳細討論了大數據以及大數據的挑戰。在此博客中,我們將討論:

1、傳統方法的問題

2、Hadoop的演變

3、Hadoop的

4、Hadoop即用解決方案

5、何時使用Hadoop?

6、什麼時候不使用Hadoop?

一、CERN案例研究

大數據正在成為組織的機會。現在,組織已經意識到他們可以通過大數據分析獲得很多好處,如下圖所示。他們正在檢查大型數據集,以發現所有隱藏的模式,未知的相關性,市場趨勢,客戶偏好和其他有用的業務信息。

這些分析結果正在幫助組織進行更有效的營銷,新的收入機會,更好的客戶服務。他們正在提高運營效率,與競爭對手組織相比的競爭優勢以及其他業務利益。


什麼是Hadoop –大數據分析的好處

因此,讓我們繼續前進,了解在兌現大數據機會方面與傳統方法相關的問題。

二、傳統方法的問題

在傳統方法中,主要問題是處理數據的異構性,即結構化,半結構化和非結構化。RDBMS主要關注於銀行交易,運營數據等結構化數據,而Hadoop則專注於文本,視頻,音頻,Facebook帖子,日誌等半結構化,非結構化數據。RDBMS技術是一種經過驗證的,高度一致,成熟的系統許多公司的支持。另一方面,由於大數據(主要由不同格式的非結構化數據組成)對Hadoop提出了需求。

現在讓我們了解與大數據相關的主要問題是什麼。因此,繼續前進,我們可以了解Hadoop是如何成為解決方案的。


什麼是Hadoop –大數據問題

第一個問題是存儲大量數據。

無法在傳統系統中存儲大量數據。原因很明顯,存儲將僅限於一個系統,並且數據正在以驚人的速度增長。

第二個問題是存儲異構數據。

現在,我們知道存儲是一個問題,但是讓我告訴您,這只是問題的一部分。由於我們討論了數據不僅龐大,而且還以各種格式存在,例如:非結構化,半結構化和結構化。因此,您需要確保您擁有一個系統來存儲從各種來源生成的所有這些種類的數據。

第三個問題是訪問和處理速度。

硬碟容量正在增加,但磁碟傳輸速度或訪問速度並未以相似的速度增加。讓我以一個示例為您進行解釋:如果您只有一個100 Mbps I / O通道,並且正在處理1TB數據,則大約需要2.91個小時。現在,如果您有四台具有一個I / O通道的計算機,則對於相同數量的數據,大約需要43分鍾。因此,與存儲大數據相比,訪問和處理速度是更大的問題。

在了解什麼是Hadoop之前,讓我們首先了解一下Hadoop在一段時間內的發展。

Hadoop的演變



2003年,道格·切特(Doug Cutting)啟動了Nutch項目,以處理數十億次搜索並為數百萬個網頁建立索引。2003年10月下旬– Google發布帶有GFS(Google文件系統)的論文。2004年12月,Google發布了MapRece論文。在2005年,Nutch使用GFS和MapRece進行操作。2006年,雅虎與Doug Cutting及其團隊合作,基於GFS和MapRece創建了Hadoop。如果我告訴您,您會感到驚訝,雅虎於2007年開始在1000個節點的群集上使用Hadoop。

2008年1月下旬,雅虎向Apache Software Foundation發布了Hadoop作為一個開源項目。2008年7月,Apache通過Hadoop成功測試了4000個節點的集群。2009年,Hadoop在不到17小時的時間內成功整理了PB級數據,以處理數十億次搜索並為數百萬個網頁建立索引。在2011年12月,Apache Hadoop發布了1.0版。2013年8月下旬,發布了2.0.6版。

當我們討論這些問題時,我們發現分布式系統可以作為解決方案,而Hadoop提供了相同的解決方案。現在,讓我們了解什麼是Hadoop。

三、什麼是Hadoop?

Hadoop是一個框架,它允許您首先在分布式環境中存儲大數據,以便可以並行處理它。 Hadoop中基本上有兩個組件:

1、大數據Hadoop認證培訓

2、講師指導的課程現實生活中的案例研究評估終身訪問探索課程


什麼是Hadoop – Hadoop即解決方案

第一個問題是存儲大數據。

HDFS提供了一種分布式大數據存儲方式。您的數據存儲在整個DataNode的塊中,您可以指定塊的大小。基本上,如果您擁有512MB的數據,並且已經配置了HDFS,那麼它將創建128MB的數據塊。 因此,HDFS將數據分為512/128 = 4的4個塊,並將其存儲在不同的DataNode上,還將在不同的DataNode上復制數據塊。現在,由於我們正在使用商品硬體,因此存儲已不是難題。

它還解決了縮放問題。它著重於水平縮放而不是垂直縮放。您始終可以根據需要隨時在HDFS群集中添加一些額外的數據節點,而不是擴展DataNodes的資源。讓我為您總結一下,基本上是用於存儲1 TB的數據,您不需要1 TB的系統。您可以在多個128GB或更少的系統上執行此操作。

下一個問題是存儲各種數據。

藉助HDFS,您可以存儲各種數據,無論是結構化,半結構化還是非結構化。由於在HDFS中,沒有預轉儲模式驗證。並且它也遵循一次寫入和多次讀取模型。因此,您只需寫入一次數據,就可以多次讀取數據以尋找見解。

Hird的挑戰是訪問和處理數據更快。

是的,這是大數據的主要挑戰之一。為了解決該問題,我們將處理移至數據,而不是將數據移至處理。這是什麼意思?而不是將數據移動到主節點然後進行處理。在MapRece中,處理邏輯被發送到各個從屬節點,然後在不同的從屬節點之間並行處理數據。然後,將處理後的結果發送到主節點,在該主節點上合並結果,並將響應發送回客戶端。

在YARN架構中,我們有ResourceManager和NodeManager。ResourceManager可能會或可能不會與NameNode配置在同一台機器上。 但是,應該將NodeManager配置在存在DataNode的同一台計算機上。

YARN通過分配資源和安排任務來執行您的所有處理活動。

什麼是Hadoop – YARN

它具有兩個主要組件,即ResourceManager和NodeManager。

ResourceManager再次是主節點。它接收處理請求,然後將請求的各個部分相應地傳遞到相應的NodeManager,什麼是大數據分析Hadoop在此進行實際處理。NodeManager安裝在每個DataNode上。它負責在每個單個DataNode上執行任務。

我希望現在您對什麼是Hadoop及其主要組件有所了解。讓我們繼續前進,了解何時使用和何時不使用Hadoop。

何時使用Hadoop?

Hadoop用於:

1、搜索 – Yahoo,亞馬遜,Zvents

2、日誌處理 – Facebook,雅虎

3、數據倉庫 – Facebook,AOL

4、視頻和圖像分析 –紐約時報,Eyealike

到目前為止,我們已經看到了Hadoop如何使大數據處理成為可能。但是在某些情況下,不建議使用Hadoop。

5. 大數據時代正撲面而來

大數據時代正撲面而來
隨著大數據在各個企業紮根應用,相應的商業模式也慢慢浮出水面。
在大數據時代,營銷將會更多地依賴海量的數據,從而更精準地找到用戶。根據來自不同平台的數據作進一步挖掘和分析,找到這些數據相對應的人群,再將這些群體進行個性化的分析、並以此展開個性化的營銷服務。
大數據向傳統行業延伸
大數據的發展從以Google、Amazon、Yahoo!為代表的互聯網大公司,蔓延到越來越多的創業公司以及金融、電力、電信等各種傳統行業,這些公司和行業在不同的維度進行數據挖掘和分析,創造出更多的商業模式和經濟增長點。同時,包括美國在內的諸多國家,都將大數據管理上升到國家戰略層面,從國家層面通盤考慮其發展戰略。從目前國內外大數據發展歷程和趨勢來看,掌握海量有效數據和具有強大數據處理分析能力的公司和企業將走在大數據發展的前沿。為了掌握更多數據,各大企業均在搶占互聯網入口,包括移動瀏覽器、搜索引擎、操作系統、應用商店等。
當前,關注企業級大數據解決方案的IBM[微博]、Oracle等公司已經提供了商業化的產品;基於自己業務和互聯網特點的Google、網路、騰訊、阿里巴巴[微博]等公司都在構建自己的大數據體系;同時,一些研究機構或者學術機構,也開始投入更多的經歷從事相關理論和實際研究。「大數據」中的數據主要包括「在線」大數據和「離線」大數據,雖然從事大數據研究和開發的公司及研究單位對於這些數據有不同的業務邏輯,但是大的處理技術基本類似,包括數據採集、導入和預處理、統計和分析、挖掘。
大數據商業模式初步形成
大數據在國內外各大企業中已經有了成熟和廣泛的應用。作為中國最大的電子商務平台,淘寶有海量的商業數據,現今淘寶面臨數據量大、內容多樣、維度豐富(涵蓋近百個不同行業的商品維度,五級商品類目體系、近十萬個品牌)、源數據質量不高(非法交易、惡意評價、用於自定義屬性)等問題。對於淘寶面臨的挑戰,分布式存儲計算、實時計算、實時流處理、基於雲計算的數據挖掘、數據可視化和數據產品實踐等是應對大數據浪潮的關鍵技術。
對於中國最大的搜索公司網路,憑借入口優勢,擁有了中國最大的消費者行為資料庫,覆蓋95%的中國網民,日均響應50億次搜索請求,搜索市場佔比達67%。網路副總裁王湛介紹,網路已經建成了包括網路指數、司南、風雲榜、數據研究中心和網路統計在內的五大數據體系平台,幫助企業實時了解消費者行為、興趣變化,以及行業發展狀況、市場動態和趨勢、競爭對手動向等信息,以便適時調整營銷策略。
騰訊是在大數據時代下,最令人期待和遐想的一家互聯網公司。騰訊更加完整的記錄了人們在互聯網上的行為軌跡和社會屬性。根據騰訊披露的信息顯示,截至目前,騰訊擁有超過8.254億QQIM活躍賬戶,6億的空間用戶,5.4億微博注冊用戶和5億微信用戶。這些海量信息匯聚在一起,就能夠獲取到用戶的興趣愛好、歸屬地、社會關系鏈等一系列有價值的信息。然後,利用大數據和關系鏈,騰訊就能為用戶篩選、推薦最適合他的內容。
雅虎作為一個老牌互聯網企業,在大數據領域有著深厚的技術積累和影響力。雅虎有全球最大的Hadoop集群,大約25000個節點,主要用於支持廣告系統和個性化新聞系統。而且雅虎也是Hadoop開源社區最主要的貢獻者,貢獻率超過70%。另外,雅虎也非常注重在大數據其它領域的投資,其在中國剛剛收購了大數據分析公司智拓通達,完成了新CEO梅耶爾上任以來的首次真正意義上的海外收購。
通過海量的數據,還可以給用戶提供更好的、更具個性化的服務。國內最大的門戶新浪最近推出了新版的首頁,最顯著的變化,就是增加了一個「猜你喜歡」的欄目。新浪通過對微博上海量數據進行收集、挖掘,然後給每個用戶推薦個性化的新聞。
文字、聲音、圖片以及用戶的行為習慣和關系網路構成了互聯網上這些龐大的數據資源,伴隨著國內外互聯網、移動互聯網的大爆發,數據量也相應地劇增,而越發成熟的雲計算帶來的計算能力革命,使得對於這些大數據資源的挖掘處理以及商業變現成為可能。大數據的時代正撲面而來。

閱讀全文

與雅虎大數據業務有哪些相關的資料

熱點內容
win10攝像頭不能拍照 瀏覽:56
雲陽數控編程培訓哪裡學 瀏覽:519
文件的存放路徑怎麼改 瀏覽:583
cad字體文件如何導出 瀏覽:236
cs16需要cdkey哪個文件里 瀏覽:817
如何讓另一個表格的數據關聯 瀏覽:368
來自app的快捷指令是怎麼有的 瀏覽:844
保留文件的原始文字圖片 瀏覽:385
國外網站的店怎麼看呢 瀏覽:56
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509

友情鏈接