『壹』 國內有哪些大數據公司
一線互聯網巨頭都有涉及大數據業務,下面主要介紹的是一些創業型大數據公司,加粗的是該大數據細分領域的佼佼者!
1、TalkingData數據增值服務
2、碳雲智能醫療大數據
3、數夢工場政府大數據
4、九次方政府大數據
5、百分點大數據解決方案
6、同盾科技數據安全
7、百融金服金融大數據
8、友盟數據增值服務
9、通用數據數據存儲
10、EverString營銷大數據
11、海智BDP數據可視化
12、秒針系統營銷大數據
13、AdMaster營銷大數據
14、光音網路營銷大數據
15、億瑪在線營銷大數據
16、數據堂數據交易
17、明略數據大數據解決方案
18、星環科技基礎技術平台
19、數聯銘品大數據解決方案
20、品友互動營銷大數據
21、金電聯行金融大數據
22、國政通數據交易殲鉛悄
23、亞信數據大數據解決方案
24、晶贊科技營銷大數據
25、永洪科技數據可視化
26、集奧聚合數據增值服務
27、聚合數據數據交易
28、華院數據大數據解決方案
29、醫渡雲醫療大數據
30、昆侖數據工業大數據
31、國信優易數據交易
32、邦盛金融基礎技術平台
33、銀聯智慧數據增值服務
34、中澳科技公安大數據
35、時趣互動營氏渣銷大數據
36、GrowingIO數據分析
37、美林數據工業大數據
38、人大金倉基礎技術平台
39、明朝萬達數據安全激銀
40、國雙科技數據可視化
41、海雲數據數據可視化
42、翱旗科技大數據解決方案
43、DataEye泛娛樂大數據
44、通付盾數據安全
45、TrustData數據增值服務
45、數雲信息營銷大數據
46、智慧足跡數據增值服務
47、奧維雲網數據交易
48、巨杉資料庫數據存儲
49、普林科技大數據解決方案
『貳』 北京明略科技公司是大公司嗎
是大公司。
明略科技是北京明略昭輝科技有限公司旗下數據中台和企業智能決策平台提供商,致力於通過大數據分析挖掘和認知智能技術,推動知識和管理復雜度高的大中型企業進行數字化轉型。
明略科技的數據中台幫助企業採集和集成多源異構數據,整合大數據、物聯網、知識圖譜和多模態人工智慧技術,將正確的數據推送給決策者,提高組織內營銷和運營的透明、安全、穩定。
同時,明略科技企業智能決策平台,通過連接企業中的人與機器,不斷積累組織知識資產並將其程序化,最終實現具有分析決策能力的高階人工智慧應用,讓組織內部高效運轉,實現人機同行的美好世界。
品牌發展:
2020年8月Gartner發布了2020人工智慧技術成熟度曲線報告,明略科技入選知識圖譜樣本供應商(Sample Vendor)中;2020年5月份,CBinsights發布中國企業服務榜單,明略科技入選 基礎設施類 「BI&大數據分析公司「;2020年1月份,機器之心2019人工智慧年度獎項發布,明略科技榮獲:全球三十大最佳 AI 創業公司。
2019年6月《麻省理工科技評論》50家聰明公司榜單正式發布,明略科技上榜。2019年5月份數博會上明略科技產品明智系統榮獲「2019領先科技成果獎—黑科技「。2019世界人工智慧大會,科技部宣布依託明略科技集團建設「營銷智能「國家新一代人工智慧開放創新平台。
2019北京電視台第九屆「北京影響力」榜單發布,明略科技榮獲「最具影響力十大企業」。2018年10月,第八屆吳文俊人工智慧科技獎發布,明略科技吳文俊人工智慧科技進步獎企業技術創新工程項目。
『叄』 閑話國內大數據發展簡史&產業化落地
文·blogchong
之所以想要說一說這個話題,是因為下午在技術群中不經意間,就類似話題進行了比較劇烈的腦暴討論。
討論范圍包括了互聯網公開數據的挖掘、價值變現、數據獲取的合法性以及數據產業落地等相關方向。
當時就一直在思考這個問題,後續完了自己又想了幾遍,發現確實有所得,也挺多東西想表達一下的。
大數據是在2009年開始相對比較正式引入國內的,基本上與Hadoop的「入侵」國內同步。
但在那時其實並沒有實際落地的東西,除了一些大公司在試探性使用,直到2012-2013年,國外已經完成一輪「探險」,國內才陸續開始思考大數據如何落地的事了。
確實是這樣的,國內在新技術領域上,一向落後於國外半拍,而我也恰恰也是在那個時候「入坑」的。
那個時候其實很多公司企業(除了當時BAT內部使用的案例),也是在嘗試性的涉足大數據領域,一邊追逐技術的完善,一邊在探索大數據與實際業務的結合點。
直到2014年,算是大數據在國內的一個爆發點,正式的轉折點。
首先,以Hadoop為代表的生態趨於成熟,甚至結合內存處理領域、數據實時處理領域,已經形成了一套完整的大數據平台技術解決方案。
其次,已經越來越公司結束了探索性實驗,用實際的成果嘗到了大數據這種處理模式的好處,已經形成了越來越多的實際可參考的良性案例。
當然,最重要的是確實存在實際的規模數據處理的需求。其實這個需求一直存在,只是很多時候沒有找到合適的契機爆發出來。
也就是從2014開始,大數據的人才市場需求在急劇擴增,很多其他IT領域開發人員紛紛轉型到數據行業,其中以逐漸沒落的傳統IT行業為代表。
有人才市場需求,進一步促進了大數據培訓市場的發展,各種大數據培訓機構如雨後春筍般的出現。
其實這也是沒辦法的事,因為當時還沒有哪個高校開設有大數據相關的課程呢。
當然,這波浪潮同樣卷到了學術界,部分高校也意識到了這個技術大勢,陸續有不少高校開始開設大數據相關的專業課程。
2015年,隨著互聯網的發展,市場各種互聯網應用需求的飽和,導致了流量紅利的消失,讓很多企業公司不得不考慮通過數據來提升效率以及推進用戶體驗,例如推薦系統、個性化服務等。
資本市場從2014-2015年逐漸介入,進一步促進各大互聯網企業公司向數據化轉型,使得大數據這個領域進一步達到高潮。
我們知道,資本市場算是迎來半個寒冬,流量紅利的消失,o2o在15年底都死的差不多了,16年讓資本市場變得更謹慎。
但是,就算是這樣,國內很多以大數據為技術驅動的公司依然拿了不少融資,包括神策、諸葛IO、GrowingIO等第三方數據分析公司,明略數據等這種針對於服務偏傳統行業的數據公司,甚至如DataEye類似垂直領域的數據分析公司都活的好好的。
同時,在國家政策方面,2016年可謂是大數據的國家政策元年,各種國家政策開始偏向大數據。
這意味著,大數據已經從半個風口的狀態,過渡到理性、穩健的狀態,這是一個良性的狀態。
正如上面所說,目前大數據已經逐漸從「潮流」這種略帶風險性的標志狀態,過渡到穩健、良性發展的狀態。
提前「入坑」的童鞋,相信已經享受到「潮流」帶來的部分福利,包括比其他普通IT同行們略高的薪酬待遇,以及更多、更自由的選擇性等。
好吧,其中也包括我了~~ 哈哈
那麼,後續會是一種什麼樣的情況呢?
首先,數據化依然會是一個不可逆的趨勢,在資本以及政策的驅動下,更多的公司會逐漸的進行數據化,甚至包括很多傳統IT產業,一樣擋不住這個大勢。
那麼在人才市場需求上的情況呢?個人感覺需求還是在的,因為市場遠沒有達到飽和,但是福利待遇會有所下降。
這是為什麼呢?
2016-2017年,各大高校逐漸會開始投放專業的「正規軍」,是的,那些大數據專業的學生們將被正式投放到市場中了。
此外,從2014年到2016年,大數據的培訓市場一直在增加的,不管是線上的還是線下的。
這意味著,每年,哦不,應該是每幾個月都會有大量的大數據速成工投放到人才需求市場中。
最重要的一點,經過四五年的大浪淘沙,市場已經有一大批「自學成才」的「老司機」可以撐起場面了。
在人才需求以及人才的待遇上,而不是一才難求的現象了,也會逐漸的趨於良性,趨於理性(之前寫過一篇大數據招聘亂象的文章,喜歡可以看看 《你們是不是真的很缺大數據工程師?》 )。
所以,如果你從大學剛畢業出來,發現大數據沒有傳說中那麼「香饃饃」,也不要奇怪;而從大數據培訓流水線上下來的童鞋們,也需要做好准備,薪水可能無法跟你想像中那樣了,翻個幾倍之類的。
不過「老司機們」到不用太過於擔心,雖然大數據的人才市場趨於日漸飽和,但是「駕齡」足夠,「車」開的足夠溜的,依然只有那麼一小戳人。
你依然是稀缺資源,所以不要怕怕。
你看我就不怕怕,哈哈~~
雖然,這一切看似良好,但是有些東西依然值得我們更進一步的深思。
正如之前在技術群中進行腦暴討論的那樣,這幾年大數據雖然市場需求不少,但是依然難以達到產業化的狀態。
這里貼一個產業化的概念:產業化是指某種產業在市場經濟條件下,以行業需求為導向,以實現效益為目標,依靠專業服務和質量管理,形成的系列化和品牌化的經營方式和組織形式。
目前大數據的實際落地形式大部分都以輔助、加速其他業務為主,起一個催化劑,提升效率,加快速度的作用,鮮有看到以大數據作為獨立產業而存在的。
當然也有,比如上面提到的第三方數據分析商、垂直領域的DataEye,以及為企業提供大數據解決方案的明略數據等,也算是以大數據為根深立命而存在的。
但是總體來說,真的不多,而且絕大部分都是以2B的形式存在。我們知道,從格局上來看,2B的產品永遠是難以做到2C產品那種真正宏偉規模,改變產業格局的。
所以,從這點來說,雖然你市場需求放在這里,但想真正以大數據為切入點、為立足的根本做點事,其實也沒有想像中那麼容易。
糾結~~
不過作為大數據領域的半個「老司機」,依然是希望大數據這個技術領域、這個行業,有一天能夠形成獨立的、推動人類進程的一些東西。
亦如互聯網、亦如社交網路、亦如電子商務、亦如移動互聯網等!
最近一直有很多新手同行們向我請教大數據方向上的一些事,自己也一直在思考互聯網開放數據落地變現、以及大數據產業格局相關的問題。
所以,想的多了,對一些東西還是有一些看法的,藏在心中不吐不快。
也希望,上面閑話里的一些東西能夠引起你的一些共鳴,當然反駁也歡迎,歡迎一切與人格無關,與技術有關、與業態有關的探討。
下次希望有時間,能和大家一起探討一些關於互聯網開放數據落地變現相關的話題,這也是我目前一直想探索的東西,下次如果有所收獲再寫點 東西吧。
(正文完)
『肆』 國內有哪些大數據公司
「大數據」近幾年來可謂蓬勃發展,它不僅是企業趨勢,也是一個改變了人類生活的技術創新。大數據對行業用戶的重要性也日益突出。掌握數據資產,進行智能化決策,已成為企業脫穎而出的關鍵。因此,越來越多的企業開始重視大數據戰略布局,並重新定義自己的核心競爭力。
在當前的互聯網領域,大數據的應用已經十分廣泛,尤其以企業為主,企業成為大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。隨著企業開始利用大數據,我們每天都會看到大數據新的奇妙的應用,幫助人們真正從中獲益。大數據的應用已廣泛深入我們生活的方方面面,涵蓋醫療、交通、金融、教育、體育、零售等各行各業。
『伍』 用大數據分析找出數據間隱藏的關聯性
用大數據分析找出數據間隱藏的關聯性
智能穿戴設備監測健康、城市交通和天氣的觀測、抓捕罪犯、金融監管……伴隨著大數據呈現出無孔不入的趨勢,大數據分析開始成為人類進行科學決策的重要工具。從IT時代向DT時代的轉變,大數據分析技術用迅速、精準的方式構建更加低成本、高效率的商業社會,並作為時下最為流行的技術之一,已經滲透到行業的方方面面,幫助企業用數據驅動業務的發展。
「DT時代的到來,對客戶全方位的了解可謂是全所未有的。有了數據分析技術,企業可以將服務做的更細致全面,將被動轉變為主動。」北京明略軟體系統有限公司副總裁兼金融事業部總經理周衛天認為,大數據與行業的融合,讓數據本身的價值得到了加倍的提升。
深度挖掘不同數據源間的隱藏關系
成立於2014年的北京明略軟體系統有限公司是一家明略數據專注於關系挖掘的大數據行業應用解決方案提供商。作為一家成立僅兩年的初創企業,目前明略數據已經完成了A輪融資,B輪融資將會在明年(2016年)第二季度完成。當前明略數據主要服務包括金融業、製造業、政府等行業部門在內的大型國企。「針對金融行業和公安部門這類客戶,大數據分析技術首先體現的是精準,通過關系分析管理,從而直達目標群體。」周衛天說道。
金融業是最先落地大數據的行業之一,現在國內不少銀行已經開始嘗試通過大數據來驅動業務的運營。明略數據推出的大數據分析整合平台,幫助銀行實現了風險管控、精準營銷、徵信管理、輿情監控等一系列的優化和提升。
·風險管控、反欺詐應用:利用數據分析,進行貸款質量評估,規避壞賬風險。對中小企業融資風險監控,實現盡早發現企業違約風險。
·精準營銷:在客戶畫像的基礎上開展一系列包括交叉營銷、個性化推薦、實時營銷、客戶生命周期管理等精準營銷管理。
·徵信/催收放貸增收:基於IP、GPS物理位置定位客戶行為軌跡,加強銀行信用卡徵信審核。根據關聯客戶關系網,進行債務催收。
·輿情監控:檢測客服中心、網上留言、社交媒體等信息,制定有效的客戶維系及挽留措施。
公安/刑偵是目前明略數據服務的另一大主要行業,通過隱藏的數據關系通過演算法、分析進行挖掘,快速的幫助公安部門找到有效信息,從而順藤摸瓜,抓到罪犯,提升緊急事件的應對能力。舉個簡單的例子,通過最開始的訂票信息,IP地址,到後來的車次、酒店信息、運營商的數據,將數據間進行關聯分析,就可以確定訂票人之間的關系。
給用戶「技術+服務」兩大保障
以上介紹的金融業和公安部門是明略數據主要服務的兩大行業、部門,對此也不難從側面發現明略數據針對數 據安全性可以給出較高的保障。作為一個數據服務商,明略數據從網路安全、技術數據安全、使用安全等多方面入手,做到讓客戶安心。周衛天介紹,明略數據是國 內外第一家在SQL on Hadoop三大查詢引擎(Hive, Impala和Spark SQL)上實現行,列級別細顆粒度的許可權控制大數據平台供應商。
有了技術上的優勢,也就有了競爭的底氣。在被問到如何在國內的大數據市場中搶占份額的時候,周衛天的說 法很淡然,盡管國內的巨頭已經進入進來,但市場很大,對像明略數據這樣快速成長的企業還是存在很大的機會。另外,明略的優勢是擁有專業的技術團隊,可以把 海量的數據源進行關聯分析、深度挖掘,找出其中所隱藏的關系線索。
談到今後的發展策略,除了技術的專注,服務好現有客戶將是明略數據近幾年關注的焦點。據了解,2016年明略數據將擴大各省市分公司規模,採取就近布局,包括市場、內部管理運營制定一系列的分級響應措施, 增強客戶的售後服務。此外在未來,明略數據也會邀請客戶和技術人員進入到項目中來,以便更好地了解技術的使用,從而可以快速上手,以周衛天的話說,這也是客戶增值服務的另一個角度。
『陸』 如何建立一個完整可用的安全大數據平台
「
要建立一個大數據系統,我們需要從數據流的源頭跟蹤到最後有價值的輸出,並在現有的Hadoop和大數據生態圈內根據實際需求挑選並整合各部分合適的組件來構建一個能夠支撐多種查詢和分析功能的系統平台。這其中既包括了對數據存儲的選擇,也涵蓋了數據線上和線下處理分離等方面的思考和權衡。此外,沒有任何一個引入大數據解決方案的商業應用在生產環境上承擔的起安全隱患。
1
計算框架篇
大數據的價值
只有在能指導人們做出有價值的決定時,數據才能體現其自身的價值。因此,大數據技術要服務於實際的用途,才是有意義的。一般來說,大數據可以從以下三個方面指導人們做出有價值的決定:
報表生成(比如根據用戶歷史點擊行為的跟蹤和綜合分析、 應用程序活躍程度和用戶粘性計算等);
診斷分析(例如分析為何用戶粘性下降、根據日誌分析系統為何性能下降、垃圾郵件以及病毒的特徵檢測等);
決策(例如個性化新聞閱讀或歌曲推薦、預測增加哪些功能能增加用戶粘性、幫助廣告主進行廣告精準投放、設定垃圾郵件和病毒攔截策略等)。
圖 1
進一步來看,大數據技術從以下三個方面解決了傳統技術難以達成的目標(如圖1):
在歷史數據上的低延遲(互動式)查詢,目標是加快決策過程和時間, 例如分析一個站點為何變緩慢並嘗試修復它;
在實時數據上的低延遲查詢,目的是幫助用戶和應用程序在實時數據上做出決策, 例如實時檢測並阻攔病毒蠕蟲(一個病毒蠕蟲可以在1.3秒內攻擊1百萬台主機);
更加精細高級的數據處理演算法,這可以幫助用戶做出「更好」的決策, 例如圖數據處理、異常點檢測、趨勢分析及其他機器學習演算法。
蛋糕模式
從將數據轉換成價值的角度來說,在Hadoop生態圈十年蓬勃成長的過程中,YARN和Spark這二者可以算得上是里程碑事件。Yarn的出現使得集群資源管理和數據處理流水線分離,大大革新並推動了大數據應用層面各種框架的發展(SQL on Hadoop框架, 流數據,圖數據,機器學習)。
它使得用戶不再受到MapRece開發模式的約束,而是可以創建種類更為豐富的分布式應用程序,並讓各類應用程序運行在統一的架構上,消除了為其他框架維護獨有資源的開銷。就好比一個多層蛋糕,下面兩層是HDFS和Yarn, 而MapRece就只是蛋糕上層的一根蠟燭而已,在蛋糕上還能插各式各樣的蠟燭。
在這一架構體系中,總體數據處理分析作業分三塊(圖2),在HBase上做互動式查詢(Apache Phoenix, Cloudera Impala等), 在歷史數據集上編寫MapRece程序抑或利用Hive等做批處理業務, 另外對於實時流數據分析Apache Storm則會是一種標准選擇方案。
雖然Yarn的出現極大地豐富了Hadoop生態圈的應用場景,但仍存有兩個顯而易見的挑戰:一是在一個平台上需要維護三個開發堆棧;二是在不同框架內很難共享數據,比如很難在一個框架內對流數據做互動式查詢。這也意味著我們需要一個更為統一和支持更好抽象的計算框架的出現。
圖 2
一統江湖
Spark的出現使得批處理任務,互動式查詢,實時流數據處理被整合到一個統一的框架內(圖3),同時Spark和現有的開源生態系統也能夠很好地兼容(Hadoop, HDFS, Yarn, Hive, Flume)。 通過啟用內存分布數據集,優化迭代工作負載, 用戶能夠更簡單地操作數據,並在此基礎上開發更為精細的演算法,如機器學習和圖演算法等。
有三個最主要的原因促使Spark目前成為了時下最火的大數據開源社區(擁有超過來自200多個公司的800多個contributors):
Spark可以擴展部署到超過8000節點並處理PB級別的數據,同時也提供了很多不錯的工具供應用開發者進行管理和部署;
Spark提供了一個互動式shell供開發者可以用Scala或者Python即時性試驗不同的功能;
Spark提供了很多內置函數使得開發者能夠比較容易地寫出低耦合的並且能夠並發執行的代碼,這樣開發人員就更能集中精力地為用戶提供更多的業務功能而不是花費時間在優化並行化代碼之上。
當然Spark也和當年的MapRece一樣不是萬靈葯,比如對實時性要求很高的流數據處理上Apache Storm還是被作為主流選擇, 因為Spark Streaming實際上是microbatch(將一個流數據按時間片切成batch,每個batch提交一個job)而不是事件觸發實時系統,所以雖然支持者們認為microbatch在系統延時性上貢獻並不多,但在生產環境中和Apache Storm相比還不是特別能滿足對低延時要求很高的應用場景。
比如在實踐過程中, 如果統計每條消息的平均處理時間,很容易達到毫秒級別,但一旦統計類似service assurance(確保某條消息在毫秒基本能被處理完成)的指標, 系統的瓶頸有時還是不能避免。
但同時我們不能不注意到,在許多用例當中,與流數據的交互以及和靜態數據集的結合是很有必要的, 例如我們需要在靜態數據集上進行分類器的模型計算,並在已有分類器模型的基礎上,對實時進入系統的流數據進行交互計算來判定類別。
由於Spark的系統設計對各類工作(批處理、流處理以及互動式工作)進行了一個共有抽象,並且生態圈內延伸出了許多豐富的庫(MLlib機器學習庫、SQL語言API、GraphX), 使得用戶可以在每一批流數據上進行靈活的Spark相關操作,在開發上提供了許多便利。
Spark的成熟使得Hadoop生態圈在短短一年之間發生了翻天覆地的變化, Cloudera和Hortonworks紛紛加入了Spark陣營,而Hadoop項目群中除了Yarn之外已經沒有項目是必須的了(雖然Mesos已在一些場合替代了Yarn), 因為就連HDFS,Spark都可以不依賴。但很多時候我們仍然需要像Impala這樣的依賴分布式文件系統的MPP解決方案並利用Hive管理文件到表的映射,因此Hadoop傳統生態圈依然有很強的生命力。
另外在這里簡要對比一下互動式分析任務中各類SQL on Hadoop框架,因為這也是我們在實際項目實施中經常遇到的問題。我們主要將注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中歷史最短的,論文發表在15年的SIGMOD會議上, 原文對比了數據倉庫上不同類型的查詢在Shark(Spark最早對SQL介面提供的支持)、Spark SQL和Impala上的性能比較。
也就是說, 雖然Spark SQL在Shark的基礎上利用Catalyst optimizer在代碼生成上做了很多優化,但總體性能還是比不上Impala, 尤其是當做join操作的時候, Impala可以利用「predicate pushdown」更早對表進行選擇操作從而提高性能。
不過Spark SQL的Catalyst optimizer一直在持續優化中,相信未來會有更多更好的進展。Cloudera的Benchmark評測中Impala一直比其他SQL on Hadoop框架性能更加優越,但同時Hortonworks評測則指出雖然單個數據倉庫查詢Impala可以在很短的時間內完成,但是一旦並發多個查詢Hive on Tez的優勢就展示出來。另外Hive on Tez在SQL表達能力也要比Impala更強(主要是因為Impala的嵌套存儲模型導致的), 因此根據不同的場景選取不同的解決方案是很有必要的。
圖 3
各領風騷抑或代有才人出?
近一年比較吸引人眼球的Apache Flink(與Spark一樣已有5年歷史,前身已經是柏林理工大學一個研究性項目,被其擁躉推崇為繼MapRece, Yarn,Spark之後第四代大數據分析處理框架)。 與Spark相反,Flink是一個真正的實時流數據處理系統,它將批處理看作是流數據的特例,同Spark一樣它也在嘗試建立一個統一的平台運行批量,流數據,互動式作業以及機器學習,圖演算法等應用。
Flink有一些設計思路是明顯區別於Spark的,一個典型的例子是內存管理,Flink從一開始就堅持自己精確的控制內存使用並且直接操作二進制數據,而Spark一直到1.5版本都還是試用java的內存管理來做數據緩存,這也導致了Spark很容易遭受OOM以及JVM GC帶來的性能損失。
但是從另外一個角度來說, Spark中的RDD在運行時被存成java objects的設計模式也大大降低了用戶編程設計門檻, 同時隨著Tungsten項目的引入,Spark現在也逐漸轉向自身的內存管理, 具體表現為Spark生態圈內從傳統的圍繞RDD(分布式java對象集合)為核心的開發逐漸轉向以DataFrame(分布式行對象集合)為核心。
總的來說,這兩個生態圈目前都在互相學習,Flink的設計基因更為超前一些,但Spark社區活躍度大很多,發展到目前毫無疑問是更為成熟的選擇,比如對數據源的支持(HBase, Cassandra, Parquet, JSON, ORC)更為豐富以及更為統一簡潔的計算表示。另一方面,Apache Flink作為一個由歐洲大陸發起的項目,目前已經擁有來自北美、歐洲以及亞洲的許多貢獻者,這是否能夠一改歐洲在開源世界中一貫的被動角色,我們將在未來拭目以待。
2
NoSQL資料庫篇
NoSQL資料庫在主流選擇上依舊集中在MongoDB, HBase和Cassandra這三者之間。在所有的NoSQL選擇中,用C 編寫的MongoDB幾乎應該是開發者最快也最易部署的選擇。MongoDB是一個面向文檔的資料庫,每個文檔/記錄/數據(包括爬取的網頁數據及其他大型對象如視頻等)是以一種BSON(Binary JSON)的二進制數據格式存儲, 這使得MongoDB並不需要事先定義任何模式, 也就是模式自由(可以把完全不同結構的記錄放在同一個資料庫里)。
MongoDB對於完全索引的支持在應用上是很方便的,同時也具備一般NoSQL分布式資料庫中可擴展,支持復制和故障恢復等功能。 MongoDB一般應用於高度伸縮性的緩存及大尺寸的JSON數據存儲業務中,但不能執行「JOIN」操作,而且數據佔用空間也比較大,最被用戶詬病的就是由於MongoDB提供的是資料庫級鎖粒度導致在一些情況下建索引操作會引發整個資料庫阻塞。一般來說,MongoDB完全可以滿足一些快速迭代的中小型項目的需求。
下面來主要談談Cassandra和HBase之間的比較選擇。Cassandra和HBase有著截然不同的基因血統。HBase和其底層依賴的系統架構源自於著名的Google FileSystem(發表於2003年)和Google BigTable設計(發表於2006年), 其克服了HDFS注重吞吐量卻犧牲I/O的缺點,提供了一個存儲中間層使得用戶或者應用程序可以隨機讀寫數據。
具體來說,HBase的更新和刪除操作實際上是先發生在內存MemStore中, 當MemStore滿了以後會Flush到StoreFile, 之後當StoreFile文件數量增長到一定閾值後會觸發Compact合並操作,因此HBase的更新操作其實是不斷追加的操作,而最終所有更新和刪除數據的持久化操作都是在之後Compact過程中進行的。
這使得應用程序在向內存MemStore寫入數據後,所做的修改馬上就能得到反映,用戶讀到的數據絕不會是陳舊的數據,保證了I/O高性能和數據完全一致性; 另一方面來說, HBase基於Hadoop生態系統的基因就已經決定了他自身的高度可擴展性、容錯性。
在數據模型上,Cassandra和HBase類似實現了一個key-value提供面向列式存儲服務,其系統設計參考了 Amazon Dynamo (發表於2007年) 分布式哈希(DHT)的P2P結構(實際上大部分Cassandra的初始工作都是由兩位從Amazon的Dynamo組跳槽到Facebook的工程師完成),同樣具有很高的可擴展性和容錯性等特點。
除此之外, 相對HBase的主從結構,Cassandra去中心化的P2P結構能夠更簡單地部署和維護,比如增加一台機器只需告知Cassandra系統新節點在哪,剩下的交給系統完成就行了。同時,Cassandra對多數據中心的支持也更好,如果需要在多個數據中心進行數據遷移Cassandra會是一個更優的選擇。
Eric Brewer教授提出的經典CAP理論認為任何基於網路的數據共享系統,最多隻能滿足數據一致性、可用性、分區容忍性三要素中的兩個要素。實際分布式系統的設計過程往往都是在一致性與可用性上進行取捨,相比於HBase數據完全一致性的系統設計,Cassandra選擇了在優先考慮數據可用性的基礎上讓用戶自己根據應用程序需求決定系統一致性級別。
比如:用戶可以配置QUONUM參數來決定系統需要幾個節點返回數據才能向客戶端做出響應,ONE指只要有一個節點返回數據就可以對客戶端做出響應,ALL指等於數據復制份數的所有節點都返回結果才能向客戶端做出響應,對於數據一致性要求不是特別高的可以選擇ONE,它是最快的一種方式。
從基因和發展歷史上來說,HBase更適合用做數據倉庫和大規模數據處理與分析(比如對網頁數據建立索引), 而Cassandra則更適合用作實時事務和互動式查詢服務。Cassandra在國外市場佔有比例和發展要遠比國內紅火, 在不少權威測評網站上排名都已經超過了HBase。目前Apache Cassandra的商業化版本主要由軟體公司DataStax進行開發和銷售推廣。另外還有一些NoSQL分布式資料庫如Riak, CouchDB也都在各自支持的廠商推動下取得了不錯的發展。
雖然我們也考慮到了HBase在實際應用中的不便之處比如對二級索引的支持程度不夠(只支持通過單個行鍵訪問,通過行鍵的范圍查詢,全表掃描),不過在明略的大數據基礎平台上,目前整合的是依然是HBase。
理由也很簡單,HBase出身就與Hadoop的生態系統緊密集成,其能夠很容易與其他SQL on Hadoop框架(Cloudera Impala, Apache Phoenix, or Hive on Tez)進行整合,而不需要重新部署一套分布式資料庫系統,而且可以很方便地將同樣的數據內容在同一個生態系統中根據不同框架需要來變換存儲格式(比如存儲成Hive表或者Parquet格式)。
我們在很多項目中都有需要用到多種SQL on Hadoop框架,來應對不同應用場景的情況,也體會到了在同一生態系統下部署多種框架的簡便性。 但同時我們也遇到了一些問題, 因為HBase項目本身與HDFS和Zookeeper系統分別是由不同開源團隊進行維護的,所以在系統整合時我們需要先對HBase所依賴的其他模塊進行設置再對HBase進行配置,在一定程度上降低了系統維護的友好性。
目前我們也已經在考慮將Cassandra應用到一些新的客戶項目中,因為很多企業級的應用都需要將線上線下資料庫進行分離,HBase更適合存儲離線處理的結果和數據倉庫,而更適合用作實時事務和並發交互性能更好的Cassandra作為線上服務資料庫會是一種很好的選擇。
3
大數據安全篇
隨著越來越多各式各樣的數據被存儲在大數據系統中,任何對企業級數據的破壞都是災難性的,從侵犯隱私到監管違規,甚至會造成公司品牌的破壞並最終影響到股東收益。給大數據系統提供全面且有效的安全解決方案的需求已經十分迫切:
大數據系統存儲著許多重要且敏感的數據,這些數據是企業長久以來的財富
與大數據系統互動的外部系統是動態變化的,這會給系統引入新的安全隱患
在一個企業的內部,不同Business Units會用不同的方式與大數據系統進行交互,比如線上的系統會實時給集群推送數據、數據科學家團隊則需要分析存儲在數據倉庫內的歷史數據、運維團隊則會需要對大數據系統擁有管理許可權。
因此為了保護公司業務、客戶、財務和名譽免於被侵害,大數據系統運維團隊必須將系統安全高度提高到和其他遺留系統一樣的級別。同時大數據系統並不意味著引入大的安全隱患,通過精細完整的設計,仍然能夠把一些傳統的系統安全解決方案對接到最新的大數據集群系統中。
一般來說,一個完整的企業級安全框架包括五個部分:
Administration: 大數據集群系統的集中式管理,設定全局一致的安全策略
Authentication: 對用戶和系統的認證
Authorization:授權個人用戶和組對數據的訪問許可權
Audit:維護數據訪問的日誌記錄
Data Protection:數據脫敏和加密以達到保護數據的目的
系統管理員要能夠提供覆蓋以上五個部分的企業級安全基礎設施,否則任何一環的缺失都可能給整個系統引入安全性風險。
在大數據系統安全集中式管理平台這塊,由Hortonworks推出的開源項目Apache Ranger就可以十分全面地為用戶提供Hadoop生態圈的集中安全策略的管理,並解決授權(Authorization)和審計(Audit)。例如,運維管理員可以輕松地為個人用戶和組對文件、數據等的訪問策略,然後審計對數據源的訪問。
與Ranger提供相似功能的還有Cloudera推出的Apache Sentry項目,相比較而言Ranger的功能會更全面一些。
而在認證(Authentication)方面, 一種普遍採用的解決方案是將基於Kerberos的認證方案對接到企業內部的LDAP環境中, Kerberos也是唯一為Hadoop全面實施的驗證技術。
另外值得一提的是Apache Knox Gateway項目,與Ranger提高集群內部組件以及用戶互相訪問的安全不同,Knox提供的是Hadoop集群與外界的唯一交互介面,也就是說所有與集群交互的REST API都通過Knox處理。這樣,Knox就給大數據系統提供了一個很好的基於邊緣的安全(perimeter-based security)。
基於以上提到的五個安全指標和Hadoop生態圈安全相關的開源項目, 已經足已證明基於Hadoop的大數據平台我們是能夠構建一個集中、一致、全面且有效的安全解決方案。
我市再ITjob管網上面找的
『柒』 如何創建一個大數據平台
所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。
我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。
『捌』 大數據洞察有哪些特色,大數據營銷案例,大數據企業
特色案例分析:
1、浪潮GS助力廣安集團一豬一ID強化食品安全
作為輻射全國的農牧企業集團,多年來廣安集團一直企業信息化進程與企業發展需求不匹配的問題。2013年,廣安集團引入浪潮GS,採用單件管理系統,通過一豬一ID對其成長周期進行全過程監控,促使食品安全可追溯,實現飼養流程精細化、集約化管理,使每年飼料節約了2成左右,為廣安的智慧企業養成之路奠定了基礎。
2、華為大數據一體機服務於北大重點實驗室
經過大量的前期調查,比較和分析准備工作,北大重點實驗室選擇了華為基於高性能伺服器RH5885V2的HANA數據處理平台。HANA提供的對大量實時業務數據進行快速查詢和分析以及實時數據計算等功能,在很大程度上得益於華為RH5885 V2伺服器的高可靠、高性能和高可用性的支撐。
3、神州數碼助張家港市更」智慧」
在張家港實踐的城市案例中,市民登錄由」神州數碼」研發的市民公共信息服務平台後,只要憑借自己的身份證和密碼,即可通過該系統平台進行240餘項」在線預審」服務、130餘項」網上辦事」服務等,還可通過手機及時查看辦事狀態。相比於以前來說,市民辦事的時間最少可以節省一半以上。
4、中科曙光助同濟大學科研領域再創新高
為了滿足爆炸式增長的用戶和數據量,同濟大學攜手中科曙光,在全面整合雲計算平台和現有資產的基礎上,採用 DS800-F20存儲系統、Gridview集群管理系統,以及Hadoop分布式計算平台構建出了業內領先的大數據柔性處理平台,使得同濟大學在信息學科及其交叉學科研究領域邁上一個新台階。
5、中國電信基於物聯網的智能公交解決方案
中國電信提出了基於物聯網的智能公交應用整體解決方案。該方案緊密結合公交行業特點,涵蓋了全球眼視頻監控系統、GPS定位調度系統、無線數據採集系統等技術,是基於物聯網技術的公交行業車輛監控調度管理綜合性解決方案。中國電信智能交通系統利用物聯網技術,提高了公交系統中的人(乘客、司乘人員、管理人員)、公交設施(道路、場站等)和公交車輛等之間的有機聯系,從而最佳地利用了交通系統的時空資源,通過信息資源的合理開發、利用和整合,提高了公交行業運行效率,改善了服務質量,為應對重大突發事件提供了必要的手段,在公交公司的科學運營管理、安全監控等方面發揮了重要的作用,物聯網的應用已成為公交業務發展的必然趨勢。
6、明略數據為稅務部門構建的可視化涉稅分析平台
稅務系統的數據在很長時間內大量來自於納稅人的申報行為數據和報表數據,面向稅務工作人員的是割裂的不同業務系統,信息本身被業務消解為固定的邏輯和處理形式。明略數據為稅務部門構建的可視化涉稅分析平台定位為面向稅務部門的數據服務產品。產品充分利用明略底層大數據平台相關技術,數據挖掘建模技術及明略稅務行業研究專家對稅源管理專業化,風險控制精細化,決策分析智能化的理解,搭建以分析預測為核心的數據應用平台,以幫助稅務部門征管工作更有效、更全面、更精細化的展開。
7、悠易互通汽車行業大數據經驗助奧迪品薦二手車
2015年,奧迪品薦二手車項目通過悠易互通程序化購買平台進行為期5個月的推廣活動,傳播受眾主要以男性以及已有奧迪車主為主,悠易互通規劃的投放策略是,首先,通過人群標簽及關鍵詞,對精準受眾人群進行全網競價;其次,對以上競價成功人群進行優化召回,分析以提高下一輪競價成功率;根據悠易互通汽車行業大數據經驗,消費者的行為路徑為」興趣-認知考慮-轉化」,程序化購買可以通過人群召回的方式將流失人群引導到下一環節,從而促進轉化可能。最終投放結果顯示,悠易互通通過以上策略高效達成客戶KPI,曝光量超過預估13%,點擊量超過KPI 26%,注冊量高達163%。
8、東風風神大數據」動」悉全系目標受眾,打破傳統促銷方式
派擇科技應用底層行為數據管理平台Action DMP支招東風風神全系營銷推廣活動, Action DMP實現全網用戶行為元數據、應用元數據、場景元數據的實時無損解析,精準捕獲各車型目標受眾;通過分析用戶行為場景,了解他們的觸媒習慣,展開品牌與用戶定製化溝通,其中也包括個性化創意載體與溝通渠道組合。項目最終CPL成本較目標降低40%。
9、智子雲大數據挖掘助蘇寧易購訪客」回心轉意」之路
蘇寧易購期望通過智子雲的VRM模型對到站/進APP的流失訪客進行精細劃分,並藉助DSP精準定向能力跨屏鎖定目標人群,找迴流失訪客。首先,建立數據倉庫;其次智子雲個性化推薦引擎Rec-Engine;智子雲智能動態出價引擎Delta-Engine;智子雲全網跨屏LBS定向引擎Loc-Engine不但支持多屏、跨屏投放,還能從訪客轉化率、媒體、地理位置、時段、設備類型、設備號等多個維度建立訪客轉化率預測模型和商品推薦模型;最後,重定向投放,針對每一個到訪訪客計算廣告點擊率和到站轉化率,然後通過自動聚類演算法將訪客人群分檔打分,對不同分值的人群,在綜合媒體環境、競價成功率等因素後,進行實時差異化出價。最終,本次活動找回蘇寧易購的流失訪客9,572,163次,並促成36,748個直接有效訂單;最終投資回報率>3。
10、 「優衣·幸運·穿回家」優衣庫2016春節場景營銷OxO
2016年,優衣庫中國推出了」優衣·幸運·穿回家」的春節主題活動,融入」LifeWear服適人生」品牌理念。結合大數據分析規模化的消費者共性,合適的移動媒介精準傳播,藉助自媒體傳播,連接到店體驗。制定優質的移動媒介策略,結合自媒體、網路廣告、社交媒體平台、零售店和微信支付,精準覆蓋受眾,,一系列線上活動讓優衣庫品牌和冬春裝產品形象直達人心,有效地將線下用戶帶到線上參與互動並積極分享,實現OxO導流,收獲了比較理想的品牌營銷和銷售增長效果。