❶ bat大數據的特點是
就是大,第一:數據體量巨大。第二:數據類型繁多。第三:價值的密度比較低。第四:處理的四度快。檸檬學院大數據。
❷ 互聯網+醫療會產生什麼樣的積極影響
1互聯網重構醫療行業
上證報從本次論壇了解到,2014年是互聯網醫療爆發元年,創業企業和資本合力引爆了互聯網醫療產業。隨著BAT和眾行業巨頭的強勢入局,2015年互聯網對醫療產業的改變乃至重構將來得更加猛烈。據中國科學技術戰略研究院預測,至2020年,我國生物醫葯產業將形成約8萬億的支柱產業。醫療健康行業的巨大市場也為互聯網醫療創造了機遇,互聯網醫療中國會認為,該產業未來10年將有10倍增長空間。
上述報告認為,互聯網醫療將重構健康管理、就醫方式、就醫體驗、購葯方式及醫患生態五大方面的問題。首先,在病前的健康管理,互聯網醫療有助於幫助病人進行真正科學、有效的疾病預防,實現治未病。其次,在病人就醫方式上,互聯網醫療能夠突破傳統醫療模式的禁錮,通過在線問診和遠程醫療實現優質醫療資源的跨時空配置,幫助病人免去不必要的到院就醫;第三,在病人院內就醫的體驗上,互聯網能夠幫助優化患者院內就醫流程,節約時間,提高效率;第三,在購葯環節上,互聯網醫葯電商的興起有望帶給患者更便捷、便宜的購葯體驗;最後,在整個醫患生態上,互聯網醫療能夠優化醫患對接機制,促進醫患溝通,使醫生價值最大化,服務最優化。
2大商業模式受追捧
在此背景下,互聯網醫療中國會認為,在眾多商業模式中,業界最關注、也是最具潛力的方向主要有醫葯電商、在線問診、掛號服務、可穿戴設備四大細分領域。
對於目前受到資本高度追捧的可穿戴概念,有互聯網醫療專家指出,在可穿戴設備提供的一眾功能中,健康管理、醫療檢測功能無疑是最具剛性需求,功能最具革命的一項。需求端,越來越多的年輕消費者開始注重健康管理,而老齡化、慢病患者的增加,也增加了對可穿戴設備實時檢測、遠程監控等功能的需求。供給端的可穿戴設備廠商也正積極地以可穿戴設備為數據交互中心,為患者提供移動智能雲服務,採集並建立大資料庫,探索更多基於患者數據的模式創新,如為醫院診療檢測、為醫生輔助決策、為保險公司及時干預、減少保費支出等。因此該細分領域具有較大的想像空間。
互聯網醫療中國會表示,從互聯網的發展趨勢來看,互聯網及移動互聯正催生醫療業向移動化、智能化和信息化前進。互聯網醫療對於改善全民生活,延續人類壽命,傳播醫療思想知識,促進健康事業發展,改變人類未來有重要意義。有醫葯行業分析人士指出:「可以預見,國民健康與互聯網融合順理成章,移動互聯將重構醫療服務秩序,傳統醫療將發生深刻改變,變革只是時間問題。」
3三大機遇和三大挑戰
對於互聯網醫療在2015年的發展趨勢,互聯網醫療中國會認為,主要存在三大機遇和三大挑戰。就機遇而言,主要體現在三個方面:第一,醫療服務供需不平衡為行業帶來發展機遇;第二,各路資本強勢介入為創業者帶來創業機遇;第三,中外醫療環境差異為行業引發商業模式的創新機遇。
同時,互聯網醫療行業面臨配套政策、標准缺失、信息孤島現象三項挑戰。具體來看,當前的互聯網醫療政策呈「趨勢雖向好,進度卻緩慢」的狀態;同時,傳統醫療利益鏈中醫院和醫生的既得利益難以被突破;第三,現有互聯網醫療的行業標准缺失,各機構間信息尚未實現互聯互通,挑戰較為嚴峻。
❸ BAT三巨頭開始挖掘大數據
BAT三巨頭開始挖掘大數據
阿里巴巴CTO即阿里雲負責人王堅博士說過一句話:雲計算和大數據,你們都理解錯了。
實際上,對於大數據究竟是什麼業界並無共識。大數據並不是什麼新鮮事物。信息革命帶來的除了信息的更高效地生產、流通和消費外,還帶來數據的爆炸式增長。「引爆點」到來之後,人們發現原有的零散的對數據的利用造成了巨大的浪費。移動互聯網浪潮下,數據產生速度前所未有地加快。人類達成共識開始系統性地對數據進行挖掘。這是大數據的初心。數據積累的同時,數據挖掘需要的計算理論、實時的數據收集和流通通道、數據挖掘過程需要使用的軟硬體環境都在成熟。
概念、模式、理論很重要,但在最具實干精神的互聯網領域,行動才是最好的答案。國內互聯網三巨頭BAT坐擁數據金礦,已陸續踏上了大數據掘金之路。
BAT都是大礦主,但礦山性質不同
數據如同蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。
網路擁有兩種類型的大數據:用戶搜索表徵的需求數據;爬蟲和阿拉丁獲取的公共web數據。
阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。
騰訊擁有用戶關系數據和基於此產生的社交數據。這些數據可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的信息,甚至預測未來。
下面,就將三家公司的情況一一掃描與分析。
一、網路:含著數據出生且擁有挖掘技術,研究和實用結合
搜索巨頭網路圍繞數據而生。它對網頁數據的爬取、網頁內容的組織和解析,通過語義分析對搜索需求的精準理解進而從海量數據中找准結果,以及精準的搜索引擎關鍵字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。
除了網頁外,網路還通過阿拉丁計劃吸收第三方數據,通過業務手段與葯監局等部門合作拿到封閉的數據。但是,盡管網路擁有核心技術和數據礦山,卻還沒有發揮出最大潛力。網路指數、網路統計等產品算是對數據挖掘的一些初級應用,與Google相比,網路在社交數據、實時數據的收集和由數據流通到數據挖掘轉換上有很大潛力,還有很多事情要做。
2月底在北京出差時,寫了一篇《搜索引擎的大數據時代》發在虎嗅。創造了零回復的記錄。盡管如此,仍然沒有打消我對搜索引擎在大數據時代深層次變革的思考。 搜索引擎在大數據時代面臨的挑戰有:更多的暗網數據;更多的WEB化但是沒有結構化的數據;更多的WEB化、結構化但是封閉的數據。這幾個挑戰使得數據正在遠離傳統搜索引擎。不過,搜索引擎在大數據上畢竟具備技術沉澱以及優勢。
接下來,網路會向企業提供更多的數據和數據服務。前期網路與寶潔、平安等公司合作,為其提供消費者行為分析和挖掘服務,通過數據結論指導企業推出產品,是一種典型的基於大數據的C2B模式。與此類似的還有Netflix的《紙牌屋》美劇,該劇的男主角凱文·史派西和導演大衛·芬奇都是通過對網路數據挖掘之後,根據受歡迎情況選中的。
網路還會利用大數據完成移動互聯網進化。核心攻關技術便是深度學習。基於大數據的機器學習將改善多媒體搜索效果和智能搜索,如語音搜索、視覺搜索和自然語言搜索。這將催生移動互聯網的革命性產品的出現。盡管網路已經出發,其在大數據上可做的事情還有很多。
在數據收集方面,網路需要聚合更多高價值的交易、社交和實時數據。例如加強自己貼吧知道的社交能力、盡快讓地圖服務與O2O結合進而掌握交易數據,以及推進移動App、穿戴式設備等數據收集系統。
在數據處理技術上,網路成立深度學習研究院加強自己在人工智慧領域的探索,在多媒體和中文自然語言處理領域已經有一些進展;雲存儲、雲計算的基礎設施建設也在逐步完善。但深度學習仍然是一個巨大的挑戰,網路等探索者還有很多待解問題,如:無監督式學習、立體圖像識別。
在數據變現方面,網路需將數據挖掘能力、數據內容聚合和提取等形成標准化的服務和產品,進而開拓大數據領域的企業和開發者市場。而不僅僅是頗為個性化、定製化地為大型企業提供解決。
網路的優勢體現在海量的數據、沉澱十多年的用戶行為數據、自然語言處理能力和深度學習領域的前沿研究。在技術人才方面網路是聚集國內最多大數據相關領域頂尖人才的公司。聽說網路前段時間花五千萬挖了數據挖掘、自然語言處理、深度學習領域的十來位大牛,包括一些學者和教授。例如Facebook科學家徐偉。
在挖人上,捨得花錢不夠,還得用心。對於真正的大牛來說,錢只是一個影響因素。能否實現自己的夢想,公司的資源能否幫助自己的研究至關重要。徐偉在回國前就曾問過其他從矽谷回國工程師的意見,得到答案是積極的,最終促成他作出決定。
總體來看,網路擁有大數據也具備大數據挖掘的能力,並且正在進行積極地准備和探索。在加強面向未來的研究和人才布局的同時,也注重實用性的技術產出。
二、騰訊:數據為產品所用,自產自銷
微創新提出者金錯刀有個關於騰訊的故事。 1999年騰訊公司剛剛成立不久,天使投資人劉曉松決定向其注資的一個主要原因就是因為他發現,「當時雖然他們的公司還很小,但已經有用戶運營的理念,後台對於用戶的每一個動作都有記錄和分析。」而另一個投資人卻因為馬化騰在公司很小時就花錢在數據上表示不滿。此後騰訊的產品生產及運營、騰訊游戲的崛起都離不開對數據的重視。
騰訊擁有社交大數據,在企鵝帝國完成數據的製造、流通、消費和挖掘。 騰訊大數據目前釋放價值更多是改進產品。據騰訊Q1財報,增值服務占總收入的78.7%;電子商務業務佔14.1%;網路廣告收入佔6.3%。從廣告收入比例可以看出騰訊的大數據在精準營銷領域暫時還未大量釋放出價值。與其產品線對應的GMAIL、Google+的Google以及社交巨頭Facebook則通過廣告賺得盆滿缽滿。
在筆者看來,騰訊的思路主要是補齊產品,注重QZONE、微信、電商等產品的後端數據打通。例如最近騰訊微博利用「大數據技術」實現好友關系自動分組、低質量信息自動過濾、優質信息分類閱讀等智能化功能。明顯的用數據改進產品的思路。 那麼如果騰訊要深入大數據挖掘缺少什麼呢?筆者認為其只需馬化騰「摁下啟動按鈕」。數據已經准備好了,就差模式,也就是找到需求或者能更深層次驅動大數據利用的產品,而不是用大數據改進自己的產品。騰訊還在觀望,等其他人去試錯驗證出一套模式或者產品後,自己可以「站在巨人肩上」。這是騰訊的典型思維。
在人才方面,騰訊很早便開始重金挖人。尤其是2010年在Google宣布退出中國後,Google圖片搜索創始人朱會燦、Google中國工程研究院副院長顏偉鵬、Google中日韓文搜索演算法的主要設計者,《浪潮之巔》及《數學之美》作者吳軍相繼加入騰訊。搜搜花了很多錢,但被認定為一款無法承載騰訊重託的產品,最後這些大牛都走了。大都回Google了。
騰訊在大數據領域也缺少技術帶頭人。其對公關也不重視。技術大牛很少出來做報告,更不會向網路、阿里那樣主動包裝宣傳技術大牛。其技術雖然低調,但執行力很強。據騰訊的程序員朋友說封閉開發、集體加班是常有的事情。但配套的重金激勵也能跟上。重金之下必有勇夫、騰訊用制度保障技術產出。另外騰訊在高校合作領先一步,在2010年便與清華大學合作成立了清華騰訊聯合實驗室。這么看騰訊的技術人才這塊似乎有短板。會不會到時候馬化騰按下啟動按鈕,發現沒數據挖掘能力呢?不會,騰訊搞不定數據挖掘,到時候依然可以挖到大牛,甚至讀論文來搞定這事兒。數據挖掘已較為成熟。數據挖掘實際是資料庫、統計學、機器學習三個領域的融合。在學術界已經發展多年。不過自然語言識別和深度學習等方面要趕上網路,就難了。除非將網路的數據和眾大牛一起倒騰過來。
總體來看,騰訊目前的大數據策略是先將產品補全,產品後台數據打通,形成穩定生態圈。本階段先利用大數據挖掘改進自己的產品。後期有成熟的模式合適的產品,則利用自家的社交及關系數據時,開展對大數據的進一步挖掘。
三、阿里巴巴:坐擁金數據,嘗試做面向未來的數據集市
阿里巴巴B2B出身,在外貿蓬勃的大環境下,依靠服務中小企業發家。淘寶、支付寶等toC的產品出生前,阿里並不依賴也不擅長技術。業界普遍認為阿里沒有技術基因。直到淘寶、支付寶以及天貓三個產品後,對海量用戶大並發量交易、海量貨架數據的管理、安全性等方面的嚴苛要求,阿里完成進化,在電商技術上取得不菲的成績。在一段時期阿里仍然浪費了手裡掌握的大量數據。這些數據還是「最值錢」的金數據。
數據挖掘無非是從原始數據提取價值。阿里現有的數據產品例如數據魔方、量詞統計、推薦系統、排行榜以及時光倒流相對來說是比較簡單的BI(商業智能),沒到大數據的階段。「大數據」浪潮襲來,阿里提出「數據、金融和平台」戰略。前所未有地重視起對數據的收集、挖掘和共享。馬雲在「退居」前動不動都對外提「數據」。有位阿里朋友甚至開玩笑說,馬雲英文名可以從Jack Ma改為Data Ma。阿里現CEO陸兆禧曾做過CDO,首席數據官。為了用數據來驅動阿里電商帝國,阿里還成立了橫跨各大事業部的「數據委員會」。
阿里的各項投資案也顯示其整合、利用和完善數據的野心:新浪微博的社交及媒體數據、高德的地圖數據和線下數據以及友盟的移動應用數據,都是其數據及平台戰略的一部分。數據戰略正在首席人工智慧官(CBO)車品覺領頭下逐步落地,王堅的雲為其提供基礎設施、基礎技術支撐。
就在馬雲退休之後,王堅對外透露其跟馬雲開玩笑說的一句話:阿里巴巴對數據的理解深度,不會超過蘇寧對電子商務的理解。估計馬雲不一定認同他這話。馬雲對大數據已經有著自己的理解和考量。馬雲曾經說過其對大數據的思考。大致意思是:現在從信息時代進入數據時代了。區別是信息時代更多的是精英玩的游戲。我比別人聰明,我能提取出信息出來;數據時代,別人比我聰明,將數據開放給更聰明的人處理,數據即資產,分析即服務。
計算機發展的過程是從象牙塔、到平民到草根。大數據也是這樣,一開始在象牙塔階段,少數精英公司才能玩;但到後面只要有數據就有價值。數據也有所有權,產生數據、流通數據、挖掘數據的都會獲得相應的價值。而阿里擅長的便是「建立市場」,建立一個數據交易市場。屆時任何個人和企業都可以將數據和挖掘服務拿上去,交易。初期阿里會將自己珍藏的電商和信用數據逐步放到上面。 有數據的人,拿上去賣,或者讓別人分析,分析即服務。沒有數據的人,即可以去買,也可以去幫別人挖掘,做礦工。
阿里並不是技術驅動,而是業務驅動的。因此在技術層面我們看到,基於前面提到的阿里大數據思路,其技術重心主要在系統層面。阿里擁有LVS(Linux Virtual Server,Linux虛擬伺服器)開源軟體創始人章文嵩,Linux Kernal、文件系統、大牛DBA等領域的大牛。從人才布局可以看到阿里擅長的技術領域,體現在對於並發訪問、電信級別的電商業務的支撐方面的得心應手。在去年雙十一期間,支撐了單日過億的訂單量。鐵道部奇葩網12306在日均40萬時已經不行了。
總體來看,阿里更多是在搭建數據的流通、收集和分享的底層架構。自己並不擅長似乎也不會著重來做數據挖掘的活兒。而是將自己擅長的「交易」生意擴展到數據。讓天下沒有難做的「數據生意」。
總結一下
移動互聯網浪潮下,現實世界正在加速數字化,每個人,每個物體、每件事情、每一個時間節點,都在向網上映射。空間和時間兩個維度的聯網,使得數字世界正在接近一步步模擬現實世界。歷史、現在和未來都會映射到網上。對大數據的挖掘正是對世界的二次發現和感知。BAT三巨頭已經出發。
❹ 大數據資料庫有哪些
問題一:大數據技術有哪些 非常多的,問答不能發link,不然我給你link了。有譬如Hadoop等開源大數據項目的,編程語言的,以下就大數據底層技術說下。
簡單以永洪科技的技術說下,有四方面,其實也代表了部分通用大數據底層技術:
Z-Suite具有高性能的大數據分析能力,她完全摒棄了向上升級(Scale-Up),全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據:
跨粒度計算(In-Databaseputing)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益於跨粒度計算技術,Z-Suite數據分析引擎將找尋出最優化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。
並行計算(MPP puting)
Z-Suite是基於MPP架構的商業智能平台,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是伺服器還是普通的PC,她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。
內存計算
得益於列存儲技術和並行計算技術,Z-Suite能夠大大壓縮數據,並同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。
問題二:大數據使用的資料庫是什麼資料庫 ORACLE、DB2、SQL SERVER都可以,關鍵不是選什麼資料庫,而是資料庫如何優化! 需要看你日常如何操作,以查詢為主或是以存儲為主或2者,還要看你的數據結構,都要因地制宜的去優化!所以不是一句話說的清的!
問題三:什麼是大數據和大數據平台 大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
大數據平台是為了計算,現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平台。
問題四:常用大型資料庫有哪些 FOXBASE
MYSQL
這倆可算不上大型資料庫管理系統
PB 是資料庫應用程序開發用的ide,根本就不是資料庫管理系統
Foxbase是dos時代的產品了,進入windows時代改叫foxpro,屬於桌面單機級別的小型資料庫系統,mysql是個中輕量級的,但是開源,大量使用於小型網站,真正重量級的是Oracle和DB2,銀行之類的關鍵行業用的多是這兩個,微軟的MS SQLServer相對DB2和Oracle規模小一些,多見於中小型企業單位使用,Sybase可以說是日薄西山,不行了
問題五:幾大資料庫的區別 最商業的是ORACLE,做的最專業,然後是微軟的SQL server,做的也很好,當然還有DB2等做得也不錯,這些都是大型的資料庫,,,如果掌握的全面的話,可以保證數據的安全. 然後就是些小的資料庫access,mysql等,適合於中小企業的資料庫100萬數據一下的數據.如有幫助請採納,謝!
問題六:全球最大的資料庫是什麼 應該是Oracle,第一,Oracle為商業界所廣泛採用。因為它規范、嚴謹而且服務到位,且安全性非常高。第二,如果你學習使用Oracle不是商用,也可以免費使用。這就為它的廣泛傳播奠定了在技術人員中的基礎。第三,Linux/Unix系統常常作為伺服器,伺服器對Oracle的使用簡直可以說極其多啊。建議樓梗多學習下這個強大的資料庫
問題七:什麼是大數據? 大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托・邁爾-舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法[2])大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
說起大數據,就要說到商業智能:
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。
商業智能作為一個工具,是用來處理企業中現有數據,並將其轉換成知識、分析和結論,輔助業務或者決策者做出正確且明智的決定。是幫助企業更好地利用數據提高決策質量的技術,包含了從數據倉庫到分析型系統等。
商務智能的產生發展
商業智能的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛了解。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。
商務智能是20世紀90年代末首先在國外企業界出現的一個術語,其代表為提高企業運營性能而採用的一系列方法、技術和軟體。它把先進的信息技術應用到整個企業,不僅為企業提供信息獲取能力,而且通過對信息的開發,將其轉變為企業的競爭優勢,也有人稱之為混沌世界中的智能。因此,越來越多的企業提出他們對BI的需求,把BI作為一種幫助企業達到經營目標的一種有效手段。
目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這里所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環境中的各種數據。而商業智能能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。
為了將數據轉化為知識,需要利用數據倉庫、線上分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是ETL、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。
把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合並到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。
企業導入BI的優點
1.隨機查詢動態報表
2.掌握指標管理
3.隨時線上分析處理
4.視覺化之企業儀表版
5.協助預測規劃
導入BI的目的
1.促進企業決策流程(Facilitate the Business Decision-Making Process):BIS增進企業的資訊整合與資訊分析的能力,匯總公司內、外部的資料,整合成有效的決策資訊,讓企業經理人大幅增進決策效率與改善決策品質。
......>>
問題八:資料庫有哪幾種? 常用的資料庫:oracle、sqlserver、mysql、access、sybase 2、特點。 -oracle: 1.資料庫安全性很高,很適合做大型資料庫。支持多種系統平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客戶機/伺服器體系結構及混合的體系結構(集中式、分布式、 客戶機/伺服器)。 -sqlserver: 1.真正的客戶機/伺服器體系結構。 2.圖形化用戶界面,使系統管理和資料庫管理更加直觀、簡單。 3.具有很好的伸縮性,可跨越從運行Windows 95/98的膝上型電腦到運行Windows 2000的大型多處理器等多種平台使用。 -mysql: MySQL是一個開放源碼的小型關系型資料庫管理系統,開發者為瑞典MySQL AB公司,92HeZu網免費贈送MySQL。目前MySQL被廣泛地應用在Internet上的中小型網站中。提供由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網站為了降低網站總體擁有成本而選擇了MySQL作為網站資料庫。 -access Access是一種桌面資料庫,只適合數據量少的應用,在處理少量數據和單機訪問的資料庫時是很好的,效率也很高。 但是它的同時訪問客戶端不能多於4個。 -
問題九:什麼是大數據 大數據是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 大數據首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(putational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
要理解大數據這一概念,首先要從大入手,大是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的......>>
問題十:國內真正的大數據分析產品有哪些 國內的大數據公司還是做前端可視化展現的偏多,BAT算是真正做了大數據的,行業有硬性需求,別的行業跟不上也沒辦法,需求決定市場。
說說更通用的數據分析吧。
大數據分析也屬於數據分析的一塊,在實際應用中可以把數據分析工具分成兩個維度:
第一維度:數據存儲層――數據報表層――數據分析層――數據展現層
第二維度:用戶級――部門級――企業級――BI級
1、數據存儲層
數據存儲設計到資料庫的概念和資料庫語言,這方面不一定要深鑽研,但至少要理解數據的存儲方式,數據的基本結構和數據類型。SQL查詢語言必不可少,精通最好。可從常用的selece查詢,update修改,delete刪除,insert插入的基本結構和讀取入手。
Access2003、Access07等,這是最基本的個人資料庫,經常用於個人或部分基本的數據存儲;MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
SQL Server2005或更高版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台。
BI級別,實際上這個不是資料庫,而是建立在前面資料庫基礎上的,企業級應用的數據倉庫。Data Warehouse,建立在DW機上的數據存儲基本上都是商業智能平台,整合了各種數據分析,報表、分析和展現!BI級別的數據倉庫結合BI產品也是近幾年的大趨勢。
2、報表層
企業存儲了數據需要讀取,需要展現,報表工具是最普遍應用的工具,尤其是在國內。傳統報表解決的是展現問題,目前國內的帆軟報表FineReport已經算在業內做到頂尖,是帶著數據分析思想的報表,因其優異的介面開放功能、填報、表單功能,能夠做到打通數據的進出,涵蓋了早期商業智能的功能。
Tableau、FineBI之類,可分在報表層也可分為數據展現層。FineBI和Tableau同屬於近年來非常棒的軟體,可作為可視化數據分析軟體,我常用FineBI從資料庫中取數進行報表和可視化分析。相對而言,可視化Tableau更優,但FineBI又有另一種身份――商業智能,所以在大數據處理方面的能力更勝一籌。
3、數據分析層
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
Excel軟體,首先版本越高越好用這是肯定的;當然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體;
SAS軟體:SAS相對SPSS其實功能更強大,SAS是平台化的,EM挖掘模塊平台整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收獲的!
JMP分析:SAS的一個分析分支
XLstat:Excel的插件,可以完......>>
❺ 健康大數據分析技術有哪些
21世紀是以生命科學為主導、科學技術迅猛發展的世紀,科技競爭力已成為決定國家前途和命運的重要因素,是推動經濟發展、促進社會進步和維護國家安全的關鍵所在。醫學在生命科學中佔有極其重要的地位,衛生科技的創新和進步,將促進醫療衛生事業的發展,提高全民族的健康素質,增強中國的科技競爭力和綜合國力。世界最新醫學科研技術是包括醫學、葯學、分子生物學、數學、計算科學、以及大數據分析技術等多種學科和技術的綜合。
大數據分析技術主要包括是以最新應用數學、前沿計算科學和信息工程學為核心,以數據挖掘、數據倉庫、商務智能等智能化的信息科技技術為手段,它不僅能夠大幅提高傳統的醫學科研技術,而且在最新的分子生物技術的發展中也發揮著關鍵的作用。
一項新技術的採用,往往意味著全新的方向。如同倫琴射線在醫學上的應用,開創了全新的醫學視角一樣,隨後的CT,MRI,B-US,PETS等新技術的採用一次次的推動了醫學的發展,擴展了醫生的視野,如今,影像學已經是不可缺少的組成部分。信息學的重點是對一切可觀測的指標(如年齡,住址,性別,化驗,治療,影像等一切通過現有手段可以觀測的數據)整合後,結合應用數學,系統工程學,進行再分析、再處理。
少量的個案往往不足以揭示規律和知識,當數量足夠大時,規律才有可能顯現。所以整合成數據倉庫也是必要的。而規律並不僅僅浮在數據表面,所以統計學和數據挖掘成為必要的手段,而在線式的方法提高了速度,基於系統工程的向導式結構有利於穩定大數據分析質量。
當年倫琴射線引入醫學的時候,一定不會想到今日的局面。而將KDD引入醫學領域,在中國廣闊地域,巨大的人口基數下,基於這些特點形成的巨大的衛生信息數據,僅僅是用在線式的傳統方法就可以發現大量有價值的醫學知識,而結合數據挖掘,數據倉庫,系統工程,發現新知識的可能性更是大大增加了。
健康大數據分析技術
大數據分析技術主要包括:
以數據挖掘為核心的知識發現技術,
以數據倉庫為核心的數據整合技術,
以商務智能為核心的智能決策技術。
一、以數據挖掘為核心的知識發現技術
以數據挖掘為核心的知識發現技術可以直接挖掘醫學新知識,幫助科研人員加速取得科研成果,甚至重大科研發現。
運用多種數據挖掘技術探索數據規律,為科研人員的科研設計提供科學依據,為科研命題指明方向,保證了科研的成功率。
數據挖掘是一種突破傳統的分析手段,為各類科研技術提供新的技術方法,大大縮短科研和分析周期,深入揭示醫學潛在規律。
數據挖掘,又稱知識發現(KDD),是從大量的數據中,抽取潛在的、有價值的知識的過程。數據挖掘所探尋的模式是一種客觀存在的、但隱藏在數據中未被發現的知識。例如,KDD可直接挖掘疾病高發人群,疾病及症狀間的未知聯系,化驗指標間的影響關系及化驗指標與疾病間的潛在影響,對未知的檢驗項值進行預測等等。通過可觀測指標推斷不可觀測指標,或通過簡單易行的觀測指標推斷昂貴的或有創的指標。由簡而知繁,由易而知難。再如,在科研設計中利用聚類分析、因子權重分析,我們可以對數據進行科學分組、考察多因素的不同權重、幫助確定析因分析或嵌套分析等不同的科研設計。KDD在醫學中應用非常廣泛,為醫學研究提供傳統方法不能企及的前沿技術手段,例如:
聚類分析關聯規則分析因子權重分析回歸預測分析特性抽取分析
二、以數據倉庫為核心的數據整合技術
以數據倉庫技術為核心的醫學數據整合系統,獨立於已有的醫療機構業務系統,以全新的設計將分散的業務系統產生的不一致的數據進行整理、變換、集成,整合得到全面、高效、一致的信息。
數據倉庫技術還使得對歷史的全部海量數據進行在線的、實時的、深入的分析成為可能,並使其變得很輕松。
直接利用積累的現有醫學數據,使科研成本大大降低,相同的的科研經費取得更多科研成果。
應用數據倉庫的整合技術,使獲得大數據科研樣本數據易如反掌。
結合中國龐大的人口基數和橫跨寒帶溫帶熱帶的廣闊地域,可建成世界上最大的衛生信息數據倉庫,其全面的信息量是每個醫務人員夢寐以求的。如能與世界各國合作,共享,整合,將成為與人類基因組計劃齊名的壯舉。
三、以商務智能為核心的智能決策技術
應用成熟的專業分析系統提供一致的准確的實時的數據分析,為各級各方面衛生決策提供可靠依據,使資源和效率得到優化,還能從經營決策和管理上獲取經濟效益和社會效益。
將商務智能技術(BI)應用於衛生決策分析,使決策者擺脫傳統報表的束縛,以全新的先進的分析手段多維度地深入理解需要的數據,為廣泛而深入的分析提供了新的有力工具。
專業的分析報表如累計貢獻度分析,分攤百分比分析,嵌套排名分析等專業分析報表使決策者對歷史和現狀一目瞭然,對各種業務表現的因果關系能輕松的了如指掌。
健康大數據分析的應用
健康大數據分析技術在如下四個方面得到應用:
疾病與健康研究
環境與健康研究
醫葯生物技術研究
衛生宏觀決策支持
大數據分析技術將在以上方面發揮著特殊的作用。
❻ BAT的金融大數據到底是如何運作的
1、大數據徵信:在個人徵信領域,目前是金融行業面臨的最大問題。基於用戶在互聯網上的消費行為、社交行為、搜索行為等產生的海量數據,其價值並未被充分挖掘,個人徵信在大數據的採集和信息挖掘上面仍有很大的想像空間。阿里的芝麻信用在其中算是最會玩的。芝麻信用幾乎打通了用戶的身份特質,行為偏好,人脈關系,信用歷史,履約能力等各類信息。這恰恰是因為接入了電商、支付、社交等各類數據維度。
2、大數據風控:大數據風控目前應該是前沿技術在金融領域的最成熟應用,相對於智能投顧、區塊鏈等還在初期的金融科技應用,大數據風控目前已經在業界逐步普及。目前,美國基本上都用三大徵信局的信息,最傳統的評分基本上都是用FICO來做的。各家平台會嘗試著用機器學習、神經網路等大數據處理方法。
國內市場對於大數據風控的嘗試還是比較積極。特別是大公司,可以將移動互聯網的行為和貸款申請人聯繫到一起展開大數據風控。網路在風控層面上的進展還是比較突出,網路安全每天要處理數十億網民搜索請求,保護數億用戶的終端安全,保護十萬網站的安全,因此積累了大量的數據。
一個很具體的案例就是,通過海量互聯網行為數據,比如監測相關設備ID在哪些借貸網站上進行注冊、同一設備是否下載多個借貸App,可以實時發現多頭貸款的徵兆,把風險控制到最低。
3、大數據消費金融:消費金融對大數據的依賴是天然形成的。比如說消費貸、工薪貸、學生貸,這些消費型的金融貸款很依賴對用戶的了解。所以必須對用戶畫像進行分析提煉,通過相關模型展開風險評估,並根據模型及數據從多維度為用戶描繪一個立體化的畫像。
網路金融的優勢在於,通過基於大數據和人工智慧技術為基礎的合作商戶管理平台,為合作商戶提供涵蓋營銷和金融服務的全面管理方案,降低獲客成本,解決細分行業的微小需求。一方面可以降低風險,另一方面也能提升金融的安全度。
在大數據消費金融的領域中,騰訊和阿里的優勢很大程度上是在渠道層面上的。正如前文所說的,阿里以電商-支付-信用為三級跳板,針對性很強支付寶接入消費金融產品之後會有較強的渠道作用。而在去年12月,騰訊的「微粒貸」已經接入到了微信支付當中。在消費金融的發展速度上,騰訊速度也不差。
4、大數據財富管理:財富管理是近些年來在我國金融服務業中出現的一個新業務。主要為客戶提供長期的投顧服務,實現客戶資產的優化配置。這方面業務在傳統金融機構中存在的比較多。不過因為技術能力不足,大數據財富管理在傳統金融機構中相對弱勢。
財富管理在互聯網公司的業務中也非常流行。螞蟻金服一開始最為簡單的財富管理方式就是余額寶,後來逐漸演化成經過大數據計算智能推薦給用戶的各種標准化的「寶寶」理財產品。網路金融相對來說更進一步,是依託「網路大腦」通過互聯網人工智慧、大數據分析等手段,精準識別和刻畫用戶,提供專業的「千人千面」的定製化財富管理服務。
金融大數據的孿生兄弟金融雲是地基,未來更具看點
大數據和雲計算永遠都是相伴相隨的一對孿生兄弟。金融大數據核心工作包括三方面,即獲取數據、建立模型、模型在實踐中優化、迭代。而對於金融大數據而言,金融雲才是它的地基。
打個不恰當的比方,前文中說大數據是煤礦,而金融雲其實就是礦井。礦井的安全行、可靠性決定了挖煤的效率和結果。
金融雲把底層技術很多問題都解決了。大量金融模型都是金融雲所引入的,如客戶模型、產品模型、賬務模型等。同時金融雲關注金融本身的嚴謹性和周密性、安全性的考慮。
2016年7月,「騰訊雲+未來」峰會上,騰訊雲和騰訊金融雲都已成為最重點部署的業務。同年9月,網路世界大會金融科技分論壇上,網路金融雲正式向業界開放。據時任網路金融研發負責人沈抖表示,網路金融雲將通過人工智慧、安全防護、智能獲客、大數據風控、IT系統、支付等六大技術能力給合作夥伴賦能。10月,阿里雲棲大會上,阿里金融雲負責人則是提出將會和生態合作夥伴、服務聯盟為金融行業量身定製推出雲增強服務。
大數據必須要跑在雲端,而金融大數據更需要和業內其他企業展開數據、支付、業務等一系列的合作。金融雲對可用性、安全性的要求嚴格,比如說對一個高度可控可信的雲安全體系而言,基礎環境安全、風控與審計、數據安全三者缺一不可。而金融雲在未來的競爭中將發揮越來越重要的作用。
?
❼ BAT的互聯網大數據應用有何不同
從數據類型看,騰訊數據最為全面,這與其互聯網業務全面相關,其最為突出的是社交數據和游戲數據,其中:社交數據最為核心的是關系鏈數據、用戶間的互動數據、用戶產生的文字、圖片和視頻內容;游戲數據主要包括大型網游數據、網頁游戲數據和手機游戲數據,游戲數據中最為核心的是游戲的活躍行為數據和付費行為數據,騰訊的數據最大的特點是基於社交的各種用戶行為和娛樂數據。阿里最為突出的是電商數據,尤其是用戶在淘寶和天貓上的商品瀏覽、搜索、點擊、收藏和購買等數據,其數據最大特點是從瀏覽到支付形成的用戶漏斗式轉化數據。網路的數據以用戶搜索的關鍵詞、爬蟲抓取的網頁、圖片和視頻數據為主,網路的數據特點是通過搜索關鍵詞更直接反映用戶興趣和需求,網路的數據以非結構化數據更多。
網路、阿里巴巴和騰訊的數據應用場景
網路、阿里巴巴和騰訊的數據應用場景都有共同的體系,該體系一共分為七層,代表了企業不同層面的數據價值應用場景,形成了企業運營的數據價值金字塔:
(1)數據基礎平台層。金字塔的最底層也是整個金字塔的基礎層,如果基礎層搭建不好,上面的應用層也很難在企業運營中發揮效果,這一層的技術目標是實現數據的有效存儲、計算和質量管理;業務目標是把企業的所有用戶(客戶)數據用唯一的ID串起來,包括用戶(客戶)的畫像(如性別、年齡等)、行為以及興趣愛好等,以達到全面的了解用戶(客戶)的目的;
(2)業務運營監控層。這一層首要的是搭建業務運營的關鍵數據體系,在此基礎上通過智能化模型開發出來的數據產品,監控關鍵數據的異動,通過各種分析模型等可以快速定位數據異動的原因,輔助運營決策;
(3)用戶/客戶體驗優化層。這一層主要是通過數據來監控和優化用戶/客戶的體驗問題。這裡面既運用了結構化的數據來監控,也運用非結構化的數據(如文本)來監控體驗的問題。前者更多的是應用各種用戶(客戶)體驗監測的模型或者工具來實現,後者更多的是通過監測微博、論壇和企業內部的客戶反饋系統的文本來發現負面的口碑,以及時的優化產品或服務;
(4)精細化運營和營銷層。這一層主要通過數據驅動業務精細化運營和營銷。主要可以分為四方面:第一,構建基於用戶的數據提取和運營工具,以方便運營和營銷人員通過人群定向把客戶提取出來,從而對客戶進行營銷或運營活動;第二方面,通過數據挖掘的手段提升客戶對活動的響應;第三,通過數據挖掘的手段進行客戶生命周期管理;第四,主要是用個性化推薦演算法基於用戶不同的興趣和需求推薦不同的商品或者產品,以實現推廣資源效率和效果最大化,如淘寶商品的個性化推薦;
(5)數據對外服務和市場傳播層面。數據對外服務一般為服務該互聯網企業的客戶或用戶,如網路通過提供網路輿情、網路代言人、網路指數等服務其廣告主客戶;淘寶通過數據魔方、淘寶情報和在雲端等產品服務其客戶;騰訊通過騰訊分析和騰訊雲分析等服務其開放商客戶。在市場傳播層面,主要通過有趣的數據信息圖譜和數據可視化產品來實現(如淘寶指數、網路指數、網路春節遷徙地圖)。
(6)經營分析層面。主要通過分析師對大數據進行統計,形成經驗分析周報、月報和季度報告等,對用戶經營情況和收入完成等情況進行分析,發現問題,優化經營策略。
(7)戰略分析層面。這方面既要結合內部的大數據形成決策層的數據視圖,也要結合外部數據尤其是各種競爭情報監控數據、國外趨勢研究數據來輔助決策層進行戰略分析。
雖然網路、阿里巴巴和騰訊在企業運營的數據價值的應用體繫上有共同的特點,但由於企業的商業模式以及數據資產不同,他們在整體的大數據發展策略也有顯著的不同。
網路大數據策略
網路大數據最重要的是來源是通過爬蟲搜集的100多個國家的近萬億網頁數據,數據量是在EB級的規模。網路的數據非常多樣化,其收集的數據既有為非結構化的或者半結構化的數據,包括網頁數據、視頻和圖片等數據,也有結構化的數據,如用戶的點擊行為數據,廣告客戶的付費行為數據等。
網路大數據主要服務三類人群:一類是互聯網網民,通過大數據和自然語言處理技術讓網民的搜索更加准確;第二類是廣告主,通過大數據讓廣告主的廣告和搜索關鍵詞的匹配度更高,或者和網民正在看的網頁內容匹配度更高;第三類是,也是在重點推進的網路大數據引擎,重點是服務傳統行業擁有一定規模數據的企業。
網路大數據引擎代表了互聯網企業數據服務能力開放和合作的趨勢,網路大數據引擎由以下三方面構成:
開放雲:網路的大規模分布式計算和超大規模存儲雲,開放雲大數據開放的是基礎設施和硬體能力。過去的網路雲主要面向開發者,大數據引擎的開放雲則是面向有大數據存儲和處理需求的「大開發者」。據網路相關人員稱,網路開放雲還擁有CPU利用率高、彈性高、成本低等特點。網路是全球首家大規模商用ARM伺服器的公司,而ARM架構的特徵是能耗小和存儲密度大,同時網路還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。
數據工廠:數據工廠為網路將海量數據組織起來的軟體能力,與資料庫軟體的作用類似,不同的是數據工廠是被用作處理TB級甚至更大的數據。網路數據工廠支持超大規模異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業務場景。同時網路數據工廠還將承載對於TB級別大表的並發查詢和掃描,大查詢、低並發時每秒可達百GB。
網路大腦:網路大腦將網路此前在人工智慧方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,並通過網路Inside等平台開放給了智能硬體。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用,並對外開放。
網路將基礎設施能力、軟體系統能力以及智能演算法技術打包在一起,通過大數據引擎開放出來之後,擁有大數據的行業可以將自己的數據接入到這個引擎進行處理。從架構來看,企業或組織也可以只選擇三件套中的一種來使用,例如數據存放在自己的雲,但要運用網路大腦的一些智能演算法或者數據存放在網路雲,自己寫演算法。
網路大數據引擎的作用
我們可以從兩方面來具體看網路大數據引擎的作用:
(1)對於政府機構:如交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據,如果這些數據與網路的搜索記錄、全網數據、LBS數據結合,在利用網路大數據引擎的大數據能力,則可以實現智能路徑規劃和運力管理;衛生部門擁有流感法定報告數據、全國流感樣病例哨點監測和病原學監測數據,如果和網路的搜索記錄及全網數據結合,便可進行流感預測、疫苗接種指導。
(2)對於企業:很多企業也擁有海量大數據,不過很多企業的大數據處理和挖掘能力比較弱,如果應用網路大數據引擎,則可以對海量數據進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。如在2014年4月的網路技術開放日上,中國平安便介紹了如何利用網路的大數據能力加強消費者理解和預測,細分客戶群制定個性化產品和營銷方案。
阿里巴巴大數據策略
阿里巴巴大數據整體發展方向是以激活生產力為目的的DT(data technology,數據技術驅動)數據時代發展。阿里巴巴大數據未來將由「基於雲計算的數據開放+大數據工具化應用」組成:
(1)基於雲計算的數據開放。雲計算使中小企業可以在阿里雲上獲得數據存儲、數據處理服務,也可以構建自己的數據應用。雲計算是數據開放的基礎,雲計算可以為全球的數據開發者提供數據工作平台,阿里分布式的存儲平台和在這個平台上的演算法工具,可以更好的為數據開發者所用;同時,阿里巴巴還需要做好數據的脫敏,把數據的商業定義,每個標簽打得足夠清晰,能夠讓全球的數據開發者在阿里巴巴平台展開數據思維,讓數據為政府所用、消費者所用以及行業所用。阿里的大數據開放之後,線上線下的數據能夠串聯起來,所有人都是數據提供方,也是數據的使用者。
(2)在大數據應用上,馬雲已經在整個數據應用上確定了兩個方針:
第一個方針:從IT到DT(數據技術),DT就是點燃整個數據和激發整個數據的力量,被管理所用,被社會所用,被銷售所用,為製造業所用,為消費者信用所用。前文已經分析道,阿里巴巴的數據資產是以電商為主,其中,淘寶和天貓每天會產生豐富多樣的數據,阿里巴巴已經沉澱了包括交易、金融、生活服務等多種類型的數據。這些數據能夠幫助阿里巴巴進行數據化運營(如下圖)。
另外一個其最為重要的應用是金融領域——小微金融。在小微金融企業融資領域。由於銀行無法掌握小微企業真實的經營數據,不僅導致很多企業無法拿到貸款,還因為數據類型的不足導致整個判斷流程過長,阿里已經通過其電商數據中的交易、信用、SNS等多種數據來決定是否可以發放貸款以及放貸的額度。
第二個方針:讓阿里巴巴的數據、讓阿里巴巴的工具能夠成為中國商業的基礎設施。阿里巴巴已經開始在轉型,阿里將由自己直接面對消費者變成支持網商面對消費者,阿里會根據其已有的運營和數據經驗,開發更多的工具,幫助網商成長,讓網商們更懂得用最好的工具、服務去服務好消費者。正如馬雲所言「我相信沒有一個網商不希望擁有自己的客戶,沒有一個網商不希望知道客戶對自己的體驗到底好還是壞,如何持久的擁有這些客戶,我們覺得一個國家的經濟,應該讓給企業家群體去做,我們覺得淘寶網商未來的經濟,是應該留給網商們去決定,而不是我們去做決定」。
騰訊大數據策略
騰訊的大數據目前更多的是為騰訊企業內部運營服務,相對於阿里和網路,數據開放程度並不高。因此,對於騰訊我們主要重點介紹騰訊大數據在服務企業內部的應用場景和服務。
騰訊90%以上的數據已經實現集中化管理,數據集中在數據平台部,有超過100多個產品的數據已經集中管理起來,而且是集中存儲在騰訊自研數據倉庫(TDW)。騰訊大數據從數據應用的不同環節可以分為四個層面,包括數據分析、數據挖掘、數據管理和數據可視化:
(1)數據分析層有四個產品:自助分析、用戶畫像、實時多維度分析和異動智能定位工具。自助分析可以幫助非技術人員通過簡單的條件配置實現數據的統計和展示功能;用戶畫像則是對某一群用戶或者某一業務的用戶實現自動化的人群畫像;實時多維度分析工具則是可以對某一指標可以實現實時的多個維度的切分,方便分析人員從不同角度對某一指標進行多維度分析;異動智能定位工具則實現數據異動問題的智能化定位。
(2)數據挖掘層面的產品應用有:精準廣告系統、用戶個性化推薦引擎和客戶生命周期管理。精準廣告系統如廣點通,是基於騰訊大社交平台的海量數據為基礎,通過精準推薦演算法,以智能定向推廣位導向實現廣告精準投放;用戶個性化推薦引擎根據每位用戶的興趣和喜好,通過個性化推薦演算法(協同過濾、基於內容推薦、圖演算法、貝葉斯等),實現產品的個性化推薦需求;客戶生命周期管理系統,則是基於大數據,根據用戶/客戶的所處的不同生命周期進行數據挖掘,建立預測、預警和用戶特徵模型,以根據用戶/客戶所處的不同生命周期特點進行精細化運營和營銷。
(3)在數據管理層面則有:TDW(騰訊數據倉庫)、TDBank(數據銀行)、元數據管理平台和任務調度系統和數據監控。這一層面主要是實現數據的高效集中存儲、數據的業務指標定義管理、數據質量管理、計算任務的及時調度和計算以及數據問題的監控和告警。
(4)在數據可視化層面有:自助報表工具、騰訊羅盤、騰訊分析和騰訊雲分析等工具。自助報表工具可以自助化的實現結構相對簡單和邏輯相對簡單的報表。騰訊羅盤分為內部版和外部版,內部版則是服務於騰訊內部用戶(產品經理、運營人員和技術人員等)的高效報表工具,外部版則是服務於騰訊合作夥伴如開發商的報表工具。騰訊分析是網站分析工具,幫助網站主進行網站的全方位分析。騰訊雲分析則是幫助應用開發商決策和運營優化的分析工具。
總的來看,網路、阿里巴巴和騰訊三大互聯網企業都擁有大數據,三大互聯網巨頭的數據都用來優化自己業務的運營效果,從這個層面看,其數據價值應用場景比較類似。但由於其業務和商業模式的不同決定了三者數據資產的不同,也決定了三者未來大數據策略的不同,尤其是基於大數據的開放和合作角度看,網路和阿里巴巴相對更加開放。對於重視大數據開放和合作的互聯網企業,他們最為期待的是借著大數據開放的策略,與更多的傳統行業交換更多的數據,從而更好的豐富其在線下數據,形成線上和線下數據的協同,從中拓展新的商業模式,如智能硬體和大數據健康。