『壹』 twitter的storm系統屬於哪種大數據處理系統
實時大數據系統
相關知識:
Hadoop(大數據分析領域無可爭辯的wang者)專注於批處理。這種模型對許多情形(比如為網頁建立索引)已經足夠,但還存在其他一些使用模型,它們需要來自高度動態的來源的實時信息。為了解決這個問題,就得藉助 Nathan Marz 推出的 Storm(現在在 Twitter 中稱為 BackType)。Storm 不處理靜態數據,但它處理預計會連續的流數據。考慮到 Twitter 用戶每天生成 1.4 億條推文 (tweet),那麼就很容易看到此技術的巨大用途。
但 Storm 不只是一個傳統的大數據分析系統:它是復雜事件處理 (CEP) 系統的一個示例。CEP 系統通常分類為計算和面向檢測,其中每個系統都可通過用戶定義的演算法在 Storm 中實現。舉例而言,CEP 可用於識別事件洪流中有意義的事件,然後實時地處理這些事件。
『貳』 大數據熱門詞彙匯總
大數據熱門詞彙匯總
可以說,大數據是如今IT行業最熱門的趨勢之一,它催生出了處理大數據的一批全新技術。而新技術帶來了新的熱門詞彙:首字母縮略詞、專業術語和產品名稱等。連"大數據"這個短語本身都讓人犯暈。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。
下面是我們認為你要熟悉的幾個熱門詞彙,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保資料庫事務的數據完整性。雖然ACID問世已有一段時日,但是事務數據量的急劇增長把更多的注意力投向在處理大數據時需要滿足ACID的規定。
大數據三要素
如今的IT系統在生成數量、速度和種類都很"龐大"的數據。
數量:IDC公司估計,今年全球信息總量將達到2.7澤位元組(這相當於27億太位元組),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數據數量,還有數據從金融系統、零售系統、網站、感測器、無線射頻識別(RFID)晶元以及Facebook和推特等社交網路源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系資料庫中整齊排列的行和列中。現在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。
列式(或列型)資料庫
一些新一代資料庫(如開源Cassandra和惠普的Vertica資料庫)被設計成了按列存儲數據,而不是像傳統的SQL資料庫那樣按行存儲數據。這種設計提供了更快的磁碟訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式資料庫尤其受到歡迎。
數據倉庫
數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線資料庫
但是隨著數據量急劇增長,數據倉庫系統正在迅速改變。它們需要存儲更多的數據以及更多種類的數據,因而數據倉庫管理成為一大難題。10年或20年前,數據可能每周或每月復制到數據倉庫系統中;而如今,數據倉庫的更新要頻繁得多,有的甚至實時更新。
ETL
將數據從一個資料庫(比如支持銀行應用事務處理系統的資料庫)轉移到另一個資料庫(比如用於業務分析的數據倉庫系統)時,就要用到提取、轉換和載入(ETL)軟體。數據從一個資料庫傳送到另一個資料庫時,常常需要對數據進行重新格式化和清理操作。
由於數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬於Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用於為Hadoop填充數據。該技術使用散布於應用伺服器、Web伺服器、移動設備及其他系統上的軟體代理,收集數據,並將數據傳送到Hadoop系統。
比如說,公司可以使用在Web伺服器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。
地理空間分析
推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基於地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。
Hadoop
Hadoop是一種開源平台,用於開發分布式、數據密集型的應用程序。它由Apache軟體基金會控制。
Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapRece概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關系資料庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。
內存中資料庫
計算機在處理事務或執行查詢時,一般從磁碟驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。
內存中資料庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中資料庫產品包括SAP HANA和甲骨文Times Ten內存中資料庫。
Java
Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,於1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用於管理該服務網站的活動流(關於網站使用情況的數據)和操作數據處理流水線(關於伺服器組件的性能)。
Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。
Apache軟體基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟體。
延遲時間
延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。
雖然延遲時間不是什麼新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Rece)這種方法是指把一個復雜的問題分解成多個較小的部分,然後將它們分發到多台計算機上,最後把它們重新組裝成一個答案。
谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapRece的框架。
谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL資料庫
大多數主流的資料庫(如甲骨文資料庫和微軟SQL Server)基於關系型體系結構,使用結構化查詢語言(SQL)用於開發和數據管理。
但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代資料庫系統基於支持者們認為更適合處理大數據的體系結構。
一些NoSQL資料庫是為提高可擴展性和靈活性設計的,另一些NoSQL資料庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL資料庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。
Oozie
Apache Oozie是一種開源工作流引擎,用於幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapRece)來加以定義,然後彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。
Pig
Pig是Apache軟體基金會的另一個項目,這個平台用於分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用於開發在Hadoop上運行的並行計算查詢。
定量數據分析
定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。
由於如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業務,並且洞察市場發展趨勢,那麼更多的數據也有望在數據分析方面帶來更多的機會。
一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。
關系資料庫
關系資料庫管理系統(RDBM)是如今使用最廣泛的一種資料庫,包括IBM的DB2、微軟的SQL Server和甲骨文資料庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟體,大多數的企業事務處理系統都在RDBM上運行。
但有些人認為,關系資料庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼於處理字母數字數據,處理非結構化數據時不是同樣有效。
分片
隨著資料庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種資料庫分區技術,把資料庫分成了更小、更容易管理的部分。具體來說,資料庫被橫向分區,以便單獨管理資料庫表中的不同行。
分片方法讓龐大資料庫的片段可以分布在多台伺服器上,從而提高資料庫的整體運行速度和性能。
另外,Sqoop是一種開源工具,用於將來自非Hadoop來源(如關系資料庫)的數據轉移到Hadoop環境。
文本分析
導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由於文本是非結構化數據(不像通常存儲在關系資料庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。
文本分析採用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基於文本的數據中獲得洞察力。
非結構化數據
就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系資料庫中,並由商業智能工具來分析。
但是如今共計2.7澤位元組的存儲數據中很大一部分是非結構化數據,比如基於文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鍾有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。
可視化
隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。
這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。
Whirr
Apache Whirr是一組Java類庫,用於運行大數據雲服務。更確切地說,它可以加快在亞馬遜彈性計算雲(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。
XML
可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,後者用來顯示數據)。藉助XML,程序員們就可以創建通用的數據格式,並通過互聯網共享信息和格式。
由於XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。
堯位元組
堯位元組(yottabyte)是一種數據存儲度量指標,相當於1000澤位元組。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤位元組,比2011年增長48%。所以,我們離達到堯位元組這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想像的要快。
順便說一下,1澤位元組相當於1021位元組的數據。它相當於1000艾位元組(EB)、100萬拍位元組(PB)和10億太位元組(TB)。
ZooKeeper
ZooKeeper是由Apache軟體基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網路的Hadoop節點。
ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的資料庫。ZooKeeper是一項集中式服務,用於維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗餘服務。
『叄』 大數據的來源有哪三個
品牌型號:華為MateBook D15
大數據的來源有交易數據、人為數據、機器和感測器數據。
交易數據包括POS機數據、信用卡刷卡數據等;人為數據,包括電子郵件、文檔、圖片以及通過微信、博客、推特等產生的數據流;機器和感測器數據,如感應器、量表和其它設施的數據。
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
『肆』 2020年度大數據解決方案TOP50出爐!智領雲榜上有名
近年來,我國大數據生態環境不斷向好,產業發展維持高增長態勢,大數據技術在與政府、企業核心業務的融合中,釋放出了更多創新活力和應用潛能。
此次上榜企業,均屬於大數據領域的驅動力量,也是其所在行業不可替代的創新主力。入選榜單進一步提升了智領雲的品牌形象和影響力,更是對公司產品與技術實力的認可。
未來我們將不斷挖掘大數據的巨大潛力,擴大自身專業性和影響力,更好地支撐企業數字化建設,落地更多的數字化創新應用,不斷 探索 大數據產業鏈的融合應用,為各行各業數字化轉型提供可實踐的方法論與經驗,並致力於為大數據與行業的融合創新不斷貢獻自己的力量。
關於智領雲
武漢智領雲 科技 有限公司成立於2016年8月,專注於雲計算、大數據領域前沿技術的研發。公司創始團隊成員來自於推特(Twitter)、蘋果(Apple)和藝電(EA)等矽谷知名企業,是矽谷最早一批從事雲計算和大數據研究與實踐的技術專家,擁有十多年的雲計算、大數據系統的系統架構和系統開發經驗。公司作為擁有雲計算、大數據領域核心技術的高 科技 企業獲得了來自矽谷、國內知名投資人和投資機構的青睞。
公司為企業級客戶提供雲原生數據中台系統解決方案;幫助企業搭建數據和AI中台,輕松打造業務數據能力閉環,掌握全面、及時、更多維度的業務現狀,提升數據驅動應用的迭代和發布速度;實現系統資產(人/資源/數據/應用) 在同一系統中的統一管理,建立數字化運營體系,並最終完成數據驅動的數字化轉型。
公司在能源、教育、醫療 健康 、物聯網、金融等行業同國內外很多知名企業和上市公司建立了合作關系,包括:D2IQ(Mesos平台的主要開發商),埃克森美孚(中國)、天源迪科、中電數據、天喻教育、深圳智宇、青島賽維、廣州暢驛、楚天雲、華訊網路、南瑞集團等。公司與合作夥伴在多個領域中展開緊密的合作,充分利用各自的優勢,共同為企業客戶提供更有價值的雲計算、大數據產品和技術服務。
『伍』 大數據將對國家治理和社會生活帶來哪些根本性改革
很榮幸能為你解答!
一、「四個結合」助力國家大數據戰略
實施國家大數據戰略部署和頂層設計,需要我們做到「四個結合」:把數據開放和市場基於數據的創新結合起來。擁有80%的數據資源,如果不開放,大數據戰略就會成為無源之水,市場主體如果不積極利用數據資源進行商業創新,數據開放的價值就無從釋放;把大數據與國家治理創新結合起來。國務院的部署明確提出,「將大數據作為提升治理能力的重要手段」「提高社會治理的精準性和有效性」,用大數據「助力簡政放權,支持從事前審批向事中事後監管轉變」「藉助大數據實現負面清單、權力清單和責任清單的透明化管理,完善大數據監督和技術反腐體系」,並具體部署了四大重大工程:數據資源共享開放工程、國家大數據資源統籌發展工程、治理大數據工程、公共服務大數據工程;把大數據與現代產業體系結合起來。這里涉及農業大數據、工業大數據、新興產業大數據等,我國的產業結構優化升級迎來難得的歷史機遇;把大數據與大眾創業、萬眾創新結合起來。國務院專門安排了「萬眾創新大數據工程」,數據將成為大眾創業、萬眾創新的肥沃土壤,數據密集型產業將成為發展最快的產業,擁有數據優勢的將迅速崛起。
此外,我國作為世界製造業第一大國,需要高度關注一個現實——大數據重新定義了製造業創新升級的目標和路徑。無論是德國提出的工業40戰略,還是美國通用提出的工業互聯網理念,本質正是先進製造業和大數據技術的統一體。大數據革命驟然改變了製造業演進的軌道,加速了傳統製造體系的產品、設備、流程貶值淘汰的進程。數字工廠或稱智能工廠,是未來製造業轉型升級的必然方向。我國面臨著從「製造大國」走向「製造強國」的歷史重任,在新的技術條件下如何適應變化、如何生存發展、如何參與競爭,是非常現實的挑戰。
二、推動大數據在國家治理上的應用
在大數據條件下,數據驅動的「精準治理體系」「智慧決策體系」「陽光權力平台」將逐漸成為現實。大數據已成為全球治理的新工具,聯合國「全球脈動計劃」就是用大數據對全球范圍內的推特(Twitter)和臉譜(Facebook)數據和文本信息進行實時分析監測和「情緒分析」,可以對疾病、動亂、種族沖突提供早期預警。在國家治理現代化進程中推動大數據應用,是我們繁重而緊迫的任務。
在治理方面,可以藉助大數據實現智慧治理、數據決策、風險預警、智慧城市、智慧公安、輿情監測等。大數據將通過全息的數據呈現,使從「主觀主義」「經驗主義」的模糊治理方式,邁向「實事求是」「數據驅動」的精準治理方式。
經濟治理領域也是大數據創新應用的沃土,大數據是提高經濟治理質量的有效手段。互聯網系統記錄著每一位生產者、消費者所產生的數據,可以為每個市場主體進行「精確畫像」,從而為經濟治理模式帶來突破。判斷經濟形勢好壞不再僅僅依賴統計樣本得來的數據,而是可以通過把海量微觀主體的行為加總,推導出宏觀大趨勢;銀行發放貸款不再受制於信息不對稱,通過貸款對象的大數據特徵可以很好地預測其違約的可能性;打擊假冒偽劣、建設「信用中國」也不再需要消耗大量人力、物力,大數據將使危害市場秩序的行為無處遁形。
在公共服務領域,基於大數據的智能服務系統,將會極大地提升人們的生活體驗,智慧醫療、智慧教育、智慧出行、智慧物流、智慧社區、智慧家居等等,人們享受的一切公共服務將在數字空間中以新的模式重新構建。
三、加強大數據動態的跟蹤研究
我國要從「數據大國」成為「數據強國」,藉助大數據革命促進國家治理現代化,還有幾個關鍵問題需要深入研究。
切實建設數據政策體系、數據立法體系、數據標准體系。以數據立法體系為例,一定要在數據開放和隱私保護之間權衡利弊,找到平衡點。
重視對「數據主權」問題的研究。藉助大數據技術,美國和互聯網、大數據領軍緊密結合,形成「數據情報聯合體」,對全球數據空間進行掌控,形成新的「數據霸權」。思科、IBM、谷歌、英特爾、蘋果、甲骨文、微軟、高通等產品幾乎滲透到世界各國的、海關、郵政、金融、鐵路、民航系統。在這種情況下,我國數據主權極易遭到侵蝕。對於我國來說,在伺服器、軟體、晶元、操作系統、移動終端、搜索引擎等關鍵領域實現本土產品替代進口產品,具有極高的戰略意義,也是維護數據主權的必要條件。
「數據驅動發展」或將成為對沖當前經濟下行壓力的新動力。大數據是促進生產力變革的基礎性力量,這包括數據成為生產要素,數據重構生產過程,數據驅動發展等。數據作為生產要素其邊際成本為零,不僅不會越消耗越少,反而保持「摩爾定律」所說的指數型增長速度。這就可能給我國經濟轉型升級帶來新動力,對沖經濟下行壓力。
需要建設一個高質量的「大數據與國家治理實踐案例庫」。國家行政學院一直重視案例庫的建設,在中央的重視和支持下,就大數據促進國家治理這一主題,各部門、各地方涌現出大量創新性的實踐
『陸』 大數據有哪些來源
大數據分析的數據來源有很多種,包括公司或者機構的內部來源和外部來源。分為以下幾類:
1)交易數據。包括POS機數據、信用卡刷卡數據、電子商務數據、互聯網點擊數據、「企業資源規劃」(ERP)系統數據、銷售系統數據、客戶關系管理(CRM)系統數據、公司的生產數據、庫存數據、訂單數據、供應鏈數據等。
2)移動通信數據。能夠上網的智能手機等移動設備越來越普遍。移動通信設備記錄的數據量和數據的立體完整度,常常優於各家互聯網公司掌握的數據。移動設備上的軟體能夠追蹤和溝通無數事件,從運用軟體儲存的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更即報告一個新的地理編碼)等。
3)人為數據。人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產生的數據流。這些數據大多數為非結構性數據,需要用文本分析功能進行分析。
4)機器和感測器數據。來自感應器、量表和其他設施的數據、定位/GPS系統數據等。這包括功能設備會創建或生成的數據,例如智能溫度控制器、智能電表、工廠機器和連接互聯網的家用電器的數據。來自新興的物聯網(Io T)的數據是機器和感測器所產生的數據的例子之一。來自物聯網的數據可以用於構建分析模型,連續監測預測性行為(如當感測器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)等。
5)互聯網上的「開放數據」來源,如政府機構,非營利組織和企業免費提供的數據。
『柒』 大數據可以應用在哪些方面
大數據應用於各個行業,包括金融、汽車、餐飲、電信、能源、娛樂等在內的社會各行各業都已經融入了大數據的痕跡。
1、製造業:利用工業大數據提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。
2、金融業:大數據在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
3、汽車行業:利用大數據和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。
4、互聯網行業:藉助於大數據技術分析用戶行為,進行商品推薦和針對性廣告投放。
5、餐飲行業:利用大數據實現餐飲O2O模式,徹底改變傳統餐飲經營方式。
6、電信行業:利用大數據技術實現客戶離網分析,及時掌握客戶離網傾向,出台客戶挽留措施。
7、能源行業:隨著智能電網的發展,電力公司可以掌握海量的用戶用電信息,利用大數據技術分析用戶用電模式,可以改進電網運行,合理設計電力需求響應系統,確保電網運行安全。
8、物流行業:利用大數據優化物流網路,提高物流效率,降低物流成本。
9、城市管理:利用大數據實現智能交通、環保監測、城市規劃和智能安防。
11、公共安全領域:政府利用大數據技術構建強大的國家安全保障體系,公共安全領域的大數據分析應用,反恐維穩與各類案件分析的信息化手段,藉助大數據預防犯罪。
12、個人生活:大數據還可以應用於個人生活,利用與每個人相關聯的「個人大數據」,分析個人生活行為軌跡,為其提供更加周到的個性化服務。
大數據的價值遠不止於此,大數據對各行各業的滲透,是推動社會生產和生活的核心要素。
(7)推特大數據擴展閱讀
七個典型的大數據應用案例
1、梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
2、Tipp24AG針對歐洲博彩業構建的下注和預測平台。該公司用KXEN軟體來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了悉指培90%的預測模型構建時間。SAP公司正在試圖收購KXEN。
3、沃爾瑪的搜索。這家零售業寡頭為其網站Walmart.com自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。「對睜唯沃爾瑪來說,這就意味著數十億美元的金額。」Laney說。
4、快餐業的視頻分析。該公司通過視頻分析等候隊列的長度,然後自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但准備時間相對長的食品。
5、Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位於芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之後抵達該處)時,Morton就開始了自己的社交秀。首先,分析推逗改特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然後派出一位身著燕尾服的侍者為客戶提供晚餐。
6、PredPolInc.。PredPol公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測演算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該演算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。
7、TescoPLC(特易購)和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控並進行主動的維修以降低整體能耗。