❶ 怎樣理解互聯網行業「數據分析」的意義
互聯網企業擁有大量的線上數據,而且數據量還在快速增長,除了利用大數據提升自己的業務之外,互聯網企業已經開始實現數據業務化,利用大數據發現新的商業價值。
以阿里巴巴為例,它不僅在不斷加強個性化推薦、「千人千面」這種面向消費者的大數據應用,並且還在嘗試利用大數據進行智能客戶服務,這種應用場景會逐漸從內部應用延展到外部很多企業的呼叫中心之中。
在面向商家的大數據應用中,以「生意參謀」為例,超過 600 萬商家在利用「生意參謀」提升自己的電商店面運營水平。除了面向自己的生態之外,阿里巴巴數據業務化也在不斷加速,「芝麻信用」這種基於收集的個人數據進行個人信用評估的應用獲得了長足發展,應用場景從阿里巴巴的內部延展到越來越多的外部場景,如租車、酒店、簽證等。
因為客戶的所有行為都會在互聯網平台上留下痕跡,所以互聯網企業可以方便地獲取大量的客戶行為信息。由互聯網商務平台產生的信息一般具有真實性和確定性,通過運用大數據技術對這些數據進行分析,可以幫助企業制定出具有針對性的服務策略,從而獲取更大的效益。近年來的實踐證明,合理地運用大數據技術能夠將電子商務的營業效率提高 60% 以上。
大數據在過去幾年中已經改變了電子商務的面貌,具體來講,電子商務行業的大數據應用有以下幾個方面:精準營銷、個性化服務、商品個性化推薦。
1. 精準營銷
互聯網企業使用大數據技術採集有關客戶的各類數據,並通過大數據分析建立「用戶畫像」來抽象地描述一個用戶的信息全貌,從而可以對用戶進行個性化推薦、精準營銷和廣告投放等。
當用戶登錄網站的瞬間,系統就能預測出該用戶今天為何而來,然後從商品庫中把合適的商品找出來,並推薦給他。圖 1 顯示了用戶畫像會包括哪些用戶基本信息和特性。
圖 4 Netflix 電影推薦
YouTube 作為美國最大的視頻網站,擁有大量用戶上傳的視頻內容。為了解決視頻庫的信息過載問題,YouTube 在個性化推薦領域也進行了深入研究,現在使用的也是基於物品的推薦演算法。實驗證明,YouTube 個性化推薦的點擊率是熱門視頻點擊率的兩倍。
3)網路電台
個性化網路電台也很適合進行個性化推薦。首先,音樂很多,用戶不可能聽完所有的音樂再決定自己喜歡聽什麼,而且每年新的歌曲在以很快的速度增加,因此用戶無疑面臨著信息過載的問題。其次,人們聽音樂時,一般都是把音樂作為一種背景樂來聽,很少有人必須聽某首特定的歌。對於普通用戶來說,聽什麼歌都可以,只要能夠符合他們當時的心情就可以了。因此,個性化音樂網路電台是非常符合個性化推薦技術的產品。
目前有很多知名的個性化音樂網路電台。國際上著名的有 Pandora 和Last.fm | Play music, find songs, and discover artists,國內的代表則是豆瓣電台。這 3 個個性化網路電台都不允許用戶點歌,而是給用戶幾種反饋方式:喜歡、不喜歡和跳過。經過用戶一定時間的反饋,電台就可以從用戶的歷史行為中獲得用戶的興趣模型,從而使用戶的播放列表越來越符合用戶對歌曲的興趣。
Pandora 的演算法主要是基於內容的,其音樂家和研究人員親自聽了上萬首來自不同歌手的歌,然後對歌曲的不同特性(如旋律、節奏、編曲和歌詞等)進行標注,這些標注被稱為音樂的基因。然後,Pandora 會根據專家標注的基因計算歌曲的相似度,並給用戶推薦和他之前喜歡的音樂在基因上相似的其他音樂。
Last.fm | Play music, find songs, and discover artists記錄了所有用戶的聽歌記錄及用戶對歌曲的反饋,在這一基礎上計算出不同用戶在歌曲上的喜好相似度,從而給用戶推薦和他有相似聽歌愛好的其他用戶喜歡的歌曲。同時,Last.fm | Play music, find songs, and discover artists也建立了一個社交網路,來讓用戶能夠和其他用戶建立聯系,以及讓用戶給好友推薦自己喜歡的歌曲。Last.fm | Play music, find songs, and discover artists沒有使用專家標注,而是主要利用用戶行為計算歌曲的相似度。
4)社交網路
社交網路中的個性化推薦技術主要應用在 3 個方面:利用用戶的社交網路信息對用戶進行個性化的物品推薦,信息流的會話推薦和給用戶推薦好友。
Facebook 保存著兩類最寶貴的數據:一類是用戶之間的社交網路關系,另一類是用戶的偏好信息。
Facebook 推出了一個稱為 Instant Personalization 的推薦 API,它能根據用戶好友喜歡的信息,給用戶推薦他們的好友最喜歡的物品。很多網站都使用了 Facebook 的推薦 API 來實現網站的個性化。
著名的電視劇推薦網站 Clicker 使用 Instant Personalization 給用戶進行個性化視頻推薦。Clicker 現在可以利用 Facebook 的用戶行為數據來提供個性化的、用戶可能感興趣的內容「』流」了,而更重要的是,用戶無須在 Clicker 網站上輸入太多數據(通過評分、評論或觀看Clicker.com上的視頻等方式),Clicker 就能提供這樣的服務。
除了利用用戶在社交網站的社交網路信息給用戶推薦本站的各種物品外,社交網站本身也會利用社交網路給用戶推薦其他用戶在社交網站的會話。每個用戶在 Facebook 的個人首頁都能看到好友的各種分享,並且能對這些分享進行評論。每個分享和它的所有評論被稱為一個會話,Facebook 開發了 EdgeRank 演算法對這些會話排序,使用戶能夠盡量看到熟悉的好友的最新會話。
除了根據用戶的社交網路及用戶行為給用戶推薦內容,社交網站還通過個性化推薦服務給用戶推薦好友。
5)其他應用
因為電子商務企業基本上實現了業務流程的各個環節的數據化,所以可以充分利用大數據技術對這些數據進行挖掘分析來優化其業務流程,提高業務利潤。除了前面介紹的幾個應用之外,大數據在電子商務行業還可以應用在其他許多方面。
① 動態定價和特價優惠
電子商務企業可以通過使用數據構建客戶資料,並發現用戶喜歡花費多少費用和喜歡購買什麼產品,從而通過跟蹤客戶的消費行為,使用大數據分析來開發靈活的定價和折扣政策。例如,如果分析顯示用戶對特定類別商品的興趣飆升,則電子商務企業可以提供打折或買一送一優惠。
② 定製優惠
電子商務企業可以通過使用數據來確定客戶的購買習慣,並根據以前的購買方式向他們發送有針對性的特價優惠和折扣代碼。數據也可以用於在客戶中止購買或只看不買時重新吸引客戶,例如,通過發送電子郵件提醒客戶他們查看過的產品或邀請他們完成購買。
③ 供應鏈管理
電子商務企業可以使用大數據更有效地管理供應鏈。數據分析可以揭示供應鏈中的任何延遲或潛在的庫存問題。如果某個項目存在問題,則可以立即將其從銷售中刪除,以免破壞客戶服務問題。
④ 預測分析
預測分析是指利用大數據技術分析電子商務業務的各種渠道,幫助企業制定未來運營的業務計劃。數據分析可能會顯示電商企業在線商店部門的新購買趨勢或銷售減緩的商品。
使用這些信息就可以幫助規劃下一階段的庫存,並制定新的市場目標。隨時了解電子商務的最新趨勢具有一定的挑戰性,但是利用大數據技術可以大大提高企業的利潤,並幫助企業建立一個成功的前瞻性思維業務。如果不利用挖掘大數據的力量,就可能會錯過市場成功的機遇。
❷ 大數據可視化工具哪個做出來最漂亮_大數據可視化軟體和工具有哪些
如今大數據盛行,許多人都在尋求一款既好用又容易上手的工具,尤其是可視化工具。今天,就為各位數據人甄選10個最容易上手又好用的大數據可視化工具。
1.ChartBlocks
無需編碼的ChartBlocks是一個易於使用的在線工具。它可以輕松地從電子表格、資料庫中構建可視化圖表,整個過程可以在圖表向導的指導下完成,只要跟隨步驟執行便可。
2.Chart.js
Chart.js支持餅圖、線性圖和雷達圖等多種圖表類型,只有11KB大小的它快速且易於使用。這使它成為做小項目圖表的很好選擇。
3.Chartist.js
chartist.js使用了Sass的個性化風格,它的開發社區一直致力於打敗其他所有JavaScript圖表庫,志向十分偉大。
4.D3.js
D3.js是一款開源的工具,在JavaScript上不僅開源實時交互,同時使用了HTML、CSS和SVG,在許多數據人的心中其都有著不可動搖的位置。
5.Datawrapper
不需要任何編程基礎的Datawrapper非常容易使用,只需要上傳數據,便能輕松地創建和發布圖表。作為一款脊擾跡專注於新聞和出版的可視化工具,包括衛報、華爾街日報、華盛頓郵報、Twitter等知名媒體都使用了Datawrapper,它的地位由此李困可見。
6.EmberCharts
它是一款基於Ember.js框架和使用D3.js的可視化工具。有著易於擴展且有著極強的錯誤處理能力,即使遇到壞數據,系統也不會崩潰。要是任務以繪制時間序列圖、柱狀圖、餅圖和散點圖為主,可將它列為首選。
7.FusionCharts
FusionCharts提供許多常用的如PNG、JPEG、SVG、PDF等格式的圖表,而且還支持JSON和XML數據,它可以輕松集成Angularjs、jQuery庫、React框架,以及ASP.NET、PHP語言。
8.GoogleCharts
GoogleCharts非常人性化,櫻並不僅網站擁有一個非常好且全面的模板庫,而且創建的圖表是互動式甚至可縮放的,讓用戶可以從中找到所需的模板。
9.HighCharts
提供Highstock和Highmaps兩個專門的圖表類型的HighCharts,是一個JavaScriptAPI與jQuery的集成工具,它的圖表使用的是SVG格式,VML也讓它支持舊版瀏覽器,很人性化。另外,HighCharts提供的一系列插件是可以免費使用的。
10.Infogram
Infogram最大的優勢在於,它可以鏈接可視化信息圖表與實時大數據。即使要在浩如星海的圖表、地圖、視頻等可視化模板中選擇想要的一款,也只須三個簡單步驟便可實現。
選擇適合自己使用的大數據可視化工具,讓你輕松遨遊大數據海洋!
❸ 志翔科技參展數博會 大數據技術驅動工業和安全領域數智化升級
北京志翔 科技 股份有限公司(以下簡稱「志翔 科技 」)利用大數據技術 探索 出一套數智化轉型解決方案:結合智能電能表的回傳 歷史 數據,以及電表設備計量相關的信息數據,進行監測和分析。在此基礎上先進行小規模的抽樣和建模研判,而後再進行大規模抽檢,進而有效判斷出相應區域的失准器具,精準更換失准設備。
5月26日至28日,志翔 科技 的工業大數據和大數據安全技術產品將亮相中國國際大數據產業博覽會(以下簡稱「數博會」),圍繞「數智變 物致新」主題展示最新技術應用成果。
大數據技術為企業節省數十億元
志翔 科技 的智能電能表狀態評價與更換產品,通過對智能電能表的在線監測、精準研判,對電力大數據檢測實現從「定期檢定」到「全程監控」的轉變。大數據技術應用成果反映到財務數據中,志翔 科技 僅這一款產品,通過精準定位和更換失准智能電表,每年就能為電力企業節約數十億元費用。
隨著智能電表覆蓋率的提升,大數據分析在電力行業的重要作用日益凸顯。根據國家電網數據顯示,目前國網系統接入的終端設備超過5億只,國家電網規劃預計到2025年接入終端設備將超過10億只,2030年接入的終端設備數量將達到20億只。
海量的電力大數據具有多重屬性。國家電網有限公司大數據中心副主任程志華表示,電力大數據具有覆蓋面廣、實時性強、真實性高、經濟屬性強、行業分類規范、數據基礎相對理想等特點。電力大數據的復雜性,以及智能化需求不斷升級,為管理工作帶來挑戰。
早在2016年,志翔 科技 就洞察到電力大數據領域的商機,並根據市場需求逐步孵化拓展出大數據運維平台、服務平台和終端產品三大業務。
開篇所述的失准智能電表分析,定位即為其大數據平台和運維產品線中的一個產品。除此之外,市場新趨勢如新能源 汽車 的發展,也推動電力行業的新支撐性應用出現,志翔 科技 也根據電力企業的需求,將大數據分析異常發現、定位和報警等功能應用於關口表、充電樁和戶變等方面。
如果說大數據平台和運維產品是利用新方法解決新問題,那麼志翔 科技 的電力大數據服務平台則是應用新技術解決老問題發展到新規模的挑戰,促進電力行業的精細化運營管理。典型的應用場景便是構建異常用電分析模型,實現智能化竊電診斷,以及利用線損分析模型自動診斷結合專家人工診斷,進行智能線損治理。
電力大數據終端產品則是更具未來感的業務,主要是通過端點部署,解決電力IoT的智能優化需求,數據可用於輔助居民、電力公司、機構政府等做出科學決策。
志翔 科技 高級副總裁伍海桑解釋道,通過終端產品對用電數據的分析處理,能了解用戶用電負荷類別及使用狀態;分析功能可集成為模塊與下一代電能表搭售,可用於環保監測、用電安全監測、碳計量等事關 社會 發展大方向的場景。目前志翔 科技 的一系列電力大數據分析產品和服務以及應用已經覆蓋全國20多個省市,在電力行業積累了豐富的經驗,隨著電力產品的演進而不斷優化,其大數據分析模型在實踐驗證中已經迭代到第四代。
清華系創始團隊瞄準安全業務
2020年,志翔 科技 來自工業領域的大數據技術應用的收入已佔據公司營收的重要部分。而最早,志翔 科技 將其這塊業務定義為大安全,作為公司創業起步的方向——大數據安全中的一部分。
清華系的創始團隊背景,讓志翔 科技 甫一誕生便將技術根植於公司的基因中。公司創始人之一蔣天儀本科畢業於清華大學電子工程系,在美國完成博士學位後,曾服務過晶元企業Marvell;創始團隊的許多成員包括伍海桑等也都畢業於清華電子系。目前,志翔 科技 團隊中研發、產品相關人員佔比達到60%,其中半數以上學歷都在研究生以上。
數字經濟時代,網路安全服務需求激增,催生了巨大的市場空間。賽迪顧問報告顯示,2020年中國網路安全市場規模達到734.6億元,同比增長20.8%。志翔 科技 自2014年開始聚焦大數據、雲計算等一系列技術發展帶來的安全問題,為集成電路設計、政府、金融等行業客戶提供解決方案,開拓了紫光展銳、寒武紀、中興、國家開發銀行、中國農業銀行等行業標桿客戶。
公司的大數據安全產品基於「零信任」和「無邊界」的理念,面向政法、金融、高 科技 行業數字化轉型所面臨的「上雲」和「雲上」的提供數據與業務安全等問題。2019-2020年,志翔 科技 的至明產品連續兩年入選Gartner《雲工作負載保護平台市場指南》。
高 科技 定位的公司和清華系創始團隊,令志翔 科技 備受資本青睞。2014年8月成立的志翔 科技 ,在成立一年內即獲得近千萬元的天使輪投資和數千萬元的A輪融資,2017年6月獲得國家基金領投的B輪融資,並在2019年10月完成B+輪融資。
談及未來發展方向,在伍海桑看來,公司所具有的服務能力不僅在縱深上可以向更多的電力行業企業拓展,進入電力系統中「發輸變配用」各個環節,從廣度上也能將服務延伸至太陽能發電、智能製造等其他能源領域和工業門類。在「2030年前碳達峰、2060年前碳中和」的目標下,大數據技術還將釋放新紅利。
❹ 大數據分析需要哪些工具
說到大數據,肯定少不了分析軟體,這應該是大數據工作的根基,但市面上很多各種分析軟體,如果不是過來人,真的很難找到適合自己或符合企業要求的。小編通過各大企業對大數據相關行業的崗位要求,總結了以下幾點:
(1)SQL資料庫的基本操作,會基本的數據管理
(2)會用Excel/SQL做基本的數據分析和展示
(3)會用腳本語言進行數據分析,Python or R
(4)有獲取外部數據的能力,如爬蟲
(5)會基本的數據可視化技能,能撰寫數據報告
(6)熟悉常用的數據挖掘演算法:回歸分析、決策樹、隨機森林、支持向量機等
對於學習大數據,總體來說,先學基礎,再學理論,最後是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數據分析工具,軟體結合案列的實際應用,關於數據分析主流軟體有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。
4、學會怎樣操作這些軟體,然後是利用軟體從數據的清洗開始一步步進行處理,分析,最後輸出結果,檢驗及解讀數據。
❺ 什麼是大數據,通俗的講
有人說大數據技術是第四次技術革命,這個說法其實不為過。
很多人只是聽過大數據這個詞或者是簡單知道它是什麼,那麼它是什麼呢,在這里就通俗點來說一下個人對大數據的理解。
大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
舉個例子,淘寶雙十一的總交易額的顯示,後面就是大數據技術的支持,全國那麼多淘寶用戶的交易記錄匯聚到一起,數據量很大,而且要做到實時的展現,就需要強有力的大數據技術來處理了。
數據量一大,那麼得找地方來存,一個伺服器硬碟可以掛多少,肯定滿足不了這么大的數據量存儲啊,所以,分布式的存儲系統應運而生,那就是HDFS分布式文件系統。簡單的說,就是把這么大的數據分開存在甚至幾百甚至幾千台伺服器上,那麼管理他們的系統就是HDFS文件系統,也是大數據技術的最基本的組件。
有地方存了,需要一些分布式的資料庫來管理查詢啊,那就有了Hbase等,還需要一些組件來計算分析這些數據啊,maprece是最基本的計算框架,其他的計算框架Spark和Storm可以完成實時的處理,其中HDFS和MapRece組成了Hadoop1.
總之,一切都是數據。我們的歷史,是不是都是大量的數據保存下來的,現在我們也是大數據的生活,天天有沒有接到騷擾電話還知道你姓什麼,你查話費什麼的從幾億人的數據中查到你的信息,大數據生活。未來,大數據將更深刻的滲透到生活中。
❻ 數據會說謊|什麼是大數據
在企業中,隨著管理精細化的提高,我們被越來越多地要求用數據這種特殊的語言來兄臘說話,企業的經營業績有無增長,競爭力有無提升,發展前景是否光明,甚至連管理幹部的評價任免也必須用數據(各種KPI指標)來體現。
在用數據說話時,人人都關注到了數據本身的重要性,但卻忽略了另外一點——數據會說謊,即數據自身的真實性。愛美之心,人皆有之,對數據也是如此,人人都希望數據漂亮,但總有不那麼靚麗的時候,如何辦呢?是否如實反映?在審計的工作實踐中,我們發現數據提供者往往是利益相關方,也經常存在略施粉黛,把「東施」變成「西施」的情況。
方式一、通過對比標桿的選擇
在某部生產管理審計過程中,其運營數據中顯示產品線B在2011年度生產效率提升了70%。看到這個數據時,著實嚇了一跳,短短一年內,生產效率提升70%,那隻能說明,要麼以前做的太差了,要麼有革命性的工藝變動。但是上述兩點都沒有發生。通過調查訪談得知,原來該部門是用2011年11月單月的效率來對比2010年全年的數據。而2010年度基礎數據並不完整,除了產量真實可信的之外,工時數據都是模擬推算得來,這樣看來,70%的可信度就大打折扣了。基礎數據是從2011年4月份開始健全的,且當時工作模式、狀態與2010年全年基本無差別,那麼我們改用2011年4月份做標桿,結果顯示,11月份的效率僅僅比4月份提升10%。通過上述案例,可得知對比標桿的選擇,將直接決定數據的靚麗與否。
方式二、通過轉移壓力的方式
在某部倉儲管理審計過程中,發現其庫存周轉率提升很快,但倉儲面積的利用率卻沒有相應的變化,進一步調查得知該倉庫為了提升周轉率指標,採用了以下辦法:供應商到貨後,實物予以接收,但賬務不予入庫,待生產需要時,再做賬務入庫動作,於是整體庫存就被人為拉低。他們將之稱為「VMI」,但為了管理不在賬的實物,他們還必須單獨做手工賬來管理,「庫存周轉率」是提升了,但倉庫的倉容沒有減少,管理成本還有增加,這樣的「庫存周轉率提升」有意義嗎?
方式三、採用錯誤的計算方式
舉個例子,市場部門在做銷售預測,產品A預測了100,產品B預測了100。但一個月後,實際銷售情況是產品A為200,產品B為0,那麼預測准確率是多少?計算結果如下:預測准確率=∑實際銷售/∑銷售預測*100%=(200+0)/(100+100)*100%=100%。
預測准確率是100%,但是兩個型號一個也沒預測准,結果與我們的理解並不一致。另外一種計算方式相對就合理許多:
1-∑銷售預測-實際銷售∣/∑銷售預測*100%=1-(200-100+100-0)/(100+100)=0.
在某次倉儲管理審計時,某倉庫2010年度不良資產率考核指標為2%,其實際達成為0.05%,這樣漂亮的數據明顯超過我們的認知范圍,通過其KPI核算過程,我們發現了問題的所在,原來其不良資產核算創造性採用了以下公式:
不良資產率=配件不良資產金額/出庫總金額*100%。羨喚滑
如果採用正確的核算方式:不良資產率=月均不良資產金額/月均庫存總金額*100%。其不良資產率為5.73%,非但沒有超出公司目標,而且遠遠沒有達到。
方式四、操縱原始數據
在進行某部生產管理審計時,其生產效率的核算方式為:產量/有效工時。我們都知道,要提高生產效率,就必須在同樣的時間內生產出更多的產品,但該部門還做了另外一項工作,就是在有效工時上做了文章,在班組提報總工時的過程中,被要求削減部分工時,因為有效工時就是總工時刨除異常工時,這樣分母變小,效率自然而然就「提升」了。
方式五、改變數據核算口徑
在某部管理審計過程中,發現其銷售收入中除正常構成外,還包括了維修費、維修配件銷售收入及品牌費項目,這些項目與銷售人員的貢獻並無任何關聯,但卻納入銷售人員考核。由於這些項目的加入,銷售額被人為拔高了,事後通過數據匯總,發現這些項目共佔到了銷售收入的14.6%。
以上僅僅是工作中的幾個例子,其他數據美化的方式還有很多,這里把有代表性的幾種方式與大家共享,希望我們認認真真地採集數據,不折不扣的提報數據,嚴謹客觀的分析數據,讓我們的數據說真話,不說謊話!
(責鏈卜編石少菊)
❼ 《大數據時代》的讀後感
認真品味一部名著後,你有什麼領悟呢?現在就讓我們寫一篇走心的讀後感吧。那麼如何寫讀後感才能更有感染力呢?以下是我幫大家整理的《大數據時代》優秀讀後感範文,希望能夠幫助到大家。
這書讀起來不費勁,沒有太多晦澀的理論,所以也比較快速的用了幾天的中午休息時間讀完了。
網上到處都是推薦此書的文章,贊為大數據的經典之作。可是,我讀了一遍下來,卻沒有這種經典之感,只是必須嘆服作者思維嚴密、涉獵廣泛,書中有關大數據的例子真是不少,會給我們的閱讀帶來一定的舒適感和現實感。
已經看過太多網上的關於大數據的文章、案例分析,但是我認為大數據僅僅是一種手段,是我們分析認識世界的諸多手段中的一種。我們既不要拒絕排斥大數據的應用,但也沒必要神話大數據。
在讀此書過程中,稍帶也看了幾部關乎大數據分析的影片,有本書中提到的《少數派報告》,還有《永無止境》、《源代碼》。少數派報告中,人類藉助先知的超能力獲取對犯罪的預測和提前打擊,但是書中和影片中都提到的有一個悖論的問題:如果你預測某犯罪要發生,所以去提前抓捕,阻止了案件的發生,但案件沒有發生,又以什麼為依據來抓捕嫌疑人呢?!所以,我認為大數據的應用在預測方面的作用,不應該涉及任何行政司法等嚴肅方向。因為,人是善變的,也許在預測之後的時間里,由於其它因素影響,t她的決定就突然改變,預測就徹底無效了。大數據,更應該在提供思路、途徑方向,在我們還沒有發現其原理之前,先依照大數據的分析去做些突破常規、有創造性的事情。
從古至今,對數據的統計應用一直沒有中斷過,我們人類在發揮聰明才智的過程中,創造了文字記錄歷史,通過積累和總結為人類的文明發展做出了極大的貢獻。只不過,現在我們利用計算機系統對日益暴漲的數據信息能夠處理的數據量更大、想法更多了。在這個角度上,大數據其實不過是人類信息化發展歷史中的一個必然過程。
大數據爆發的背景,是計算機普及應用、工作和生活信息化、網路尤其是互聯網的發達等因素,為之提供了能夠使用的超大規模數據化信息。就如計算機與人下棋的程序一樣,掌握了足夠的棋局數據、能夠推算每一步之後的可能,快速的運算能力是實現這些的基礎。
大數據本身是無意識的,或者叫無目的,是因為使用的人的發現或主觀意識,才從中抓取到符合所想或支持所想的一些數據和比例。人才是核心。別以為有個所謂的大數據中心就能夠揮斥方遒、指點江山了。這也是我說要對大數據去神化的一點。書中所舉例子,成功的案例其實都基本是一個打破常規、奇思異想的人或一個具備創新思維的團隊,而這個人或團隊一旦陷入對現有模式的僵化應用或崇拜,失敗的結果也是必然。我想說的是,無論是大數據還是快數據什麼的玩意,都僅僅是我們了解世界了解社會的一個角度一種手段,都始終無法擺脫依賴於人的思考這個根本。別一葉障目不見泰山的意味有了大數據就擁有了整個世界,你的心有多大,舞台才有多大。只有當你的思考抵達,那些個曾經沒有價值的數據垃圾,才會煥發出價值!不要荒廢了你的思考這個核心!
作者說大數據只講結果不講原因。這個狀態我認為僅僅是一個過渡時期的表現,如果要實現對大數據分析應用的更加精準、甚至可以作為某種依據,必然要獲得對大數據分析的果的可靠解釋,也從而能對我們現有的行為、制度等獲得新的認識,來進行可行的改變、升級或者重造,大數據的指導意義才發揮更深。
人們都說,中外著述的差距有時是很大的,中國的作家習慣鋪墊和描繪,將簡單的事情復雜化;國外的就相反,喜歡直搗要害,將復雜的事情抽象簡單化。不知道是不是我不很適應國外這類書籍的緣故,對大數據時代一書,我沒有感受到很多的震撼和腦洞大開感,也許和現在各類大數據的文章太多有關,已經把此書的觀點各自領用發揮了一番,也許是我還沒有領會到精華所在。既然人們都奉為經典,那我想或許我應該隔一段時間、換個姿勢,再重讀此書,看看是不是會有新的感受吧。
對於暢銷書刊、熱點話題、時尚科技,始終不太感興趣。書刊,喜歡有一定年份的。話題,鍾情於務虛的觀點。新奇的產品於我無緣,習慣使用成熟的科技產品。既不清高,也非冷漠,就是要與現實保持一定的距離,給自己留一點思考的空間。這一習慣最近破了例。由於工作的原因,耳濡目染,「大數據」這個新興概念開始頻繁步入我的視野。按捺不住內心的好奇,網購《大數據時代》,手不釋卷,三天讀完,頗有收獲。此書有如下特點。
首先,作者站在理論的制高點上,條理清楚地闡述了大數據對人類的工作、生活、思維帶來的革新,大數據時代的三種典型的商業模式,以及大數據時代對於個人隱私保護、公共安全提出的挑戰。其次,文中的事例貼近現實生活,貼近時代,令讀者既印象深刻,又感同身受。此外,作者沒有使用大量的專業術語,沒有假裝一副專業的面孔。縱觀全書,遣詞造句,均通俗易懂。
作者認為大數據時代具有三個顯著特點。
一、人們研究與分析某個現象時,將使用全部數據而非抽樣數據。
二、在大數據時代,不能一味地追求數據的精確性,而要適應數據的多樣性、豐富性、甚至要接受錯誤的數據。
三、了解數據之間的相關性,勝於對因果關系的探索。「是什麼」比「為什麼」重要。
作者指出,隨著技術的發展,數據的存儲與處理成本顯著降低,人們現在有能力從支離破碎的、看似毫不相乾的數據礦渣中抽煉出真知爍見。在大數據時代,三類公司將成為時代的寵兒。一是擁有大數據的公司與組織。如政府、銀行、電信公司、全球性互聯網公司(阿里巴巴、淘寶網)。二是擁有數據分析與處理技術的專業公司,如亞馬遜、谷歌。
三是擁有創新思維的公司,他們可能既不掌握大數據,也沒有專業技術,但卻擅長使用大數據,從大數據中找到自己的理想天地。面對即將來臨的大數據時代,個人將如何應對自如?這是個嚴肅的問題。
如今說起新媒體和互聯網,必提大數據,似乎不這樣說就OUT了。而且人雲亦雲的居多,不少談論者甚至還沒有認真讀過這方面的經典著作——舍恩佰格的《大數據時代》。維克托·邁爾舍恩伯格何許人也?他現任牛津大學網路學院互聯網研究所治理與監管專業教授,曾任哈佛大學肯尼迪學院信息監管科研項目負責人。他的咨詢客戶包括微軟、惠普和IBM等全球企業,他是歐盟互聯網官方政策背後真正的制定者和參與者,他還先後擔任多國政府高層的智囊。這位被譽為:大數據時代的預言家「的牛津教授真牛!那麼,這位大師說的都是金科玉律嗎?並不一定,讀大師的作品一定要做些功課才好讀懂,才能能與之進行一場思想上的對話。
舍恩伯格分三部分來討論大數據,即思維變革、商業變革和管理變革。在第一部分」大數據時代的思維變革「中,舍恩伯格旗幟鮮明的亮出他的三個觀點:
一、更多:不是隨機樣本,而是全體數據。
二、更雜:不是精確性,而是混雜性。
三、更好:不是因果關系,而是相關關系。對於第一個觀點,我不敢苟同。一方面是對全體數據進行處理,在技術和設備上有相當高的難度。另一方面是不是都有此必要,對於簡單事實進行判斷的數據分析難道也要採集全體數據嗎?
我曾與香港城市大學的祝建華教授討論過。祝教授是傳播學研究方法和數據分析的專家,他認為一定可以找到一種數理統計方法來進行分析,並不一定需要全部數據。聯繫到舍恩伯格第二個觀點中所說的相關關系,我理解他說的全體數據不是指數量而是指范圍,即大數據的隨機樣本不限於目標數據,還包括目標以外的所有數據。我認為大數據分析不能排除隨機抽樣,只是抽樣的方法和范圍要加以拓展。
我同意舍恩伯格的第二觀點,我認為這是對他第一個觀點很好的補充,這也是對精準傳播和精準營銷的一種反思。」大數據的簡單演算法比小數據的復雜演算法更有效。「更具有宏觀視野和東方哲學思維。對於舍恩伯格的第三個觀點,我也不能完全贊同。」不是因果關系,而是相關關系。「不需要知道」為什麼「,只需要知道」是什麼「。傳播即數據,數據即關系。在小數據時代人們只關心因果關系,對相關關系認識不足,大數據時代相關關系舉足輕重,如何強調都不為過,但不應該完全排斥它。大數據從何而來?為何而用?如果我們完全忽略因果關系,不知道大數據產生的前因後果,也就消解了大數據的人文價值。如今不少學者為了闡述和傳播其觀點往往語出驚人,對舊有觀念進行徹底的否定。
世間萬物的復雜性多樣化並非非此即彼那麼簡單,舍恩伯格也是這種二元對立的幼稚思維嗎?其實不然,讀者在閱讀時一定要看清楚他是在什麼語境下說的,不要因囫圇吞棗的淺讀而陷入斷章取義的誤讀。比如說舍恩伯格在提出」不是因果關系,而是相關關系。「這一論斷時,他在書中還說道:」在大多數情況下,一旦我們完成了對大數據的相關關系分析,而又不再滿足於僅僅知道『是什麼』時,我們就會繼續向更深層次研究的因果關系,找出背後的『為什麼』。「[i]由此可見,他說的全體數據和相關關系都在特定語境下的,是在數據挖掘中的選項。
大數據研究的一大驅動力就是商用,舍恩伯格在第二部分里討論了大數據時代的商業變革。舍恩伯格認為數據化就是一切皆可」量化「,大數據的定量分析有力地回答」是什麼「這一問題,但仍然無法完全回答」為什麼「。因此,我認為並不能排除定性分析和質化研究。數據創新可以創造價值,這是毫無疑問的。舍恩伯格在討論大數據的角色定位時仍把它置於數據應用的商業系統中,而沒有把它置於整個社會系統里,但他在第二部分大數據時代的管理變革中討論了這個問題。
在風險社會中信息安全問題日趨凸顯。如何擺脫大數據的困境?舍恩伯格在最後一節」掌控「中試圖回答,但基本上屬於老生常談。我想,或許凱文·凱利的《失控》可以幫助我們解答這個問題?至少可以提供更多的思考維度。正如舍恩伯格在結語中所道:」大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考的答案,幫助是暫時的,而更好的方法和答案還在不久的未來。「謝謝舍恩伯格!讓大數據討論從自然科學回到人文社科。由此推斷,《大數據時代》不是最終答案,也不是標准答案,只是參考的答案。此外,在閱讀此書之前還必須具備一些數據科學的基本知識和基本概念,比如說什麼叫數據?什麼叫大數據?數據分析與數據挖掘的區別,數字化與數據化有什麼不同?讀前做些功課讀起來就比較好懂了。
讀完《大數據時代》這本書後,我意識到:我們即將或正在迎接由書面到電子的跳躍之後的又一重大變革。
這本書介紹了大數據時代來臨後,接踵而至的三項變革——商業變革、管理變革和思維變革。
其實,這場變革已經打響。商業領域由於大數據時代的到來而推陳出新。前幾年,一家名為Farecast的公司,讓預訂到更優惠的機票價格不再是夢想。公司利用航班售票的數據來預測未來機票價格的走勢。現在,使用這種工具的乘客,平均每張機票可以省大約50美元,這就是大數據給人們帶來的便利。
大家應該都知道2009年出現的H1N1型流感,就拿美國為例,疾控中心每周只進行一次數據統計,而病人一般都是難以忍受病痛的折磨才會去醫院就診,因此也導致了信息的滯後。然而,對於飛速傳播的疾病,Google公司卻能及時地作出判斷,確定流感爆發的地點,這便是基於龐大的.數據資源,可見大數據時代對公共衛生也產生了重大的影響!在我看來,如果想在在大數據時代里暢游,不僅要學會分析,而且還要能夠大膽地決斷。
在美國,每到七、八月份時,正是台風肆虐之時,防澇用品也擺上了商品貨架。沃爾瑪公司注意到,每到這時,一種蛋撻的銷售量較其他月份明顯增加。於是,商家作了大膽的推測,出現這樣的結果源於兩種物品的相關性,便將這種蛋撻擺在了防澇用品的旁邊。這樣的舉措大大增加了利潤,這就是屬於世界頭號零售商的大數據頭腦!大數據時代的到來,可以讓我們的生活更加便利。但是,如果讓大數據主宰一切,也存在一定的風險。
大家應該都知道電子地圖,它可以為人們指引方向。但大家應該還不知道,它會默默地積累人們的行程數據,通過智能分析可以推斷出哪裡是自己的家,哪裡是工作單位。我們的隱私就這樣被不為人知地收集著。大數據時代的到來,讓我們的生活更安全,更方便,但與此同時,我們的隱私不再是隱私,數據的收集變得無所不包、無孔不入。世界已經向大數據時代邁進了一小步,一個嶄新的時代正向我們走來。讓我們用知識武裝大腦,做好准備,迎接新時代的到來!
現在已經進入到了二十一世紀了,當今社會已經擺脫了上個世紀的那種消息滯後的時代了,我們最應該感謝的就是科學的進步為我們帶來了這么多便利。與此同時,科學的進步還為我們帶來了「大數據」這個讓人類減少了很多工作量的東西。
在這個學期的名著導讀課上我們就被要求讀:《大數據時代》這本書。《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為「大數據時代的預言家」,他是一個特別厲害的人,他作為一個教師,他曾經在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多所世界前列名校任教的經歷。他作為一個科學家,早在2010年就在《經濟學人》上發布了長達14頁對大數據應用的前瞻性研究。他是十餘年潛心研究數據科學的技術權威。他是最早洞見大數據時代發展趨勢的數據科學家之一,也是最受人尊敬的權威發言人之一。現任牛津大學網路學院互聯網治理與監管專業教授,曾任哈佛大學肯尼迪學院信息監管科研項目負責人,哈佛國家電子商務研究中網路監管項目負責人;曾任新加坡國立大學李光耀學院信息與創新策略研究中心主任。並擔任耶魯大學、芝加哥大學、弗吉尼亞大學、聖地亞哥大學、維也納大學的客座教授。
他作為一個研究學者,他的學術成果斐然,有一百多篇論文公開發表在《科學》《自然》等著名學術期刊上,他同時也是哈佛大學出版社、麻省理工出版社、通信政策期刊、美國社會學期刊等多家出版機構的特約評論員。他是備受眾多世界知名企業信賴的信息權威與顧問。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業;"大數據"在網路上搜索到的解釋是:稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。特點:數量、速度、品種、真實性。而舍恩伯格認為,大數據並不能定義一個確切的概念。他提到"大數據是人們獲得新的認知,創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府和公民關系的方法。"這是一種更具有人文色彩和社會意義的詮釋。
大數據不僅改變了公共衛生領域,整個商業領域都因為大數據而重新洗牌。購買飛機票就是一個很好的例子。就像書中寫到2003年,奧倫·埃齊奧尼准備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜。
飛機著陸之後,埃齊奧尼下定決心要幫助人們開發一個系統,用來推測當前網頁上的機票價格是否合理。作為一種商品,同一架飛機上每個座位的價格本來不應該有差別。但實際上,價格卻千差萬別,其中緣由只有航空公司自己清楚。
埃齊奧尼表示,他不需要去解開機票價格差異的奧秘。他要做的僅僅是預測當前的機票價格在未來一段時間內會上漲還是下降。這個想法是可行的,但操作起來並不是那麼簡單。這個系統需要分析所有特定航線機票的銷售價格並確定票價與提前購買天數的關系。
在信息時代,信息安全問題的日趨凸顯,數據獨裁與隱私保護之間的矛盾更是立於風口浪尖,成為眾矢之的,舍恩伯格在本書的最後章節曾試圖尋找一種解決方式來擺脫這一種困境,但最終沒能做到,但是他提出"大數據並不是一個充斥著演算法的和機器的冰冷世界,人類的作用仍無法被完全代替。"這里表明人在數據時代同樣的重要,數據是為人類服務的,也就該人類驅使下完成相應的目的。在這樣的大環境下,常引起我更多的思考和擔憂。
大數據時代對於我們同是機遇與挑戰,一些國家已開始步入大數據時代的行列,並在各個領域開始研究和使用。而對於我國龐大的人口,以及較大的領土面積,都可以在大數據時代為我們提供數據的保障,而能否面臨挑戰,在大國之間的新一輪角色角逐間嶄露頭角,我們更需要解決技術等方面的問題,更應在政策上逐步開放各領域的數據,保證數據來源、許可權等問題得到解決,不斷學習先進的計算機技術,縮小與其他國家的差距。
❽ 大數據的應用領域有哪些
1.了解和定位客戶
這是大數據目前最廣為人知的應用領域。很多企業熱衷於社交媒體數據、瀏覽器日誌、文本挖掘等各類數據集,通過大數據技術創建預測模型,從而更全面地了解客戶以及他們的行為、喜好。
利用大數據,美國零售商Target公司甚至能推測出客戶何時會有Baby;電信公司可以更好地預測客戶流失;沃爾瑪可以更准確的預測產品銷售情況;汽車保險公司能更真實的了解客戶實際駕駛情況。
滑雪場利用大數據來追蹤和鎖定客戶。如果你是一名狂熱的滑雪者,想像一下,你會收到最喜歡的度假勝地的邀請;或者收到定製化服務的簡訊提醒;或者告知你最合適的滑行線路。。。。。。同時提供互動平台(網站、手機APP)記錄每天的數據——多少次滑坡,多少次翻越等等,在社交媒體上分享這些信息,與家人和朋友相互評比和競爭。
除此之外,政府競選活動也引入了大數據分析技術。一些人認為,奧巴馬在2012年總統大選中獲勝,歸功於他們團隊的大數據分析能力更加出眾。
2.
改善醫療保健和公共衛生
大數據分析的能力可以在幾分鍾內解碼整個DNA序列,有助於我們找到新的治療方法,更好地理解和預測疾病模式。試想一下,當來自所有智能手錶等可穿戴設備的數據,都可以應用於數百萬人及其各種疾病時,未來的臨床試驗將不再局限於小樣本,而是包括所有人!
蘋果公司的一款健康APP ResearchKit有效將手機變成醫學研究設備。通過收集用戶的相關數據,可以追蹤你一天走了多少步,或者提示你化療後感覺如何,帕金森病進展如何等問題。研究人員希望這一過程變得更容易、更自動化,吸引更多的參與者,並提高數據的准確度。
大數據技術也開始用於監測早產兒和患病嬰兒的身體狀況。通過記錄和分析每個嬰兒的每一次心跳和呼吸模式,提前24小時預測出身體感染的症狀,從而及早干預,拯救那些脆弱的隨時可能生命危險的嬰兒。
更重要的是,大數據分析有助於我們監測和預測流行性或傳染性疾病的暴發時期,可以將醫療記錄的數據與有些社交媒體的數據結合起來分析。比如,谷歌基於搜索流量預測流感爆發,盡管該預測模型在2014年並未奏效——因為你搜索「流感症狀」並不意味著真正生病了,但是這種大數據分析的影響力越來越為人所知。
3.提供個性化服務
大數據不僅適用於公司和政府,也適用於我們每個人,比如從智能手錶或智能手環等可穿戴設備採集的數據中獲益。Jawbone的智能手環可以分析人們的卡路里消耗、活動量和睡眠質量等。Jawbone公司已經能夠收集長達60年的睡眠數據,從中分析出一些獨到的見解反饋給每個用戶。從中受益的還有網路平台「尋找真愛」,大多數婚戀網站都使用大數據分析工具和演算法為用戶匹配最合適的對象。
4.
了解和優化業務流程
大數據也越來越多地應用於優化業務流程,比如供應鏈或配送路徑優化。通過定位和識別系統來跟蹤貨物或運輸車輛,並根據實時交通路況數據優化運輸路線。
人力資源業務流程也在使用大數據進行優化。Sociometric Solutions公司通過在員工工牌里植入感測器,檢測其工作場所及社交活動——員工在哪些工作場所走動,與誰交談,甚至交流時的語氣如何。美國銀行在使用中發現呼叫中心表現最好的員工——他們制定了小組輪流休息制度,平均業績提高了23%。
如果在手機、鑰匙、眼鏡等隨身物品上粘貼RFID標簽,萬一不小心丟失就能迅速定位它們。假想一下未來可能創造出貼在任何東西上的智能標簽。它們能告訴你的不僅是物體在哪裡,還可以反饋溫度,濕度,運動狀態等等。這將打開一個全新的大數據時代,「大數據」領域尋求共性的信息和模式,那麼孕育其中的「小數據」著重關注單個產品。
5.
改善城市和國家建設
大數據被用於改善我們城市和國家的方方面面。目前很多大城市致力於構建智慧交通。車輛、行人、道路基礎設施、公共服務場所都被整合在智慧交通網路中,以提升資源運用的效率,優化城市管理和服務。
加州長灘市正在使用智能水表實時檢測非法用水,幫助一些房主減少80%的用水量。洛杉磯利用磁性道路感測器和交通攝像頭的數據來控制交通燈信號,從而優化城市的交通流量。據統計目前已經控制了全市4500個交通燈,將交通擁堵狀況減少了約16%。
6.提升科學研究
大數據帶來的無限可能性正在改變科學研究。歐洲核子研究中心(CERN)在全球遍布了150個數據中心,有65,000個處理器,能同時分析30pb的數據量,這樣的計算能力影響著很多領域的科學研究。比如政府需要的人口普查數據、自然災害數據等,變的更容易獲取和分析,從而為我們的健康和社會發展創造更多的價值。
7.提升機械設備性能
大數據使機械設備更加智能化、自動化。例如,豐田普銳斯配備了攝像頭、全球定位系統以及強大的計算機和感測器,在無人干預的條件下實現自動駕駛。Xcel Energy在科羅拉多州啟動了「智能電網」的首批測試,在用戶家中安裝智能電表,然後登錄網站就可實時查看用電情況。「智能電網」還能夠預測使用情況,以便電力公司為未來的基礎設施需求進行規劃,並防止出現電力耗盡的情況。在愛爾蘭,雜貨連鎖店Tescos的倉庫員工佩戴專用臂帶,追蹤貨架上的商品分配,甚至預測一項任務的完成時間。
8.強化安全和執法能力
大數據在改善安全和執法方面得到了廣泛應用。美國國家安全局(NSA)利用大數據技術,檢測和防止網路攻擊(挫敗恐怖分子的陰謀)。警察運用大數據來抓捕罪犯,預測犯罪活動。信用卡公司使用大數據來檢測欺詐交易等等。
2014年2月,芝加哥警察局對大數據生成的「名單」——有可能犯罪的人員,進行通告和探訪,目的是提前預防犯罪。
9.
提高體育運動技能
如今大多數頂尖的體育賽事都採用了大數據分析技術。用於網球比賽的IBM SlamTracker工具,通過視頻分析跟蹤足球落點或者棒球比賽中每個球員的表現。許多優秀的運動隊也在訓練之外跟蹤運動員的營養和睡眠情況。NFL開發了專門的應用平台,幫助所有球隊根據球場上的草地狀況、天氣狀況、以及學習期間球員的個人表現做出最佳決策,以減少球員不必要的受傷。
還有一件非常酷的事情是智能瑜伽墊:嵌入在瑜伽墊中的感測器能對你的姿勢進行反饋,為你的練習打分,甚至指導你在家如何練習。
10.金融交易
大數據在金融交易領域應用也比較廣泛。大多數股票交易都是通過一定的演算法模型進行決策的,如今這些演算法的輸入會考慮來自社交媒體、新聞網路的數據,以便更全面的做出買賣決策。同時根據客戶的需求和願望,這些演算法模型也會隨著市場的變化而變化。
更多精彩:14_spark體系之分布式計算課程Spark 集群搭建+S