㈠ 外行人的大數據五問 帶你了解大數據
外行人的大數據五問 帶你了解大數據
大數據是什麼?是一種運營模式,是一種能力,還是一種技術,或是一種數據集合的統稱?今天我們所說的「大數據」和過去傳統意義上的「數據」的區別又在哪裡?大數據有什麼特點?來源有哪些?又應用於哪些方面等等。接下來小編帶您一起了解大數據。
>>>>>大數據概念
"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
網路知道—大數據概念
大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據的4V特點:Volume、Velocity、Variety、Veracity。
互聯網周刊—大數據概念
"大數據"的概念遠不止大量的數據(TB)和處理大量數據的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規模數據的基礎上可以做的事情,而這些事情在小規模數據的基礎上是無法實現的。換句話說,大數據讓我們以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見,最終形成變革之力
研究機構Gartner—大數據概念
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。 亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。 研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
>>>>>大數據分析
眾所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
>>>>>大數據技術
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
>>>>>大數據特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
當下我國大數據研發建設應在以下四個方面著力
一是建立一套運行機制。大數據建設是一項有序的、動態的、可持續發展的系統工程,必須建立良好的運行機制,以促進建設過程中各個環節的正規有序,實現統合,搞好頂層設計。
二是規范一套建設標准。沒有標准就沒有系統。應建立面向不同主題、覆蓋各個領域、不斷動態更新的大數據建設標准,為實現各級各類信息系統的網路互連、信息互通、資源共享奠定基礎。
三是搭建一個共享平台。數據只有不斷流動和充分共享,才有生命力。應在各專用資料庫建設的基礎上,通過數據集成,實現各級各類指揮信息系統的數據交換和數據共享。
四是培養一支專業隊伍。大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
>>>>>大數據作用
大數據時代到來,認同這一判斷的人越來越多。那麼大數據意味著什麼,他到底會改變什麼?僅僅從技術角度回答,已不足以解惑。大數據只是賓語,離開了人這個主語,它再大也沒有意義。我們需要把大數據放在人的背景中加以透視,理解它作為時代變革力量的所以然。
變革價值的力量
未來十年,決定中國是不是有大智慧的核心意義標准(那個"思想者"),就是國民幸福。一體現在民生上,通過大數據讓有意義的事變得澄明,看我們在人與人關繫上,做得是否比以前更有意義;二體現在生態上,通過大數據讓有意義的事變得澄明,看我們在天與人關繫上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。
變革經濟的力量
生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。
變革組織的力量
隨著具有語義網特徵的數據基礎設施和數據資源發展起來,組織的變革就越來越顯得不可避免。大數據將推動網路結構產生無組織的組織力量。最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。
大數據之所以成為時代變革力量,在於它通過追隨意義而獲得智慧。
>>>>>大數據處理
大數據處理數據時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。
大數據處理的流程
具體的大數據處理方法確實有很多,但是根據筆者長時間的實踐,總結了一個普遍適用的大數據處理流程,並且這個流程應該能夠對大家理順大數據的處理有所幫助。整個處理流程可以概括為四步,分別是採集、導入和預處理、統計和分析,最後是數據挖掘。
大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
>>>>>大數據應用與案例分析
大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。以下是我整理的關於各行各業,不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來源於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。
大數據應用案例之:醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
[2] 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成。
大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。
大數據應用案例之:零售業
[1] "我們的某個客戶,是一家領先的專業時裝零售商,通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨後他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數據與交互數據的完美結合,為業務挑戰提供了解決方案。"Informatica的技術幫助這家零售商用社交平台上的數據充實了客戶主數據,使他的業務服務更具有目標性。
[2] 零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某領先零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例
㈡ 教你如何利用大數據思維
教你如何利用大數據思維 在和一些企業家交流時,有幾個問題會被常常問到,"沒有多少數據怎麼辦?","大數據都是大公司的事情,我們小公司怎麼辦?""能不能告訴我,哪些軟體或者工具可以解決大數據的問題?"一般情況下,我都會說,首先要有大數據思維!大家紛紛點頭稱是,這詞兒聽起來非常高大上,甚至給人一種不明覺厲的趕腳!但啥是大數據思維,我一直沒有空來整理提煉。
前陣子一個內部的論壇,要求大家必須講干貨,趁此機會,系統的梳理一遍,概括起來,也就三條:第一認識大數據飛輪,第二理解數據資產評估,第三運用泛互聯範式。
圖1:大數據思維
干貨肯定是經過濃縮的,甚至把案例都作為水分擠掉了,所以這篇文章讀起來不是那麼有趣。但我可以保證,掌握這三條給上市公司做大數據戰略咨詢肯定沒有問題。因為我已經靠這三板斧,搞定了十幾家上市公司。連國內最大咨詢公司的董事長都認為有料,要走了PPT。
每條都用一幅圖來表達,每個圖中的圓圈都有許多案例來佐證。大家如果對案例更感興趣,讀拙作《大數據時代的歷史機遇》好了。其實圖1就涵蓋了大數據思維的全部思想。這幅圖里外三層、上下結構,看起來比較復雜,所以後面拆成三幅圖來講。思維的過程是自上而下、自外而里的。圖的上半部分講得是大數據的商業功用,就是說有了大數據我們能幹什麼?怎麼賺錢?有哪些好玩的商業模式?以前常說"羊毛出在羊身上",搞懂這些模式你會發現原來可以"羊毛出在狗身上"。書里詳細寫了六種,圖上只畫出五種。
補充:六種商業模式簡述
圍繞數據資產,筆者曾考察不同行業的盈利方式和經營策略,歸納總結了六種商業模式(詳見《大數據時代的歷史機遇》一書)。
租售數據模式:簡單來說,就是售賣或者出租廣泛收集、精心過濾、時效性強的數據。這也是數據就是資產的最經典的詮釋。按照銷售對象的不同,又分為兩種類型。第一是作為客戶增值服務。譬如銷售導航儀的公司,同時為客戶提供即時交通信息服務。廣聯達公司為他的客戶提供包年的建築材料價格數據。僅此一項業務,年收入超過1億元人民幣。第二是把客戶數據,有償提供給第三方。典型的如證券交易所,把股票交易行情數據授權給一些做行情軟體的公司。
租售信息模式:一般聚焦某個行業,廣泛收集相關數據、深度整合萃取信息,以龐大的數據中心加上專用傳播渠道,也可成一方霸主。信息指的是經過加工處理,承載一定行業特徵數據集合。
數字媒體模式:這個模式最性感,因為全球廣告市場空間是5000億美元。具備培育千億級公司的土壤和成長空間。這類公司的核心資源是獲得實時、海量、有效的數據,立身之本是大數據分析技術,盈利來源多是精準營銷和信息聚合服務。
數據使能模式:這類業務令人著迷之處在於,如果沒有大量的數據,缺乏有效的數據分析技術,這些公司的業務其實難以開展。譬如阿里金融為代表的小額信貸公司。通過在線分析小微企業的交易數據、財務數據,甚至可以計算出應提供多少貸款,多長時間可以收回等關鍵問題。把壞賬風險降到最低。
數據空間運營模式:從歷史上,傳統的IDC就是這種模式,互聯網巨頭都在提供此類服務。但近期網盤勢頭強勁,從大數據角度來看,各家紛紛嗅到大數據商機,開始搶占個人、企業的數據資源。海外的Dropbox,國內微盤都是此類公司的代表。這類公司的發展空間在於可以成長為數據聚合平台,盈利模式將趨於多元化。
大數據技術提供商:從數據量上來看,非結構化數據是結構化數據的5倍以上,任何一個種類的非結構化數據處理,都可以重現現有結構化數據的輝煌。語音數據處理領域、視頻數據處理領域、語義識別領域、圖像數據處理領域都可能出現大型的、高速成長的公司。
明白大數據的功用後,大家自然而然地關心,數據這么值錢,理所當然應構成新型的資產。圖1的中間部分描述了這塊內容。"數據成為資產"這一原創論斷成為大數據思維的中心理論。圖2數據資產評估模型給出一個完整的思維框架來描述數據資產的價值(完整描述評估模型,非本文主旨。讀者若有興趣,移步閱讀拙著吧)。但是這方面的工作遠遠不夠,無法定量的給出評估。在「諾獎級別的學術難題」一文(回復b10獲取該文)中,我曾經說,學術界如果在數據資產的定量評估上取得進展,是可以獲得諾貝爾獎的。因為這和公司的估值緊密相關。產業界在信用定量計算方面己經走在前列,並付諸商用,但是離一般意義上的數據資產估值還相去甚遠。
圖2:數據資產評估模型
既然數據成為資產,資產間的交易也會提上日程。聯盟特別任命兩位副秘書長推進這個事情,從而傳播開放、共享的理念。藉此呼籲所有願意開放數據資源的企業,卻可以藉助聯盟的力量,來共同推進。
數據成為資產是在了解大數據功用基礎上的抽象認知。接下來看圖1的下半部分,泛互聯範式。這個範式給出了不斷的採集數據並且發揮數據價值的行動指南。許多公司的轉型,都要從這幅圖開始。見圖3。終端+平台+應用+大數據四位一體,構成大數據思維的行動指南。最近和一些公司聊,他們己經了解了數據的重要性,開始想些損招去「劫掠」客戶的數據。這不免誤入歧圖。還是認真研究一下這個範式,從應用、終端上動動腦筋,真正的為用戶提供靠譜的服務,才是上策。
圖3:泛互聯範式
回顧圖1,我們在講大數據思維時,利用自上而下的次序,從大數據的功用入手,深入到理論內核,再到可供操作的範式。但真正上手實踐,需要腳踏實地,自下而上的行動。回到德魯克的經典問題上來,你的客戶是誰?
大數據產業聯盟願意為所有有志於從事大數據戰略咨詢的顧問們服務,掌握這套方法論並切實幫到企業的顧問,聯盟會在官方網站上列出您的大名,並向成員企業推薦。
所以, 這次,我們來點兒作業吧:大家可以用上面的大數據思維分析框架來分析一下自己所在的公司自己感興趣的公司,看看大數據於公司有什麼功效, 公司可操作的泛互聯範式是什麼。
在此,也先拋幾個小例子:
1)樂視網的野心
㈢ 大數據的處理流程包括了哪些環節
處理大數據的四個環來節自:
收集:原始數據種類多樣,格式、位置、存儲、時效性等迥異。數據收集從異構數據源中收集數據並轉換成相應的格式方便處理。
存儲:收集好的數據需要根據成本、格式、查詢、業務邏輯等需求,存放在合適的存儲中,方便進一步的分析。
變形:原始數據需要變形與增強之後才適合分析,比如網頁日誌中把IP地址替換成省市、感測器數據的糾錯、用戶行為統計等。
分析:通過整理好的數據分析what happened、why it happened、what is happening和what will happen,幫助企業決策。
㈣ 大數據的應用
大數據的應用有:構建知識圖譜,追蹤傳播路徑;大數據構建疫情發展模型;大數據挖掘疫情輿論等。
1. 構建知識圖譜,追蹤傳播路徑
大數據技術可以梳理感染者的移動軌跡,追蹤人群接觸史,建立知識圖譜,為精準定位疫情傳播路徑,防控疫情擴散等方面提供重要信息。
追蹤移動軌跡、建立知識圖譜,已經是大數據領域比較成熟的技術。位置數據方面,除了航空、鐵路、公路、輪渡等交通部門統計的出行數據外,在用戶授權的前提下,電信運營商可以基於手機信令等包含地理位置和時間戳信息的數據有效定位用戶的手機位置。
2. 大數據構建疫情發展模型
疫情期間,大眾密切關注疫情的傳播態勢。疫情還會傳播多久?感染者還會大幅增加嗎?哪裡感染風險高?何時能夠進入安全期?要解決這些問題,需要找出關鍵影響因素、分析疫情傳播特徵、搭建疫情發展模型,這其中大數據能夠發揮關鍵作用。
3. 大數據挖掘疫情輿論
疫情面前,疏解民眾的焦慮心理至關重要。由於信息獲取方式、生活方式的改變,搜索大數據已成為疫情之下了解民意的重要載體,每一條信息背後的點擊、每一次搜索,都精準揭示了民眾的需求與問題。
㈤ 數據分析五大步驟
(一)問題識別
大數據分析的第一步是要清晰界定需要回答的問題。對問題的界定有兩個標准,一是清晰、二是符合現實。
(二)數據可行性論證
論證現有數據是否足夠豐富、准確,以致可以為問題提供答案,是大數據分析的第二步,項目是否可行取決於這步的結論。
(三)數據准備
數據准備環節需要梳理分析所需每個條目的數據,為下一步建立模型做好從充分預備。這種准備可以分為數據的採集准備和清洗整理准備兩步。
(四)建立模型
大數據分析項目需要建立的模型可以分為兩類。對於這兩類模型,團隊都需要在設立模型、論證模型的可靠性方面下功夫。
(五)評估結果
評估結果階段是要評估上述步驟得到的結果是否足夠嚴謹可靠,並確保數據分析結果能夠有利於決策。評估結果包括定量評估和定性評估兩部分。
大數據的應用
大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。
大數據的意義和前景
總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。
大數據發展戰略
傳統的數據方法,不管是傳統的 OLAP技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基於集中式的底層軟體架構開發,難以並行化,因而在處理 TB級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。
在人類全部數字化數據中,僅有非常小的一部分(約占總數據量的1%)數值型數據得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如排序),占總量近60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析
鹵鵝
㈥ 工業大數據大有可為,淺談製造業7大應用場景
工業大數據應用將帶來工業企業創新和變革的新時代。通過互聯網、移動物聯網等帶來的低成本感知、高速移動連接、分布式計算和高級分析,信息技術和全球工業系統正在深入融合,給全球工業帶來深刻的變革,創新企業的研發、生產、運營、營銷和管理方式。這些創新不同行業的工業企業帶來了更快的速度、更高的效率和更高的洞察力。工業大數據的典型應用包括產品創新、產品故障診斷與預測、工業生產線物聯網分析、工業企業供應鏈優化和產品精準營銷等諸多方面。本文我們講就工業大數據在製造企業的應用場景進行逐一梳理。
一、加速產品創新
客戶與工業企業之間的交互和交易行為將產生大量數據,挖掘和分析這些客戶動態數據,能夠幫助客戶參與到產品的需求分析和產品設計等創新活動中,為產品創新作出貢獻。福特公司是這方面的表率,他們將大數據技術應用到了福特福克斯電動車的產品創新和優化中,這款車成為了一款名副其實的「大數據電動車」。第一代福特福克斯電動車在駕駛和停車時產生大量數據。在行駛中,司機持續地更新車輛的加速度、剎車、電池充電和位置信息。這對於司機很有用,但數據也傳回福特工程師那裡,以了解客戶的駕駛習慣,包括如何、何時以及何處充電。即使車輛處於靜止狀態,它也會持續將車輛胎壓和電池系統的數據傳送給最近的智能電話。
這種以客戶為中心的大數據應用場景具有多方面的好處,因為大數據實現了寶貴的新型產品創新和協作方式。司機獲得有用的最新信息,而位於底特律的工程師匯總關於駕駛行為的信息,以了解客戶,制訂產品改進計劃,並實施新產品創新。而且,電力公司和其他第三方供應商也可以分析數百萬英里的駕駛數據,以決定在何處建立新的充電站,以及如何防止脆弱的電網超負荷運轉。
二、設備故障分析及預測
在製造業生產線上,工業生產設備都會受到持續的振動和沖擊,這導致設備材料和零件的磨損老化,從而導致工業設備容易產生故障,而當人們意識到故障時,可能已經產生了很多不良品,甚至整個工業設備已經奔潰停機,從而造成巨大的損失。
如果能在故障發生之前進行故障預測,提前維修更換即將出現問題的零部件,這樣就可以提高工業設備的壽命以及避免某個設備突然出現故障對整個工業生產帶來嚴重的影響。隨著工業4.0的到來,智能工廠的工業設備都配上了各種感應器,採集其振動、溫度、電流、電壓等數據顯得輕而易舉,通過分析這些實時的感測數據,對工業設備進行故障預測將是一種行之有效的措施。
因此設備故障預測方案成為了製造行業所青睞的解決方案,其具備的核心功能有:
1、故障超前預警,減少設備停機時間;
2、分析結果實時推送,減少人工成本;
3、適用於企業各種類型的設備,通用性強。
三、工業物聯網生產線的大數據應用
現代化工業製造生產線安裝有數以千計的小型感測器,來探測溫度、壓力、熱能、振動和雜訊。因為每隔幾秒就收集一次數據,利用這些數據可以實現很多形式的分析,包括設備診斷、用電量分析、能耗分析、質量事故分析(包括違反生產規定、零部件故障)等。
首先,在生產工藝改進方面,在生產過程中使用這些大數據,就能分析整個生產流程,了解每個環節是如何執行的。一旦有某個流程偏離了標准工藝,就會產生一個報警信號,能更快速地發現錯誤或者瓶頸所在,也就能更容易解決問題。利用大數據技術,還可以對工業產品的生產過程建立虛擬模型,模擬並優化生產流程,當所有流程和績效數據都能在系統中重建時,這種透明度將有助於製造商改進其生產流程。再如,在能耗分析方面,在設備生產過程中利用感測器集中監控所有的生產流程,能夠發現能耗的異常或峰值情形,由此便可在生產過程中優化能源的消耗,對所有流程進行分析將會大大降低能耗。
四、產品銷售預測與需求管理
近年來,保險業加速了數字化進程,大數據與保險營銷深度融合,成為現代化保險營銷的重要武器。慧都大數據助力保險行業精準營銷,並成功幫助中意人壽保險有限公司更好地服務客戶和發揮忠誠客戶,提高銷售效率及客戶復購率。
五、工業供應鏈的分析與優化
當前,大數據分析已經是很多電子商務企業提升供應鏈競爭力的重要手段。例如,電子商務企業京東商城,通過大數據提前分析和預測各地商品需求量,從而提高配送和倉儲的效能,保證了次日貨到的客戶體驗。RFID等產品電子標識技術、物聯網技術以及移動互聯網技術能幫助工業企業獲得完整的產品供應鏈的大數據,利用這些數據進行分析,將帶來倉儲、配送、銷售效率的大幅提升和成本的大幅下降。
六、生產計劃與排程
製造業面對多品種小批量的生產模式,數據的精細化自動及時方便的採集(MES/DCS)及多變性導致數據劇烈增大,再加上十幾年的信息化的 歷史 數據,對於需要快速響應的APS來說,是一個巨大的挑戰。大數據可以給予我們更詳細的數據信息,發現 歷史 預測與實際的偏差概率,考慮產能約束、人員技能約束、物料可用約束、工裝模具約束,通過智能的優化演算法,制定預計劃排產,並監控計劃與現場實際的偏差,動態的調整計劃排產。幫我們規避「畫像」的缺陷,直接將群體特徵直接強加給個體(工作中心數據直接改變為具體一個設備、人員、模具等數據)。通過數據的關聯分析並監控它,我們就能計劃未來。
七、生產質量分析與預測
在工業生產中,設備失效、人員疏忽、參數異常、原材料差異、環境波動等因素而導致質量偏離,引起質量等級的缺陷和損失非常巨大。工藝流程復雜的大型製造業,如鋼鐵、 汽車 、電子、服裝等行業,信息數據孤島凸顯,導致質量問題頻發,尤其需要「及時發現和預測異常,迅速控制和分析質量異常的原因,進行生產過程改進,穩定生產過程,減少產品質量波動」。
生產質量分析,從工廠訂單下單-訂單生產-流入市場, 針對整個生產鏈進行全面的質量分析。其中,打通質量和人、機、料、法、環等數據,各生產數據環環相扣,聚焦質量管理的全量數據分析,幫助企業快速 探索 缺陷根本原因。
1、打通質量和人、機、料、法、環,對影響質量的全量數據進行交互分析, 探索 相互關系,挖掘數據背後的真實原因,獲取結果「是什麼」,回答「為什麼」。
2、將傳統的靜態匯報模式,改為互動式動態會議,隨時隨地可以組織生產、質量相關專題會議。通過對維度展示生產和質量KPI,實時預警、掌握產線運營狀況。
3、簡單易上手的質量分析工具,員工只需對數據進行選取、拖曳,自助靈活地達成期望的數據結果。
4、摒棄以往靜態的數據報表,整合多個業務系統數據,多場景數據大屏,自適應多屏,進行綜合展示分析,讓決策更清晰。
————————————————