A. 大數據數倉項目架構
雲上數據倉庫解決方案: https://www.aliyun.com/solution/datavexpo/datawarehouse
離線數倉架構
離線數倉特點
基於Serverless的雲上數據倉庫解決方案
架構特點
實時數倉架構
[圖片上傳失敗...(image-ec3d9a-1629814266849)]
實時數倉架構特點
秒級延遲,實時構建數據倉庫,架構簡單,傳統數倉平滑升級
架構特點
數據倉庫的輸入數據源和輸出系統分別是什麼?
輸入系統:埋點產生的用戶行為數據、javaEE後台產生的業務數據、個別公司有爬蟲數據。
輸出系統:報表系統、用戶畫像系統、推薦系統
1)Apache:運維麻煩,組件間兼容性需要自己調研。(一般大廠使用,技術實力雄厚,有專業的運維人員)
2)CDH:國內使用最多的版本,但 CM不開源,但其實對中、小公司使用來說沒有影響(建議使用)10000美金一個節點 CDP
3)HDP:開源,可以進行二次開發,但是沒有CDH穩定,國內使用較少
伺服器使用物理機還是雲主機?
1)機器成本考慮:
(1)物理機:以128G內存,20核物理CPU,40線程,8THDD和2TSSD硬碟,單台報價4W出頭,惠普品牌。一般物理機壽命5年左右。
(2)雲主機,以阿里雲為例,差不多相同配置,每年5W
2)運維成本考慮:
(1)物理機:需要有專業的運維人員(1萬*13個月)、電費(商業用戶)、安裝空調
(2)雲主機:很多運維工作都由阿里雲已經完成,運維相對較輕松
3)企業選擇
(1)金融有錢公司和阿里沒有直接沖突的公司選擇阿里雲(上海)
(2)中小公司、為了融資上市,選擇阿里雲,拉倒融資後買物理機。
(3)有長期打算,資金比較足,選擇物理機。
根據數據規模大家集群
屬於 研發部 /技術部/數據部,我們屬於 大數據組 ,其他還有後端項目組,前端組、測試組、UI組等。其他的還有產品部、運營部、人事部、財務部、行政部等。
大數據開發工程師=>大數據組組長=》項目經理=>部門經理=》技術總監
職級就分初級,中級,高級。晉升規則不一定,看公司效益和職位空缺。
京東:T1、T2應屆生;T3 14k左右 T4 18K左右 T5 24k-28k左右
阿里:p5、p6、p7、p8
小型公司(3人左右):組長1人,剩餘組員無明確分工,並且可能兼顧javaEE和前端。
中小型公司(3~6人左右):組長1人,離線2人左右,實時1人左右(離線一般多於實時),組長兼顧和javaEE、前端。
中型公司(5 10人左右):組長1人,離線3 5人左右(離線處理、數倉),實時2人左右,組長和技術大牛兼顧和javaEE、前端。
中大型公司(10 20人左右):組長1人,離線5 10人(離線處理、數倉),實時5人左右,JavaEE1人左右(負責對接JavaEE業務),前端1人(有或者沒有人單獨負責前端)。(發展比較良好的中大型公司可能大數據部門已經細化拆分,分成多個大數據組,分別負責不同業務)
上面只是參考配置,因為公司之間差異很大,例如ofo大數據部門只有5個人左右,因此根據所選公司規模確定一個合理范圍,在面試前必須將這個人員配置考慮清楚,回答時要非常確定。
IOS多少人 安卓多少人 前端多少人 JavaEE多少人 測試多少人
(IOS、安卓) 1-2個人 前端1-3個人; JavaEE一般是大數據的1-1.5倍,測試:有的有,有的沒有。1個左右。 產品經理1個、產品助理1-2個,運營1-3個
公司劃分:
0-50 小公司
50-500 中等
500-1000 大公司
1000以上 大廠 領軍的存在
轉自: https://blog.csdn.net/msjhw_com/article/details/116003357
B. 請大家幫忙想一個qc小組的名稱
火眼忍者!
C. 學習小組的名字
1.璀璨星光
2.或者用小隊人的名字,這樣也蠻好的
3.夜行者
4..The best
5.夜翎
口號嘛……好好學習天天向上,Study harder and harder,Day day up
D. 大數據開發所在的部門名稱
大數據事業部。
崗位職責:負責構建分布式大數據服務平台,包含大數據存儲,離線/實時計算,實時查詢,大數據系統運維等工作。基於大數據平台完成各類統計和開發任務,承擔數據抽取、清洗、轉化等數據處理。熟悉業務形態,參與需求分析和方案設計。協助承擔架構性體系工作,配合技術實施方案、交流材料的編寫。從事大數據相關技術研究,跟進大數據技術發展方向。
大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
E. 小組組名
我自己想的,七驥(霽)→可通奇跡,期冀的意思,驥也是千里馬的意思,指你們七個是千里馬!祝學習進步! seven dream high 英文版的,最近看的韓劇《dream high 》感覺不錯,加上seven之後不加復數是指你們有同一個夢想,學習進步,取的好成績。
個人覺得還行的,先鋒隊
以下是網上找的
敢死隊 FBI : F=friend B=best I=I 最好的朋友
風若 凌冬 聖傑 聞聲 高陽 氣魄 知能 菲揚 紫治 光耀 新清 金淺 寧謝 潛新 攝宵 愈篤 深藍 壽強 貴果 冰壺 修遠 新若 善御 鼎寒 曉然 沙歐 言盛 省衫 習安 凈智 顧引 宏朗 晉鵬 平旦 延望 光運 健翎 壽道 波浩 雲龍 後波 領銜主演!
0801組名
永遠的first 書海拾貝 陽光先鋒
純真年代 理想彩虹
0802組名
希望之翼 天之嬌 夢想之星 夢幻之旅
棒棒堂 夢之翼
0803組名
快樂家族 成長部落 極地陽光 .風華組 陽光精靈
超越自我 晴天娃娃
0804組名
勵志小組 至上勵合 炫舞小組 奮進小組
夢之翼 夢翼小組 開心小組 奮斗小組 天天向上小組
0805組名
夢幻隊 炫舞隊 福娃 彩雲隊 龍的傳人 東方神起
勝翼組 勇往之前 勝利組 唯我獨尊 超越小組
0806組名
夢翼隊 先鋒隊 天使隊 我們是奇跡隊 快樂小組
放飛希望隊 我能行隊 成功隊 幻想童年隊 天才隊
0807組名
揚帆筱筱 天天向上 勇攀高峰 光炫星空 穿越時空
紫冰銀河 智之飛躍 星河隊 金鷹隊
以上是全部,希望有所幫助,祝學習進步
F. 【科普】企業中,大數據部門的常見組成
在IT公司里,大數據部門的成員,一般可分為4種:(以房子為例)
先用一張圖,幫助大家理解一下~~
出道題目,我們公司的大數據部門,目前有這些崗位,你能一一推測出他們的所在位置嗎?
【數據應用工程師】、【數據可視化工程師】、【數據可視化設計師】、【數據平台工程師】、【演算法工程師】、【數據分析師】
建房子地基(埋在地下)的那群人
他們就是 平台組/架構組 的那群人,他們負責搭建一套大數據的平台架構體系。一般你肉眼看不到他們的產出,但是當某一堵牆壁歪了的時候,或者你進屋打水但水龍頭卻流不出來水的時候,你就會意識到他們工作的重要性。
平台組的常見發展路徑 :
平台初期,很多公司會用自己的伺服器搭一個 私有集群 ,將數據維護起來,開始構建數據平台的第一步。這個,也是原始的大數據平台。(當然,現在有很多公司也是直接上雲伺服器)
當平台進入高速發展期,考慮到不斷擴充的數據量和伺服器的維護成本上升,很多公司會遷移平台到 雲服務 上,比如阿里雲,華為雲。雲服務的選擇要解決的是選擇平台所提供的服務,成本,數據通道的維護。【我們公司目前正處於這一階段,選擇了雲服務。當前,經過考量也正在由阿里雲遷移到華為雲】
還有一個階段,你發現雲服務的費用太高,雖然省了你很多事,或者是考慮到敏感數據的安全問題(當然,私有集群也不是百分百安全),然後又開始往 私有集群 遷移。這時候,鑒於數據規模,你大概需要一個靠譜的團隊,設計網路布局、設計運維規范、架設監控、建立機房,值班團隊走起7*24小時隨時准備出台。
至此,產生了平台組,真的大數據平台來了 。
建屋子(砌牆蓋瓦)的那群人 :
應用組 的那群人,他們負責建設各類系統/應用。他們搬磚砌牆,建好房子,還要鋪設各類管道線路,把地基裡面的數據抽出來,放在房子里,讓用戶們推開門就可以享用。
應用組,有哪些應用? :
這塊不太好講。不過,為了盡量讓大家看懂,用 從大到小的思路 嘗試下:
在整個社會層面,大數據已應用於各行各業,比如:金融行業/地產行業/零售行業/醫療行業/農業/物流行業/城市管理等等……有哪一個行業,可以脫離數據而生存?有哪一個行業可以不依賴數據而發展?
那麼,在一個企業中,數據必然是無法避免的會應用到,不管是1個員工的皮包公司,還是10萬員工的跨國集團。so,我們來講講具體有哪些應用呢?
一般而言,數據應用分為3類:分別是面向企業內部, 面向企業外部以及面向用戶這三種。
這里,鑒於今天的主題,我們只講 面向企業內部 的大數據應用。
進入正題了:
企業內部產品中,可以從2個角度來看待具體有哪些應用:
策略類 的方向較多,常見的有:
這些有時候會有部分或全部不劃在大數據部門下面,但都需要比較規范的數據基礎,以及著重與利用數據分析調整產品策略。
做企業內部的大數據應用產品,常常有些心酸的地方:
屋子裡面的人 :
產品組 的那群人,主要是一群產品經理(我們公司,目前就半個,由一個分析師兼職著,所以,我們公司沒有產品組哦),負責數據類的應用產品設計。他們和上面建房子的工程師們,是緊密的團隊關系。鑒於上面對數據應用產品已做了很多闡述,關於他們工作產出的應用具體有哪些,這里就不再贅述。
講一講, 數據產品經理 的從業人員得有幾個素質:
屋子外面的人 :
分析組 的那群人,一般會有3類:數據分析師、演算法工程師 (類似數據挖掘) 、數據科學家 (我們公司沒有) 。他們工作的日常:為你提取一份EXCEL數據、製作一張報表數據、用演算法模型分析一個問題、訓練出一套演算法模型等等工作,但不局限於此。
他們常常需要與各個部門打交道,接待很多業務的數據需求,與業務關系緊密。在一些公司,分析組不一定都設置在大數據部門下,他們可能分散在不同的業務部門,為各自部門服務。但是,他們終究也是需要從大數據平台來獲取所需的業務數據,做分析處理,得到相關結論~
據我所知,我們公司的業務部門,(好像)也是有自己的分析人員。
簡單概括一下這些職位的特點:
【數據分析師】
業務線,負責通過數據分析手段發現和分析業務問題,為決策作支持。
【演算法工程師】/【數據挖掘工程師】
偏技術線,負責通過建立模型、演算法、預測等提供一些通用的解決方案,當然也有針對某業務的。
【數據科學家】
數據科學家是使用專業知識構建機器學習模型,再以此做出預測並對關鍵業務問題進行解答的專家。數據科學家仍然需要對數據進行清洗、分析以及可視化處理,這一點和數據分析師是一致的。不過數據科學家在專業技能方面有者更深的研究,涉獵范圍也更廣,同時他們也能夠對機器學習模型進行訓練與優化。
至此,整篇文章,已經講差不多了。
最後總結下,本質上,圍繞房子的這4撥人,做的是同一件事情: 提供數據服務 。
完結~
G. 數學建模小組,大數據小組,組名要怎麼取,求一個狂羈而不失風度的組名
可以叫 狂羈而不失風度
H. 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
I. 好聽的群名逗比沙雕 特別沙雕的群名稱很長很長的那種
現在的人很多都有著逗比、沙雕的靈魂,最直接的體現就是那些五花八門的群名稱和群名片。有的人的群名稱都起的非常有特色,而且不容易撞。改一個逗比、沙雕的群名稱,感覺群聊都更有意思了,分分鍾戲精附體!本站為您手機整理了一些好玩、逗比還很長的群名稱!
1.馬雲遺落在民間的女兒們
2.中年少女養生嘮嗑群
3.權威認證迷妹團
4.大學生金錢交易所
5.單身狗保護協會
6.老年交流中心
7.魚塘養殖技術交流群
8.有福同享,有難退群
9.沙雕植發在線咨詢
10.紅包快遞公司
11.北清得不到的學生群
12.高級應援組織
13.空巢老人的晚年生活
14.不到00斤不改群名
15.坐在盤絲洞里吃外賣
16.性感沙雕在線嘮嗑
17.油頭小分隊
18.我和我的五個神經室友
19.防脫發研究小組
20.懶豬技術養殖中心
21.收購萬達討論群
22.浪漫之滿屋沙雕
23.仙女駐凡大使館
24.佳麗三千交流群
25.小姨小姑暴富隊
26.清華北大落榜生
27.脫單進度條0/6
28.富貴人家洗浴中心
29.爺爺和七個小矮人
30.大數據逃課小組
31.當代惡臭少男的噩夢
32.維密天使線下交流群
33.素質教育漏網之魚
34.火雞面螺螄粉之家
35.重金求子俱樂部
36.阿里巴巴董事會討論組
37.未來富婆高級養生會所
38.仙女養殖基地
39.神經病院五號房
40.夕陽紅廣場勁舞團
41.怡紅院頭牌交流群
42.國服噴子群
43.盒子販賣所
44.芭比之魅力公主學院
45.某不知名人氣組合
46.十個村的希望
47.西九龍重案組
48.江南皮革廠員工群
49.中國少年先瘋隊
50.一群多麼哇塞的菇涼
51.馬雲重點扶持處
J. 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類 屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
特徵
編輯
數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線,已經無法高效處理如此海量的數據,而對於相關組織來說,如果投入巨大採集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]
案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書,指出大數據對於聯合國和各國政府來說是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源,來對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據,是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出,「對於企業來說,海量數據的運用將成為未來競爭和增長的基礎」,該報告在業界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與咨詢,更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」
在國內,網路已經致力於開發自己的大數據處理和存儲系統;騰訊也提出2013年已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
事實上,自2009年以來,有關「大數據」 主題的並購案層出不窮,且並購數量和規模呈逐步上升的態勢。其中,Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元,大數據的產業價值由此可見一斑。[1-2]
提供依據
編輯
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據,而以雲計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限於技術層面,更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析做出,而不是像過去更多憑借經驗和直覺做出。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是,社交媒體監測平台DataSift監測了Facebook(臉譜) IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鍾後Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一,此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面,大數據在社會建設方面的作為同樣令人驚嘆,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起,都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可,它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策,這樣的思維方式,可以預見,將推動一些習慣於靠「差不多」運行的社會發生巨大變革。
應對措施
編輯
一個好的企業應該未雨綢繆,從現在開始就應該著手准備,為企業的後期的數據收集和分析做好准備,企業可以從下面六個方面著手,這樣當面臨鋪天蓋地的大數據的時候,以確保企業能夠快速發展,具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網路還是車間感測器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什麼數據,以自己的數據為基準,確定數據的范圍。
准則
雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的,找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集,並且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要准備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語,而並不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapRece,NoSQL等技術都是2013年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的採集收集分析方面的人才,對於一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示,隨著大數據時代的到來,企業應該在內部培養三種能力。第一,整合企業數據的能力;第二,探索數據背後價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。
做到上面的幾點,當大數據時代來臨的時候,面臨大量數據將不是束手無策,而是成竹在胸,而從數據中得到的好處也將促進企業快速發展。
望採納,謝謝