Ⅰ 數據發展的歷程
大數據的發展歷程
隨著計算機和網路的發展,信息不斷「爆炸」:
1970s: 超大規模資料庫 (VLDB)【GB=10^9位元組】
21世紀初:海量數據(massive data)【TB=10^12位元組】
2008年:Big data 【PB=10^15位元組】
現在實際的數據量已經達到:ZB=10^3EB=10^6PB=10^21位元組
2008年9月4日,《自然》(Nature)刊登了一個名為「Big Data」的專輯。2011年5月,美國著名咨詢公司麥肯錫(McKinsey)發布《大數據:創新、競爭和生產力的下一個前沿》的報告,首次提出了「大數據」概念,認為數據已經成為經濟社會發展的重要推動力。大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。
2013年3月29日,美國奧巴馬政府宣布推出「大數據研究和發展計劃」(Big Data Research and Development Initiative),有人將其比之為柯林頓政府當年提出的「信息高速公路」計劃 。該計劃涉及美國國家科學基金會、衛生研究院、能源部、國防部等6個聯邦政府部門,投資超兩億美元,研發收集、組織和分析大數據的工具及技術。2012年7月日本推出「新ICT戰略研究計劃」,在新一輪IT振興計劃中日本政府把大數據發展作為國家層面戰略提出。這是日本新啟動的2011年大地震族塵一度擱置的政府ICT戰略研究。英國政府也宣稱投資6億英鎊科學資金,並計劃在未輪卜來兩年內在大數據和節能計算研究投資1.89億英鎊。政府把大量的資金投入到計算基礎設施,用以捕捉並分析通過開放式數據革命獲得的數據流,帶動企業投入更多的資金。
2012年3月,我國科技部發布的「十二五國家科技計劃信息技術領域2013年度備選項目徵集指南」把大數據研究列在首位。中國分別舉辦了第一屆(2011年)兆桐禪和第二屆(2012年)「大數據世界論壇」。IT時代周刊等舉辦了「大數據2012論壇」,中國計算機學會舉辦了「CNCC2012大數據論壇」。國家科技部,863計劃信息技術領域2015年備選項目包括超級計算機、大數據、雲計算、信息安全、第五代移動通信系統(5G)等。2015年8月31日,國務院正式印發《促進大數據發展行動綱要》。
Ⅱ 大數據是什麼
大數據是什麼意思呢?
如果從字面意思來看,大數據指的是巨量數據。那麼可能有人會問,多大量級的數據才叫大數據?不同的機構或學者有不同的理解,難以有一個非常定量的定義,只能說,大數據的計量單位已經越過TB級別發展到PB、EB、ZB、YB甚至BB級別。
最早提出「大數據」這一概念的 是全球知名咨詢公司麥肯錫,它是這樣定義大數據的:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型以及價值密度低四大特徵。
研究機構Gartner是這樣定義大數據的:「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流轉優化能力來適應海量、高增長率和多樣化的信息資產。若從技術角度來看,大數據的戰略意義不在於掌握龐大的數據,而在於對這些含有意義的數據進行專業化處理,換言之,如果把大數據比作一種產業,那麼這種產業盈利的關鍵在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
Ⅲ 大數據在金融行業的應用與挑戰
大數據在金融行業的應用與挑戰
A 具有四大基本特徵
金融業基本是全世界各個行業中最依賴於數據的,而且最容易實現數據的變現。全球最大的金融數據公司Bloomberg在1981年成立時「大數據」概念還沒有出現。Bloomberg的最初產品是投資市場系統(IMS),主要向各類投資者提供實時數據、財務分析等。
隨著信息時代降臨,1983年估值僅1億美元的Bloomberg以30%股份的代價換取美林3000萬美元投資,先後推出Bloomberg Terminal、News、Radio、TV等各類產品。1996年Bloomberg身價已達20億美元,並以2億美元從美林回購了10%的股份。2004年Bloomberg在紐約曼哈頓中心建成246米摩天高樓。到2008年次貸危機,美林面臨崩盤,其剩餘20%的Bloomberg股份成為救命稻草。Bloomberg趁美林之危贖回所有股份,估值躍升至225億美元。2016年Bloomberg全球布局192個辦公室,擁有1.5萬名員工,年收入約100億美元,估值約1000億美元,超過同年市值為650億美元的華爾街標桿高盛。
大數據概念形成於2000年前後,最初被定義為海量數據的集合。2011年,美國麥肯錫公司在《大數據的下一個前沿:創新、競爭和生產力》報告中最早提出:大數據指大小超出典型資料庫軟體工具收集、存儲、管理和分析能力的數據集。
具體來說,大數據具有四大基本特徵:
一是數據體量大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量。
二是數據類別大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據。
三是處理速度快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。
四是數據的真實性高,隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限被打破,信息的真實性和安全性顯得極其重要。
而相比其他行業,金融數據邏輯關系緊密,安全性、穩定性和實時性要求更高,通常包含以下關鍵技術:數據分析,包括數據挖掘、機器學習、人工智慧等,主要用於客戶信用、聚類、特徵、營銷、產品關聯分析等;數據管理,包括關系型和非關系型數據、融合集成、數據抽取、數據清洗和轉換等;數據使用,包括分布式計算、內存計算、雲計算、流處理、任務配置等;數據展示,包括可視化、歷史流及空間信息流展示等,主要應用於對金融產品健康度、產品發展趨勢、客戶價值變化、反洗錢反欺詐等監控和預警。
B 重塑金融行業競爭新格局
「互聯網+」之後,隨著世界正快速興起「大數據+」,金融行業悄然出現以下變化:
大數據特徵從傳統數據的「3個V」增加到「5個V」。在數量(Volume)、速度(Velocity)、種類(Variety)基礎上,進一步完善了價值(Value)和真實性(Veracity),真實性包括數據的可信性、來源和信譽、有效性和可審計性等。
金融業按經營產品分類變為按運營模式分類。傳統金融業按經營產品劃分為銀行、證券、期貨、保險、基金五類,隨著大數據產業興起和混業經營的發展,現代金融業按運營模式劃分為存貸款類、投資類、保險類三大類別。
大數據市場從壟斷演變為充分市場競爭。全球大數據市場企業數量迅速增多,產品和服務的差異增大,技術門檻逐步降低,市場競爭日益激烈。行業解決方案、計算分析服務、存儲服務、資料庫服務和大數據應用成為市場份額排名最靠前的五大細分市場。
大數據形成新的經濟增長點。Wikibon數據顯示,2016年,全球大數據硬體、軟體和服務整體市場增長22%達到281億美元,預計到2027年,全球在大數據硬體、軟體和服務上的整體開支的復合年增長率為12%,將達到大約970億美元。
數據和IT技術替代「重復性」業務崗位。數據服務公司Eurekahedge通過追蹤23家對沖基金,發現5位對沖基金經理薪金總額為10億美元甚至更高。過去10年,靠數學模型分析金融市場的物理學家和數學家「寬客」一直是對沖基金的寵兒,其實大數據+人工智慧更精於此道。高盛的紐約股票現金交易部門2000年有600名交易員而如今只剩兩人,其任務全由機器包辦,專家稱10年後高盛員工肯定比今天還要少。
美國大數據發展走在全球前列。美國政府宣稱:「數據是一項有價值的國家資本,應對公眾開放,而不是將其禁錮在政府體制內。」作為大數據的策源地和創新引領者,美國大數據發展一直走在全球最前列。自20世紀以來,美國先後出台系列法規,對數據的收集、發布、使用和管理等做出具體的規定。2009年,美國政府推出Data.gov政府數據開放平台,方便應用領域的開發者利用平台開發應用程序,滿足公共需求或創新創業。2010年,美國國會通過更新法案,進一步提高了數據採集精度和上報頻度。2012年3月,奧巴馬政府推出《大數據研究與開發計劃》,大數據迎來新一輪高速發展。
英國是歐洲金融中心,大數據成為其領先科技之一。2013年,英國投資1.89億英鎊發展大數據。2015年,新增7300萬英鎊,創建了「英國數據銀行」data.gov.uk網站。2016年,倫敦舉辦了超過22000場科技活動,同年,英國數字科技投資逾68億英鎊,而收入則超過1700億英鎊。另外,英國統計局利用政府資源開展「虛擬人口普查」,僅此一項每年節省5億英鎊經費。
C 打造高效金融監管體系
大數據用已發生的總體行為模式和關聯邏輯預測未來,決策未來,作為現代數字科技的核心,其靈魂就是——預測。
偵測、打擊逃稅、洗錢與金融詐騙
全球每年因欺詐造成的經濟損失約3.7萬億美元,企業因欺詐受損通常為年營收額的5%。全球最大軟體公司之一美國SAS公司與稅務、海關等政府部門和全球各國銀行、保險、醫療保健等機構合作,有效應對日益復雜化的金融犯罪行為。如在發放許可之前,通過預先的數據分析檢測客戶是否有過行受賄、欺詐等前科,再確定是否發放借貸或海關通關。SAS開發的系統已被國際公認為統計分析的標准軟體,在各領域廣泛應用。英國政府利用大數據檢測行為模式檢索出200億英鎊的逃稅與詐騙,追回了數十億美元損失。被福布斯評為美國最佳銀行的德克薩斯資本銀行(TCBank),不斷投資大數據技術,反金融犯罪系統與銀行發展同步,近3年資產從90億美元增至210億美元。荷蘭第三大人壽保險公司CZ依靠大數據對騙保和虛假索賠行為進行偵測,在支付賠償金之前先期阻斷,有效減少了欺詐發生後的司法補救。
大數據風控建立客戶信用評分、監測對照體系
美國注冊舞弊審核師協會(ACFE)統計發現,缺乏反欺詐控制的企業會遭受高額損失。美國主流個人信用評分工具FICO能自動將借款人的歷史資料與資料庫中全體借款人總體信用習慣相比較,預測借款人行為趨勢,評估其與各類不良借款人之間的相似度。美國SAS公司則通過集中瀏覽和分析評估客戶銀行賬戶的基本信息、歷史行為模式、正在發生行為模式(如轉賬)等,結合智能規則引擎(如搜索到該客戶從新出現的國家為特有用戶轉賬,或在新位置在線交易等),進行實時反欺詐分析。
美國一家互聯網信用評估機構通過分析客戶在Facebook、Twitter等社交平台留下的信息,對銀行的信貸和投保申請客戶進行風險評估,並將結果出售給銀行、保險公司等,成為多家金融機構的合作夥伴。
D 數據整合困難
應用經濟指標預測系統分析市場走勢
IBM使用大數據信息技術成功開發了「經濟指標預測系統」,該系統基於單體數據進行提煉整合,通過搜索、統計、分析新聞中出現的「新訂單」等與股價指標有關的單詞來預測走勢,然後結合其他相關經濟數據、歷史數據分析其與股價的關系,從而得出行情預測結果。
追蹤社交媒體上的海量信息評估行情變化
當今搜索引擎、社交網路和智能手機上的微博、微信、論壇、新聞評論、電商平台等每天生成幾百億甚至千億條文本、音像、視頻、數據等,涵蓋廠商動態、個人情緒、行業資訊、產品體驗、商品瀏覽和成交記錄、價格走勢等,蘊含巨大財富價值。
2011年5月,規模為4000萬美元的英國對沖基金DC Markets,通過大數據分析Twitter的信息內容來感知市場情緒指導投資,首月盈利並以1.85%的收益率一舉戰勝其他對沖基金僅0.76%的平均收益率。
美國佩斯大學一位博士則利用大數據追蹤星巴克、可口可樂和耐克公司在社交媒體的圍觀程度對比其股價,證明Facebook、Twitter和 Youtube上的粉絲數與股價密切相關。
提供廣泛的投資選擇和交易切換
日本個人投資理財產品Money Design在應用程序Theo中使用演算法+人工智慧,最低門檻924美元,用戶只需回答風險承受水平、退休計劃等9個問題,就可使用35種不同貨幣對65個國家的1.19萬只股票進行交易和切換,年度管理費僅1%。Money Design還能根據用戶投資目標自動平衡其賬戶金額,預計2020年將超過2萬億美元投資該類產品。
利用雲端資料庫為客戶提供記賬服務
日本財富管理工具商Money Forward提供雲基礎記賬服務,可管理工資、收付款、寄送發票賬單、針對性推送理財新項目等,其軟體系統連接並整合了2580家各類金融機構的各類型帳戶,運用大數據分析的智能儀表盤顯示用戶當前財富狀況,還能分析用戶以往的數據以預測未來的金融軌跡。目前其已擁有50萬商家和350萬個體用戶,並與市值2.5萬億美元的山口金融集團聯合開發新一款APP。
為客戶定製差異化產品和營銷方案
金融機構迫切需要掌握更多用戶信息,繼而構建用戶360度立體畫像,從而對細分客戶進行精準營銷、實時營銷、智慧營銷。
一些海外銀行圍繞客戶「人生大事」,分析推算出大致生活節點,有效激發其對高價值金融產品的購買意願。如一家澳大利亞銀行通過大數據分析發現,家中即將誕生嬰兒的客戶對壽險產品的潛在需求最大,於是通過銀行卡數據監控准媽媽開始購買保胎葯品和嬰兒相關產品等現象,識別出即將添丁的家庭,精準推出定製化金融產品套餐,受到了客戶的積極響應,相比傳統的簡訊群發模式大幅提高了成功率。
催生並支撐人工智慧交易
「量化投資之王」西蒙斯被公認為是最能賺錢的基金經理人,自1988年創立文藝復興科技公司的旗艦產品——大獎章基金以來,其憑借不斷更新完善的大數據分析系統,20年中創造出35%的年均凈回報率,比索羅斯同期高10%,比股神巴菲特同期高18%,成為有史以來最成功的對沖基金,並於1993年基金規模達2.7億美元時停止接受新投資。在美國《Alpha》雜志每年公布的對沖基金經理排行榜上,西蒙斯2005年、2006年分別以15億美元、17億美元凈收入穩居全球之冠,2007年以13億美元位列第五,2008年再以25億美元重返榜首。
推動金融產品和服務創新
E 面臨三大挑戰
目前,全球各行業數據量的增長速度驚人,在我國尤其集中在金融、交通、電信、製造業等重點行業,信息化的不斷深入正在進一步催生更多新的海量數據。
據統計,2015年中國的數據總量達到1700EB以上,同比增長90%,預計到2020年這一數值將超過8000EB。以銀行業為例,每創收100萬元,銀行業平均產生130GB的數據,數據強度高踞各行業之首。但在金融企業內部數據處於割裂狀態,業務條線、職能部門、渠道部門、風險部門等各個分支機構往往是數據的真正擁有者,缺乏順暢的共享機制,導致海量數據往往處於分散和「睡眠」狀態,雖然金融行業擁有的數據量「富可敵國」,但真正利用時卻「捉襟見肘」。
數據安全暗藏隱患
大數據本質是開放與共享,但如何界定、保護個人隱私權卻成為法律難題。大數據存儲、處理、傳輸、共享過程中也存在多種風險,不僅需要技術手段保護,還需相關法律法規規范和金融機構自律。多項實際案例表明,即使無害的數據大量囤積也會滋生各種隱患。安全保護對象不僅包括大數據自身,也包含通過大數據分析得出的知識和結論。在線市場平台英國Handshake.uk.com就嘗試允許用戶協商個人數據被品牌分享所得的報酬。
人才梯隊建設任重道遠
人才是大數據之本。與信息技術其他細分領域人才相比,大數據發展對人才的復合型能力要求更高,需要掌握計算機軟體技術,並具備數學、統計學等方面知識以及應用領域的專業知識。
Ⅳ 幾年左右什麼促使了大數據的突破
2003——2006年,非結構化的數據大量出現,傳統的資料庫處理難以應對,也稱非結構化數據階段。
大數據發展歷程:
1、上世紀末,是大數據的萌芽期,處於數據挖掘技術階段。隨著數據挖掘理論和資料庫技術的成熟,一些商業智能工具和知識管理技術開始被應用。
2、2003年-2006年是大數據發展的突破期,社交網路的流行導致大量非結構化數據出現,傳統處理方法難以應對,數據處理系統、資料庫架構開始重新思考。
3、2006年-2009年,大數據形成並行計算和分布式系統,為大數據發展的成熟期。
4、2010年以來,隨著智能手機應用,數據碎片化、分布式、流媒體特徵更加明顯,移動數據急劇增長。
5、2011年麥肯錫全球研究院發布《大數據:下一個創新、競爭和生產力的前沿》,2012年維克托·舍恩伯格《大數據時代:生活、工作與思維的大變革》宣傳推廣,大數據概念開始風靡全球。
Ⅳ 大數據的產生與發展現狀研究
摘 要:大數據的產生給未來信息技術帶來新的機遇與挑戰。大數據對數據處理的有效性、實時性提出了更高要求,需要根據大數據的特點對當前數據處理技術實施變革,從而形成更有益於大數據採集、存儲、處理、管理、分析、共享的新興技術。本文從大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。
關鍵詞 :大數據 物聯網 信息處理 海量計算
一、大數據的產生與發展現狀
隨著物聯網、雲計算等信息技術的飛速發展,大數據技術(Big Data)也越發進入人們的視線。大數據是用傳統方法或工具很難處理或分析的數據信息。目前,人們對大數據的理解還不夠全面和深入,關於大數據的含義也沒有一個統一的定義。亞馬遜大數據科學家John Rauser認為:大數據是超過任何一台計算機處理能力的龐大數據量。Informatica 的中國區首席顧問但彬指出:大數據是海量數據與復雜類型的數據的結合。而維基網路則把大數據定義成諸多大而復雜的、難以用當前資料庫處理的數據集合。
大數據研究受到國內外學術界和工業界的廣泛關注,已成為當今信息時代全世界討論的熱點。2008年,Nature雜志就推出大數據專刊,計算社區聯盟也在同一年發表了報告《Big data computing; Creating revolutionary breakthroughs in commerce, science and society》,報告闡述了解決大數據問題所需的關鍵技術以及所面臨的挑戰。美國奧x政府於2012年3月在白宮網站發布了《大數據研究和發展倡議》,提出了通過收集、處理海量、復雜的數據信息,從而提升能力,加快科學和工程領域的創新步伐,轉變學習教育模式,強化美國本土的安全」。2011年1月,微軟公司同惠普公司合作開發了一系列能夠提升生產力,同時提高決策速度的設備。此外,歐盟委員會也提出駕駁大數據浪潮的戰略思路,日本發布的《面向 2020 的 ICT綜合戰略》也提出需要構造大量豐富的數據基礎。
近年來,我國也積極開展對大數據的研究。2011年10月,工信部確認京滬深杭等 5 城市為「雲計算中心」試點城市。2012年6月,中國計算機學會青年計算機科技論壇也舉辦了「大數據時代,智謀未來」學術報告研討會。大數據及其科學研究方法涉及應用領域很廣,並將與國計民生密切相關的科學決策、金融工程以及知識經濟領域緊緊接合。
二、大數據的特點
目前,企業界和學術界都一致認為,大數據具有4個「V」特徵,即:容量(Volume)、種類(Variety)、速度(Velocity)和至關重要的`價值(Value)。
(1) 容量(Volume)巨大。海量的數據集從TB 級別提升到PB 級別。
(2) 種類(Variety)繁多。大數據數據源有多種,數據格式和種類不同於以前所規定的結構化數據范疇。
(3)價值(Value)密度低。如視頻的例子,在不間斷連續監控的過程中,可能有意義的數據僅有一兩秒。
(4)速度(Velocity)快。包含大量實時、在線數據處理分析的需求1秒鍾定律。
三、大數據應用的領域
大數據產業的發展將推動全球經濟由粗放型向集約型轉變,這將對提升企業整體競爭力和政府監管能力具有意義深遠的影響。
商業作為大數據的重要應用領域。沃爾瑪公司通過對消費者購物行為等一系列非結構化數據的分析,了解不同顧客的購物習慣,公司從所銷售的數據進行分析,從而選出適合在一起搭配出售的商品;淘寶也針對買家開設了大數據平台,為客戶量身打造了一整套完善的網購體驗產品。
大數據在金融業也起到了至關重要的作用。美國Equifax公司利用大數據技術,通過對其的資料庫中與財務有關的記錄海量信息進行索引處理和交叉分享,從而得到客戶的個人信用等級,以推斷出客戶的支付需求與能力。
隨著大數據在醫療與生命科學研究過程中的廣泛應用和不斷擴展。2010年,中國公布的《十二五規劃》指出:要重點建設國家級、省級和地市級三級醫療衛生信息平台,建設電子病歷和電子檔案兩個最為基礎的資料庫。各級醫院也將在醫療信息倉庫、數據中心等領域加大投入,醫療數據信息的存儲將愈加被關注,醫療信息中心的關注焦點也將由傳統的計算領域轉為存儲領域。
除此之外,大數據在製造業領域也有著廣闊的應用。製造業企業積累了廣泛的數據信息,在開展對業務數據進行技術管理的同時,企業需要通過大數據處理技術來幫助決策者從資料庫儲存的海量信息中找到有價值的信息,並且對其進行分析處理,從而增強決策的正確性、規避風險。
四、大數據所面臨的挑戰
大數據技術使人們能夠更好地利用之前不能使用的各個數據類型,找出被忽略的信息,促進企業組織更加高效、智能。但隨著對大數據研究的不斷深入,人們也更加意識到當大數據技術向人們敞開「方便之門」的同時,也帶來了眾多的挑戰:
(1)大數據需要更為專業化的管理技術人才。
(2) 大數據的合理利用需要解決容量大、類別多和時效性高的數據處理問題。
(3)大數據的利用對信息安全提出了更高要求。
(4)大數據的集成與管理問題。
這些挑戰已成為關繫到未來大數據發展的重要因素,同時也成為未來引領大數據發展的推動力。
五、結束語
大數據已經逐步滲透到人們工作生活的諸多領域中,對於大數據的研究也在不斷的深化。本文針對大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。大數據的發展還處於初級階段,還有更為廣闊的空間需要人們不斷開拓,如何合理地利用大數據、更加高效地處理大數據來為人們服務仍需要廣大研究者不斷地研究和探索。
參考文獻:
[1]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報,2014,46(6):957- 972.
[2]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.
[3]劉俊.基於大數據流的Multi-Agent系統模型研究[J].計算機技術與發展, 2007,17(5):166-169.
Ⅵ 大數據趨勢與專業圖書館
數據被稱作信息化時代的石油,其重要性不言而喻。「大數據」通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。從產業角度,常常把這些數據與採集它們的工具、平台、分析系統一起稱為「大數據」。在大數據時代,順應大數據趨勢,實現傳統業務的轉移,是帶給國內專業圖書館的一個契機。
1.大數據與科學研究
2011年,麥肯錫研究院在《大數據:創新、競爭和生產率的下一個前沿》的報告中提出「大數據」時代已經到來。2012年3月,奧巴馬政府發布了「大數據研究和發展計劃」;2012年6月,聯合國專門發布了大數據發展戰略。這是聯合國第一次就某一技術問題發布報告。「大數據」成為2012年熱門詞彙和研究熱點之一。除了國家和研究機構,全球主要的大型IT商業公司均對大數據技術投入巨資,目的是利用大數據為國家治理、企業決策乃至個人生活提供服務。目前,科學研究正在進入一個嶄新的階段。在信息與網路技術迅速發展的推動下,大量從宏觀到微觀,從自然到社會的觀察、感知、計算、模擬、模擬、傳播等設施和活動產生出大量科學數據,形成被稱為「大數據」的新的科學基礎設施。數據不再僅僅是科學研究的結果,而且是科學研究活動的基礎。科學家不僅通過對廣泛的數據實時、動態地監測與分析來解決難以解決或不可觸及的科學問題,更是把數據作為科學研究的對象和工具,基於數據來思考、設計和實施科學研究。以數據考察為基礎,聯合理論、實驗和模擬為一體的數據密集計算的範式,成為與經驗範式、理論範式和模擬範式並列的第四範式。數據被一起捕獲或者由模擬器生成,處理後存儲在計算機中,科研人員使用數據管理和統計學方法分析資料庫和文檔,據此產生創新思維和成果。這種科研模式被稱為數據密集型範式,簡稱數據範式,是一種新的科研模式。
2.大數據與現有資料庫技術的對比
大數據具有數據持續增加、體量巨大(Volume)、數據類型和來源多樣(Variety)、速度快(Velocity)等特點。
3.大數據與新型數字圖書館
圖書館在科學文獻(紙質或是電子)的組織與服務方面積累了豐富的經驗,已成為科研活動和學術交流體系中的有力支撐。隨著學術信息交流方式的變化,既有數據檔案庫,也有文獻檔案庫,而數據則進入數據檔案庫中。因此,數據圖書館將成為未來數字圖書館的一部分。存儲在各類資料庫和文檔系統中的科學數據,以及以業界標准化關系資料庫所產生的元數據體系,將構成一種新型的、分布式的和整合式的數字圖書館。這種數字圖書館既包括傳統數字圖書館的各類處理、管理、檢索服務等功能,又包括數據轉換、可視化和數據挖掘服務等新型數據服務功能。
4.大數據在專業研究領域中的應用
生物醫學領域是大數據的先行者,這主要得益於美國國家醫學圖書館基於科學數據建立的超級計算和數據處理平台。這些平台支持基礎科學和應用科學的知識發現和數據關聯,以及分析基礎上的模擬模擬研究,為科研和政府決策提供服務。2007年,吉姆格雷擴展了其對數據密集型科學的看法,提出7個重要行動領域之一就是同國家醫學圖書館支持生物科學一樣,建立更多數字圖書館以支持其他科學。生物醫學領域的數據量在飛速增長。歐洲分子生物實驗室核酸序列資料庫EMBL-Bank收到數據的速度每年遞增200%;人類基因組計劃2008年生產數據1萬億鹼基對,2009年速率又翻一番;在生物醫學文獻編目中已經有1800萬醫學文章,每年增加接近百萬篇。
美國國立醫學圖書館的Entrez系統是美國國立醫學圖書館建立的生命科學搜索引擎,它真正實現了數據和文獻的交互性操作。用戶可以在閱讀論文的同時打開基因數據,跟隨基因找到這個疾病,再回到文章(微軟的WWT也實現了數據與文獻的融合)。融合和交互操作可通過統一的鏈接、統一的標簽和ID號實現。醫學、生物學、心理學等學科領域的大型實驗設備的實驗型數據、人類基因數據中,有些由於觀測和實驗的不可重復性,有些由於時間、設備和經濟等條件的限制,數據獲取難度大,因此,數據的長期有效保存、科學管理、有條件共享和促進利用是極有意義和價值的一項工作。把全世界的數據都集成在一起,形成巨型的動態數據集,將誕生一個全球化的資料庫。
5.國內專業圖書館的實踐
專業圖書館的思考在實踐方面,國內已經建立了一系列的科學數據平台,如科技部支持建設的科學數據共享工程等,但圖書館人員參與很少。在新的交流體系形成之際,專業圖書館應該深刻思考和研究支撐科研創造的信息服務環境;思考科研成果融合數據之後,形成的原始數據、派生數據和科學文獻融為一體的新的信息環境下,如何提供信息和數據服務;研究數據科研基礎設施建設和運行過程中信息機構的職責、作用和角色。從大量的數據中分析其潛在的價值將成為大數據時代圖書館的一大主要業務,並且提供這些業務的水平將決定著大數據時代圖書館的發展水平和方向。專業圖書館尤其要分析研究數據科學家的知識結構、基本素養、基本技能,並將此納入培養計劃加以實施,為未來社會提供所需人才。
Ⅶ 簡述什麼是大數據時代
在我們還沒有弄明白什麼是雲計算,什麼是物聯網的時候,大數據時代來了。大數據時代帶來的變革影響著我們生活和工作的方方面面。那麼,什麼是大數據時代?我們舉例說明!
「大數據時代」首次被提出
最早提出「大數據時代」到來的是全球知名咨詢公司麥肯錫。 2011年5月,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)發布了一份報告--《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。
報告還提到,「大數據」源於數據生產和收集的能力和速度的大幅提升--由於越來越多的人、設備和感測器通過數字網路連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。
大數據在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。進入2012年,大數據(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。
舉個實際生活中的例子,大約20年前,亞馬遜剛成立時,傑夫·貝索斯讓50個書評員來為他賣書,他意識到不僅僅可以請人來寫書評,還可以用數據技術來提供圖書推薦。起初他使用的是小數據,不是大數據,把客戶進行分類,比如說有人對中國旅遊或者是對園藝感興趣,系統會自動提供推薦。他的同事告訴他,剛剛開始使用這個數據推薦時,使用體驗並不好;在進一步分析後,亞馬遜決定不對人進行分類,而是對用戶的需求分類。這個做法做法非常成功,以至於到今天,推薦系統為亞馬遜帶去30%的銷售收入。
什麼是大數據時代?我們再通俗一點講,就是在不影響你隱私的前提下,讓你的生活很便捷。例如我要去北京出差,我忙完手裡的事情,樓下已經有專車在等候送我去機場,專車根據大數據實時路況選了一條最優方案把我准點送達機場,下飛機的時候,車子已經在等我,並且把我送到了我比較喜歡而且價位適合的賓館,到了賓館,我喜歡的美食已經准備妥當,房間溫度已經達到最佳,浴室水溫已經正好合適,我喜歡的美人已經在床上寬衣解帶等候寵幸……
大數據時代就是能夠根據我實時產生的數據來不斷給我匹配我想要的東西,讓生活超級便捷。
Ⅷ 2011年什麼公司發布報告,大數據開始被收關注
麥肯錫公司。大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。2011年麥肯錫公司發布《大數據:創新、競爭和生產力的下一個新領域》報告,大數據開始備受關注。麥肯錫咨詢公司?麥肯錫公司是世界級領先的全球管理咨詢公司。
Ⅸ 詳解大數據的思想如何形成與其價值維度
詳解大數據的思想如何形成與其價值維度
比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。
那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?我畫了個圖:
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobody wants to be nobody today。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的。