1. 大數據真的是「未來的新石油」
大數據真的是「未來的新石油」
當前IT業最熱門的話題應該就是大數據了,這個兩年前才被炒作起來的概念,現在已無處不在,占居了互聯網的半壁江山,它與雲計算一起成為未來信息技術發展最重要的內容。處於IT行業的人們,如果不知道大數據,不了解大數據所創造的那些神話般的故事,就好象已經跟不上信息技術的發展,成為時代的落伍者了。
那麼什麼是大數據?現在還沒人能給出一個確切的答案,它同雲計算一樣,是一個形象但卻籠統的概念。大家一致的理解是從4V的角度來描述這一概念的內涵。所謂4V就是說大數據具有體量巨大(Volume)、種類繁多(Variety)、實時處理(Velocity)、數據真實(Veracity)的特性。信息技術的發展,使互聯網遍布世界的每個角落,各種各樣的信息都可通過網路進行傳播。世上所發生的每件事情,人類所進行的每項思考,社會所進行的每點進步,知識所增加的每種內容都可通過互聯網進行匯集。網路技術、感測技術與射頻技術使各種事物都可產生大量數據。事物的內容、時空、方位、特性都可轉化為數據,這些經濟的、社會的、規范的、雜亂的、簡單的、復雜的等各式各樣的數據代表了不同事物的內涵。代表不同事物的海量數據可以通過網路進行匯集,匯集後的整體數據反應了事物的本質特性或發展趨勢。而這種反應事物本質特性或發展趨勢的數據具有一定的價值,通過高性能計算機的數據提取、價值分析、數據表達等大數據技術,可以從大數據中把這些價值提取出來。不同的需要可以提取出不同的價值,所有的價值都可以為人類服務,這就是大數據的本質。
大數據,這一鮮明而又形象的概念之所以如此引人注目,是因為許多像亞馬遜、谷歌這樣的大公司為它杜撰了無數神話般的故事。每一個故事都告訴人們,大數據具有無所不能的洞察力。它可以象偉大的先知一樣預測未來,可以利用玄妙的相關關系推測人的喜好,可以利用寵大的數據窺探人的內心,可以利用趨勢分析引導人的行為,甚至可以用事物發展曲線來控制人的思維,改變人類社會的發展方向。
大數據利用最多的地方是商業領域。大家都知道尿布與啤酒的故事,通過大數據分析,找出這兩個毫不相乾的事物之間的關聯,利用推薦系統,向不同用戶提供不同的產品推銷方案,提高產品的銷售量;另一個眾所周知的故事就是通過購物記錄來分析少女懷孕的案例,通過分析用戶的購買行為,推測用戶的現在狀態與未來需求。盡管這一案例因為侵犯別人隱私而廣受批評,但卻說明了大數據分析在商業領域的價值。還有無數這樣或那樣的故事,都說明大數據在分析人們的喜好與購買習慣上的巨大作用,利用這種分析,商家可以更好地進行營銷。權威的市場調查機構說,大數據將會改變未來的商業規則,實時競價系統(RTB)、更加智能的推薦系統以及基於大數據的商業智能分析(BA),使企業能夠生產更加適合用戶喜好的產品,能夠找到向用戶推銷產品更好的方法,能夠為用戶提供更好的服務,能夠利用有限的資源產生更多的效益,大數據的這些功能將會使經濟社會更快更好地發展。
大數據的另一個應用領域就是社會公共領域。利用大數據,政府可以更好地管理社會,為社會提供更好的公共服務;教育部門可以更好地獲取與傳播知識,提高民眾的素質;衛生部門可以預測重大流行疾病的發生,提前作出防範預警;安全部門可以監控社會狀況,確保國家不受破壞。谷歌公司前幾年利用大數據繪制了「世界流感地圖」[1]用來幫助人們了解世界各地流感的發病情況;利用大數據預測禽流感在各地的爆發趨勢,為民眾提供預防建議,向衛生部門提供監控資料。在公共安全領域,大數據也有巨大的作用,如美國就建立了基於各種感測技術與大數據技術的網路監控系統,預測重大社會公共事件的發生,比如爆發大規模遊行活動、可能遭受的恐怖襲擊等。
隨著科技的發展,大數據的應用也延伸到個人服務領域。穿戴式設備的產生標志著信息技術的發展到了以人為中心的階段。像谷歌眼鏡、蘋果手錶這樣的穿戴式設備把技術與人體結合在起來,使人類可以更加便捷得獲取信息。這些穿戴式設備利用大數據為個人提供學習、生活、健康等方面的數據服務。大數據通過穿戴式設備發揮其作用,同時穿戴式設備本身也成為收集數據、構建大數據的來源。穿戴式設備作為一種工具,大數據是其服務的內容。
大數據有如此巨大的作用,讓一些信息技術發達的國家倍加關注,很多大型信息公司也把大數據當作公司未來發展的重點。美國是當今世界最為重視大數據發展的國家,也是利用大數據較好的國家。美國政府把大數據作為未來信息技術發展的重中之重,認為大數據將引起信息技術發展的革命,改變未來社會的發展模式。2012年3月美國政府發布了《大數據研究和發展倡議》,把大數據稱作「未來社會發展的新石油」,把發展大數據研究提到國家戰略的高度上來。為掌控這一「未來的新石油」,引領世界技術發展方向,聯邦政府制定了大數據研究發展計劃,推進相關研究機構進行科技研究和創新發現。改進從海量數據中提取價值的方法,提高從數據中獲取知識的能力,加速美國在科技領域中的前進步伐,確保美國在信息技術領域的領先地位。美國政府指定了國家科學基金(NSF)、國家衛生研究院(NIH)、能源部(DOE)、國防部(DOD)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)6個聯邦部門來負責推進大數據的研究,並計劃投資2億美元用來研究收集、儲存、保留、管理、分析和共享海量數據的技術。
政府的投入與政策的支持,使那些本來就注重大數據研究的公司更加主動,紛紛加大對大數據研發與利用的投入,取得了不菲的成績。如Apache基金會開發的Hadoop分布式處理系統,經過不斷發展完善,現已成為大數據處理的標准結構;微軟開發的Windows Azure平台使大數據的處理更加人性化、簡易化;還有其它公司,經過不斷的創新研究讓大數據技術更加完善、更加實用。技術的發展使大數據的價值更加突顯,人們對它的期望也不斷提高。據說谷歌公司利用大數據不但可以預測流感的發生,也可預測美國的經濟復甦情況;不但可以預測明年服裝的流行色,也可預測某位娛樂名星是否可以紅遍世界。谷歌公司最近一個廣為流傳的大數據案例就是,在2013年的奧斯卡電影節上,它預測准了大部分的奧斯卡獎項得主。Facebook也是利用大數據的典型公司,大數據是這家社交網站最大的價值所在。通過對大量社交信息的分析,Facebook可以了解用戶的生活習慣與購買喜好,利用定向推薦廣告,為這家年輕的公司每年創造上百億的產值。
還有許多真實的或杜撰的有關大數據的美妙故事,每一個都反應了大數據在某一領域的巨大作用,這些故事的匯編,給人們描繪了一個大數據主宰的奇幻世界。在那裡,人們利用大數據可以預測任何一件事情的發展趨勢,可以完成一切不可能完成的事情。每一個人都是先知、都是智者,在大數據的支持下,每一個人都通天文、曉地理,前知一千後知八百,如齊天大聖般十八般武藝樣樣精通。然而真的是這樣嗎?
可惜的是,理想很豐滿,實現很骨感。至少在當前大數據還沒有那麼大神奇,就連谷歌公司所說的利用人們的檢索詞可以用來預測流感的發展這種人人都相信的故事也沒能發生。當H7N9在中國出現的時候,谷歌沒能給出任何有關這一流感發生與發展的預測,更不用說事先給民眾發出預警,提醒人們防範了;歐洲的金融危機持續了五六年,至今沒有一家大數據公司能預測這場金融危機何時結束,就連未來是向好還是向壞發展的方向都不能預測;在商業領域,個性化廣告推薦這種理應可以做好的事,大數據也沒能表現出其超強的功用。最近經過大數據改造的淘寶網個性推薦系統沒比五六年前好多少;號稱利用大數據使圖書銷售量大幅增加的亞馬遜網站上推薦的書,沒有一本是我喜觀的。
2013年4月15號,波士頓馬拉松比賽現場發生了震驚世界的恐怖襲擊[4]。美國人悲傷地發現,那些基於現代信息技術與大數據分析的網路監控系統,並沒能確保國家的安全,大數據分析在防範恐怖襲擊方面,並不象人們所期望的那樣有效。看來這個被稱為未來技術競爭至高點的大數據,在當下還不能如人們所期望的那樣有用。
產生如此悲觀想法的原因,一是雖然大數據可能代表了未來信息技術發展的方向,具有光明的前景。但是在人們的意識與相關的配套技術還沒有發展起來的情況下,大數據還不能發揮其巨大作用。二是大數據還沒有一個確切的定義,它所具有的內涵還不能被清晰地詮釋。美國把大數據被稱作「未來的新石油」,然而石油是不可再生的,數據卻是隨時隨地都在產生,越是往後產生的數據越多,數據的准確性越高,對數據的處理能力越強,這讓人們對現在就收集並佔有大量數據的必要性產生懷疑;還有從大數據中提取價值首先要有需求,沒有需求就不知道從大數據中提取什麼,當人們的思維還沒有發展到可以完全掌控數據,還不知道大數據到底有什麼用處時,很難對其產生需求;沒有需求就沒有數據收集的方向,沒有方向的收集就會造成巨大浪費;在方向不明的時候,唯一可做的就是收集所有可能收集到的數據,然而這樣不但會給數據的存儲、管理造成具大的成本,也會產生一些法律的問題,例如是否會侵犯他人隱私等。再有,隨著科技的發展,穿戴式設備會不斷智能化並在生活中得以普及,這種以人為中心的智能設備本身就會不斷分析所取得的數據,提取個人的喜好等特性,學習與適應人個的品性,具有人的品性特徵,這樣就使得從大數據中分析人的品性失去了意義。
以上這一切都讓人們對大數據的發展未來產生了懷疑。因此,當美國制定大數據發展戰略,把它看成「未來的新石油」時,世界其它國家雖然也十分重視這一技術的發展,卻沒有制定相關發展戰略。這有可能是其它國家在大數據技術方面落後於美國,還不能制定明確的發展目標,也可能是人們對這一技術的發展前景還沒有一個清楚的認識,無法確定大數據是否真的可以引領未來技術的發展方向。因此,我們還是暫時忘了大數據吧!別再關注那些炙熱的概念炒作,靜下心來認認真真地想一想大數據的真正內涵。
以上是小編為大家分享的關於大數據真的是「未來的新石油」的相關內容,更多信息可以關注環球青藤分享更多干貨
2. 站在「大數據」的台風口,石油行業能起飛嗎三分鍾帶你全面了解
加大油氣勘探開發力度、保障國家能源安全是當前面臨的迫切任務。但隨著優質資源的不斷開發,剩餘資源開采難度越來越大,成本越來越高,迫切需要創新技術提升油氣勘探開發效率和效益。在大數據、人工智慧( artificial intelligence,AI)、5G、雲計算、物聯網等技術推動下,油氣田的智能化水平將會越來越高,這既是油田降本提質增效的有效途徑,也是油氣技術發展規律的必然趨勢。
1、大數據技術定義
2012年興起的「大數據」潮流,讓「Big Data」這個IT圈子裡的名詞一下風靡了各個行業。雖然大數據的重要性得到了大家的一致認同,但是對大數據的理解卻眾說紛紜。大數據是一個抽象的概念,除去數據量龐大這一特徵,大數據還有一些其他的特徵,這些特徵決定了大數據與「海量數據」和「非常大的數據」這些概念之間的不同。
高德納分析員Doug Laney曾於2001年在一次演講中指出,數據增長有3個方向的挑戰:數量(volume),即數據多少;速度(velocity),即資料輸入、輸出的速度;種類(variety),即多樣性,這3方面的特徵即大數據最先提出的3V模型。2011年,在國際數據公司(IDC)發布的報告中,大數據被定義為:「大數據技術描述了新一代的技術和架構體系,通過高速採集、發現或分析,提取各種各樣的大量數據的經濟價值。」大數據的特點可以總結為4個V,即volume(體量浩大)、variety(模態繁多)、velocity(生成快速)和value(價值巨大但密度很低)。這種4V定義得到了更廣泛的認同,指出了大數據最為核心的問題,就是如何從規模巨大、種類繁多、生成快速的數據集中挖掘價值。
2、大數據技術的發展
大數據是人工智慧的血液,當前大數據、雲計算、人工智慧以及區塊鏈技術之間的關系密不可分,也被稱作數據智能。比如,先進的工業互聯網,其中既有區塊鏈技術也有大數據技術,還有雲計算技術,三者合成一體,又衍生出了人工智慧和物聯網的概念。
在大數據基礎上的人工智慧,目前已進入數據智能的深度學習時代,其快速發展引起了 社會 和產業的顛覆性變化。從大數據和人工智慧技術全行業的發展來看,目前美國仍處於領先地位,中國緊隨其後,且具有趕超趨勢。中國在人工智慧相關的論文發表總數和高引論文數量實現對美國的超越,但在人工智慧理論發展和技術方向的引領方面美國還占據支配地位。
3、大數據技術流程
大數據處理的關鍵技術流程主要包括:數據採集、數據預處理(數據清理、數據集成、數據變換等)、海量數據存儲、數據分析及挖掘、數據的呈現與應用(數據可視化、數據安全與隱私等)。
4、大數據的核心演算法
大數據的核心演算法可以分為監督學習(有標簽)和無監督學習(無標簽)兩大類,其中:
監督學習分為回歸和分類:即給定一個樣本特徵,希望預測其對應的屬性值,如果是離散的,那麼這就是一個分類問題,反之,如果是連續的實數,這就是一個回歸問題。無論是分類還是回歸,都是想建立一個預測模型,給定一個輸入,可以得到一個輸出。不同的只是在分類問題中,是離散的;而在回歸問題中是連續的。
無監督學習分為聚類和降維:即如果給定一組樣本特徵,我們沒有對應的屬性值,而是想發掘這組樣本在維空間的分布,比如分析哪些樣本靠的更近,哪些樣本之間離得很遠,這就是屬於聚類問題。如果我們想用維數更低的子空間來表示原來高維的特徵空間,那麼這就是降維問題。聚類也是分析樣本的屬性,事先不知道樣本的屬性范圍,只能憑借樣本在特徵空間的分布來分析樣本的屬性。這種問題一般更復雜。而常用的演算法包括 k-means (K-均值),GMM(高斯混合模型)等。
5、大數據在油氣勘探開發領域的應用
目前大數據技術在地質分析、測井解釋、地震解釋、甜點預測、地質建模、油藏模擬、鑽井、壓裂、採油、產能預測等方面均開展了大量 探索 性研究,收到了良好的效果。但是目前,大數據與油氣行業相關領域的融合還處於起步階段,面臨來自數據、演算法和地下未知因素的諸多挑戰。未來在大數據、人工智慧、5G、雲計算、物聯網等技術推動下,油氣田的智能化水平將會快速發展,這既是油氣技術發展規律的必然趨勢,也是油田降本提質增效的有效途徑。在發展的過程中,智能油氣田建設需要油氣勘探開發與大數據、人工智慧、雲計算以及區塊鏈等技術的深度融合,進而催生一批油氣田領域的顛覆性技術,解決油氣勘探開發的技術需求,提升油氣田勘探開發的經濟和 社會 效益。
( 下期將向您詳細解讀大數據在油氣行業的具體應用 )。
註:本文部分參考資料來源如下:
李陽,廉培慶,薛兆傑,等.大數據及人工智慧在油氣田開發中的應用現狀及展望[J].中國石油大學學報(自然科學版),2020,44(4):1-11
Gantz J,Reinsel D.Extracting Value from Chaos. IDC iView Report,2011
Team O R. Big Data Now:Current Perspectives from O』Reilly Radar.Sebastopol:O』Reilly Media,2014
Grobelnik M. Big data tutorial. http://videolectures.net/eswc2015grobelnik big data/,2012
Walters, R. J., Zoback, M. D., Baker, J. W. 2015. Characterizing and Responding to Seismic Risk Associated With Earthquakes Potentially Triggered by Fluid Disposal and Hydraulic Fracturing. Seismol. Res. Lett. 86 (4): 1–9. https:// doi.org/10.1785/0220150048.
周松蘭.中美歐日韓人工智慧技術差距測度與比較研究[J].華南理工大學學報 ( 社會 科學版),2020,22(2):10-22.
HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2016,18: 1527-1554.
LECUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of IEEE,1988,86( 11) : 2278-2324.
BENGIO Y, SIMARD P,FRASCONI P.Learning longterm dependencies with gradient descent is difficult[J].IEEE Transactions on Neural Networks,1994,5(2) :157-166
3. 北京大學新結構經濟學研究院院長林毅夫什麼是新的生產要素是21世紀的石油
大數據。
大數據被認為是「未來的新石油」,也被比喻為21世紀的「鑽石礦」。大數據工程技術人員從事大數據採集、清洗、分析、治理、挖掘等技術研究,並加以利用、管理、維護。
互聯網、大數據、雲計算、人工智慧、區塊鏈等技術加速創新,日益融入經濟社會發展各領域全過程,數字經濟發展速度之快、輻射范圍之廣、影響程度之深前所未有,正成為重組全球要素資源、重塑全球經濟結構、改變全球競爭格局的關鍵力量。弊搭
發展與安全,是數字技術在深度融合實體經濟、賦能傳統產業轉型升級、催生新產業新業態新模式過程中,必須高度重視的問題。慎埋規范與健康發展,才是我國數字經濟不斷做強做優做大的正確方向。
4. 大數據技術主要學什麼課程
大數據技術需要學習的課程有以下幾個:數學分析、高等代數、普通物理數學與信息科學概論、數據結構、數據科學導論、程序設計導論、程序設計實踐、離散數學、概率與統計、演算法分析與設計、數據計算智能、數據系統概論、計算機系統基礎、並行體系結構與編程、非結構化大數據分析等鍵攜。
5. 大數據被稱為21世紀的石油和金礦它具有哪四大特徵
價值,多樣,大量,高速。
石油是指氣態、液態和固態的烴類混合物,具有天然的產狀。石油又分為原油、天然氣、天然氣液及天然焦油等形式,但習慣上仍將「石油」作為「原油」的定義用。
金礦指金礦石或金礦床(山)。金礦石是具有足夠含量黃金並可工業利用的礦物集合體。金礦山是通過采礦作業獲得黃金的場所,是通過成礦作用形成的具有一定規模的可工業利用的金礦石堆積。