寫這篇文章,有兩個原因:
看了李院士的《大數據研究的科學價值》,有些感觸。
我自己做了一段時間社交,也有一些想法。
之前也寫過復雜網路的東西,但是都非常膚淺,沒有真正的理解復雜網路,近期看了一些資料,有了進一步的理解。
李院士的文章,是從科學家的角度,理解大數據的價值。從文章中,我了解到以下幾點:
數據inside:未來數據將數據轉換為產品或者服務的人。
分析即服務:Aaas。構建一個統一的數據分析平台,提供豐富的api,供數據分析師進行分析,挖掘金礦。是一件很有用,同時也很有錢途的事業。
大數據的存儲、計算、挖掘分析的技術,還需要更進一步的發展。一些同學,規劃自己的職業生涯,把這個作為儲備,現在開始學習,是一個非常好的選擇。我之前做過一些存儲相關的東西,存儲還是要往多層方向發展。
在大數據中的個體之間存在著關系,有可能大數據的本質就是復雜網路的本質。為研究指名了一個方向。
第四範式:之前的研究都需要有模型,在大數據的背景之下:所有的模型都是錯誤的,進一步說,沒有模型你也可以成功。
文章中,李院士提到大數據的本質,可能就是復雜網路的本質。這是因為大數據個體之間都是關系的。舉個例子,互聯網。個體是網頁,網頁和網頁之間通過超鏈接互相鏈接,當然也可能有單向的。互聯網就是一個復雜網路。其中的關系已經被驗證了意義的重大——PageRank演算法——搜索引擎的核心之一。另一方面,大數據的產生,整體分為兩類:1)生物科學中,人腦細胞、神經元,基因等等。都是大數據。2)還有就是社會群體產生的。國內現在火熱的微博。就每天會產生很大量的數據。在這兩類中,我們都要考慮個體之間的關系,都有一些參數和性質:平均路徑長度、度分布、聚集系數、核數和介數等。這些都可以歸結到復雜網路的研究當中。不過,大數據的研究剛剛開始,其本質是否就是復雜網路所能解釋的還很難說。復雜網路本身也在發展演變的過程中,幾年之後,那時的復雜網路也不是現在的樣子。但是,社交網路確確實實是復雜網路的體現。所以,通過復雜網路的理論,研究大數據,研究社交網路,一定是一個很好的方向。
說了半天的復雜網路,到底復雜網路是什麼呢?這里,我只說說我對復雜網路的淺顯理解。也歡迎大家指點、討論。我們一般所說的復雜網路具備兩個特點:
無尺度
小世界
看起來很玄的兩個詞,那麼該如何理解呢?無尺度的概念,比較好理解:就是網路中的度分布滿足冪律分布。冪律分布可以理解度的分布比較集中。我們以新浪微博為例,粉絲上千萬那的人非常少,百萬的人也非常少。更多的是幾百粉絲的。直白一點說,就是粉絲非常多的人很少,很集中。粉絲比較少的,分布就比較廣,比較多。我之前做微博數據分析的時候,有統計過幾乎所有用戶的粉絲數分布的。完全符合冪律的分布。如果大家需要,可以和我進一步討論之類。我也可以找找之前的統計數據。
小世界我覺得需要從兩個角度考慮:第一個,就是網路中兩點的平均最短路徑很小。著名的米爾格拉姆實驗的第一個結果就是:六度分隔。意思就是在我們的世界上,你想聯系任何一個人,你不認識的,平均就需要找5、6個人就可以了。隨著社會的發展,facebook等社交網路興起,這個度越來越小。有報道說,已經是4.5個人就可以了。這個事情比較有意思,前些日子,還有個開發者做了一個微博應用,計算你到某個明星的距離。很多人會想,是不是很遠,是不是計算很復雜?其實都不是的,小世界的特性告訴我們,這個值會很小。同時,即使在線讀取關注,深度搜索的暴力方式解決,這也是很快的。第二個,不僅僅平均最短路徑很小,如果消息在網路中傳播,會以很大的概率,通過最短路徑傳播到目的地。這個很重要,這個是根本。這個是,現在微博上進行微博營銷的根本所在。如果沒有這個特性,通過轉發,甚至是大號的轉發,很難出現傳播爆發的情況,很難讓更多的人知道。所以這個很重要,這個也是米爾格拉姆試驗的第二個重要的結果。
其實上面兩個結果,都有對應的模型,能夠很好的證明,而且,在實際的社交網路中,也得到的驗證。大家感興趣,可以自己研究。
那麼大數據,我們作為程序員、作為研究者,能夠做什麼呢?其實前面也說過了,主要就三點:
存儲
計算
演算法
我們圍繞著這三塊進行,無論是工程開發者,還是研究者,都可以在這個過程中發現問題,歸納共性,提煉本質,然後上升到科學的高度。
我目前還沒有李老師的高度,我也是圍繞著微博做了一些復雜網路相關的研究。我希望,以後,我的工作,也能夠為大數據科學進步,起到一點點作用。那我的工作,就真的有價值了。
下面是我自己感興趣的一些點,歡迎大家討論:
復雜網路社團結構的發現,對應社交網路中的圈子挖掘。
社交網路中,特定領域,人物影響力的排名。
社交網路中,信息傳播的研究
社交網路用戶關系的存儲
其中,1、2、4我做了比較多的嘗試,1、2效果還不錯,4沒有好的方法。3目前只是了解階段,還沒有開始動手。
僅以此文,拋磚引玉。
【完】
㈡ 漫談大數據的思想形成與價值維度
漫談大數據的思想形成與價值維度
清華基於微博分析獲得的大數據幸福指數發現人們周六最幸福,相信大家心情不錯,因此今天不談枯燥的技術。關於大數據的思維、理念、方法論已經被反復消費了,本來我想直接進入交互環節,繼挺兄還是要求先有一部分規定動作,我就先自彈自唱幾十分鍾,既然是漫談,也不見得扣題,說到哪裡是哪裡。各位有問題,我可以擇時擇機插入討論。
先說大數據思想的形成吧。自從人類開始文字和數字,數據就開始產生。就數據增長曲線而言,極小的初值確實要經歷漫長的過程達到人類能感知的曲線拐點。谷歌前CEO埃里克·施密特曾給出了一個有趣的數據:從人類文明曙光初現到2003年一共產生的數據,只相當於2010年兩天產生的數據量。而一旦越過拐點,「大數據摩爾定律」的滾滾鐵輪下,指數效應爆發:最近兩年產生的數據量相當於之前產生的全部數據量。
在漫長的數據蓄水過程中,數學和統計學逐漸發展,人們開始注意對數據的量化分析,在人類進入信息時代以前這樣的例子就不勝枚舉。比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。
那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobodywantstobenobodytoday。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的作用。
以上是小編為大家分享的關於漫談大數據的思想形成與價值維度的相關內容,更多信息可以關注環球青藤分享更多干貨
㈢ 大數據趨勢與專業圖書館
數據被稱作信息化時代的石油,其重要性不言而喻。「大數據」通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。從產業角度,常常把這些數據與採集它們的工具、平台、分析系統一起稱為「大數據」。在大數據時代,順應大數據趨勢,實現傳統業務的轉移,是帶給國內專業圖書館的一個契機。
1.大數據與科學研究
2011年,麥肯錫研究院在《大數據:創新、競爭和生產率的下一個前沿》的報告中提出「大數據」時代已經到來。2012年3月,奧巴馬政府發布了「大數據研究和發展計劃」;2012年6月,聯合國專門發布了大數據發展戰略。這是聯合國第一次就某一技術問題發布報告。「大數據」成為2012年熱門詞彙和研究熱點之一。除了國家和研究機構,全球主要的大型IT商業公司均對大數據技術投入巨資,目的是利用大數據為國家治理、企業決策乃至個人生活提供服務。目前,科學研究正在進入一個嶄新的階段。在信息與網路技術迅速發展的推動下,大量從宏觀到微觀,從自然到社會的觀察、感知、計算、模擬、模擬、傳播等設施和活動產生出大量科學數據,形成被稱為「大數據」的新的科學基礎設施。數據不再僅僅是科學研究的結果,而且是科學研究活動的基礎。科學家不僅通過對廣泛的數據實時、動態地監測與分析來解決難以解決或不可觸及的科學問題,更是把數據作為科學研究的對象和工具,基於數據來思考、設計和實施科學研究。以數據考察為基礎,聯合理論、實驗和模擬為一體的數據密集計算的範式,成為與經驗範式、理論範式和模擬範式並列的第四範式。數據被一起捕獲或者由模擬器生成,處理後存儲在計算機中,科研人員使用數據管理和統計學方法分析資料庫和文檔,據此產生創新思維和成果。這種科研模式被稱為數據密集型範式,簡稱數據範式,是一種新的科研模式。
2.大數據與現有資料庫技術的對比
大數據具有數據持續增加、體量巨大(Volume)、數據類型和來源多樣(Variety)、速度快(Velocity)等特點。
3.大數據與新型數字圖書館
圖書館在科學文獻(紙質或是電子)的組織與服務方面積累了豐富的經驗,已成為科研活動和學術交流體系中的有力支撐。隨著學術信息交流方式的變化,既有數據檔案庫,也有文獻檔案庫,而數據則進入數據檔案庫中。因此,數據圖書館將成為未來數字圖書館的一部分。存儲在各類資料庫和文檔系統中的科學數據,以及以業界標准化關系資料庫所產生的元數據體系,將構成一種新型的、分布式的和整合式的數字圖書館。這種數字圖書館既包括傳統數字圖書館的各類處理、管理、檢索服務等功能,又包括數據轉換、可視化和數據挖掘服務等新型數據服務功能。
4.大數據在專業研究領域中的應用
生物醫學領域是大數據的先行者,這主要得益於美國國家醫學圖書館基於科學數據建立的超級計算和數據處理平台。這些平台支持基礎科學和應用科學的知識發現和數據關聯,以及分析基礎上的模擬模擬研究,為科研和政府決策提供服務。2007年,吉姆格雷擴展了其對數據密集型科學的看法,提出7個重要行動領域之一就是同國家醫學圖書館支持生物科學一樣,建立更多數字圖書館以支持其他科學。生物醫學領域的數據量在飛速增長。歐洲分子生物實驗室核酸序列資料庫EMBL-Bank收到數據的速度每年遞增200%;人類基因組計劃2008年生產數據1萬億鹼基對,2009年速率又翻一番;在生物醫學文獻編目中已經有1800萬醫學文章,每年增加接近百萬篇。
美國國立醫學圖書館的Entrez系統是美國國立醫學圖書館建立的生命科學搜索引擎,它真正實現了數據和文獻的交互性操作。用戶可以在閱讀論文的同時打開基因數據,跟隨基因找到這個疾病,再回到文章(微軟的WWT也實現了數據與文獻的融合)。融合和交互操作可通過統一的鏈接、統一的標簽和ID號實現。醫學、生物學、心理學等學科領域的大型實驗設備的實驗型數據、人類基因數據中,有些由於觀測和實驗的不可重復性,有些由於時間、設備和經濟等條件的限制,數據獲取難度大,因此,數據的長期有效保存、科學管理、有條件共享和促進利用是極有意義和價值的一項工作。把全世界的數據都集成在一起,形成巨型的動態數據集,將誕生一個全球化的資料庫。
5.國內專業圖書館的實踐
專業圖書館的思考在實踐方面,國內已經建立了一系列的科學數據平台,如科技部支持建設的科學數據共享工程等,但圖書館人員參與很少。在新的交流體系形成之際,專業圖書館應該深刻思考和研究支撐科研創造的信息服務環境;思考科研成果融合數據之後,形成的原始數據、派生數據和科學文獻融為一體的新的信息環境下,如何提供信息和數據服務;研究數據科研基礎設施建設和運行過程中信息機構的職責、作用和角色。從大量的數據中分析其潛在的價值將成為大數據時代圖書館的一大主要業務,並且提供這些業務的水平將決定著大數據時代圖書館的發展水平和方向。專業圖書館尤其要分析研究數據科學家的知識結構、基本素養、基本技能,並將此納入培養計劃加以實施,為未來社會提供所需人才。
㈣ 大數據分析的技術包括哪些
與傳統的在線聯機分析處理OLAP不同,對大數據的深度分析主要基於大規模的機版器學習技權術,一般而言,機器學習模型的訓練過程可以歸結為最優化定義於大規模訓練數據上的目標函數並且通過一個循環迭代的演算法實現。
1、編程語言:Python/R
2、資料庫MySQL、MongoDB、Redis等
3、數據分析工具講解、數值計算包、Pandas與資料庫... 等
4、進階:Matplotlib、時間序列分析/演算法、機器學習... 等
㈤ 資料庫問題:【站內發送消息】如何設計表結構
-- 一起4張表 消息類別表,消息表,發送消息人員表,接收消息人員表
-- 至於會員要接收到信息後刪除自己,其實可用標記處理而無作廢,也就存在---回收站的概念,最後也可以徹底刪除
-- 消息表單獨拿出來不做任何處理,這樣數據也不會冗餘,發送人與接收人的處理分別可以單獨處理
---------------消息類別表-----------------
TMessageType
FTypeID
FTypeName
FTypeMemo
---------------消息表---------------
TMessageInfo
FMessageID
FTypeName --(這里也不需要放置ID,為提高性能)直接放類別名稱
FContent
FSendDate
---------------發送消息人員表-與消息表關聯獲取所有信息--------------
TSendMessage
FSendID --主鍵ID
FMessageID --TMessageInfo主鍵ID
FUserID --用戶ID
FSendPerson --發送人
FCancel --是否作廢標記,也可作為刪除刪除標記
---------------接收消息人員表-與消息表關聯獲取所有信息----
TReceiveMessage
FReceiveID
FMessageID
FUserID
FReadFtatus --是否讀取
FCancel
-----------------用戶表-----------------
TUserInfo(結構為你自己的)FUserID為主鍵ID
--SQL語句大概寫法(我用SQLSERVER)
--1.發送所有人
INSERT INTO TReceiveMessage
(FMessageID,FUserID,FReadFtatus,FCancel)
SELECT FMessageID,FUserID ,0,0 --默認未讀
FROM TUserInfo,TSendMessage
WHERE FSendID=@FSendID
--2.發送指定人
INSERT INTO TReceiveMessage
(FMessageID,FUserID,FReadFtatus,FCancel)
SELECT FMessageID,FUserID ,0,0 --默認未讀
FROM TUserInfo,TSendMessage
WHERE FSendID=@FSendID AND FUserID=@FUserID
--TMessageInfo與其它2張消息表 建立好主外鍵約束就行了
㈥ 大數據如何監測管理現代農業
大數據如何監測管理現代農業
隨著海量信息的爆發,農業跨步邁入大數據時代。如同其他行業的大數據應用,通過技術手段獲取、收集、分析數據,能夠有效地解決農業生產和市場流通等問題。
在大數據的推動下,農業監測預警工作的思維方式和工作範式發生了根本性的變化,我國農產品監測預警信息處理和分析將向著系統化、集成化、智能化方向發展。本期嘉賓將帶您了解大數據時代下,農產品監測預警如何運行以及未來面臨的機遇。
大數據走進農業領域
資料庫專家、圖靈獎得主吉姆·格雷提出,數據密集型計算成為繼試驗科學、理論科學、計算科學之外的科學研究第四範式。大數據被學術界正式提出始於2008年9月《自然》雜志發表的「Big Data」系列專題文章,介紹了大數據應用所帶來的挑戰和機遇。
人們圍繞研究數據的海量增加展開討論。2011年,《科學》雜志刊登「Dealing with Data」專題,指出分析數據的能力遠落後於獲取數據的能力。
2012年3月,美國政府公布了「大數據研發計劃」,基於大數據推動科研和創新。在我國,2012年5月香山科學會議第424次會議以「大數據」為主題,認為大數據時代已經來臨,大數據已成為各行業共同面臨的大問題。同年11月,香山科學會議第445次會議以「數據密集時代的科研信息化」為主題,討論「大數據」時代的科研信息化問題。
這些事件都標志著「大數據」走入我們的生活。那麼,大數據在農業中的應用如何?許世衛表示,「農業大數據是大數據在農業領域的應用和延展,是開展農產品監測預警工作的重要技術支撐。」
在他看來,農業大數據不僅保留了大數據自身具有的規模巨大、類型多樣、價值密度低、處理速度快、精確度高和復雜度高等基本特徵,還使得農業內部的信息流得到了延展和深化。
數據作為一種戰略資源,可以有效地解決農業生產面臨的復雜問題,從數據的獲取、收集到分析,能夠事半功倍地解決農業生產問題。
許世衛舉例道,如通過感測器、作物本體檢測手段,獲取了土壤中的氮磷鉀肥力等大量數據,對數據進行分析整理後可以有效指導農業生產中的施肥量、施肥時間等問題,進行合理規劃,得出最合適的投入量,從而提高生產效率。
再如,大數據能夠提前預測到未來市場的供給需求,可以有效降低生產投入並採取適當的措施進行智能化生產,對平抑物價起到調節作用。
大數據是監測預警的基礎支撐
許世衛指出,農業大數據的數據獲取、採集渠道和應用技術手段,無法通過人工調查得到數據,而需要依靠土壤感測器、環境感測器、作物長勢生命本體感測器等手段支撐。由於技術更新、成本下降,使得農業有關生產市場流通等數據獲取能力大幅提升。
「大數據使得農業進入全面感知時代,用總體替代樣本成為可能;農業生產獲得更多依靠數據的支撐,從此進入智慧農業時代;大量的數據可以優化生產布局,優化安排生產投入;大數據時代下,市場更有利於產銷對接,在消費環節減少浪費以及減少產後損失。」許世衛說。
此外,大數據給農業的管理也帶來變化。過去的農業管理主要依靠行政手段指導和安排生產,大數據有利於分析提取特徵、總結趨勢,通過市場信號的釋放引導市場進而引導生產。
許世衛表示,農業大數據是現代化農業的高端管理工具。所謂監測預警就是監測數據,貫穿於農產品從生產到流通到消費到餐桌整個過程的產品流、物資流、資金流、信息流,使產銷匹配、生產和運輸匹配、生產和消費匹配。
農產品監測預警也是對農產品生產、市場運行、消費需求、進出口貿易及供需平衡等情況進行全產業鏈的數據採集、信息分析、預測預警與信息發布的全過程。
農產品監測預警還是現代農業穩定發展最重要的基礎,大數據是做好監測預警工作的基礎支撐。農業發展仍然面臨著多重不安全因素,急需用大數據技術去突破困境。
這主要體現在:農業生產風險增加,急需提前獲取災害數據,早發現、早預警;農產品市場波動加劇,「過山車」式的暴漲暴跌時有發生,急需及時、全面、有效的信息,把握市場異常,穩定市場形勢;食物安全事件頻發,急需全程監管透明化,懲戒違規行為。
可以說,農產品監測預警對大數據的需求是迫切的。
農產品監測效果顯著
農產品監測效果顯著,大數據功不可沒,主要體現在監測對象和內容更加細化、數據獲取更加快捷、信息處理分析更加智能、數據服務更加精準等。
隨著農業大數據的發展,數據粒度更加細化,農產品信息空間的表達更加充分,信息分析的內容和對象更加細化。
農業系統是一個包含自然、社會、經濟和人類活動的復雜巨系統,在其中的生命體實時的「生長」出數據,呈現出生命體數字化的特徵。農業物聯網、無線網路傳輸等技術的蓬勃發展,極大地推動了監測數據的海量爆發,數據實現了由「傳統靜態」到「智能動態」的轉變。
在大數據背景下,數據存儲與分析能力將成為未來最重要的核心能力。未來人工智慧、數據挖掘、機器學習、數學建模、深度學習等技術將被廣泛應用,我國農產品監測預警信息處理和分析將向著系統化、集成化、智能化方向發展。
如中國農產品監測預警系統(China Agricultural Monitoring and Early Warning System,CAMES)已經在機理分析過程中實現了模擬化與智能化,做到了覆蓋中國農產品市場上的953個主要品種,可以實現全天候即時性農產品信息監測與信息分析,用於不同區域不同產品的多類型分析預警。
在大數據的支撐下,智能預警系統通過自動獲取農業對象特徵信號,將特徵信號自動傳遞給研判系統。研判系統通過對海量數據自動進行信息處理與分析判別,自動生成和顯示結論結果,發現農產品信息流的流量和流向,在紛繁的信息中抽取農產品市場發展運行的規律。最終形成的農產品市場監測數據與深度分析報告,將為政府部門掌握生產、流通、消費、庫存和貿易等產業鏈變化、調控穩定市場提供重要的決策支持。
㈦ 聽清華大學教授講科學研究的第四範式—基於大數據的研究
11月10日,周五,受謝教授和肖教授邀請,一起去了武大聽大數據講座。清華大學的一位80後教授—孟天廣講得很宏觀很系統,簡錄如下。
觀點:
1 大數據是種新研究方法,屬於第四範式研究,不講因果,只講相關關系,通過相關關系來預測未來。
2大數據研究方法終結了傳統的定量定性研究分野。
3大數據研究可視化,是優勢。
4大數據研究方法也有一些批評:
方法批評、可行性批評、倫理批評。
5大數據研究方法使人文社科研究變得更有價值。出現一個新學科:計算人文社會科學,清華大學建立了一個新研究中心,招收雙學位學生:大數據分析專業與其他專業。