⑴ 大數據技術
隨著信息技術的發展,新型信息發布方式的不斷涌現,數據正以前所未有的速度在不斷地增長和累積,大數據時代正式到來。2012年被稱為「大數據元年」,因為在這一年「大數據」這個概念引起了人們的空前關注。首先是美國政府公布「大數據研發計劃」,緊接著世界各國以及各大商業公司也對「大數據」給予了極大的關注。美國在「大數據研發計劃」中,與空間數據關系最為密切的是聯邦地質調查局和航空和航天局。
聯邦地質調查局的科學家們合作完成對全面、長期數據的最新綜合,進一步把大數據集和地球科學理論的大構想轉換成科學發現,提高對地球系統科學問題的理解和應對能力,例如物種應對氣候變化、地震復發率、下一代生態指標等。NASA用先進信息系統技術尋求成熟的大數據能力,以支持未來的地球觀測任務,使得地球信息能為NASA氣候中心的體系結構所識別,減少地球科學部的空基和陸基信息系統的風險、成本、規模和開發時間,提高科學數據的可訪問性和實用性。NASA的地球科學數據和信息系統項目已經活躍了15年以上,旨在對地球衛星數據和空中與實地活動的數據進行處理存檔和發布,努力確保科學家和社會公眾可以滿意地訪問從地球到太空的數據,提升應對氣候和環境變化的能力。NASA與Cray公司制定的太空行動協議,允許一個或多個項目圍繞發展和應用低延遲「大數據」系統合作,使用高度集成的非SQL資料庫傳輸數據,來加速建模和分析軟體的運行,以測試混合計算機系統的實用性。此外,各種專用減災衛星、遙感衛星、通信與導航衛星已廣泛應用於地震、海嘯、台風(颶風)、洪災、旱災、地質災害和火災等各種不同類型的災害管理。
在我國,地學大數據的研究也已開始,國土資源部地質信息技術重點實驗室地學大數據高性能計算應用環境搭建成功,已經對外開放。利用搭建的大數據及高性能地理數據計算平台,開展地質大數據綜合處理、分析和應用研究,對於推進地質數據開發應用、提高服務效率具有重要作用。
⑵ 大數據下的地質資料信息存儲架構設計
頡貴琴 胡曉琴
(甘肅省國土資源信息中心)
摘要 為推進我國地質資料信息服務集群化產業化工作,更大更好地發揮地質資料信息的價值,本文針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題,基於現有系統的存儲架構,設計了一種大數據下的地質資料信息存儲架構,以便於我國地質資料信息服務集群化產業化工作能夠適應大數據時代的數據存儲。
關鍵詞 大數據 地質資料 存儲 NoSQL 雙資料庫
0 引言
新中國成立60多年來,我國形成了海量的地質資料信息,為國民經濟和社會發展提供了重要支撐。但在地質資料管理方面長期存在資料信息分散、綜合研究不夠、數字化信息化程度不高、服務渠道不暢、服務能力不強等問題,使地質資料信息的巨大潛在價值未能得到充分發揮。為進一步提高地質工作服務國民經濟和社會發展的能力,充分發揮地質資料信息的服務功能,擴大服務領域,國土資源部根據國內外地質工作的先進經驗,做出了全面推進地質資料信息服務集群化產業化工作的部署。
目前,全國各省地質資料館都在有條不紊地對本省成果、原始和實物地質資料進行清理,並對其中重要地質資料進行數字化和存儲工作。然而,由於我國地質資源豐富,經過幾十年的積累,已經形成了海量的地質資料,數據量早已經超過了幾百太位元組(TB)。在進行地質資料信息服務集群化工作中,隨著共享數據量的不斷增大,傳統的數據存儲方式和管理系統必然會展現出存儲和檢索方面的不足以及系統管理方面的缺陷。為了解決該問題,需要設計更加先進的數據存儲架構來實現海量地質資料的存儲。
而大數據(Big Data)作為近年來在雲計算領域中出現的一種新型數據,科技工作者在不斷的研究中,設計了適合大數據存儲管理的非關系型資料庫NoSQL進行大數據的存儲和管理。本文將針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題,利用大數據存儲管理模式的思想,提出一種海量地質資料存儲架構,改進現有系統存儲架構,以便於我國全面推進地質資料信息服務集群化產業化工作。
1 工作現狀
1.1 國內外地質資料信息的存儲現狀
在美國,主要有兩大地質資料公共服務平台,分別是地球科學信息中心(ESIC)、地球資源觀測和科學中心(EROS),其目的是通過為社會和政府提供更加便利、快速的地質信息服務。20世紀90年代初,澳大利亞出台了國家地球科學填圖協議,採用先進的科學方法和技術進行數據存儲,從而形成了第二代澳大利亞陸地地質圖。
目前,我國地質資料信息服務集群化產業化工作剛剛起步,雖然國土資源部信息中心已經開發了地質資料信息集群化共享服務平台,並倡導各地方用戶使用該系統。但由於各個地方早期的工作背景不一致,因此各地方所使用的存儲系統也不盡相同,主要有Access、SQL Server、Oracle、MySQL等系統。本文以國土資源部信息中心開發的地質資料信息集群化共享服務平台的存儲系統MySQL為例說明。該系統是基於關系資料庫管理系統MySQL的一套分布式存儲檢索系統。該系統的部署使得我國地質資料信息服務集群化產業化工作取得了重大進展,同時也為我國建立標准統一的地質資料信息共享服務平台和互聯互通的網路服務體系奠定了堅實的基礎。然而,該系統的研發並沒有考慮到地質資料信息進一步集群化以及在未來地質資料信息進入大數據時代的信息共享和存儲管理問題,也沒有給出明確的解決方案。
1.2 大數據的存儲架構介紹
大數據是近年在雲計算領域中出現的一種新型數據,具有數據量大、數據結構不固定、類型多樣、查詢分析復雜等特點。傳統關系型資料庫管理系統在數據存儲規模、檢索效率等方面已不再適合大數據存儲。NoSQL(Not Only SQL)是與關系資料庫相對的一類資料庫的總稱。這些資料庫放棄了對關系資料庫的支持,轉而採用靈活的、分布式的數據存儲方式管理數據,從而可以滿足大數據存儲和處理的需求。NoSQL基於非關系型數據存儲的設計理念,以鍵值對進行存儲,採用的數據字的結構不固定,每一個元組可以有不一樣的欄位,且每個元組可以根據自己的需要增加一些自己的鍵值對,可以減少一些檢索時間和存儲空間。目前,應用廣泛的 NoSQL 資料庫有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。
2 大數據下的地質資料信息存儲架構設計
根據國土資源部做出的全面推進地質資料信息服務集群化產業化工作的部署,國土資源部倡導全國地質資料館使用國土資源部信息中心開發的地質資料信息集群化共享服務平台,實現地質資料信息的存儲和共享。該系統採用了資料庫管理系統MySQL作為數據存儲系統。
為了與現有系統和現有的工作進行對接,並為將來地質資料進入大數據時代後的存儲工作做准備,本文設計了一種能用於海量地質資料信息存儲並且兼容MySQL的分布式的數據存儲架構(圖1)。
整個系統可以根據不同的用戶等級分為不同的用戶管理層,由於圖幅限制,在圖1 中僅僅展示了3級:國家級管理層(即共享服務平台用戶層)、省級管理層以及市級管理層(可根據實際需要延伸至縣級)。
每級管理層的每個用戶可以單獨管理一個伺服器。如國土資源部信息中心可以單獨管理一個伺服器;甘肅省國土資源信息中心可以單獨管理一個伺服器,陝西省國土資源信息中心可以單獨管理一個伺服器;甘肅的若干個市級國土資源局可以根據需要分別管理各自的伺服器。
在伺服器上分別安裝兩套資料庫管理系統,一套是原有的MySQL資料庫管理系統,另一套是為大數據存儲而配備的NoSQL型資料庫管理系統。在伺服器上還專門開發一個資料庫管理器中間件,用於進行用戶層和資料庫的通信以及兩套資料庫之間的通信。
由於各個管理層都各自維護自己的資料庫和數據。當用戶需要進行數據存儲時,他所影響的資料庫僅僅是本地資料庫,存儲效率較高;當用戶需要從多個資料庫讀取數據時,頂層的共享服務平台會根據用戶需求進行任務分解,將任務分發給下層的管理層進行資料庫讀取,由於各個資料庫並行讀取,從而提高了資料庫讀取效率。
圖1 大數據下的地質資料信息存儲架構框圖
2.1 用戶管理層
用戶管理層根據許可權范圍,分為多層(本文以3層為例)。
位於頂層的國家級管理層(共享服務平台用戶層)負責用戶訪問許可權的分配、與其直接關聯的資料庫的訪問、下級管理層任務的分配等工作。
用戶訪問許可權的分配是指為訪問本共享服務平台的個人用戶和單位用戶分配數據的使用許可權、安全性的設計等。
與其直接關聯的資料庫訪問是指直接存儲在其本地資料庫上的數據的訪問。在該資料庫中不僅要存儲所需要的地質資料,還要存儲注冊用戶信息等數據。
下級管理層任務分配是指如果用戶需要訪問多個下層資料庫,用戶只需要輸入查詢這幾個下層資料庫的命令,而如何查找下層資料庫則由該功能來完成。例如某用戶要查找甘肅、陝西、上海、北京的鐵礦分布圖,則用戶只需要輸入這幾個地方及鐵礦等查詢條件,系統將自動把各個省的資料庫查詢任務分派到下級管理層。
同理,位於下層的省級管理層和市級管理層除了沒有用戶訪問許可權功能外,其餘功能與國家級管理層是相同的。各層之間的資料庫通過互聯網相互連接成分布式的資料庫系統。
2.2 MySQL和NoSQL的融合
MySQL是關系型資料庫,它支持SQL查詢語言,而NoSQL是非關系型資料庫,它不支持SQL查詢語言。用戶要想透明地訪問這兩套資料庫,必須要設計資料庫管理器中間件,作為用戶訪問資料庫的統一入口和兩套資料庫管理系統的通信平台。本文所設計的資料庫管理器簡單模型如圖2所示。
圖2 資料庫管理器模型
伺服器管理器通過用戶程序介面與應用程序進行通訊,通過MySQL資料庫介面與MySQL伺服器通訊,通過NoSQL資料庫介面與NoSQL資料庫介面通訊。當應用程序介面接收到一條資料庫訪問命令之後,交由資料庫訪問命令解析器進行命令解析,從而形成MySQL訪問命令或者NoSQL訪問命令,通過相應的資料庫介面訪問資料庫;資料庫返回訪問結果後經過匯總,由應用程序介面返回給應用程序。
兩套資料庫可以通過雙資料庫通信協議進行相互的通信和互訪。此通信協議的建立便於地質工作人員將已經存入MySQL資料庫的不適合結構化存儲的數據轉存到NoSQL資料庫中,從而便於系統的升級和優化。
2.3 系統的存儲和檢索模式
在本存儲框架設計中,系統採用分布式網路存儲模式,即採用可擴展的存儲結構,利用分散在全國各地的多台獨立的伺服器進行數據存儲。這種方式不僅分擔了伺服器的存儲壓力,提高了系統的可靠性和可用性,還易於進行系統擴展。另外,由於地質資料信息存儲的特殊性,各地方用戶的數據存儲工作基本都是在本地伺服器進行,很少通過網路進行遠程存儲,所以數據存儲效率較高。
在一台資料庫伺服器上安裝有MySQL和NoSQL型兩套資料庫管理系統,分別用於存儲地質資料信息中的結構化數據和非結構化數據。其中,NoSQL型資料庫作為主資料庫,用於存儲一部分結構化數據和全部的非結構化數據;而MySQL資料庫作為輔助資料庫,用於存儲一部分結構化的數據,以及舊系統中已經存儲的數據。使用兩套資料庫不僅可以存儲結構化數據而且還可以適用於大數據時代地質資料信息的存儲,因此系統具有很好的適應性和靈活性。
2.4 安全性設計
地質資料信息是國家的機密,地質工作人員必須要保證它的安全。地質資料信息進入數字化時代之後,地質資料常常在計算機以及網路上進行傳輸,地質資料信息的安全傳輸和保存更是地質工作人員必須關注和解決的問題。在本存儲架構的設計中設計的安全問題主要有資料庫存儲安全、數據傳輸安全、數據訪問安全等問題。
資料庫設計時採用多邊安全模型和多級安全模型阻止資料庫中信息和數據的泄露來提高資料庫的安全性能,以保障地質信息在資料庫中的存儲安全;當用戶登錄系統訪問資料庫時,必須進行用戶甄別和實名認證,這主要是對用戶的身份進行有效的識別,防止非法用戶訪問資料庫;在對地質資料進行網路傳輸時,應該首先將數據進行加密,然後再進行網路傳輸,以防止地質信息在傳輸過程中被竊取。
3 結語
提高地質資料數字化信息化水平,是國外地質工作強國的普遍做法。為推進我國地質資料信息服務集群化產業化工作,本文針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題,利用大數據存儲管理模式的思想,基於現有系統的存儲架構,設計了一種大數據下的地質資料信息存儲架構,以便於我國地質資料信息服務集群化產業化工作能夠適應大數據時代的數據存儲。該存儲架構的設計只涉及了簡單模型的構建,具體詳細復雜的功能設計和軟體實現還需要在進一步的研究工作中完成。
參考文獻
[1]吳金朋.一種大數據存儲模型的研究與應用[D].北京:北京郵電大學計算機學院,2012.
[2]吳廣君,王樹鵬,陳明,等.海量結構化數據存儲檢索系統[J].計算機研究與發展,2012,49(Suppl):1~5.
[3]黃
⑶ 可持續發展科學衛星1號發射成功,什麼是可持續發展科學衛星
可持續發展科學衛星是:由中國科學院“地球大數據科學工程”先導專項研製的。提供可持續發展研究所需要的數據支撐的衛星。
可持續發展科學衛星1號有三個特點:1、搭載的成像儀多。2、觀測范圍廣。3、技術高精尖。以下詳細解釋這三方面。
3、技術高精尖:可持續發展科學衛星集成了多種高精尖技術,一顆衛星就實現了大數據收集—大數據存儲—大數據管理—大數據科學分析—可視化這一完整過程。在這巨大的技術成功之下,為建立地面的大數據研究中心奠定了堅實的基礎。也為收集和分析更多以及精細化的數據提供了可靠的保障。從這顆衛星的發射可以看出我國已經進入科技創新大國的前列。
⑷ 喚醒「沉睡」的科學大數據 蘊藏巨大價值
喚醒「沉睡」的科學大數據 蘊藏巨大價值
大數據時代,正在以一種不可阻擋的態勢到來。
近日,國務院印發並對外公布《關於促進大數據發展的行動綱要》,提出要大力發展大數據產業。這意味著國家層面對於大數據的重要性有著清醒的認識。同時,大數據相關產業也必然將迎來新的發展高峰期。
作為大數據的一個分支,科學大數據無疑有著獨特性。來自科研領域的大數據如何走向社會化?科學家累積的數據能否成為產品?如何加速科學大數據的轉化?在日前舉辦的2015科學數據大會上,與會專家就此進行了探討。
科學數據蘊藏巨大價值
大數據時代的到來,似乎超出人們的想像。而數據累積與增長的速度,也似乎超出人們的預估。
中科院院士郭華東介紹說,谷歌每天的運算數據是20PB(1PB為1拍位元組,等於250位元組),歐洲核子中心每天產生的數據量約有15PB,而全球變化數據量在2030年預計達到350PB。
科學數據蘊藏著巨大價值。例如,從海洋衛星、氣象衛星、資源衛星等獲得的空間地球大數據,在保護生態環境、評估土地資源、預防自然災害等方面起著重要作用。
再比如,中科院寒旱所在我國寒區旱區開展了長達數十年的研究,並由此積累了大量數據。這些數據對於政府、企業有著巨大價值。
中科院寒旱所寒區旱區科學數據中心副主任張耀南介紹說,目前寒旱所部署在全國的觀測點有5萬多個,覆蓋國土面積的近2/3,在寒旱區冰川、凍土、積雪、沙漠、高原大氣、生態環境、水文土壤及內陸河流域等方面積累了相當可觀的數據量。但「如何讓科學數據社會化,是一個需要解決的問題,也亟待探索」。
國際數據公司的統計顯示,中國目前擁有的數據量佔全球的14%,但數據利用率不到0.4%。大量數據仍在「沉睡」,未能充分發揮自身價值。
繞不開的障礙
對於科學數據的社會化,科學家不是沒有做過努力。比如,中科院遙感地球所成立了中科遙感信息技術有限責任公司(以下簡稱中科遙感),旨在加速推進中科院遙感與空間信息技術成果的轉化與產業化,並向外界提供大數據相關服務。
然而,中科院遙感地球所研究員、中科遙感總裁任伏虎表示,出於行業保護、政策因素等原因,目前科學數據的開放程度還不夠,這影響了其社會化進程。
此外,雖然科學數據大多由科學家提供,但科學數據的產生與累積離不開國家科技計劃、基金項目的支持。這就導致了一個現實問題:科學數據一旦開放共享產生價值,其獲得收入的分成情況不好處理。錢到底是給科學家個人,還是給政府,是一個令人頭痛的問題。而科學家一旦不能獲得適當收入,其積極性也會受到影響。
長期在中科院從事信息化工作的研究員吳鈺表示,目前材料基因組研究已經獲得一定程度的進展,這就是科學數據開放利用的成果。但不能因此忘記開放中的風險問題,「信息安全問題不能忽視,一些數據的泄漏會產生嚴重後果。不過,我們也無須過分害怕這個問題」。
主動擁抱市場
科學數據的社會化無疑是大勢所趨。那麼,怎樣為其提供「加速度」呢?
「毫無疑問,科學數據要主動擁抱市場。科研人員提供的數據要瞄準企業需求。」任伏虎表示,同時要形成良好的市場機制,讓科學家獲得收益。
復旦大學教授朱揚勇也表示,只要社會有需求,科學數據就可以交易;只要交易,就能產生價值。至於科學家的收益問題,可參照專利轉讓的做法,通過技術入股方式,讓科學家、機構從企業獲得合理報酬。
吳鈺則認為,要加速推動科學數據為創新驅動發展提供動力,讓科學數據在智能製造、生物技術等領域大有可為。「至於讓科學數據的價值得到體現,在政府層面,可考慮建立相應的政府采購制度,讓政府購買服務。」
張耀南表示,在科學數據社會化的具體過程中,專業人才不能缺位。科學數據的來源相對比較狹窄,社會各界此前較少了解科學數據的社會、經濟效應。因此,需要專門人才進行科學數據社會化的推介工作。「總之,必須重視科學數據的科普與營銷工作。」
以上是小編為大家分享的關於喚醒「沉睡」的科學大數據 蘊藏巨大價值的相關內容,更多信息可以關注環球青藤分享更多干貨
⑸ 英科學家認為大數據正在將地球「比特」化,未來可能造成資源枯竭
Live Science
英國朴次茅斯大學物理學家Melvin Vopson對地球的未來憂心忡忡。他認為,雖然信息是無形的,但信息可能是有質量的。「二向箔」毀滅了太陽系,而人類發明的「比特」可能會吃掉地球。
當前全球數字信息的總量大約是10²¹比特,且在迅猛地增長著。這其和團中有90%是最近10年才產生的。假設數字內容每年的增長率為20%,那麼350年後,地球上的「比特」總量將比組成地球的原子總量(大約是10⁵⁰)還要多。而為了維持這些信息存在,地球將被逐漸「吃掉」。
1961年,物理學家羅爾夫·蘭道爾(Rolf Landauer,也譯作朗道)提出過一個觀點,認為既然刪除「比特」會產生熱量,那麼在信息和能量之間應該存在著關聯。近年來有一些科學家正在試圖通過實驗,來驗證「蘭道爾原理」是否正確。而Vopson更進一步,認為信息和質量之間也存在著關聯性。
他的這一觀點,受到了愛因斯坦質能方程E=mc²的影響。愛因斯坦質能方程認為,能量和質量是可以互相轉換的。Vopson因此認為,如果「比特」有能量,那麼它也應該是有質量的。換算得到的結果是,1比特的質量,大約相當於1個電子質量的1000萬分之一。
當前人類 社會 每年產生的「信息質量」總和其實是微不足道的,大約只相清鎮當於一個大腸桿菌。但是假如信息總量以每年20%的速度遞增,那麼用不了500年,地球質量的一半會變成「比特」。而假如這個速度是50%,那麼在公元2245年前,地球質量的一半就會變成「比特」。
Vopson認為這是一個危機。是一個和石油危機、白色污染和森林退化一樣的危機。雖然人們今天很可能認識不到這個危機的嚴重性,但它正在緩慢地,一個「比特」一個「比特」地吞噬這個行星。
Vopson同時還認為,這一結論仍是保守的。根據國際數據公司的報告,喚正橘當前全球數據總量的增長速度實際上達到了每年61%。因此災難完全有可能提前到來。而解決方案,是需要有新的數據存儲技術,能夠把信息保存在沒有物理實體的介質上。