1. 大數據給數字圖書館帶來哪些變革
數字圖書館遇挑戰
「各類型數據急劇增長,正朝著海量數據方向發展,國家數字圖書館面臨著數字資源長期保存、資源整合、信息安全以及服務創新等多方面的挑戰。」魏大威介紹說,截至2013年底,國家數字圖書館數字資源總量已達到874.5TB,其中自建數字資源量為737.9TB,網路信息採集量達45.7TB,外購中外文資料庫共計273個,文津搜索匯集的元數據已達2.9億條;隨著讀者服務擴展至計算機、數字電視、手機、手持閱讀器、平板電腦、電子觸摸屏等多種服務終端,服務量的不斷增加,各業務系統每天都會產生大量的日誌數據,其中包含了大量的用戶行為信息,例如,Aleph系統日均產生日誌數據約20GB,文津搜索系統日均產生日誌數據大於300G。
將建立超大型元數據倉儲
魏大威指出,面臨新的環境、背景,國家圖書館為實現傳統業務與數字圖書館業務高度融合,最大限度發揮國家圖書館服務效能,把資源整合作為工作抓手。
他進一步強調,進行數字資源整合必須結合大數據特點和資源現狀,以用戶需求為導向,博採眾長,突出特色,分階段、有計劃的實施。建立超大型元數據倉儲是未來數字圖書館進行資源整合的思路之一,從而實現資源的統一聚合與一站式檢索,將雲服務與關聯數據結合起來實現數字館藏的組織和聚合,構建「資源——用戶」關系模型等思路展開工作,但資源整合也面臨著資金、人才、技術等方面的挑戰。
2. 大數據給專業圖書館帶來的啟示
隨著大數據時代的到來,科學數據的產生和積累呈指數級增長,專業圖書館作為社會中儲存信息知識、提供信息服務的信息中心,必須主動利用這些變化來進行戰略性創新,滿足需求,創造未來。
1.建立融數據和文獻於一體的新型數字圖書館
科學向數據密集型科學研究範式轉換的成功,標志著一種新的常規科學的形成,必將引發科學研究觀念和方法的新突破與新發展,並將對專業圖書館產生新的需求。因此,必須建立融數據和文獻於一體的新型數字圖書館,形成數據與信息融合的互操作架構,讓科學研究的整個過程在數字圖書館的電子環境中進行,並對所有人開放,使科學研究的素材、思路、過程和結論得到傳播和共享。培養數據密集型科研環境下的數據管理人才「數據是信息化時代的石油」,數據管理人才是數據密集型科研環境下的稀缺人才。全世界的各類海量數據正在源源不斷地匯集到美國(或美國公司),這個趨勢短期內還看不到轉變的跡象。未來國家的核心競爭力將很大程度上依賴將數據轉化為信息和知識的速度與能力,而這種轉化速度和能力,實際上則取決於大數據方面的技術能力。要保持科學研究的領先地位,國家決策者和科學研究者必須高度關注大數據的趨勢。美國國家科學理事會N SB在其發表的《長期保存的數字數據集合:支持21世紀的研究與教育》報告中,提出如何培育和支持被稱為數據科學家的新興科學家群體的問題:「數據科學家包括信息學家、計算機科學家、資料庫和軟體工程師或程序員、學科專家、數據管理者、數據標引專家、圖書館學家、檔案學家等對科學數據資源的成功管理起著關鍵作用的人們,他們希望自己的創造性和智力貢獻得到充分認可」。目前美國需要14萬到19萬以上具備「深度分析」專長的研究人員,而對具備數據知識的經理人員的需求超過150萬。大數據的應用是技術難度極高的集成應用,如需要集成人工智慧、商業智能、數學演算法、自然語言理解、信息技術等跨學科領域的技術成果。數據科學家是未來10年最具吸引力的職位,數據圖書館員、數據服務館員等數據管理人才將是數據密集型科研環境下的稀缺人才。
2.建立數據驅動的E-Science服務模式
在E-Science環境下,能否從傳統信息服務向知識服務的突破,將是圖書館能否繼續生存並保持活力的關鍵。因此,必須加強對科學數據的重視,認識到開展科學數據服務、提升對科學數據組織和挖掘能力,對科學研究及圖書館競爭力的重要意義。專業圖書館應針對海量數據需要長期存儲的需求,為科研人員提供最佳信息和技術服務,融入用戶工作流的數據生命周期。數據驅動的E-Science服務模式將是現代科學圖書館發展的新的生長點。
3. 當代大學生應該如何應對「大數據」帶來的機遇與挑戰
大數據,或稱巨量資料,是指所涉及的資料量規模巨大,以致無法通過目前主流軟體工具在合理時間內擷取、管理、處理並整理成為幫助企業達致經營決策目的的資訊。大數據技術不僅能夠提高人們利用數據的效率,而且能夠實現數據的再利用和重復利用,進而大大降低交易成本,提升人們開發自我潛能的空間。人們可以低成本或零成本進行事物信息全息式的縱向歷史比對和橫向現實比對。大數據技術自身不僅能夠迅速衍生為新興信息產業,還可以同雲計算、物聯網和智慧工程技術聯動,支撐一個信息技術的新時代。
雲計算、物聯網、大數據、智慧工程都是新一代信息技術。雲計算技術是一種按使用量付費的模式,這種模式可以提供可用的、便捷的、按需的網路訪問,進入可配置的計算資源共享池(資源包括網路、伺服器、存儲、應用軟體、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。雲計算技術可以使人們及時利用各類大數據。物聯網技術的實質就是物物相連的互聯網,物聯網的核心和基礎仍然是互聯網,其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。物聯網技術可以溯源大數據和保證信息的真實性。智慧工程就是把感應器嵌入和裝備到電網、鐵路、橋梁、隧道、公路、建築、供水系統、大壩、油氣管道等各種物體中,並且進行普遍連接,與現有的互聯網整合起來,實現人類社會與物理系統的整合。智慧工程可以激活沉寂的大數據。
4. 大數據對公共圖書館服務產生哪些方面影
大數據的存儲和運算能力對公共圖書館的建設和發展來說既是機遇也是挑戰,如何應對這一新的信息技術的沖擊關系著公共圖書館未來的發展走向
。公共圖書館要大力提高
5. 大數據趨勢與專業圖書館
數據被稱作信息化時代的石油,其重要性不言而喻。「大數據」通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。從產業角度,常常把這些數據與採集它們的工具、平台、分析系統一起稱為「大數據」。在大數據時代,順應大數據趨勢,實現傳統業務的轉移,是帶給國內專業圖書館的一個契機。
1.大數據與科學研究
2011年,麥肯錫研究院在《大數據:創新、競爭和生產率的下一個前沿》的報告中提出「大數據」時代已經到來。2012年3月,奧巴馬政府發布了「大數據研究和發展計劃」;2012年6月,聯合國專門發布了大數據發展戰略。這是聯合國第一次就某一技術問題發布報告。「大數據」成為2012年熱門詞彙和研究熱點之一。除了國家和研究機構,全球主要的大型IT商業公司均對大數據技術投入巨資,目的是利用大數據為國家治理、企業決策乃至個人生活提供服務。目前,科學研究正在進入一個嶄新的階段。在信息與網路技術迅速發展的推動下,大量從宏觀到微觀,從自然到社會的觀察、感知、計算、模擬、模擬、傳播等設施和活動產生出大量科學數據,形成被稱為「大數據」的新的科學基礎設施。數據不再僅僅是科學研究的結果,而且是科學研究活動的基礎。科學家不僅通過對廣泛的數據實時、動態地監測與分析來解決難以解決或不可觸及的科學問題,更是把數據作為科學研究的對象和工具,基於數據來思考、設計和實施科學研究。以數據考察為基礎,聯合理論、實驗和模擬為一體的數據密集計算的範式,成為與經驗範式、理論範式和模擬範式並列的第四範式。數據被一起捕獲或者由模擬器生成,處理後存儲在計算機中,科研人員使用數據管理和統計學方法分析資料庫和文檔,據此產生創新思維和成果。這種科研模式被稱為數據密集型範式,簡稱數據範式,是一種新的科研模式。
2.大數據與現有資料庫技術的對比
大數據具有數據持續增加、體量巨大(Volume)、數據類型和來源多樣(Variety)、速度快(Velocity)等特點。
3.大數據與新型數字圖書館
圖書館在科學文獻(紙質或是電子)的組織與服務方面積累了豐富的經驗,已成為科研活動和學術交流體系中的有力支撐。隨著學術信息交流方式的變化,既有數據檔案庫,也有文獻檔案庫,而數據則進入數據檔案庫中。因此,數據圖書館將成為未來數字圖書館的一部分。存儲在各類資料庫和文檔系統中的科學數據,以及以業界標准化關系資料庫所產生的元數據體系,將構成一種新型的、分布式的和整合式的數字圖書館。這種數字圖書館既包括傳統數字圖書館的各類處理、管理、檢索服務等功能,又包括數據轉換、可視化和數據挖掘服務等新型數據服務功能。
4.大數據在專業研究領域中的應用
生物醫學領域是大數據的先行者,這主要得益於美國國家醫學圖書館基於科學數據建立的超級計算和數據處理平台。這些平台支持基礎科學和應用科學的知識發現和數據關聯,以及分析基礎上的模擬模擬研究,為科研和政府決策提供服務。2007年,吉姆格雷擴展了其對數據密集型科學的看法,提出7個重要行動領域之一就是同國家醫學圖書館支持生物科學一樣,建立更多數字圖書館以支持其他科學。生物醫學領域的數據量在飛速增長。歐洲分子生物實驗室核酸序列資料庫EMBL-Bank收到數據的速度每年遞增200%;人類基因組計劃2008年生產數據1萬億鹼基對,2009年速率又翻一番;在生物醫學文獻編目中已經有1800萬醫學文章,每年增加接近百萬篇。
美國國立醫學圖書館的Entrez系統是美國國立醫學圖書館建立的生命科學搜索引擎,它真正實現了數據和文獻的交互性操作。用戶可以在閱讀論文的同時打開基因數據,跟隨基因找到這個疾病,再回到文章(微軟的WWT也實現了數據與文獻的融合)。融合和交互操作可通過統一的鏈接、統一的標簽和ID號實現。醫學、生物學、心理學等學科領域的大型實驗設備的實驗型數據、人類基因數據中,有些由於觀測和實驗的不可重復性,有些由於時間、設備和經濟等條件的限制,數據獲取難度大,因此,數據的長期有效保存、科學管理、有條件共享和促進利用是極有意義和價值的一項工作。把全世界的數據都集成在一起,形成巨型的動態數據集,將誕生一個全球化的資料庫。
5.國內專業圖書館的實踐
專業圖書館的思考在實踐方面,國內已經建立了一系列的科學數據平台,如科技部支持建設的科學數據共享工程等,但圖書館人員參與很少。在新的交流體系形成之際,專業圖書館應該深刻思考和研究支撐科研創造的信息服務環境;思考科研成果融合數據之後,形成的原始數據、派生數據和科學文獻融為一體的新的信息環境下,如何提供信息和數據服務;研究數據科研基礎設施建設和運行過程中信息機構的職責、作用和角色。從大量的數據中分析其潛在的價值將成為大數據時代圖書館的一大主要業務,並且提供這些業務的水平將決定著大數據時代圖書館的發展水平和方向。專業圖書館尤其要分析研究數據科學家的知識結構、基本素養、基本技能,並將此納入培養計劃加以實施,為未來社會提供所需人才。
6. 大數據時代信息檢索的機遇與挑戰
首先先幫您了解下什來么是大數源據,大數據」意指一個超大的、無法在可承受的時間范圍內用傳統軟體工具進行捕捉、管理、處理的數據集合。
「大數據」的特點,業界將其歸納為4個」V」,即:Volume(容量),Variety(多樣性),Velocity(時效性),Value(價值)。
然後,您問的關於大數據時代信息檢索的機遇與挑戰,先說機遇:
現在好多企業都還使用的是傳統關系型資料庫,無法橫向擴展,對於數據存儲規模有非常大的限制,而且傳統關系性資料庫數據記錄達到百萬或者千萬級時,信息檢索速度特別慢,設置會超時,這就是大數據技術的機遇。
挑戰會很多,首先是一般的大數據技術是針對海量歷史記錄的,對頻繁更新的應用支撐的不是很好,有很多業務應用需要實現檢索亞毫秒級等。
我現在正在做這個行業,有機會多交流。