⑴ 大數據時代數據管理方式研究
大數據時代數據管理方式研究
1數據管理技術的回顧
數據管理技術主要經歷了人工管理階段、文件系統階段和資料庫系統階段。隨著數據應用領域的不斷擴展,數據管理所處的環境也越來越復雜,目前廣泛流行的資料庫技術開始暴露出許多弱點,面臨著許多新的挑戰。
1.1 人工管理階段
20 世紀 50 年代中期,計算機主要用於科學計算。當時沒有磁碟等直接存取設備,只有紙帶、卡片、磁帶等外存,也沒有操作系統和管理數據的專門軟體。該階段管理的數據不保存、由應用程序管理數據、數據不共享和數據不具有獨立性等特點。
1.2 文件系統階段
20 世紀 50 年代後期到 60 年代中期,隨著計算機硬體和軟體的發展,磁碟、磁鼓等直接存取設備開始普及,這一時期的數據處理系統是把計算機中的數據組織成相互獨立的被命名的數據文件,並可按文件的名字來進行訪問,對文件中的記錄進行存取的數據管理技術。數據可以長期保存在計算機外存上,可以對數據進行反復處理,並支持文件的查詢、修改、插入和刪除等操作。其數據面向特定的應用程序,因此,數據共享性、獨立性差,且冗餘度大,管理和維護的代價也很大。
1.3資料庫階段
20 世紀 60 年代後期以來,計算機性能得到進一步提高,更重要的是出現了大容量磁碟,存儲容量大大增加且價格下降。在此基礎上,才有可能克服文件系統管理數據時的不足,而滿足和解決實際應用中多個用戶、多個應用程序共享數據的要求,從而使數據能為盡可能多的應用程序服務,這就出現了資料庫這樣的數據管理技術。資料庫的特點是數據不再只針對某一個特定的應用,而是面向全組織,具有整體的結構性,共享性高,冗餘度減小,具有一定的程序與數據之間的獨立性,並且對數據進行統一的控制。
2大數據時代的數據管理技術
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據有 3 個 V,一是大量化(Volume),數據量是持續快速增加的,從 TB級別,躍升到 PB 級別;二是多樣化(Variety),數據類型多樣化,結構化數據已被視為小菜一碟,圖片、音頻、視頻等非結構化數據正以傳統結構化數據增長的兩倍速快速創建;三是快速化 (Velocity),數據生成速度快,也就需要快速的處理能力,因此,產生了「1 秒定律」,就是說一般要在秒級時間范圍內給出分析結果,時間太長就失去價值了,這個速度要求是大數據處理技術和傳統的數據挖掘技術最大的區別。
2.1 關系型資料庫(RDBMS)
20 世紀 70 年代初,IBM 工程師 Codd 發表了著名的論文「A Relational Model of Data for Large Shared DataBanks」,標志著關系資料庫時代來臨。關系資料庫的理論基礎是關系模型,是藉助於集合代數等數學概念和方法來處理資料庫中的數據,現實世界中的實體以及實體之間的聯系非常容易用關系模型來表示。容易理解的模型、容易掌握的查詢語言、高效的優化器、成熟的技術和產品,使得關系資料庫占據了資料庫市場的絕對的統治地位。隨著互聯網 web2.0 網站的興起,半結構化和非結構化數據的大量涌現,傳統的關系資料庫在應付 web2.0 網站特別是超大規模和高並發的 SNS(全稱 Social Networking Services,即社會性網路服務) 類型的 web2.0 純動態網站已經顯得力不從心,暴露了很多難以克服的問題。
2.2 noSQL資料庫
順應時代發展的需要產生了 noSQL資料庫技術,其主要特點是採用與關系模型不同的數據模型,當前熱門的 noSQL資料庫系統可以說是蓬勃發展、異軍突起,很多公司都熱情追捧之,如:由 Google 公司提出的 Big Table 和 MapRece 以及 IBM 公司提出的 Lotus Notes 等。不管是那個公司的 noSQL資料庫都圍繞著大數據的 3 個 V,目的就是解決大數據的 3個 V 問題。因此,在設計 noSQL 時往往考慮以下幾個原則,首先,採用橫向擴展的方式,通過並行處理技術對數據進行劃分並進行並行處理,以獲得高速的讀寫速度;其次,解決數據類型從以結構化數據為主轉向結構化、半結構化、非結構化三者的融合的問題;再次,放鬆對數據的 ACID 一致性約束,允許數據暫時出現不一致的情況,接受最終一致性;最後,對各個分區數據進行備份(一般是 3 份),應對節點失敗的狀況等。
對數據的應用可以分為分析型應用和操作型應用,分析型應用主要是指對大量數據進行分類、聚集、匯總,最後獲得數據量相對小的分析結果;操作型應用主要是指對數據進行增加、刪除、修改和查詢以及簡單的匯總操作,涉及的數據量一般比較少,事務執行時間一般比較短。目前資料庫可分為關系資料庫和 noSQL資料庫,根據數據應用的要求,再結合目前資料庫的種類,所以目前資料庫管理方式主要有以下 4 類。
(1)面向操作型的關系資料庫技術。
首先,傳統資料庫廠商提供的基於行存儲的關系資料庫系統,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精確性、系統可恢復性,在事務處理方面仍然是核心引擎。其次,面向實時計算的內存資料庫系統,如 Hana、Timesten、Altibase 等通過把對數據並發控制、查詢和恢復等操作控制在內存內部進行,所以獲得了非常高的性能,在很多特定領域如電信、證券、網管等得到普遍應用。另外,以 VoltDB、Clustrix 和NuoDB 為代表的 new SQL 宣稱能夠在保持 ACDI 特性的同時提高了事務處理性能 50 倍 ~60 倍。
(2)面向分析型的關系資料庫技術。
首先,TeraData 是數據倉庫領域的領頭羊,Teradata 在整體上是按 Shared Nothing 架構體系進行組織的,定位就是大型數據倉庫系統,支持較高的擴展性。其次,面向分析型應用,列存儲資料庫的研究形成了另一個重要的潮流。列存儲資料庫以其高效的壓縮、更高的 I/O 效率等特點,在分析型應用領域獲得了比行存儲資料庫高得多的性能。如:MonetDB 和 Vertica是一個典型的基於列存儲技術的資料庫系統。
(3)面向操作型的 noSQL 技術。
有些操作型應用不受 ACID 高度一致性約束,但對大數據處理需要處理的數據量非常大,對速度性能要求也非常高,這樣就必須依靠大規模集群的並行處理能力來實現數據處理,弱一致性或最終一致性就可以了。這時,操作型 noSQL資料庫的優點就可以發揮的淋漓盡致了。如,Hbase 一天就可以有超過 200 億個到達硬碟的讀寫操作,實現對大數據的處理。另外,noSQL資料庫是一個數據模型靈活、支持多樣數據類型,如對圖數據建模、存儲和分析,其性能、擴展性是關系資料庫無法比擬的。
(4)面向分析型的 noSQL 技術。
面向分析型應用的 noSQL 技術主要依賴於Hadoop 分布式計算平台,Hadoop 是一個分布式計算平台,以 HDFS 和 Map Rece 為用戶提供系統底層細節透明的分布式基礎架構。《Hadoop 經典實踐染技巧》傳統的資料庫廠商 Microsoft,Oracle,SAS,IBM 等紛紛轉向 Hadoop 的研究,如微軟公司關閉 Dryad 系統,全力投入 Map Rece 的研發,Oracle 在 2011 年下半年發布 Big Plan 戰略計劃,全面進軍大數據處理領域,IBM 則早已捷足先登「,沃森(Watson)」計算機就是基於 Hadoop 技術開發的產物,同時 IBM 發布了 BigInsights 計劃,基於 Hadoop,Netezza 和 SPSS(統計分析、數據挖掘軟體)等技術和產品構建大數據分析處理的技術框架。同時也涌現出一批新公司來研究Hadoop 技術,如 Cloudera、MapRKarmashpere 等。
3數據管理方式的展望
通過以上分析,可以看出關系資料庫的 ACID 強調數據一致性通常指關聯數據之間的邏輯關系是否正確和完整,而對於很多互聯網應用來說,對這一致性和隔離性的要求可以降低,而可用性的要求則更為明顯,此時就可以採用 noSQL 的兩種弱一致性的理論 BASE 和 CAP.關系資料庫和 noSQL資料庫並不是想到對立的矛盾體,而是可以相互補充的,根據不同需求使用不同的技術,甚至二者可以共同存在,互不影響。最近幾年,以 Spanner 為代表新型資料庫的出現,給資料庫領域注入新鮮血液,這就是融合了一致性和可用性的 newSQL,這種新型思維方式或許會是未來大數據處理方式的發展方向。
4 結束語
隨著雲計算、物聯網等的發展,數據呈現爆炸式的增長,人們正被數據洪流所包圍,大數據的時代已經到來。正確利用大數據給人們的生活帶來了極大的便利,但與此同時也給傳統的數據管理方式帶來了極大的挑戰。
⑵ 後綴是.db的文件是什麼文件
後綴是.db的文件是資料庫文件。
db一般用記事本打開,db是datebase的縮寫。
datebase的意思就是資料庫
資料庫類型包括:
關系資料庫、非關系型資料庫(NoSQL)
簡而言之資料庫可視為電子化的文件櫃——存儲電子文件的處所,用戶可以對文件中的數據進行新增、查詢、更新、刪除等操作。
(2)lotus隔離個人資料庫擴展閱讀
常見的資料庫文件格式有以下幾種:
CSV 逗號分隔的值文件;DAT 數據文件;WrodPerfect合並數據文件;DB Borland的Paradox 7表;DBC Microsoft Visual FoxPro資料庫容器文件
DBF dBASE文件,一種由Ashton-Tate創建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和類似資料庫或與資料庫有關產品識別;
可用數據文件(能被Excel 97打開),Oracle 8.1.x表格空間文件;MDB是access文件;NSF Lotus Notes資料庫;MDF和LDF是SQL SERVER文件;
另外你還有不少是軟體開發者自己定義的資料庫文件,大多採用dat,或者把DBA轉換為dat,由程序文件名轉換處理。
ODB++是一種可擴展的ASCII格式,它可在單個資料庫中保存PCB製造和裝配所必需的全部工程數據。是能把多種數據格式資料庫連接起來的橋梁,是一種雙向格式,允許數據上行和下傳。
⑶ 企業網路應用和管理需要網管員做什麼
隨著Internet和網路技術的飛速發展,企業日常業務的開展和應用越來越依靠於網路平台。目前我們單位的網路平台基本上搭建完畢,網路結構根據實際工作的需要可能進行局部的調整,但主體是不會改變的。構建的網路可劃分為內部區域網、計劃系統縱向網(與互聯網物理隔離)和Internet網三種類型。作為省級信息中心,我們不但管理好自身的網路,還要服務於上級主管部門以及下屬的各個市、縣,因此做好各部門的應用需求調研,規劃與設計好網路結構,完成網路建設方案與實施,對我們網管來說,是必須要完成的任務。
網路應用與業務狀況
與其他企業一樣,我們的Internet網是租用電信的10M的DDN線路,光纖接入機房,通過防火牆接入三層交換機,然後再接入樓層邊緣交換機,各辦公室通過網路布線面板接入單位區域網內,為了網路的安全,我們在防火牆上做了NAT地址轉換,將事先規劃好的IP地址和個人上網的PC機MAC地址綁定,防止盜用IP地址;在交換機上根據應用的不同,劃分了VLAN等安全策略。目前在互聯網上進行的主要業務是建自己的Web門戶網站,發布企業信息;組建了Mail郵件伺服器,方便工作人員交流信息以及對外的信息交往;組建了FTP服務,方便網站信息的載入和更新,以及網站的日常運行維護;組建了視頻伺服器,主要是進行日常的新聞圖片的採集與播放。
企業內部區域網目前是滿足工作人員上互聯網,進行辦公自動化,人事考勤、財務管理以及文件數據、列印機等外設共享等應用需求;上Internet網,一方面是工作的需要、知識更新的需要,另外一個最主要就是進行娛樂活動,如聊天、聽音樂、玩游戲和看電影等。單位實行人性化管理,在網內沒有查封QQ、MSN以及游戲、電影網站。辦公自動化是用Domino/lotus開發的一套應用系統,主要是在內部區域網流轉一些業務文檔,簽發文件,提高辦事效率。人事考勤主要是考察工作人員的上下班情況,有無遲到、早退、生病、請假等。財務管理主要是同財政部門網路互聯,方便了解財務資金運轉和使用情況,上報每月報表和稅務。
計劃系統縱向網的建設,是推動計劃系統信息化建設的重大工程。一方面計劃系統越來越多地承擔著綜合性強、復雜程度高,要求快速響應的各類任務。另一方面在機構改革中人員減半,工作的壓力越來越大。為了解決這一問題,必須藉助現代化的信息技術手段改變工作方式,綜合提高工作的效率。系統縱向網將國家、省、市的區域網互聯起來,形成「信息高速公路」,疏通信息渠道;它是同互聯網物理隔離的網路。具有數據傳輸、話音業務和視頻會議等功能。可以及時召開全國性的視頻會議,撥打系統內IP電話、在縱向網內開展系統內的有關業務活動。
網路技術的發展也帶動企業的業務的發展,使工作的透明度提高不少,工作規范化與流程化也成為企業發展一種新趨勢;有了網路,大家能及時地進行工作和解決問題的反饋,大大地提高了工作效率。因此現在有許多部門的伺服器以及網路平台都託管到我們這里來,業務量大增,提高了單位的知名度。
網路應用和管理存在的問題和困難
隨著單位網路應用業務量的增大,消耗掉大量帶寬,使網路不堪重負,最終導致整個網路性能降級。原先的內部百兆帶寬明顯覺得不夠用了,急需升級網路檔次,採用千兆區域網替換;各樓層的交換機和原先的三層交換機都須要升級更新,大樓里的網路布線也必須要升級到光纖布線;面對需求不斷提升的情形,光纖類布線已經變為網路布線設計的不可缺少的一部分,光纖系統不僅要應用在主幹布線系統中,而且也要逐漸進入了水平和桌面應用,替代目前使用的超五類線,實現布線系統的全面升級。
網路管理目前也存在一些問題,單位原先老的網管軟體只對網路設備、網路線路及用戶進行了管理,沒有在現有網路管理的基礎上建立綜合網管系統,以實現包括故障分析和故障定位、性能綜合分析等功能的的綜合管理;因此不能滿足網路管理的需求而將逐漸退出歷史舞台;在目前網路攻擊和病毒日益猖獗的環境下,網路管理顯得有點措手不及。網管員往往處於非常被動挨打的地位,拚命奔走於機房與各辦公室客戶機之間,給機器裝系統、打補丁以及調試網路等工作。選購新的網管軟體,建立殺毒伺服器和補丁伺服器,定期打補丁與殺毒是簡化網管工作的必須要做的工作。
單位對網路建設、應用以及後期的運行維護投入的資金不足,也造成了網路管理很大隱患;個人的PC機使用盜版的操作系統、辦公軟體和資料庫系統,導致打補丁打不起來,很容易被病毒感染和黑客攻擊。沒有好的正版的網管軟體,網路的管理依然停留在經驗管理層面上,顯然是不行的,與大家感覺一樣,做網管就顯得特別累,而且人也變得浮躁起來,牢騷較多。
對於網路管理的最終實施者,網路管理人員自身技能和管理水平決定了網路的正常運轉和優化。對於發展規模較大的網路,網路管理員除了要掌握網路設備安裝、配置、管理和使用的知識和技能外,還需了解整個網路與通信的發展趨勢,並且還必須針對當前網路和未來網路的發展趨勢做出相應的判斷,為網路決策者提供更好的建議和可行性分析。我們的網路管理者平時就要加強網路安全、應用等各方面知識的學習,要善於學習和交流,提高自身的解決網路故障的水平,要創造條件主動管理網路,這就需要我們平時要下一番工夫才能完全勝任網路網管工作。