導航:首頁 > 網路數據 > mongodb存儲大數據結構

mongodb存儲大數據結構

發布時間:2023-08-07 13:20:52

⑴ 為什麼MongoDB適合大數據的存儲

Mongo是一個高性能,開源,無模式的文檔型資料庫,它在許多場景下可用於替代傳統的關系型資料庫或鍵/值存儲方式。Mongo使用C++開發,提供了以下功能:
◆面向集合的存儲:適合存儲對象及jsON形式的數據。
◆動態查詢:Mongo支持豐富的查詢表達式。查詢指令使用JSON形式的標記,可輕易查詢文檔中內嵌的對象及數組。
◆完整的索引支持:包括文檔內嵌對象及數組。Mongo的查詢優化器會分析查詢表達式,並生成一個高效的查詢計劃。
◆查詢監視:Mongo包含一個監視工具用於分析資料庫操作的性能。
◆復制及自動故障轉移:Mongo資料庫支持伺服器之間的數據復制,支持主-從模式及伺服器之間的相互復制。復制的主要目標是提供冗餘及自動故障轉移。
◆高效的傳統存儲方式:支持二進制數據及大型對象(如照片或圖片)。
◆自動分片以支持雲級別的伸縮性(處於早期alpha階段):自動分片功能支持水平的資料庫集群,可動態添加額外的機器。
MongoDB的主要目標是在鍵/值存儲方式(提供了高性能和高度伸縮性)以及傳統的RDBMS系統(豐富的功能)架起一座橋梁,集兩者的優勢於一身。根據官方網站的描述,Mongo適合用於以下場景:
◆網站數據:Mongo非常適合實時的插入,更新與查詢,並具備網站實時數據存儲所需的復制及高度伸縮性。
◆緩存:由於性能很高,Mongo也適合作為信息基礎設施的緩存層。在系統重啟之後,由Mongo搭建的持久化緩存層可以避免下層的數據源過載。
◆大尺寸,低價值的數據:使用傳統的關系型資料庫存儲一些數據時可能會比較昂貴,在此之前,很多時候程序員往往會選擇傳統的文件進行存儲。
◆高伸縮性的場景:Mongo非常適合由數十或數百台伺服器組成的資料庫。Mongo的路線圖中已經包含對MapRece引擎的內置支持。
◆用於對象及JSON數據的存儲:Mongo的BSON數據格式非常適合文檔化格式的存儲及查詢。
自然,MongoDB的使用也會有一些限制,例如它不適合:
◆高度事務性的系統:例如銀行或會計系統。傳統的關系型資料庫目前還是更適用於需要大量原子性復雜事務的應用程序。
◆傳統的商業智能應用:針對特定問題的BI資料庫會對產生高度優化的查詢方式。對於此類應用,數據倉庫可能是更合適的選擇。
◆需要SQL的問題
MongoDB支持OS X、linux及Windows等操作系統,並提供了Python,PHP,Ruby,java及C++語言的驅動程序,社區中也提供了對Erlang及.NET等平台的驅動程序。

⑵ MongoDB是一個基於分布式文件存儲的資料庫,為WEB應用提供高性能的數據存儲解決方案;

MongoDB[2] 是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最回豐富,最答像關系資料庫的。
他支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。
Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。

⑶ mongodb 存儲是json嗎

MongoDB存儲數據類型為BSON(Binary JSON).

MongoDB 是一個基於分布式文件存儲的資料庫。它將數據存儲為一個文檔,數據結構由鍵值(key=>value)對組成。MongoDB 文檔類似於 JSON 對象。欄位值可以包含其他文檔,數組及文檔數組。

數據格式示例:

  1. BSON是一種類json的一種二進制形式的存儲格式,簡稱Binary JSON,它和JSON一樣,支持內嵌的文檔對象和數組對象,但是BSON有JSON沒有的一些數據類型,如Date和BinData類型。

  2. mongoDB對JSON串做了一些增加,使其可以支持更多的數據類型,並且將其作為存儲結構。

  3. BSON可以做為網路數據交換的一種存儲形式,是一種schema-less的存儲形式,它的優點是輕量性、高靈活性、可遍歷性、高效性,但它的缺點是空間利用率不是很理想。

參考來源:

  1. http://blog.csdn.net/leshami/article/details/52668870

  2. https://www.mongodb.com/json-and-bson

⑷ 比較mongodb和mysql在存儲結構化數據時的異同

1. MongoDB比MySQL快在它有Memory-Mapping以及它不用處理事物

2. MySQL適用於傳統的對關聯要求高的方面,MongoDB更多用於Logging、SNS等以K-V居多的需求,但是兩種資料庫其實都能勝任大多數需求。

對MongoDB來說,關聯一般是做成內聯的,最大程度發揮其優勢。而如果內聯起來比較糾結或者冗餘太多處理麻煩的時候當然用SQL更恰當了

3. 新項目可以考慮用MongoDB 如果經驗不足而時間緊迫則可以繼續用MySQL

4. 總之適當的任務用適當的工具

5. MongoDB有比較好的擴展能力,可以很容易做成分布式架構

6. 對MongoDB來說,內存越多越好

⑸ MongoDB 是什麼看完你就知道了

點擊上方 藍色字體 ,選擇「置頂公眾號」

優質文章,第一時間送達

鏈接 | blog.csdn.net/hayre/article/details/80628431

1.MongoDB是什麼?用一句話總結

MongoDB是一款為web應用程序和互聯網基礎設施設計的資料庫管理系統。沒錯MongoDB就是資料庫,是NoSQL類型的資料庫。

(1)MongoDB提出的是文檔、集合的概念,使用BSON(類JSON)作為其數據模型結構,其結構是面向對象的而不是二維表,存儲一個用戶在MongoDB中是這樣子的。

使用這樣的數據模型,使得MongoDB能在生產環境中提供高讀寫的能力,吞吐量較於mysql等SQL資料庫大大增強。

(2)易伸縮,自動故障轉移。易伸縮指的是提供了分片能力,能對數據集進行分片,數據的存儲壓力分攤給多台伺服器。自動故障轉移是副本集的概念,MongoDB能檢測主節點是否存活,當失活時能自動提升從節點為主節點,達到故障轉移。

(3)數據模型因為是面向對象的,所以可以表示豐富的、有層級的數據結構,比如博客系統中能把「評論」直接懟到「文章「的文檔中,而不必像myqsl一樣創建三張表來描述這樣的關系。

3.主要特性

(1)文檔數據類型

SQL類型的資料庫是正規化的,可以通過主鍵或者外鍵的約束保證數據的完整性與唯一性,所以SQL類型的資料庫常用於對數據完整性較高的系統。MongoDB在這一方面是不如SQL類型的資料庫,且MongoDB沒有固定的Schema,正因為MongoDB少了一些這樣的約束條件,可以讓數據的存儲數據結構更靈活,存儲速度更加快。 (2)即時查詢能力

MongoDB保留了關系型資料庫即時查詢的能力,保留了索引(底層是基於B tree)的能力。這一點汲取了關系型資料庫的優點,相比於同類型的NoSQL redis 並沒有上述的能力。 (3)復制能力

MongoDB自身提供了副本集能將數據分布在多台機器上實現冗餘,目的是可以提供自動故障轉移、擴展讀能力。 (4)速度與持久性

MongoDB的驅動實現一個寫入語義 fire and forget ,即通過驅動調用寫入時,可以立即得到返回得到成功的結果(即使是報錯),這樣讓寫入的速度更加快,當然會有一定的不安全性,完全依賴網路。

MongoDB提供了Journaling日誌的概念,實際上像mysql的bin-log日誌,當需要插入的時候會先往日誌裡面寫入記錄,再完成實際的數據操作,這樣如果出現停電,進程突然中斷的情況,可以保障數據不會錯誤,可以通過修復功能讀取Journaling日誌進行修復。

(5)數據擴展

MongoDB使用分片技術對數據進行擴展,MongoDB能自動分片、自動轉移分片裡面的數據塊,讓每一個伺服器裡面存儲的數據都是一樣大小。

MongoDB核心伺服器主要是通過mongod程序啟動的,而且在啟動時不需對MongoDB使用的內存進行配置,因為其設計哲學是內存管理最好是交給操作系統,缺少內存配置是MongoDB的設計亮點,另外,還可通過mongos路由伺服器使用分片功能。

MongoDB的主要客戶端是可以交互的js shell 通過mongo啟動,使用js shell能使用js直接與MongoDB進行交流,像使用sql語句查詢mysql數據一樣使用js語法查詢MongoDB的數據,另外還提供了各種語言的驅動包,方便各種語言的接入。

mongomp和mongorestore,備份和恢復資料庫的標准工具。輸出BSON格式,遷移資料庫。

mongoexport和mongoimport,用來導入導出JSON、CSV和TSV數據,數據需要支持多格式時有用。mongoimport還能用與大數據集的初始導入,但是在導入前順便還要注意一下,為了能充分利用好mongoDB通常需要對數據模型做一些調整。

mongosniff,網路嗅探工具,用來觀察發送到資料庫的操作。基本就是把網路上傳輸的BSON轉換為易於人們閱讀的shell語句。

因此,可以總結得到,MongoDB結合鍵值存儲和關系資料庫的最好特性。因為簡單,所以數據極快,而且相對容易伸縮還提供復雜查詢機制的資料庫。MongoDB需要跑在64位的伺服器上面,且最好單獨部署,因為是資料庫,所以也需要對其進行熱備、冷備處理。

因為本篇文章不是API手冊,所有這里對shell的使用也是基礎的介紹什麼功能可以用什麼語句,主要是為了展示使用MongoDB shell的方便性,如果需要知道具體的MongoDB shell語法可以查閱官方文檔。

創建資料庫並不是必須的操作,資料庫與集合只有在第一次插入文檔時才會被創建,與對數據的動態處理方式是一致的。簡化並加速開發過程,而且有利於動態分配命名空間。如果擔心資料庫或集合被意外創建,可以開啟嚴格模式。

以上的命令只是簡單實例,假設如果你之前沒有學習過任何資料庫語法,同時開始學sql查詢語法和MongoDB 查詢語法,你會發現哪一個更簡單呢?如果你使用的是java驅動去操作MongoDB,你會發現任何的查詢都像Hibernate提供出來的查詢方式一樣,只要構建好一個查詢條件對象,便能輕松查詢(接下來會給出示例),博主之前熟悉ES6,所以入手MongoDB js shell完成沒問題,也正因為這樣簡潔,完善的查詢機制,深深的愛上了MongoDB。

使用java驅動鏈接MongoDB是一件非常簡單的事情,簡單的引用,簡單的做增刪改查。在使用完java驅動後我才發現spring 對MongoDB 的封裝還不如官方自身提供出來的東西好用,下面簡單的展示一下使用。

這里只舉例了簡單的鏈接與簡單的MongoDB操作,可見其操作的容易性。使用驅動時是基於TCP套接字與MongoDB進行通信的,如果查詢結果較多,恰好無法全部放進第一伺服器中,將會向伺服器發送一個getmore指令獲取下一批查詢結果。

插入數據到伺服器時間,不會等待伺服器的響應,驅動會假設寫入是成功的,實際是使用客戶端生成對象id,但是該行為可以通過配置配置,可以通過安全模式開啟,安全模式可以校驗伺服器端插入的錯誤。

要清楚了解MongoDB的基本數據單元。在關系型資料庫中有帶列和行的數據表。而MongoDB數據的基本單元是BSON文檔,在鍵值中有指向不定類型值的鍵,MongoDB擁有即時查詢,但不支持聯結操作,簡單的鍵值存儲只能根據單個鍵來獲取值,不支持事務,但支持多種原子更新操作。

如讀寫比是怎樣的,需要何種查詢,數據是如何更新的,會不會存在什麼並發問題,數據結構化的程度是要求高還是低。系統本身的需求決定mysql還是MongoDB。

在關於schema 的設計中要注意一些原則,比如:

資料庫是集合的邏輯與物理分組,MongoDB沒有提供創建資料庫的語法,只有在插入集合時,資料庫才開始建立。創建資料庫後會在磁碟分配一組數據文件,所有集合、索引和資料庫的其他元數據都保存在這些文件中,查閱資料庫使用磁碟狀態可通過。

集合是結構上或概念上相似得文檔的容器,集合的名稱可以包含數字、字母或 . 符號,但必須以字母或數字開頭,完全。

限定集合名不能超過128個字元,實際上 . 符號在集合中很有用,能提供某種虛擬命名空間,這是一種組織上的原則,和其他集合是一視同仁的。在集合中可以使用。

其次是鍵值,在MongoDB裡面所有的字元串都是UTF-8類型。數字類型包括double、int、long。日期類型都是UTC格式,所以在MongoDB裡面看到的時間會比北京時間慢8小時。整個文檔大小會限制在16m以內,因為這樣可以防止創建難看的數據類型,且小文檔可以提升性能,批量插入文檔理想數字范圍是10~200,大小不能超過16MB。

(2)解析查詢時MongoDB通過最優計劃選擇一個索引進行查詢,當沒有最適合索引時,會先不同的使用各個索引進行查詢,最終選出一個最優索引做查詢

(3)如果有一個a-b的復合索引,那麼僅針對a的索引是冗餘的

(4)復合索引里的鍵的順序是很重要的

(2)復合索引

(3)唯一性索引

(4)稀疏索引

如索引的欄位會出現的值,或是大量文檔都不包含被索引的鍵。

如果數據集很大時,構建索引將會花費很長的時間,且會影響程序性能,可通過

當使用 mongorestore 時會重新構建索引。當曾經執行過大規模的刪除時,可使用

對索引進行壓縮,重建。

(1)查閱慢查詢日誌

(2)分析慢查詢

注意新版本的MongoDB 的explain方法是需要參數的,不然只顯示普通的信息。

本節同樣主要簡單呈現MongoDB副本集搭建的簡易性,與副本集的強壯性,監控容易性

提供主從復制能力,熱備能力,故障轉移能力

實際上MongoDB對副本集的操作跟mysql主從操作是差不多的,先看一下mysql的主從數據流動過程

而MongoDB主要依賴的日誌文件是oplog

寫操作先被記錄下來,添加到主節點的oplog里。與此同時,所有從結點復制oplog。首先,查看自己oplog里最後一條的時間戳;其次,查詢主節點oplog里所有大於此時間戳的條目;最後,把那些條目添加到自己的oplog里並應用到自己的庫里。從節點使用長輪詢立即應用來自主結點oplog的新條目。

當遇到以下情況,從節點會停止復制

local資料庫保存了所有副本集元素據和oplog日誌

可以使用以下命令查看復制情況

每個副本集成員每秒鍾ping一次其他所有成員,可以通過rs.status看到節點上次的心跳檢測時間戳和 健康 狀況。

這個點沒必要過多描述,但是有一個特殊場景,如果從節點和仲裁節點都被殺了,只剩下主節點,他會把自己降級成為從節點。

如果主節點的數據還沒有寫到從庫,那麼數據不能算提交,當該主節點變成從節點時,便會觸發回滾,那些沒寫到從庫的數據將會被刪除,可以通過rollback子目錄中的BSON文件恢復回滾的內容。

只能鏈接到主節點,如果鏈接到從節點的話,會被拒絕寫入操作,但是如果沒有使用安全模式,因為mongo的fire and forget 特性,會把拒絕寫入的異常給吃掉。

(2)使用副本集方式鏈接

能根據寫入的情況自動進行故障轉移,但是當副本集進行新的選舉時,還是會出現故障,如果不使用安全模式,依舊會出現寫不進去,但現實成功的情況。

分片是資料庫切分的一個概念實現,這里也是簡單總結為什麼要使用分片以及分片的原理,操作。

當數據量過大,索引和工作數據集佔用的內存就會越來越多,所以需要通過分片負載來解決這個問題

(2)分片的核心操作

分片一個集合:分片是根據一個屬性的范圍進行劃分的,MongoDB使用所謂的分片鍵讓每個文檔在這些范圍里找到自己的位置

塊:是位於一個分片中的一段連續的分片鍵范圍,可以理解為若干個塊組成分片,分片組成MongoDB的全部數據

(3)拆分與遷移

塊的拆分:初始化時只有一個塊,達到最大塊尺寸64MB或100000個文檔就會觸發塊的拆分。把原來的范圍一分為二,這樣就有了兩個塊,每個塊都有相同數量的文檔。

遷移:當分片中的數據大小不一時會產生遷移的動作,比如分片A的數據比較多,會將分片A裡面的一些塊轉移到分片B裡面去。分片集群通過在分片中移動塊來實現均衡,是由名為均衡器的軟體進程管理的,任務是確保數據在各個分片中保持均勻分布,當集群中擁有塊最多的分片與擁有塊最少分片的塊差大於8時,均衡器就會發起一次均衡處理。

啟動兩個副本集、三個配置伺服器、一個mongos進程

配置分片

(2)索引

分片集合只允許在_id欄位和分片鍵上添加唯一性索引,其他地方不行,因為這需要在分片間進行通信,實施起來很復雜。

當創建分片時,會根據分片鍵創建一個索引。

(2)低效的分片鍵

(3)理想的分片鍵

根據不同的數據中心劃分

(2)最低要求

(3)配置的注意事項

需要估計集群大小,可使用以下命令對現有集合進行分片處理

(4)備份分片集群

備份分片時需要停止均衡器

使用64位機器、32位機器會制約mongodb的內存,使其最大值為1.5GB

(2)cpu mongodb 只有當索引和工作集都可放入內存時,才會遇到CPU瓶頸,CPU在mongodb使用中的作用是用來檢索數據,如果看到CPU使用飽和的情況,可以通過查詢慢查詢日誌,排查是不是查詢的問題導致的,如果是可以通過添加索引來解決問題

mongodb寫入數據時會使用到CPU,但是mongodb寫入時間一次只用到一個核,如果有頻繁的寫入行為,可以通過分片來解決這個問題 (3)內存

大內存是mongodb的保障,如果工作集大小超過內存,將會導致性能下降,因為這將會增加數據載入入內存的動作

(4)硬碟

mongodb默認每60s會與磁碟強制同步一次,稱為後台刷新,會產生I/O操作。在重啟時mongodb會將磁碟裡面的數據載入至內存,高速磁碟將會減少同步的時間

(5)文件系統

使用ext4 和 xfs 文件系統

禁用最後訪問時間

(6)文件描述符

linux 默認文件描述符是1024,需要大額度的提升這個額度

(7)時鍾

mongodb各個節點伺服器之間使用ntp伺服器

啟動時使用 - -bind_ip 命令

(2)身份驗證

啟動時使用 - -auth 命令

(3)副本集身份認證

使用keyFile,注意keyFile文件的許可權必須是600,不然會啟動不起來

搭建副本集至少需要兩個節點,其中仲裁結點不需要有自己的伺服器

(2)Journaling日誌 寫數據時會先寫入日誌,而此時的數據也不是直接寫入硬碟,而是寫入內存

但是Journaling日誌會消耗內存,所以可以在主庫上面關閉,在從庫上面啟動

可以單獨為Journaling日誌使用一塊固態硬碟

在插入時,可以通過驅動確保Journaling插入後再反饋,但是會非常影響性能。

-vvvvv 選項(v越多,輸出越詳細)

db.runCommand({logrotare:1}) 開啟滾動日誌

(2)top

(3)db.currentOp

動態展示mongodb活動數據

佔用當前mongodb監聽埠往上1000號的埠

把資料庫內容導出成BSON文件,而mongorestore能讀取並還原這些文件

(2)mongorestore

把導出的BSON文件還原到資料庫

(3)備份原始數據文件 可以這么做,但是,操作之前需要進行鎖庫處理 db.runCommand({fsync:1,lock:true}) db.$cmd.sys.unlock.findOne 請求解鎖操作,但是資料庫不會立刻解鎖,需要使用 db.currentOp 驗證。

db.runCommand({repairDatabase:1}) 修復單個資料庫

修復就是根據Jourling文件讀取和重寫所有數據文件並重建各個索引 (2)壓緊

壓緊,會重寫數據文件,並重建集合的全部索引,需要停機或者在從庫上面運行,如果需要在主庫上面運行,需要添加force參數 保證加寫鎖。

(2)為提升性能檢查索引和查詢

總的來說,掃描盡可能少的文檔。

保證沒有冗餘的索引,冗餘的索引會佔用磁碟空間、消耗更多的內存,在每次寫入時還需做更多工作

(3)添加內存

dataSize 數據大小 和 indexSize 索引大小,如果兩者的和大於內存,那麼將會影響性能。

storageSize超過dataSize 數據大小 兩倍以上,就會因磁碟碎片而影響性能,需要壓縮。

閱讀全文

與mongodb存儲大數據結構相關的資料

熱點內容
win7系統文件加密碼 瀏覽:660
手游英雄殺360安卓版 瀏覽:301
蘋果更新以後數據網路怎麼用不了 瀏覽:666
藍牙怎麼接收文件在哪裡 瀏覽:230
win10移動熱點5ghz 瀏覽:630
小米8備份的數據如何還原 瀏覽:167
尚觀linux講義 瀏覽:464
三毛設計教程 瀏覽:789
如何做好招標網站 瀏覽:339
哈密logo設計欣賞網站有哪些 瀏覽:387
文件屬性在哪裡找隱藏 瀏覽:705
音頻剪輯導出文件去了哪裡 瀏覽:271
不彈出u盤強制拔掉文件 瀏覽:526
編程要會什麼語言 瀏覽:676
御龍在天51級怎麼升級 瀏覽:27
讀取excel多個文件的數據 瀏覽:781
編程軟體哪裡有培訓班 瀏覽:988
abs在編程中是什麼意思 瀏覽:73
哪些公司招聘數據分析員 瀏覽:602
wifi卡在檢查網路是什麼原因 瀏覽:490

友情鏈接