大數據的日益增長,給企業管理大量的數據帶來了挑戰的同時也帶來了一些機遇。下面是用於信息化管理的大數據工具列表:
1.ApacheHive
Hive是一個建立在hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2JaspersoftBI套件
Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的,許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配置單元來替代HBase。
3.1010data
1010data創立於2000年,是一個總部設在紐約的分析型雲服務,旨在為華爾街的客戶提供服務,甚至包括NYSEEuronext、 游戲 和電信的客戶。它在設計上支持可伸縮性的大規模並行處理。它也有它自己的查詢語言,支持SQL函數和廣泛的查詢類型,包括圖和時間序列分析。這個私有雲的方法減少了客戶在基礎設施管理和擴展方面的壓力。
4.Actian
Actian之前的名字叫做IngresCorp,它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴展。這些發展分別導致了ActianVector和ActianMatrix的創建。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。
5.PentahoBusinessAnalytics
從某種意義上說,Pentaho與Jaspersoft相比起來,盡管Pentaho開始於報告生成引擎,但它目前通過簡化新來源中獲取信息的過程來支持大數據處理。Pentaho的工具可以連接到NoSQL資料庫,例如MongoDB和Cassandra。PeterWayner指出,PentahoData(一個更有趣的圖形編程界面工具)有很多內置模塊,你可以把它們拖放到一個圖片上,然後將它們連接起來。
6.KarmasphereStudioandAnalyst
KarsmasphereStudio是一組構建在Eclipse上的插件,它是一個更易於創建和運行Hadoop任務的專用IDE。在配置一個Hadoop工作時,Karmasphere工具將引導您完成每個步驟並顯示部分結果。當出現所有數據處於同一個Hadoop集群的情況時,KarmaspehereAnalyst旨在簡化篩選的過程,。
7.Cloudera
Cloudera正在努力為開源Hadoop,提供支持,同時將數據處理框架延伸到一個全面的「企業數據中心」范疇,這個數據中心可以作為首選目標和管理企業所有數據的中心點。Hadoop可以作為目標數據倉庫,高效的數據平台,或現有數據倉庫的ETL來源。企業規模可以用作集成Hadoop與傳統數據倉庫的基礎。Cloudera致力於成為數據管理的「重心」。
8.
HP提供了用於載入Hadoop軟體發行版所需的參考硬體配置,因為它本身並沒有自己的Hadoop版本。計算機行業領袖將其大數據平台架構命名為HAVEn(意為Hadoop,Autonomy,Vertica,EnterpriseSecurityand「n」applications)。惠普在Vertica7版本中增加了一個「FlexZone」,允許用戶在定義資料庫方案以及相關分析、報告之前 探索 大型數據集中的數據。這個版本通過使用HCatalog作為元數據存儲,與Hadoop集成後為用戶提供了一種 探索 HDFS數據表格視圖的方法。
9.TalendOpenStudio
Talend』s工具用於協助進行數據質量、數據集成和數據管理等方面工作。Talend是一個統一的平台,它通過提供一個統一的,跨企業邊界生命周期管理的環境,使數據管理和應用更簡單便捷。這種設計可以幫助企業構建靈活、高性能的企業架構,在次架構下,集成並啟用百分之百開源服務的分布式應用程序變為可能。
10.ApacheSpark
ApacheSpark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。
② MongoDB如何優化查詢性能
站在用戶的視角來看,如果一個搜索返回時間大於了1秒,就會讓很多用戶失去耐心。所以作為開發者而言,在開發過程中100%會遇到的一個問題就是優化數據的查詢性能。那麼在Mongo中是如何做查詢性能優化呢?下面就給大家介紹一下。
在mongo中也提供了一個explain()方法,該方法能夠提供大量與查詢相關的信息。對於速度比較慢的查詢來說,它是最重要的性能分析工具之一。通過查看一個查詢的explain()輸出信息,可以知道查詢使用了哪個索引,以及是如何使用的。對於任意查詢,都可以在最後添加一個explain()調用(與調用sort()或者limit()一樣,不過explain()必須放在最後)。
最常見的explain()輸出有兩種類型:使用索引的查詢和沒有使用索引的查詢。其輸出的信息可能如圖1:
返回信息詳細介紹:
「millis」表明了這個查詢的執行時間。數字越小,則說明這個查詢的效率越高。
「n」則表明了實際返回的文檔數量。
「nscanned「描述了MongoDB在執行這個查詢時搜索了多少文檔。
」cursor「本查詢返回值為」BasicCursor「則說明該查詢未使用索引,所以才會搜索了所有的文檔。如返回」BtreeCursor「則表示查詢中使用了索引。
」isMultiKey「用於說明是否使用了多鍵索引。
」nYield「指本次查詢暫停的次數。在查詢期間,如果有與入請求需要處理,為了讓寫入請求能夠順利執行,查詢會周期性的釋放它的鎖。
③ 為什麼MongoDB適合大數據的存儲
Mongo是一個高性能,開源,無模式的文檔型資料庫,它在許多場景下可用於替代傳統的關系型資料庫或鍵/值存儲方式。Mongo使用C++開發,提供了以下功能:
◆面向集合的存儲:適合存儲對象及jsON形式的數據。
◆動態查詢:Mongo支持豐富的查詢表達式。查詢指令使用JSON形式的標記,可輕易查詢文檔中內嵌的對象及數組。
◆完整的索引支持:包括文檔內嵌對象及數組。Mongo的查詢優化器會分析查詢表達式,並生成一個高效的查詢計劃。
◆查詢監視:Mongo包含一個監視工具用於分析資料庫操作的性能。
◆復制及自動故障轉移:Mongo資料庫支持伺服器之間的數據復制,支持主-從模式及伺服器之間的相互復制。復制的主要目標是提供冗餘及自動故障轉移。
◆高效的傳統存儲方式:支持二進制數據及大型對象(如照片或圖片)。
◆自動分片以支持雲級別的伸縮性(處於早期alpha階段):自動分片功能支持水平的資料庫集群,可動態添加額外的機器。
MongoDB的主要目標是在鍵/值存儲方式(提供了高性能和高度伸縮性)以及傳統的RDBMS系統(豐富的功能)架起一座橋梁,集兩者的優勢於一身。根據官方網站的描述,Mongo適合用於以下場景:
◆網站數據:Mongo非常適合實時的插入,更新與查詢,並具備網站實時數據存儲所需的復制及高度伸縮性。
◆緩存:由於性能很高,Mongo也適合作為信息基礎設施的緩存層。在系統重啟之後,由Mongo搭建的持久化緩存層可以避免下層的數據源過載。
◆大尺寸,低價值的數據:使用傳統的關系型資料庫存儲一些數據時可能會比較昂貴,在此之前,很多時候程序員往往會選擇傳統的文件進行存儲。
◆高伸縮性的場景:Mongo非常適合由數十或數百台伺服器組成的資料庫。Mongo的路線圖中已經包含對MapRece引擎的內置支持。
◆用於對象及JSON數據的存儲:Mongo的BSON數據格式非常適合文檔化格式的存儲及查詢。
自然,MongoDB的使用也會有一些限制,例如它不適合:
◆高度事務性的系統:例如銀行或會計系統。傳統的關系型資料庫目前還是更適用於需要大量原子性復雜事務的應用程序。
◆傳統的商業智能應用:針對特定問題的BI資料庫會對產生高度優化的查詢方式。對於此類應用,數據倉庫可能是更合適的選擇。
◆需要SQL的問題
MongoDB支持OS X、linux及Windows等操作系統,並提供了Python,PHP,Ruby,java及C++語言的驅動程序,社區中也提供了對Erlang及.NET等平台的驅動程序。
④ c# 驅動 查詢 MongoDB group 大數據量,導致MongoDB服務關閉
32bit的mongodb只能有2gb的容量。
⑤ mongodb查找所有最多
方法一:對目標值按大到小排序後,再取出第一條
具體查詢語句是
db.getCollection('collection1').find().sort({ rid: -1}).limit(1)
在Robo 3T中運行,有10萬條數據集中,查詢時間為0.002s
方法二:用aggregate的group結合max
具體查詢語句是
1|db.getCollection('collection1').aggregate([{$group:{"_id": "$id","max_rid":{$max: "$rid"}}}])
在Robo 3T中運行,有10萬條數據集中,查詢時間為0.908s
查詢性能明顯沒有方法一高效。
總結:故生產環境中應選用方法一。
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。它支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是它支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。
⑥ mongodb和mysql5.7的json哪個更好,優缺點比較
與關系型資料庫相比,MongoDB的優點: ①弱一致性(最終一致),更能保證用戶的訪問速度: 舉例來運謹說,在傳統的關系型資料庫中,一個COUNT類型的操作會鎖定數據集,這樣可以保證得到「當前」情況下的精確值。這在某些情況下,例 如通過ATM查看賬戶信息的時候很重要,但對於Wordnik來說,數據是不斷更新和增長的,這種「精確」的保證幾乎沒有任何意義,反而會產生很大的延 遲。他們需要的是一個「大約」的數字以及更快的處理速度。 但某些情況下MongoDB會鎖住資料庫。如果此時正有數百個請求,則它們會堆積起來,造成許多問題。我們使用了下面的優化方式來避免鎖定: 每次更新前,我們會先查詢記錄。查詢操作會將對象放入內存,於是更新則會盡可能的迅速。在主/從部署方案中,從節點可以使用「-pretouch」參數運行,這也可以得到相同的效果。 使用多個mongod進程。我們根據訪問模式將資料庫拆分成多個進程。 ②文檔結構的存儲方式,能夠更便捷的獲取數據。 對於一個層級式的數據結構來說,如果要將這樣的數據使用扁平式的,表狀的結構來保存數據,這無論是在查詢還是獲取數據時都十分困難。 舉例1: 就拿一個「字典項」來說,雖然並不十分復雜,但還是會關繫到「定義」、「詞性」、「發音」或是「引用」等內容。大部分工程師會將這種模型使用關系型資料庫 中的主鍵和外鍵表現出來,但把它看作一個「文檔」而不是「一系列有關系的表」豈不更好?使用 「dictionary.definition.partOfSpeech='noun'」來查詢也比表之間一系列復雜(往往代價也很高)的連接查詢方便 且快速。 舉例2:在一個關系型數據基悄攔庫中,一篇博客(包含文章內容、評論、評論的投票)會被打散在多張數據表中。在MongoDB中,能用一個文檔來表示一篇博客, 評論與投票作為文檔數組,放在正文主文檔中。這樣數據更易於管理,消除了傳統關系型資料庫中影響性能和水平擴展性的「JOIN」操作。 CODE↓ > db.blogposts.save({ title : "My First Post", author: {name : "Jane", id :1}, comments : [{ by: "Abe", text: "First" }, { by : "Ada", text : "Good post"搏胡 }] }) > db.blogposts.find( { "author.name" : "Jane" } ) > db.blogposts.findOne({ title : "My First Post", "author.name": "Jane", comments : [{ by: "Abe", text: "First" }, { by : "Ada", text : "Good post" } ] }) > db.blogposts.find( { "comments.by" : "Ada" } ) > db.blogposts.ensureIndex( { "comments.by" : 1 } ); 舉例③: MongoDB是一個面向文檔的資料庫,目前由10gen開發並維護,它的功能豐富,齊全,完全可以替代MySQL。在使用MongoDB做產品原型的過程中,我們總結了MonogDB的一些亮點: 使用JSON風格語法,易於掌握和理解:MongoDB使用JSON的變種BSON作為內部存儲的格式和語法。針對MongoDB的操作都使用JSON風格語法,客戶端提交或接收的數據都使用JSON形式來展現。相對於SQL來說,更加直觀,容易理解和掌握。 Schema-less,支持嵌入子文檔:MongoDB是一個Schema-free的文檔資料庫。一個資料庫可以有多個Collection,每 個Collection是Documents的集合。Collection和Document和傳統資料庫的Table和Row並不對等。無需事先定義 Collection,隨時可以創建。 Collection中可以包含具有不同schema的文檔記錄。 這意味著,你上一條記錄中的文檔有3個屬性,而下一條記錄的文檔可以有10個屬 性,屬性的類型既可以是基本的數據類型(如數字、字元串、日期等),也可以是數組或者散列,甚至還可以是一個子文檔(embed document)。這 樣,可以實現逆規范化(denormalizing)的數據模型,提高查詢的速度。 ③內置GridFS,支持大容量的存儲。 GridFS是一個出色的分布式文件系統,可以支持海量的數據存儲。 內置了GridFS了MongoDB,能夠滿足對大數據集的快速范圍查詢。 ④內置Sharding。 提供基於Range的Auto Sharding機制:一個collection可按照記錄的范圍,分成若干個段,切分到不同的Shard上。 Shards可以和復制結合,配合Replica sets能夠實現Sharding+fail-over,不同的Shard之間可以負載均衡。查詢是對 客戶端是透明的。客戶端執行查詢,統計,MapRece等操作,這些會被MongoDB自動路由到後端的數據節點。這讓我們關注於自己的業務,適當的 時候可以無痛的升級。MongoDB的Sharding設計能力最大可支持約20 petabytes,足以支撐一般應用。 這可以保證MongoDB運行在便宜的PC伺服器集群上。PC集群擴充起來非常方便並且成本很低,避免了「sharding」操作的復雜性和成本。 ⑤第三方支持豐富。(這是與其他的NoSQL相比,MongoDB也具有的優勢) 現在網路上的很多NoSQL開源資料庫完全屬於社區型的,沒有官方支持,給使用者帶來了很大的風險。 而開源文檔資料庫MongoDB背後有商業公司10gen為其提供供商業培訓和支持。 而且MongoDB社區非常活躍,很多開發框架都迅速提供了對MongDB的支持。不少知名大公司和網站也在生產環境中使用MongoDB,越來越多的創新型企業轉而使用MongoDB作為和Django,RoR來搭配的技術方案。 ⑥性能優越: 在使用場合下,千萬級別的文檔對象,近10G的數據,對有索引的ID的查詢不會比mysql慢,而對非索引欄位的查詢,則是全面勝出。 mysql實際無法勝任大數據量下任意欄位的查詢,而mongodb的查詢性能實在讓我驚訝。寫入性能同樣很令人滿意,同樣寫入百萬級別的數 據,mongodb比我以前試用過的couchdb要快得多,基本10分鍾以下可以解決。補上一句,觀察過程中mongodb都遠算不上是CPU殺手。 與關系型資料庫相比,MongoDB的缺點: ①mongodb不支持事務操作。 所以事務要求嚴格的系統(如果銀行系統)肯定不能用它。(這點和優點①是對應的) ②mongodb佔用空間過大。 關於其原因,在官方的FAQ中,提到有如下幾個方面: 1、空間的預分配:為避免形成過多的硬碟碎片,mongodb每次空間不足時都會申請生成一大塊的硬碟空間,而且申請的量從64M、128M、256M那 樣的指數遞增,直到2G為單個文件的最大體積。隨著數據量的增加,你可以在其數據目錄里看到這些整塊生成容量不斷遞增的文件。 2、欄位名所佔用的空間:為了保持每個記錄內的結構信息用於查詢,mongodb需要把每個欄位的key-value都以BSON的形式存儲,如果 value域相對於key域並不大,比如存放數值型的數據,則數據的overhead是最大的。一種減少空間佔用的方法是把欄位名盡量取短一些,這樣佔用 空間就小了,但這就要求在易讀性與空間佔用上作為權衡了。我曾建議作者把欄位名作個index,每個欄位名用一個位元組表示,這樣就不用擔心欄位名取多長 了。但作者的擔憂也不無道理,這種索引方式需要每次查詢得到結果後把索引值跟原值作一個替換,再發送到客戶端,這個替換也是挺耗費時間的。現在的實現算是 拿空間來換取時間吧。 3、刪除記錄不釋放空間:這很容易理解,為避免記錄刪除後的數據的大規模挪動,原記錄空間不刪除,只標記「已刪除」即可,以後還可以重復利用。
⑦ MongoDB是什麼,怎麼用看完你就知道了
MongoDB是一款為web應用程序和互聯網基礎設施設計的資料庫管理系統。沒錯MongoDB就是資料庫,是NoSQL類型的資料庫。
(1)MongoDB提出的是文檔、集合的概念,使用BSON(類JSON)作為其數據模型結構,其結構是面向對象的而不是二維表,存儲一個用戶在MongoDB中是這樣子的。
使用這樣的數據模型,使得MongoDB能在生產環境中提供高讀寫的能力,吞吐量較於mysql等SQL資料庫大大增強。
(2)易伸縮,自動故障轉移。易伸縮指的是提供了分片能力,能對數據集進行分片,數據的存儲壓力分攤給多台伺服器。自動故障轉移是副本集的概念,MongoDB能檢測主節點是否存活,當失活時能自動提升從節點為主節點,達到故障轉移。
(3)數據模型因為是面向對象的,所以可以表示豐富的、有層級的數據結構,比如博客系統中能把「評論」直接懟到「文章「的文檔中,而不必像myqsl一樣創建三張表來描述這樣的關系。
(1)文檔數據類型
SQL類型的資料庫是正規化的,可以通過主鍵或者外鍵的約束保證數據的完整性與唯一性,所以SQL類型的資料庫常用於對數據完整性較高的系統。MongoDB在這一方面是不如SQL類型的資料庫,且MongoDB沒有固定的Schema,正因為MongoDB少了一些這樣的約束條件,可以讓數據的存儲數據結構更靈活,存儲速度更加快。
(2)即時查詢能力
MongoDB保留了關系型資料庫即時查詢的能力,保留了索引(底層是基於B tree)的能力。這一點汲取了關系型資料庫的優點,相比於同類型的NoSQL redis 並沒有上述的能力。
(3)復制能力
MongoDB自身提供了副本集能將數據分布在多台機器上實現冗餘,目的是可以提供自動故障轉移、擴展讀能力。
(4)速度與持久性
MongoDB的驅動實現一個寫入語義 fire and forget ,即通過驅動調用寫入時,可以立即得到返回得到成功的結果(即使是報錯),這樣讓寫入的速度更加快,當然會有一定的不安全性,完全依賴網路。
MongoDB提供了Journaling日誌的概念,實際上像mysql的bin-log日誌,當需要插入的時候會先往日誌裡面寫入記錄,再完成實際的數據操作,這樣如果出現停電,進程突然中斷的情況,可以保障數據不會錯誤,可以通過修復功能讀取Journaling日誌進行修復。
(5)數據擴展
MongoDB使用分片技術對數據進行擴展,MongoDB能自動分片、自動轉移分片裡面的數據塊,讓每一個伺服器裡面存儲的數據都是一樣大小。
MongoDB核心伺服器主要是通過mongod程序啟動的,而且在啟動時不需對MongoDB使用的內存進行配置,因為其設計哲學是內存管理最好是交給操作系統,缺少內存配置是MongoDB的設計亮點,另外,還可通過mongos路由伺服器使用分片功能。
MongoDB的主要客戶端是可以交互的js shell 通過mongo啟動,使用js shell能使用js直接與MongoDB進行交流,像使用sql語句查詢mysql數據一樣使用js語法查詢MongoDB的數據,另外還提供了各種語言的驅動包,方便各種語言的接入。
mongomp和mongorestore,備份和恢復資料庫的標准工具。輸出BSON格式,遷移資料庫。
mongoexport和mongoimport,用來導入導出JSON、CSV和TSV數據,數據需要支持多格式時有用。mongoimport還能用與大數據集的初始導入,但是在導入前順便還要注意一下,為了能充分利用好mongoDB通常需要對數據模型做一些調整。
mongosniff,網路嗅探工具,用來觀察發送到資料庫的操作。基本就是把網路上傳輸的BSON轉換為易於人們閱讀的shell語句。
因此,可以總結得到,MongoDB結合鍵值存儲和關系資料庫的最好特性。因為簡單,所以數據極快,而且相對容易伸縮還提供復雜查詢機制的資料庫。MongoDB需要跑在64位的伺服器上面,且最好單獨部署,因為是資料庫,所以也需要對其進行熱備、冷備處理。
因為本篇文章不是API手冊,所有這里對shell的使用也是基礎的介紹什麼功能可以用什麼語句,主要是為了展示使用MongoDB shell的方便性,如果需要知道具體的MongoDB shell語法可以查閱官方文檔。
創建資料庫並不是必須的操作,資料庫與集合只有在第一次插入文檔時才會被創建,與對數據的動態處理方式是一致的。簡化並加速開發過程,而且有利於動態分配命名空間。如果擔心資料庫或集合被意外創建,可以開啟嚴格模式。
以上的命令只是簡單實例,假設如果你之前沒有學習過任何資料庫語法,同時開始學sql查詢語法和MongoDB 查詢語法,你會發現哪一個更簡單呢?如果你使用的是java驅動去操作MongoDB,你會發現任何的查詢都像Hibernate提供出來的查詢方式一樣,只要構建好一個查詢條件對象,便能輕松查詢(接下來會給出示例),博主之前熟悉ES6,所以入手MongoDB js shell完成沒問題,也正因為這樣簡潔,完善的查詢機制,深深的愛上了MongoDB。
使用java驅動鏈接MongoDB是一件非常簡單的事情,簡單的引用,簡單的做增刪改查。在使用完java驅動後我才發現spring 對MongoDB 的封裝還不如官方自身提供出來的東西好用,下面簡單的展示一下使用。
這里只舉例了簡單的鏈接與簡單的MongoDB操作,可見其操作的容易性。使用驅動時是基於TCP套接字與MongoDB進行通信的,如果查詢結果較多,恰好無法全部放進第一伺服器中,將會向伺服器發送一個getmore指令獲取下一批查詢結果。
插入數據到伺服器時間,不會等待伺服器的響應,驅動會假設寫入是成功的,實際是使用客戶端生成對象id,但是該行為可以通過配置配置,可以通過安全模式開啟,安全模式可以校驗伺服器端插入的錯誤。
要清楚了解MongoDB的基本數據單元。在關系型資料庫中有帶列和行的數據表。而MongoDB數據的基本單元是BSON文檔,在鍵值中有指向不定類型值的鍵,MongoDB擁有即時查詢,但不支持聯結操作,簡單的鍵值存儲只能根據單個鍵來獲取值,不支持事務,但支持多種原子更新操作。
如讀寫比是怎樣的,需要何種查詢,數據是如何更新的,會不會存在什麼並發問題,數據結構化的程度是要求高還是低。系統本身的需求決定mysql還是MongoDB。
在關於schema 的設計中要注意一些原則,比如:
資料庫是集合的邏輯與物理分組,MongoDB沒有提供創建資料庫的語法,只有在插入集合時,資料庫才開始建立。創建資料庫後會在磁碟分配一組數據文件,所有集合、索引和資料庫的其他元數據都保存在這些文件中,查閱資料庫使用磁碟狀態可通過。
集合是結構上或概念上相似得文檔的容器,集合的名稱可以包含數字、字母或 . 符號,但必須以字母或數字開頭,完全。
限定集合名不能超過128個字元,實際上 . 符號在集合中很有用,能提供某種虛擬命名空間,這是一種組織上的原則,和其他集合是一視同仁的。在集合中可以使用。
其次是鍵值,在MongoDB裡面所有的字元串都是UTF-8類型。數字類型包括double、int、long。日期類型都是UTC格式,所以在MongoDB裡面看到的時間會比北京時間慢8小時。整個文檔大小會限制在16m以內,因為這樣可以防止創建難看的數據類型,且小文檔可以提升性能,批量插入文檔理想數字范圍是10~200,大小不能超過16MB。
(1)索引能顯著減少獲取文檔的所需工作量,具體的對比可以通過 .explain()方法進行對比
(2)解析查詢時MongoDB通過最優計劃選擇一個索引進行查詢,當沒有最適合索引時,會先不同的使用各個索引進行查詢,最終選出一個最優索引做查詢
(3)如果有一個a-b的復合索引,那麼僅針對a的索引是冗餘的
(4)復合索引里的鍵的順序是很重要的
(1)單鍵索引
(2)復合索引
(3)唯一性索引
(4)稀疏索引
如索引的欄位會出現null的值,或是大量文檔都不包含被索引的鍵。
如果數據集很大時,構建索引將會花費很長的時間,且會影響程序性能,可通過
當使用 mongorestore 時會重新構建索引。當曾經執行過大規模的刪除時,可使用
對索引進行壓縮,重建。
(1)查閱慢查詢日誌
(2)分析慢查詢
注意新版本的MongoDB 的explain方法是需要參數的,不然只顯示普通的信息。
本節同樣主要簡單呈現MongoDB副本集搭建的簡易性,與副本集的強壯性,監控容易性
提供主從復制能力,熱備能力,故障轉移能力
實際上MongoDB對副本集的操作跟mysql主從操作是差不多的,先看一下mysql的主從數據流動過程
而MongoDB主要依賴的日誌文件是oplog
寫操作先被記錄下來,添加到主節點的oplog里。與此同時,所有從結點復制oplog。首先,查看自己oplog里最後一條的時間戳;其次,查詢主節點oplog里所有大於此時間戳的條目;最後,把那些條目添加到自己的oplog里並應用到自己的庫里。從節點使用長輪詢立即應用來自主結點oplog的新條目。
當遇到以下情況,從節點會停止復制
local資料庫保存了所有副本集元素據和oplog日誌
可以使用以下命令查看復制情況
每個副本集成員每秒鍾ping一次其他所有成員,可以通過rs.status()看到節點上次的心跳檢測時間戳和 健康 狀況。
這個點沒必要過多描述,但是有一個特殊場景,如果從節點和仲裁節點都被殺了,只剩下主節點,他會把自己降級成為從節點。
如果主節點的數據還沒有寫到從庫,那麼數據不能算提交,當該主節點變成從節點時,便會觸發回滾,那些沒寫到從庫的數據將會被刪除,可以通過rollback子目錄中的BSON文件恢復回滾的內容。
(1)使用單節點鏈接
只能鏈接到主節點,如果鏈接到從節點的話,會被拒絕寫入操作,但是如果沒有使用安全模式,因為mongo的fire and forget 特性,會把拒絕寫入的異常給吃掉。
(2)使用副本集方式鏈接
能根據寫入的情況自動進行故障轉移,但是當副本集進行新的選舉時,還是會出現故障,如果不使用安全模式,依舊會出現寫不進去,但現實成功的情況。
分片是資料庫切分的一個概念實現,這里也是簡單總結為什麼要使用分片以及分片的原理,操作。
當數據量過大,索引和工作數據集佔用的內存就會越來越多,所以需要通過分片負載來解決這個問題
(1)分片組件
(2)分片的核心操作
分片一個集合:分片是根據一個屬性的范圍進行劃分的,MongoDB使用所謂的分片鍵讓每個文檔在這些范圍里找到自己的位置
塊:是位於一個分片中的一段連續的分片鍵范圍,可以理解為若干個塊組成分片,分片組成MongoDB的全部數據
(3)拆分與遷移
塊的拆分:初始化時只有一個塊,達到最大塊尺寸64MB或100000個文檔就會觸發塊的拆分。把原來的范圍一分為二,這樣就有了兩個塊,每個塊都有相同數量的文檔。
遷移:當分片中的數據大小不一時會產生遷移的動作,比如分片A的數據比較多,會將分片A裡面的一些塊轉移到分片B裡面去。分片集群通過在分片中移動塊來實現均衡,是由名為均衡器的軟體進程管理的,任務是確保數據在各個分片中保持均勻分布,當集群中擁有塊最多的分片與擁有塊最少分片的塊差大於8時,均衡器就會發起一次均衡處理。
啟動兩個副本集、三個配置伺服器、一個mongos進程
配置分片
(1)分片查詢類型
(2)索引
分片集合只允許在_id欄位和分片鍵上添加唯一性索引,其他地方不行,因為這需要在分片間進行通信,實施起來很復雜。
當創建分片時,會根據分片鍵創建一個索引。
(1)分片鍵是不可修改的、分片鍵的選擇非常重要
(2)低效的分片鍵
(3)理想的分片鍵
(1)部署拓撲
根據不同的數據中心劃分
這里寫圖片描述
(2)最低要求
(3)配置的注意事項
需要估計集群大小,可使用以下命令對現有集合進行分片處理
(4)備份分片集群
備份分片時需要停止均衡器
(1)部署架構
使用64位機器、32位機器會制約mongodb的內存,使其最大值為1.5GB
(2)cpu
mongodb 只有當索引和工作集都可放入內存時,才會遇到CPU瓶頸,CPU在mongodb使用中的作用是用來檢索數據,如果看到CPU使用飽和的情況,可以通過查詢慢查詢日誌,排查是不是查詢的問題導致的,如果是可以通過添加索引來解決問題
mongodb寫入數據時會使用到CPU,但是mongodb寫入時間一次只用到一個核,如果有頻繁的寫入行為,可以通過分片來解決這個問題
(3)內存
大內存是mongodb的保障,如果工作集大小超過內存,將會導致性能下降,因為這將會增加數據載入入內存的動作
(4)硬碟
mongodb默認每60s會與磁碟強制同步一次,稱為後台刷新,會產生I/O操作。在重啟時mongodb會將磁碟裡面的數據載入至內存,高速磁碟將會減少同步的時間
(5)文件系統
使用ext4 和 xfs 文件系統
禁用最後訪問時間
(6)文件描述符
linux 默認文件描述符是1024,需要大額度的提升這個額度
(7)時鍾
mongodb各個節點伺服器之間使用ntp伺服器
(1)綁定IP
啟動時使用 - -bind_ip 命令
(2)身份驗證
啟動時使用 - -auth 命令
(3)副本集身份認證
使用keyFile,注意keyFile文件的許可權必須是600,不然會啟動不起來
(1)拓撲結構
搭建副本集至少需要兩個節點,其中仲裁結點不需要有自己的伺服器
(2)Journaling日誌
寫數據時會先寫入日誌,而此時的數據也不是直接寫入硬碟,而是寫入內存
但是Journaling日誌會消耗內存,所以可以在主庫上面關閉,在從庫上面啟動
可以單獨為Journaling日誌使用一塊固態硬碟
在插入時,可以通過驅動確保Journaling插入後再反饋,但是會非常影響性能。
logpath 選項指定日誌存儲地址
-vvvvv 選項(v越多,輸出越詳細)
db.runCommand({logrotare:1}) 開啟滾動日誌
(1)serverStatus
這里寫圖片描述
(2)top
(3)db.currentOp()
動態展示mongodb活動數據
佔用當前mongodb監聽埠往上1000號的埠
(1)mongomp
把資料庫內容導出成BSON文件,而mongorestore能讀取並還原這些文件
(2)mongorestore
把導出的BSON文件還原到資料庫
(3)備份原始數據文件
可以這么做,但是,操作之前需要進行鎖庫處理 db.runCommand({fsync:1,lock:true})
db.$cmd.sys.unlock.findOne() 請求解鎖操作,但是資料庫不會立刻解鎖,需要使用db.currentOp()驗證。
(1)修復
mongd --repair 修復所有資料庫
db.runCommand({repairDatabase:1}) 修復單個資料庫
修復就是根據Jourling文件讀取和重寫所有數據文件並重建各個索引
(2)壓緊
壓緊,會重寫數據文件,並重建集合的全部索引,需要停機或者在從庫上面運行,如果需要在主庫上面運行,需要添加force參數 保證加寫鎖。
(1)監控磁碟狀態
(2)為提升性能檢查索引和查詢
總的來說,掃描盡可能少的文檔。
保證沒有冗餘的索引,冗餘的索引會佔用磁碟空間、消耗更多的內存,在每次寫入時還需做更多工作
(3)添加內存
dataSize 數據大小 和 indexSize 索引大小,如果兩者的和大於內存,那麼將會影響性能。
storageSize超過dataSize 數據大小 兩倍以上,就會因磁碟碎片而影響性能,需要壓縮。
⑧ 大數據分析工具哪家比較好
大數據分析工具比較好的有Python數據分析、DataV數據分析、Cloudera數據分析、MongoDBMongoDB數據分析、Talend數據分析等
1、Python數據分析
Python是一種面向對象、解釋型計算機程序設計語言。Python語法簡潔而清晰,閱讀一個良好的Python程序就感覺像是在讀英語一樣。能夠專注於解決問題而不是去搞明白語言本身。另外具有豐富和強大的類庫,python能支持幾乎所有統計分析和建模的工作。
4、MongoDBMongoDB數據分析
MongoDBMongoDB是最受歡迎的大數據資料庫,因為適用於管理經常變化的數據:非結構化數據,大數據常常是非結構化數據。當下時代大數據分析是非常必要的,而MongoDBMongoDB數據分析也是做得非常好的。
5、Talend數據分析
Talend作為一家提供廣泛解決方案的公司,Talend的產品圍繞其集成平台而建,該平台集大數據、雲、應用程序、實時數據集成、數據准備和主數據管理於一體。大數據集往往是非結構化、無組織的,因此需要某種清理或轉換。當下,數據可能來自任何地方。
⑨ mongodb查詢實例
類似MySQL的select * from EVI_EGZ_GEAR_DAY where quantity0=27
類似MySQL的select * from EVI_EGZ_GEAR_DAY where lastModify>"2020-07-02T16:08:45+08:00"
db.EVI_BIZ_DAYINFO.find({"ReportDay":{$gte:20200601 ,$lte: 20200630},"LoginID":"304095318","Is_Statistics":1})
操作 格式 範例 RDBMS中的類似語句
等於 {<鉛讓key>:<value>} db.col.find({"by":"菜鳥教程"}).pretty() where by = '菜鳥教程'
小於 {<key>:{$lt:<value>}} db.col.find({"likes":{$lt:50}}).pretty() where likes < 50
小於或等於 {<key>:{$lte:<value>}} db.col.find({"likes":{$lte:50}}).pretty() where likes <= 50
大於 {<key>:{$gt:<value>}} db.col.find({"likes":{$gt:50}}).pretty() where likes > 50
大於或等於 {<key>:{$gte:<value>}} db.col.find({"likes":{$gte:50}}).pretty() where likes >= 50
不等於 {<key>:{$ne:<value>}} db.col.find({"likes":{$ne:50}}).pretty() where likes != 50
類似MySQL的select loginId from EVI_EGZ_GEAR_DAY group by loginId
類似MySQL的select loginId,count(*) from EVI_EGZ_GEAR_DAY where loginId=100870655 group by loginId
5.db.EVI_RPT_MARKETMON_ANALYSIS.find({"reportTime":"201810","areaParentCode":"430000","machineCode":"MT0000000212","machineType":"2","nationCode":"CN","calcType":"0"},
{"areaName":1,"machineName":1,"workTime":1,"equCount":1,"workCount":1,"restCount":1,"highWorkCount":1,"avgWorkTime":1,"workRate":1,"calcType":"1"}).sort({ equCount:-1 })
db.EVI_BIZ_DAYINFO.aggregate([{
"$match": {
"ReportTime" : ISODate("2020-07-01T00:00:00.000+08:00"),
"Is_Statistics": 1,
"IsOnline": 1,
"MachineType_Code1" : "MT0000000276"// 按照一級槐橋局機型分類統計,否則查詢不到數據
消岩 }
},
{
"$group" : {
_id:{
countyCode :"$County_Code",
cityCode :"$City_Code",
provinceCode :"$Province_Code",
machineType1 :"$MachineType_Code1",
machineType2 :"$MachineType_Code2",
nationCode:"$Nation_Code"
},
highWorkCount : {$sum: { $cond: [ {$gte: [ "$WorkTime",8] },
1,
0 ] }},
countWork: {
$sum: '$IsWork'
},
workTime: {
$sum: '$WorkTime'
},
equCount:{
$sum: 1
}
}
}
])
db.EVI_BIZ_DAYINFO.find({"ReportDay":20200201,"LoginID":"302060888"})
db.EVI_BIZ_DAYINFO.aggregate([{
"$match": {"LoginID":"101065868",
"ReportDay":{$gte: 20200701,$lte:20200731}
}
},
{
"$group": {
_id:{
LoginID:"$LoginID",
ReportDay:"$ReportDay"
},
},
WorkTimes:{
$sum: "$WorkTime"
},
totalDay:{
$sum: {$cond: [ { $gt: ["$WorkTime",0]}, 1, 0 ]}
}
}
},
{"$match": {WorkTimes:{$gt:0}}}
])
db.EVI_ALARM_FLEET.update({"reportTime":ISODate("2020-08-21T00:00:00.000+08:00")},{$set:{"reportTime":ISODate("2020-08-22T00:00:00.000+08:00")}},false,true)
db.EVI_ALARM_FLEET.update({"reportTime":ISODate("2020-08-21T00:00:00.000+08:00")},{$set:{"reportTime":ISODate("2020-08-22T00:00:00.000+08:00")}})
db.EVI_BIZ_DAYINFO.find({$or:[{"LoginID":"104259298"},{"LoginID":"132349918"}]})
db.configuration.find({"envType":"hxevi.test","key":{$regex:/mail/}})
相當於MySQL的select * from configuration where envType='hxevi.test' and key like '%mail%'
db.EVI_BIZ_DAYINFO.aggregate([
{
"$match": {
"ReportTime":{"$gte":ISODate("2021-01-18T00:00:00.000+08:00"),"$lte":ISODate("2021-01-24T00:00:00.000+08:00")},
"Is_Statistics": 1,
"LoginID": "101102108"
}
},
{"$sort": {"ReportTime": -1}},
{
"$group": {
"_id": "$LoginID",
"WorkTime": {
"$sum": "$WorkTime"
},
"IdleTime": {
"$sum": "$IdleTime"
},
"FuelConsume": {
"$sum": "$FuelConsume"
},
"IdleFuelConsume": {
"$sum": "$IdleFuelConsume"
},
"ReportTime": {"$first": "$ReportTime"},
"City_Code": {"$first": "$City_Code"},
"City_Name": {"$first": "$City_Name"},
"County_Code": {"$first": "$County_Code"},
"County_Name": {"$first": "$County_Name"},
"Nation_Code": {"$first": "$Nation_Code"},
"Nation_Name": {"$first": "$Nation_Name"},
"Province_Code": {"$first": "$Province_Code"},
"Province_Name": {"$first": "$Province_Name"},
"Latitude": {"$first": "$Latitude"},
"Longitude": {"$first": "$Longitude"},
"TotalIdleFC": {"$first": "$TotalIdleFC"},
"TotalIdleTime": {"$first": "$TotalIdleTime"},
"TotalWorkTime": {"$first": "$TotalWorkTime"},
"TotalFC": {"$first": "$TotalFC"},
"DataVersion": {"$addToSet": '$DataVersion'},
"Machine_Model": {"$addToSet": '$Machine_Model'},
"MachineType_Code1": {"$addToSet": '$MachineType_Code1'},
"MachineType_Code2": {"$addToSet": '$MachineType_Code2'},
"MachineType_Code3": {"$addToSet": '$MachineType_Code3'},
"MachineType_Name1": {"$addToSet": '$MachineType_Name1'},
"MachineType_Name2": {"$addToSet": '$MachineType_Name2'},
"MachineType_Name3": {"$addToSet": '$MachineType_Name3'},
"Serialno": {"$addToSet": '$Serialno'},
"Customer_Code": {"$addToSet": '$Customer_Code'},
"Customer_Name": {"$addToSet": '$Customer_Name'},
"Customer_Tel": {"$addToSet": '$Customer_Tel'},
"SaleDealer": {"$addToSet": '$SaleDealer'},
"SaleDealer_Code": {"$addToSet": '$SaleDealer_Code'},
"SvrDealer": {"$addToSet": '$SvrDealer'},
"SvrDealer_Code": {"$addToSet": '$SvrDealer_Code'},
"Register_Date": {"$addToSet": '$Register_Date'},
"sumIsOnline": {"$sum": '$IsOnline'}
}
},
{
"$project":{
"LoginID":"$_id",
"WorkTime":"$WorkTime",
"IdleTime":"$IdleTime",
"FuelConsume":"$FuelConsume",
"IdleFuelConsume":"$IdleFuelConsume",
"City_Code":"$City_Code",
"City_Name": "$City_Name",
"County_Code": "$County_Code",
"County_Name": "$County_Name",
"Nation_Code": "$Nation_Code",
"Nation_Name": "$Nation_Name",
"Province_Code": "$Province_Code",
"Province_Name": "$Province_Name",
"Latitude": "$Latitude",
"Longitude": "$Longitude",
"TotalIdleFC": "$TotalIdleFC",
"TotalIdleTime": "$TotalIdleTime",
"TotalWorkTime": "$TotalWorkTime",
"TotalFC": "$TotalFC",
"DataVersion": {"$arrayElemAt":["$DataVersion",0]},
"Machine_Model": {"$arrayElemAt":["$Machine_Model",0]},
"MachineType_Code1": {"$arrayElemAt":["$MachineType_Code1",0]},
"MachineType_Code2": {"$arrayElemAt":["$MachineType_Code2",0]},
"MachineType_Code3": {"$arrayElemAt":["$MachineType_Code3",0]},
"MachineType_Name1": {"$arrayElemAt":["$MachineType_Name1",0]},
"MachineType_Name2": {"$arrayElemAt":["$MachineType_Name2",0]},
"MachineType_Name3": {"$arrayElemAt":["$MachineType_Name3",0]},
"Serialno": {"$arrayElemAt":["$Serialno",0]},
"Customer_Code": {"$arrayElemAt":["$Customer_Code",0]},
"Customer_Name": {"$arrayElemAt":["$Customer_Name",0]},
"Customer_Tel": {"$arrayElemAt":["$Customer_Tel",0]},
"SaleDealer": {"$arrayElemAt":["$SaleDealer",0]},
"SaleDealer_Code": {"$arrayElemAt":["$SaleDealer_Code",0]},
"SvrDealer": {"$arrayElemAt":["$SvrDealer",0]},
"SvrDealer_Code": {"$arrayElemAt":["$SvrDealer_Code",0]},
"Register_Date": {"$arrayElemAt":["$Register_Date",0]},
"IsOnline": {"$cond": {
"if":{"$gt":["$sumIsOnline",0]},"then":1,
"else":0
}}
}
}],
{ allowDiskUse: true }).pretty()
⑩ 大數據分析工具有哪些
大數據分析工具有:
1、Hadoop:它是最流行的數據倉庫,可以輕松存儲大量數據。
2、MongoDB:它是領先的資料庫軟體,可以快速有效地分析數據。
3、Spark: 最可靠的實時數據處理軟體,可以有效地實時處理大量數據。
4、Cassandra:最強大的資料庫,可以完美地處理數據塊
5、Python:一流的編程語言,可輕松執行幾乎所有大數據分析操作。
不同類型的大數據分析是:
1、描述性分析:它將過去的數據匯總成人們易於閱讀和理解的形式。使用此分析創建與公司收入、銷售額、利潤等相關的報告非常容易。除此之外,它在社交媒體指標方面也非常有益。
2、診斷分析:它首先處理確定發生問題的原因。它使用了各種技術,例如數據挖掘、機器學習等。診斷分析提供對特定問題的深入洞察。
3、預測分析:這種分析用於對未來進行預測。它通過使用數據挖掘、機器學習、數據分析等各種大數據技術來使用歷史數據和當前數據。這些分析產生的數據用於不同行業的不同目的。
4、規范分析:當想要針對特定問題制定規定的解決方案時,會使用這些分析。它適用於描述性和預測性分析,以獲得最准確的結果。除此之外,它還使用人工智慧和機器學習來獲得最佳結果。