導航:首頁 > 數據分析 > 大量活躍數據適合什麼資料庫

大量活躍數據適合什麼資料庫

發布時間:2023-09-09 14:13:39

1. 大數據常用哪些資料庫(什麼是大資料庫)

通常資料庫分為關系型資料庫和非關系型資料庫,關系型資料庫的優勢到現在也是無可替代的,比如MySQL、SQLServer、Oracle、DB2、SyBase、Informix、PostgreSQL以及比較小型的Aess等等資料庫,這些數據納卜庫支持復雜的SQL操作和事務機制,適合小量數據讀寫場景;但是到了大數據時代,人們更多的數據和物聯網加入的數據已經超出了關系資料庫的承載范圍。

大數據時代初期,隨著數據請求並發量大不斷增大,一般都是採用的集群同虧搭步數據的方式處理,就是將資料庫分成了很多的小庫,每個資料庫的數據內容是不變的,都是保存了源資料庫的數據副本,通過同步或者非同步方式保證數據的一致性,每個庫設定特定的讀寫方式,比如主資料庫負責寫操作,從資料庫是負責讀操作,等等根據業務復雜程度以此類推,將業務在物理層面上進行了分離,但是這種方式依舊存在一定的負載壓力的問題,企業數據在不斷的擴增中,後面就採用分庫分表的方式解決,對讀寫負載進行分離,但是這種實現依舊存在不足,且需要不斷進行資料庫伺服器擴容。

NoSQL資料庫大致分為5種類型

1、列族資料庫:BigTable、HBase、Cassandra、AmazonSimpleDB、HadoopDB等,下面簡單介紹幾個

(1)Cassandra:Cassandra是一個列存儲資料庫,支持跨數據中心的數據復制。它的數據模型提供列索引,log-structured修改,支持反規范化,實體化視圖和嵌入超高速緩存。

(2)HBase:ApacheHbase源於Google的Bigtable,是一個開源、分布式、面向列存儲的模型。在Hadoop和HDFS之上提供了像Bigtable一銷茄拿樣的功能。

(3)AmazonSimpleDB:AmazonSimpleDB是一個非關系型數據存儲,它卸下資料庫管理的工作。開發者使用Web服務請求存儲和查詢數據項

(4)ApacheAumulo:ApacheAumulo的有序的、分布式鍵值數據存儲,基於Google的BigTable設計,建立在ApacheHadoop、Zookeeper和Thrift技術之上。

(5)Hypertable:Hypertable是一個開源、可擴展的資料庫,模仿Bigtable,支持分片。

(6)AzureTables:為要求大量非結構化數據存儲的應用提供NoSQL性能。表能夠自動擴展到TB級別,能通過REST和ManagedAPI訪問。

2、鍵值資料庫:Redis、SimpleDB、Scalaris、Memcached等,下面簡單介紹幾個

(1)Riak:Riak是一個開源,分布式鍵值資料庫,支持數據復制和容錯。(2)Redis:Redis是一個開源的鍵值存儲。支持主從式復制、事務,Pub/Sub、Lua腳本,還支持給Key添加時限。

(3)Dynamo:Dynamo是一個鍵值分布式數據存儲。它直接由亞馬遜Dynamo資料庫實現;在亞馬遜S3產品中使用。

(4)OracleNoSQLDatabase:來自Oracle的鍵值NoSQL資料庫。它支持事務ACID(原子性、一致性、持久性和獨立性)和JSON。

(5)OracleNoSQLDatabase:具備數據備份和分布式鍵值存儲系統

(6)Voldemort:具備數據備份和分布式鍵值存儲系統。

(7)Aerospike:Aerospike資料庫是一個鍵值存儲,支持混合內存架構,通過強一致性和可調一致性保證數據的完整性。

3、文檔資料庫:MongoDB、CouchDB、Perservere、Terrastore、RavenDB等,下面簡單介紹幾個

(1)MongoDB:開源、面向文檔,也是當下最人氣的NoSQL資料庫。

(2)CounchDB:ApacheCounchDB是一個使用JSON的文檔資料庫,使用Javascript做MapRece查詢,以及一個使用HTTP的API。

(3)Couchbase:NoSQL文檔資料庫基於JSON模型。

(4)RavenDB:RavenDB是一個基於.NET語言的面向文檔資料庫。

(5)MarkLogic:MarkLogicNoSQL資料庫用來存儲基於XML和以文檔為中心的信息,支持靈活的模式。

4、圖資料庫:Neo4J、InfoGrid、OrientDB、GraphDB,下面簡單介紹幾個

(1)Neo4j:Neo4j是一個圖資料庫;支持ACID事務(原子性、獨立性、持久性和一致性)。

(2):一個圖資料庫用來維持和遍歷對象間的關系,支持分布式數據存儲。

(3):是結合使用了內存和磁碟,提供了高可擴展性,支持SPARQ、RDFS和Prolog推理。

5、內存數據網格:Hazelcast、OracleCoherence、TerracottaBigMemorry、GemFire、Infinispan、GridGain、GigaSpaces,下面簡單介紹幾個

(1)Hazelcast:HazelcastCE是一個開源數據分布平台,它允許開發者在資料庫集群之上共享和分割數據。

(2)OracleCoherence:Oracle的內存數據網格解決方案提供了常用數據的快速訪問能力,一致性支持事務處理能力和數據的動態劃分。

(3)TerracottaBigMemory:來自Terracotta的分布式內存管理解決方案。這項產品包括一個Ehcache界面、Terracotta管理控制台和BigMemory-Hadoop連接器。

(4)GemFire:VmwarevFabricGemFire是一個分布式數據管理平台,也是一個分布式的數據網格平台,支持內存數據管理、復制、劃分、數據識別路由和連續查詢。

(5)Infinispan:Infinispan是一個基於Java的開源鍵值NoSQL數據存儲,和分布式數據節點平台,支持事務,peer-to-peer及client/server架構。

(6)GridGain:分布式、面向對象、基於內存、SQLNoSQL鍵值資料庫。支持ACID事務。

(7)GigaSpaces:GigaSpaces內存數據網格能夠充當應用的記錄系統,並支持各種各樣的高速緩存場景。

2. 互聯網時代處理大量流動性數據社交網路數據最好使用哪些類型資料庫

使用現有的主要吸引力一、可擴展的NoSQL資料庫
如果您的整個 _active set_ 適合單個機器的主內存(現代商品機器可以高達 128GB +),那麼您就沒有水平可擴展性問題:即,您絕對沒有理由進行分區(「分片") ) 你的資料庫和放棄關系。如果您的活動數據集適合內存,那麼任何帶有索引的適當調整的資料庫都將表現得足夠好,可以在資料庫本身成為限制之前使您的乙太網卡飽和。

如果您認為關系模型本身並不合適,您可以輕松地在 MySQL 之上構建一個「面向文檔的存儲」:這就是 Friendfeed 最終要做的,我會遵循他們的模型(除非我使用 Avro (軟體)、Apache Thrift 或 Google Protocol Buffers 而不是特定於語言的序列化)-
http://bret.appspot.com/entry/how-friendfeed-uses-mysql

如果您的站點變得非常成功,您將擁有一個不再適合您機器的主內存的活動集。在這種情況下,設計不當的存儲引擎的性能會迅速下降。但是,MySQL 的 InnoDB(或 Postgres 的存儲引擎)仍然允許您使用旋轉磁碟保持(取決於您的請求分布)大約 2:1-5:1 的數據與內存比率。一旦超出這個范圍,性能就會開始迅速下降(因為您要為每個請求進行多次磁碟搜索)。現在,您最好的做法是升級到 SSD(固態驅動器),這再次允許您在資料庫成為限制之前使乙太網卡飽和。

最後,當您遇到不適合的數據集大小時,例如,軟體 raid 1 + 0 配置中的多個 SSD(同時為備份、多個版本的數據等提供空間...),那麼您必須水平縮放。也就是說,您必須使用本質上支持分區的資料庫(例如 Riak、Voldemort、Cassandra、HBase),或者在基於 MySQL/Postgres 的數據存儲之上構建應用程序級分區層。我無法告訴您哪種解決方案是正確的,因為我(或您)都不知道您的數據及其訪問模式在那時會是什麼樣子。也就是說,編寫自己的分片層是您可以在代碼中引入額外錯誤的另一個地方:不必構建自己的分布式資料庫(您通過構建分片層有效地做的事情)是使用現有的主要吸引力一、可擴展的NoSQL數據

3. 統計幾十萬行的數據什麼資料庫好

mysql 就可以了
甚至sqlite這種內嵌式資料庫都可以
或者直接用第三方計算庫 比如pandas

4. 每天上百萬次的資料庫查詢,用什麼資料庫比較好呀

1、關於穩定及性能,肯定首先商用資料庫了,如Oracle、DB2
2、但是,資料庫本身不是提高查詢的內關鍵,關鍵的是你的容表是否規范,是否針對性的建立上索引,及查詢的SQL語句是否優化達到最優等。

有問題歡迎提問,滿意請採納!

5. 如題,想知道面對大數據的情況下,哪些資料庫是比較常用的

目前市場上主要常用的資料庫根據資料庫應用類型的不同有時候區別。在關系資料庫中,Oracle、MySQL/MariaDB、SQL Server、PostgrcSQL、 DB2等資料庫應用較廣泛。在時序資料庫類型中,InfluxDB、RRDtool、Graphite等資料庫也較為常見。其他類型資料庫可參考 http://db-engines.com/en/ranking網站排名。
在國產資料庫領域,亞信科技AntDB資料庫在運營商的核心系統上⌄為全國24個省份的10億多用戶提供在線服務,現已廣泛應用於通信,交通,金融,能源,郵政等多個行業。

6. 大量數據用什麼資料庫

用SQL server 2005相對來說比較好,它能對較大數據進行的輸入查詢都比較好。

閱讀全文

與大量活躍數據適合什麼資料庫相關的資料

熱點內容
走字屏為什麼插上u盤找不到文件 瀏覽:399
如何定義根文件系統 瀏覽:258
手游數據統計哪裡看 瀏覽:658
酷狗網路無法訪問 瀏覽:501
電腦接受無線網路 瀏覽:418
uclinuxpdf 瀏覽:264
文件U盤文件找不到 瀏覽:63
vue數據介面怎麼得到 瀏覽:995
sql程序設計題 瀏覽:103
c向文件中追加資料庫 瀏覽:327
reactjs推薦書籍 瀏覽:157
京東自定義輪播代碼 瀏覽:428
pr的鋼筆工具怎麼用 瀏覽:539
重置win10所有原生應用 瀏覽:626
微信漂流瓶怎麼發照片 瀏覽:908
如皋如何學數控編程培訓 瀏覽:205
extjs如何截取字元串 瀏覽:545
delphitreeview資料庫 瀏覽:148
百度雲Mac版共享文件 瀏覽:623
上三高速代碼 瀏覽:926

友情鏈接