A. 10億級流數據交互查詢,為什麼拋棄mysql選擇voltdb
10億級流數據交互查詢,為什麼拋棄mysql選擇voltdb
作者 譚正海、武毅 發布於 2016年8月18日 | 被首富的「一個億」刷屏?不如定個小目標,先把握住QCon上海的優惠吧!討論
分享到:微博微信FacebookTwitter有道雲筆記郵件分享
稍後閱讀
我的閱讀清單
大數據時代,隨著數據量的爆炸式增長,對於數據的處理速度要求也越來越高,以往基於MySQL的數據處理方案已無法滿足大吞吐、低延遲的寫入和高速查詢的場景;百分點總結出了一套完整的解決方案,本文就帶你一同了解VoltDB在流數據交互查詢的應用實踐。
流式數據交互查詢場景
在百分點,每天有10億條記錄產生,針對這些大量實時產生的數據,不僅要做到實時寫入,類似推薦調優、數據驗證等查詢要在秒級響應。有簡單的單條驗證,也有幾個小時或一天的聚合計算,也有基於幾千萬/幾億數據表間的聯合聚合查詢。例如如下SQL查詢:
對於前期的MySQL方案,雖然已經根據一定規則做了人工的分庫,但是對於上面SQL中的表Event落在單機上的數據量達到幾千萬,Result表也近千萬,在這樣的大表之間進行復雜的聯合聚合查詢,MySQL查下來要花費30分鍾左右,甚至更長,或是沒響應了。
因此在針對同時要求大吞吐、低延遲的寫入和高速查詢的場景下,基於MySQL的現存方案完全無法實現。在不放棄SQL語句的便利基礎上,經歷過多種選型和方案調研,最終選擇了VoltDB來解決此類問題。
相關廠商內容
攜程的推薦及智能化演算法及架構體系實踐
Autodesk基於Spark自建大數據平台的實踐經驗
大數據與電商四大核心要素
阿里巴巴數據研發體系的建立和管理之道
蘇寧雲商數據平台實時化實踐
相關贊助商
QCon上海2016,10月20~22日,上海·寶華萬豪酒店,精彩內容搶先看!!
如上圖,線上的全量流量,通過Streaming匯流排同時到達VoltDB和離線Hive表。不同的是,數據寫入VoltDB使用實時方式,寫入Hive使用批量方式。新的數據要求在極短的延遲內馬上寫入VoltDB待查詢;批量寫入Hive的數據也可以做到小時級以內刷寫到對應分區。
VoltDB簡介
VoltDB是一種開源的極速的內存關系型資料庫,由Ingres和Postgres聯合創始人Mike Stonebraker帶領開發的NewSQL,提供社區版本和商業版本。VoltDB採用shard-nothing架構,既獲得了NoSQL的良好可擴展性以及高吞吐量數據處理,又沒有放棄傳統關系型資料庫的事務支持---ACID。
一般VoltDB資料庫集群由大量的站點(分區)組成,分散在多台機器上,數據的存儲與處理都是分布在各個站點的,架構圖如下所示:
如上圖,集群有3個節點、每個節點1個站點構成。因此圖中的表都只分成3個區,當然也可以分成更多的區,那麼一張表在單個節點上則存在多個分區。
具體在使用上涉及以下幾個概念:
客戶端可以連接集群中任意一個節點,集群中所有節點是對等的,採用的也是水平分區的方式;
每張表指定一個欄位作為分區鍵,VoltDB使用該鍵採用哈希演算法方式分布表數據到各個分區。事實上VoltDB中存在兩種類型的表,一種是分區表,還有一種叫做」Replicated table」。」Replicated表」在每個節點存儲的不是某張表的部分數據,而是全部數據,適用於小數據量的表。
這里我們主要看重分區表,分區表的分區欄位的選擇很重要,應該盡量選擇使數據分散均勻的欄位。
VoltDB支持的客戶端語言或介面:
C++
C#
Erlang
Go
Java
Python
Node.js
JDBC 驅動介面
HTTPJSON 介面 (這意味著所有能實現http請求語言,都能編寫VoltDB的客戶端程序,且非常直觀)
B. 利用MySQL資料庫如何解決大數據量存儲問題
mysql解決大數據量存儲問題的方法是分表。
1.如何去分表
根據什麼策略把現有表中的數據分到多個表中,並且還有考慮到以後的擴展性上。
建立一張索引表,用戶id與資料庫id對應,(這里他將相同結構的表分在了不同的資料庫中進一步減少壓力,但同時對於數據的同步也需要通過其他手段來解決),其本質也是分表了同時分庫了。這么做的好處是便於以後的擴展,但損耗一點性能,因為會多一次查詢。這樣索引表可能會成為新的瓶頸,除非用戶不會一直增長哈。
我的做法屬於另一種,寫了個演算法通過計算某列值,按照一定規律將數據大致均分在每個分表中。至於擴展性,寫演算法時候考慮進去了以後增加分表數的問題了。
選擇哪種策略,是要看自己的表的業務特點了,方法沒有絕對的優缺,還是要根據自己的需求選取。
2.分表之後主鍵的維護
分表之前,主鍵就是自動遞增的bigint型。所以主鍵的格式已經提早被確定了,像什麼uuid之類的就被直接pass掉了。
還有想過自己寫一個主鍵生成程序,利用Java 的Atomic原子量特性,但是考慮還需要增加工作量並且高並發下,這里很可能是個隱患。
還有就是通過應用層上管理主鍵,如redis中有原子性的遞增。
C. 數據多的時候為什麼要使用redis而不用mysql
通常來說,當數據多、並發量大的時候,架構中可以引入Redis,幫助提升架構的整體性能,減少Mysql(或其他資料庫)的壓力,但不是使用Redis,就不用MySQL。
因為Redis的性能十分優越,可以支持每秒十幾萬此的讀/寫操作,並孫唯高且它還支持持久化、集群部署、分布式、主從同步等,Redis在高並發的場景下數據的安全和一致性,所以它經常用於兩個場景:
緩存
判斷數據是否適合緩存到Redis中,可以從幾個方面考慮: 會經常查詢么?命中率如何?寫操作多麼?數據大小?
我們經常採用這樣的方式將數據刷到Redis中:查詢的請求過來,現在Redis中查詢,如果查詢不到,就查詢資料庫拿到數據,再放到緩存中,這樣第二次相同的查詢請求過來,就可以直接在Redis中拿到數據;不過要注意【緩存穿透】的問題。
緩存的刷新會比較復雜,通常是修改完資料庫之後,還需要對Redis中的數據進行操作;代碼很簡單,但是需要保證這兩步為同一事務,或最終的事務一致性。
高速讀寫
常見的就是計數器,比如一篇文章的閱讀量,不可能每一次閱讀就在資料庫裡面update一次。
高並發的場景很適合使用Redis,比如雙11秒殺,庫存一共就一千件,到了秒殺的時間,通常會在極為短暫的時間內,有數萬級的請求達到伺服器,如果使用資料庫的話,很可能在這一瞬間造成資料庫的崩潰,所以通常會使用Redis(秒殺的場景會比較復雜,Redis只是其中之一,例如如果請求超過某個數量的時候,多餘的請求就會被限流)。
這種高並發的場景,是當請求達到伺服器的時候,直接山或在Redis上讀寫,請求不會訪問到資料庫;程序會在合適的時間,比如一千件庫存都被秒殺,再將數據批量寫到資料庫中。
所以通常來說,在必要的時候引入Redis,可以減少MySQL(或其他)資料庫的壓力,兩者不是替代的關系 。
我將持續分享Java開發、架構設計、程序員職業發展等方面的見解,希望能得到你的關注。
Redis和MySQL的應用場景是不同的。
通常來說,沒有說用Redis就不用MySQL的這種情況。
因為Redis是一種非關系型資料庫(NoSQL),而MySQL是一種關系型資料庫。
和Redis同類的資料庫還有MongoDB和Memchache(其實並沒有持久化數據)
那關系型資料庫現在常用的一般有MySQL,SQL Server,Oracle。
我們先來了解一下關系型資料庫和非關系型資料庫的區別吧。
1.存儲方式關系型資料庫是表格式的,因此存儲在表的行和列中。他們之間很容易關聯協作存儲,提取數據很方便。而Nosql資料庫則與其相反,他是大塊的組合在一起。通常存儲在數據集中,就像文檔、鍵值對或者圖結構。
2.存儲結構關系型資料庫對應的是結構化數據,數據表都預先定義了結構(列的定義),結構描述了數據的形式和內容。這一點對數據建模至關重要,雖然預定義結構帶來了可靠性和穩定性,但是修改這些數據比較困難。而Nosql資料庫基於動態結構,使用與非結構化數據。因為Nosql資料庫是動態結構,可以很容易適應數據類型和結構的變化。
3.存儲規范關系型資料庫的數據存儲為了更高的規范性,把數據分割為最小的關系表以避免重復,獲得精簡的空間利用。雖然管理起來很清晰,但是單個操作設計到多張表的時候,數據管理就顯得有點麻煩。而Nosql數據存儲在平面數據集中,數據經常可能會重復。單個資料庫很少被分隔開,而是存儲成了一個整體,這樣整塊數據更加便於讀寫
4.存儲擴展這可能是兩者之間最大的區別,關系型資料庫是縱向擴展,也就是說想要提高處理能力,要使用速度更快的計算機。因為數據存儲在關系表中,操作的性能瓶頸可能涉及到多個表,需要通過提升計算機性能來克服。雖然有很大的擴展空間,但是最終會達到縱向擴展的上限。而Nosql資料庫是橫向擴展的,它的存儲天然就是分布式的,可以通過給資源池添加更多的普通資料庫則尺伺服器來分擔負載。
5.查詢方式關系型資料庫通過結構化查詢語言來操作資料庫(就是我們通常說的SQL)。SQL支持資料庫CURD操作的功能非常強大,是業界的標准用法。而Nosql查詢以塊為單元操作數據,使用的是非結構化查詢語言(UnQl),它是沒有標準的。關系型資料庫表中主鍵的概念對應Nosql中存儲文檔的ID。關系型資料庫使用預定義優化方式(比如索引)來加快查詢操作,而Nosql更簡單更精確的數據訪問模式。
6.事務關系型資料庫遵循ACID規則(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)),而Nosql資料庫遵循BASE原則(基本可用(Basically Availble)、軟/柔性事務(Soft-state )、最終一致性(Eventual Consistency))。由於關系型資料庫的數據強一致性,所以對事務的支持很好。關系型資料庫支持對事務原子性細粒度控制,並且易於回滾事務。而Nosql資料庫是在CAP(一致性、可用性、分區容忍度)中任選兩項,因為基於節點的分布式系統中,很難全部滿足,所以對事務的支持不是很好,雖然也可以使用事務,但是並不是Nosql的閃光點。
7.性能關系型資料庫為了維護數據的一致性付出了巨大的代價,讀寫性能比較差。在面對高並發讀寫性能非常差,面對海量數據的時候效率非常低。而Nosql存儲的格式都是key-value類型的,並且存儲在內存中,非常容易存儲,而且對於數據的 一致性是 弱要求。Nosql無需sql的解析,提高了讀寫性能。
8.授權方式大多數的關系型資料庫都是付費的並且價格昂貴,成本較大(MySQL是開源的,所以應用的場景最多),而Nosql資料庫通常都是開源的。
所以,在實際的應用環境中,我們一般會使用MySQL存儲我們的業務過程中的數據,因為這些數據之間的關系比較復雜,我們常常會需要在查詢一個表的數據時候,將其他關系表的數據查詢出來,例如,查詢某個用戶的訂單,那至少是需要用戶表和訂單表的數據。
查詢某個商品的銷售數據,那可能就會需要用戶表,訂單表,訂單明細表,商品表等等。
而在這樣的使用場景中,我們使用Redis來存儲的話,也就是KeyValue形式存儲的話,其實並不能滿足我們的需要。
即使Redis的讀取效率再高,我們也沒法用。
但,對於某些沒有關聯少,且需要高頻率讀寫,我們使用Redis就能夠很好的提高整個體統的並發能力。
例如商品的庫存信息,我們雖然在MySQL中會有這樣的欄位,但是我們並不想MySQL的資料庫被高頻的讀寫,因為使用這樣會導致我的商品表或者庫存表IO非常高,從而影響整個體統的效率。
所以,對於這樣的數據,且有沒有什麼復雜邏輯關系(就只是隸屬於SKU)的數據,我們就可以放在Redis裡面,下單直接在Redis中減掉庫存,這樣,我們的訂單的並發能力就能夠提高了。
個人覺得應該站出來更正一下,相反的數據量大,更不應該用redis。
因為redis是內存型資料庫啊,是放在內存里的。
設想一下,假如你的電腦100G的資料,都用redis來存儲,那麼你需要100G以上的內存!
使用場景Redis最明顯的用例之一是將其用作緩存。只是保存熱數據,或者具有過期的cache。
例如facebook,使用Memcached來作為其會話緩存。
總之,沒有見過哪個大公司數據量大了,換掉mysql用redis的。
題主你錯了,不是用redis代替MySQL,而是引入redis來優化。
BAT里越來越多的項目組已經採用了redis+MySQL的架構來開發平台工具。
如題主所說,當數據多的時候,MySQL的查詢效率會大打折扣。我們通常默認如果查詢的欄位包含索引的話,返回是毫秒級別的。但是在實際工作中,我曾經遇到過一張包含10個欄位的表,1800萬+條數據,當某種場景下,我們不得不根據一個未加索引的欄位進行精確查詢的時候,單條sql語句的執行時長有時能夠達到2min以上,就更別提如果用like這種模糊查詢的話,其效率將會多麼低下。
我們最開始是希望能夠通過增加索引的方式解決,但是面對千萬級別的數據量,我們也不敢貿然加索引,因為一旦資料庫hang住,期間的所有資料庫寫入請求都會被放到等待隊列中,如果請求是通過http請求發過來的,很有可能導致服務發生分鍾級別的超時不響應。
經過一番調研,最終敲定的解決方案是引入redis作為緩存。redis具有運行效率高,數據查詢速度快,支持多種存儲類型以及事務等優勢,我們把經常讀取,而不經常改動的數據放入redis中,伺服器讀取這類數據的時候時候,直接與redis通信,極大的緩解了MySQL的壓力。
然而,我在上面也說了,是redis+MySQL結合的方式,而不是替代。原因就是redis雖然讀寫很快,但是不適合做數據持久層,主要原因是使用redis做數據落盤是要以效率作為代價的,即每隔制定的時間,redis就要去進行數據備份/落盤,這對於單線程的它來說,勢必會因「分心」而影響效率,結果得不償失。
樓主你好,首先糾正下,數據多並不是一定就用Redis,Redis歸屬於NoSQL資料庫中,其特點擁有高性能讀寫數據速度,主要解決業務效率瓶頸。下面就詳細說下Redis的相比MySQL優點。( 關於Redis詳細了解參見我近期文章:https://www.toutiao.com/i6543810796214813187/ )
讀寫異常快
Redis非常快,每秒可執行大約10萬次的讀寫速度。
Redis支持豐富的數據類型,有二進制字元串、列表、集合、排序集和散列等等。這使得Redis很容易被用來解決各種問題,因為我們知道哪些問題可以更好使用地哪些數據類型來處理解決。
原子性Redis的所有操作都是原子操作,這確保如果兩個客戶端並發訪問,Redis伺服器能接收更新的值。
豐富實用工具 支持異機主從復制Redis支持主從復制的配置,它可以實現主伺服器的完全拷貝。
以上為開發者青睞Redis的主要幾個可取之處。但是,請注意實際生產環境中企業都是結合Redis和MySQL的特定進行不同應用場景的取捨。 如緩存——熱數據、計數器、消息隊列(與ActiveMQ,RocketMQ等工具類似)、位操作(大數據處理)、分布式鎖與單線程機制、最新列表(如新聞列表頁面最新的新聞列表)以及排行榜等等 可以看見Redis大顯身手的場景。可是對於嚴謹的數據准確度和復雜的關系型應用MySQL等關系型資料庫依然不可替。
web應用中一般採用MySQL+Redis的方式,web應用每次先訪問Redis,如果沒有找到數據,才去訪問MySQL。
本質區別1、mysql:數據放在磁碟 redis:數據放在內存。
首先要知道mysql存儲在磁碟里,redis存儲在內存里,redis既可以用來做持久存儲,也可以做緩存,而目前大多數公司的存儲都是mysql + redis,mysql作為主存儲,redis作為輔助存儲被用作緩存,加快訪問讀取的速度,提高性能。
使用場景區別1、mysql支持sql查詢,可以實現一些關聯的查詢以及統計;
2、redis對內存要求比較高,在有限的條件下不能把所有數據都放在redis;
3、mysql偏向於存數據,redis偏向於快速取數據,但redis查詢復雜的表關系時不如mysql,所以可以把熱門的數據放redis,mysql存基本數據。
mysql的運行機制mysql作為持久化存儲的關系型資料庫,相對薄弱的地方在於每次請求訪問資料庫時,都存在著I/O操作,如果反復頻繁的訪問資料庫。第一:會在反復鏈接資料庫上花費大量時間,從而導致運行效率過慢;第二:反復地訪問資料庫也會導致資料庫的負載過高,那麼此時緩存的概念就衍生了出來。
Redis持久化由於Redis的數據都存放在內存中,如果沒有配置持久化,redis重啟後數據就全丟失了,於是需要開啟redis的持久化功能,將數據保存到磁碟上,當redis重啟後,可以從磁碟中恢復數據。redis提供兩種方式進行持久化,一種是RDB持久化(原理是將Reids在內存中的資料庫記錄定時mp到磁碟上的RDB持久化),另外一種是AOF(append only file)持久化(原理是將Reids的操作日誌以追加的方式寫入文件)。
redis是放在內存的~!
數據量多少絕對不是選擇redis和mysql的准則,因為無論是mysql和redis都可以集群擴展,約束它們的只是硬體(即你有沒有那麼多錢搭建上千個組成的集群),我個人覺得數據讀取的快慢可能是選擇的標准之一,另外工作中往往是兩者同是使用,因為mysql存儲在硬碟,做持久化存儲,而redis存儲在內存中做緩存提升效率。
關系型資料庫是必不可少的,因為只有關系型資料庫才能提供給你各種各樣的查詢方式。如果有一系列的數據會頻繁的查詢,那麼就用redis進行非持久化的存儲,以供查詢使用,是解決並發性能問題的其中一個手段
D. mysql百萬數據查詢 用什麼代替in,該如何處理
mysql百萬數據查詢用exists 代替 in 是一個好的選擇:
select num from a where num in(select num from b)
用下面的語句替換:
select num from a where exists(select 1 from b where num=a.num)
E. mysql 大數據量查詢如何優化,沒辦法去掉<>和like
其實你這個需要程序和資料庫有一致的設計。可考慮分區。
通過電話前綴來分區,以下只是一個形式,不推薦用中文命名,
這樣,只要用戶不填寫電話,那麼前三字元就是xxx,自動會放入 ZFU區。
CREATE TABLE Customer
(
ID INT NOT NULL,
Mobile_PerNO CHAR(3) DEFAULT 'xxx',
Mobile VARCHAR(30)
)
PARTITION BY LIST(Mobile_PerNO)
PARTITION 聯通186 VALUES IN (133),
PARTITION 移動139 VALUES IN (139),
PARTITION 電信133 VALUES IN (133),
PARTITION ZFU VALUES IN (xxx)
);
其次你過於依賴資料庫而成形的程序,用點不客氣的話說,那就是耦合極高的設計。
你其實完全可以在注冊時,寫入驗證,一個手機號就能注冊一次。左右打掉空格,這樣手機上就能建立唯一索引。 使用LIKE 『133%』 至少性能上有一定的飛躍。
至於你的第二個SQL, 在時間和發送號碼上可以建立索引,然後條件上寫入時間。
也可以使用hash方式按照年季度分區。
理論上 性能提升百倍還是一點問題都沒有的。
分區資料 看官方文檔。
F. mysql怎麼處理大數據
mysql處理大數來據很困難吧,不建源議使用mysql來處理大數據。
mysql有個針對大數據的產品,叫infobright,可以看看,不過好像是收費的。
或者研究下,Hadoop,Hive等,可處理大數據。
如果有預算,可以使用一些商業大數據產品,國內的譬如永洪科技的大數據BI產品,不僅能高性能處理大數據,還可做數據分析。
當然如果是簡單的查詢,mysql如果做好索引,可能可以提高性能。
G. hdfs文件系統可以代替mysql嗎
不能。
不是一個概念。mysql是傳統的關系型資料庫。hdfs是nosql hadoop的存儲方式。hdfs是分布式的自帶高可用存儲,文件格式跟mysql的存儲引擎不一樣。大數據離線存儲,當然是hdfs更合適。通過Map/Rece進行批處理遞送到Apache Hadoop仍然是中樞環節。但隨著要從「超思維速度「分析方面獲取競爭優勢的壓力遞增,因此Hadoop(分布式文件系統)自身經歷重大的發展。
科技的發展允許實時查詢,如Apache Drill, Cloudera Impala和Stinger Initiative正脫穎而出,新一代的資源管理Apache YARN 支持這些。為了支持這種日漸強調實時性操作,我們正發布一個新MySQL Applier for Hadoop(用於Hadoop的MySQL Applier)組件。它能夠把MySQL中變化的事務復制到Hadoop / Hive / HDFS。Applier 組件補充現有基於批處理Apache Sqoop的連接性。