導航:首頁 > 網路數據 > 大數據冷數據熱數據

大數據冷數據熱數據

發布時間:2023-03-07 12:46:35

Ⅰ 帶你理解冷數據和熱數據!

那年初出茅廬
當 項目經理說冷熱數據的時候 , 我偷偷問了個問題 : 數據還有溫度的啊?
結果不是你尷尬 , 就是我尷尬 !

接下來 , 簡單帶你們明白什麼是冷熱數據哈
熱數據 : 訪問頻次比較多
熱數據就近計算,冷數據集中存儲

所以,熱數據因為訪問頻次需求大,效率要求高,所以就近計算和部署;冷數據訪問頻次低,效率要求慢,可以做集中化部署,而基於大規模存儲池裡,可以對數據進行壓縮、去重等降低成本的方法。

下面借用一張網上的圖幫助大家理解

Ⅱ ES大數據量下的查詢優化

filesystem類似於我們在mysql上建立一層redis緩存;

es的搜索引擎嚴重依賴於底層的filesystem cache,如果給filesystem cache更多的內存,盡量讓內存可以容納所有的indx segment file索引數據文件,那麼你搜索的時候就基本都是走內存的,性能會非常高。

兩者差距非常大,走磁碟和走systenfile cache的讀取的性能差距可以說是秒級和毫秒級的差距了;

要讓es性能要好,最佳的情況下,就是我們的機器的內存,至少可以容納你的數據量的一半

最佳的情況下,是僅僅在es中就存少量的數據,存儲要用來搜索的那些索引,內存留給filesystem cache的,如果就100G,那麼你就控制數據量在100gb以內,相當於是,你的數據幾乎全部走內存來搜索,性能非常之高,一般可以在1秒以內

的少數幾個欄位就可以了,比如說,就寫入es id name age三個欄位就可以了,然後你可以把其他的欄位數據存在mysql裡面,我們一般是建議用 es + hbase 的一個架構。
hbase的特點是適用於海量數據的在線存儲,就是對hbase可以寫入海量數據,不要做復雜的搜索,就是做很簡單的一些根據id或者范圍進行查詢的這么一個操作就可以了

如果確實內存不足,但是我們又存儲了比較多的數據,比如只有30g給systemfile cache,但是存儲了60g數據情況,這種情況可以做數據預熱;

我們可以將一些高頻訪問的熱點數據(比如微博知乎的熱榜榜單數據,電商的熱門商品(旗艦版手機,榜單商品信息)等等)提前預熱,定期訪問刷到我們es里;(比如定期訪問一下當季蘋果旗艦手機關鍵詞,比如現在的iphone12)

對於那些你覺得比較熱的,經常會有人訪問的數據,最好做一個專門的緩存預熱子系統,就是對熱數據,每隔一段時間,提前訪問一下,讓數據進入filesystem cache裡面去。這樣下次別人訪問的時候,一定性能會好一些。

我們可以將冷數據寫入一個索引中,然後熱數據寫入另外一個索引中,這樣可以確保熱數據在被預熱之後,盡量都讓他們留在filesystem os cache里,別讓冷數據給沖刷掉。

盡量做到設計document的時候就把需要數據結構都做好,這樣搜索的數據寫入的時候就完成。對於一些太復雜的操作,比如join,nested,parent-child搜索都要盡量避免,性能都很差的。

es的分頁是較坑的 ,為啥呢?舉個例子吧,假如你每頁是10條數據,你現在要查詢第100頁,實際上是會把 每個shard上存儲的前1000條數據都查到 一個協調節點上,如果你有個5個shard,那麼就有5000條數據,接著 協調節點對這5000條數據進行一些合並、處理,再獲取到最終第100頁的10條數據。

因為他是分布式的,你要查第100頁的10條數據,你是不可能說從5個shard,每個shard就查2條數據?最後到協調節點合並成10條數據?這樣肯定不行,因為我們從單個結點上拿的數據幾乎不可能正好是所需的數據。我們必須得從每個shard都查1000條數據過來,然後根據你的需求進行排序、篩選等等操作,最後再次分頁,拿到裡面第100頁的數據。

你翻頁的時候,翻的越深,每個shard返回的數據就越多,而且協調節點處理的時間越長。非常坑爹。所以用es做分頁的時候,你會發現越翻到後面,就越是慢。

我們之前也是遇到過這個問題,用es作分頁,前幾頁就幾十毫秒,翻到10頁之後,幾十頁的時候,基本上就要5~10秒才能查出來一頁數據了

你系統不允許他翻那麼深的頁,或者產品同意翻的越深,性能就越差

如果是類似於微博中,下拉刷微博,刷出來一頁一頁的,可以用scroll api
scroll api1 scroll api2
scroll會一次性給你生成所有數據的一個快照,然後每次翻頁就是通過游標移動 ,獲取下一頁下一頁這樣子,性能會比上面說的那種分頁性能也高很多很多

scroll的原理實際上是保留一個數據快照,然後在一定時間內,你如果不斷的滑動往後翻頁的時候,類似於你現在在瀏覽微博,不斷往下刷新翻頁。那麼就用scroll不斷通過游標獲取下一頁數據,這個性能是很高的,比es實際翻頁要好的多的多。

缺點:

Ⅲ 最近在研究NAS,看到熱數據和冷數據,這兩個名詞有什麼具體含義嗎另外能不能推薦下NAS的相關設備

熱數據指日常需頻繁訪問的在線類數據,冷數據指無需經常訪問的離線類數據。目前企業會將冷數據和熱數據都放在NAS里隨時讀取,其實這樣一來熱數據和冷數據有些模糊了。NAS設備群暉和威聯通比較熱門,NAS硬碟選東芝N300吧,各種容量規格都有,運行起來也非常穩定,不管個人還是公司都可以用。

Ⅳ 數據存儲:什麼是冷存儲

眾所周知,隨著科技的發展,在我們生活和工作中產生的數據越來越多。這些數據中有一大部分都屬於冷數據即較長時間之前的狀態數據,其特點是較低的訪問頻率,並且需要最大限度的降低其存儲成本,同時要求隨時可訪問。例如微信和QQ上存儲的大量的圖片信息,社交媒體,智能互聯網時代,大量的社交數據產生,用戶通常查看新發布的圖片、視頻,而對於那些舊的數據,則鮮有人問之。對於照片、視頻等這些非結構化數據通常會佔用大量存儲空間,並且增長速度遠遠超過其他類型的數據。
根據被訪問的頻度不同,數據可以被分為「熱數據、溫數據、冷數據」三種類型。其中,冷數據特指活動不頻繁、不會被經常訪問甚至永遠不會被訪問,但仍然需要長期保留的數據。熱數據受到業務特徵、用戶行為乃至監管政策的影響(例如,醫院的醫學影像文件需要自患者最後一次就診之日起保存不少於15年),經過一段時間的使用後,絕大部分數據都會迅速變「冷」。因此,數據集合中通常有高達80%的部分屬於不常被訪問的冷數據。然而,冷數據並非失去價值,大數據、人工智慧等新興業務對海量冷數據進行檢索和挖掘的需求依然存在而且日益迫切。
金錢貓雲存儲架構下的冷存儲技術產品採用最前沿的AI技術,通過對存儲數據進行智能分析、區分冷熱數據、優化存儲來達到降低存儲系統的整體投資成本及運營成本。據測算可降低伺服器硬碟投資成本50%,節省用電50%。金錢貓雲存儲架構下的冷存儲技術產品是一款節資省電造福於民的產品。金錢貓的服務,走進千家萬戶!

閱讀全文

與大數據冷數據熱數據相關的資料

熱點內容
ps文件里哪一個是卸載 瀏覽:312
linux怎麼知道被黑 瀏覽:161
diy需要什麼工具 瀏覽:941
java比較器的工作原理 瀏覽:490
文件上傳伺服器工具哪個好用 瀏覽:170
yy怎麼升級更快 瀏覽:846
人際溝通的工具是什麼 瀏覽:817
HTC手機s510可安裝微信嗎 瀏覽:650
聯想win10無法更新 瀏覽:825
在編程中驗證結果的目的是什麼 瀏覽:774
中興隱藏文件在哪裡 瀏覽:330
網路推廣簡歷個人獲獎情況怎麼寫 瀏覽:800
win10易升失敗 瀏覽:941
網路無法接收到伺服器怎麼辦 瀏覽:617
pic編程中tmp什麼意思 瀏覽:460
農業種植微信號 瀏覽:322
js如何插入數據 瀏覽:145
java訪問網站地址 瀏覽:680
微鯨電視文件在哪裡 瀏覽:558
qq紅包群拉人騙局揭秘 瀏覽:121

友情鏈接