『壹』 常見的數據可視化方法有哪些
時態
時態可視化是數據以線性的方式展示。最為關鍵的是時態數據可視化有一個起點和一個終點。時態可視化的一個例子可以是連接的散點圖,顯示諸如某些區域的溫度信息。
多維
可以通過使用常用的多維方法來展示目前二維或高維度的數據。多維的展示使得效果更加多元化,滿足企業的需求。
分層
分層方法用於呈現多組數據。這些數據可視化通常展示的是大群體裡面的小群體。分層數據可視化的例子包括一個樹形圖,可以顯示語言組。
在網路中展示數據間的關系,它是一種常見的展示大數據量的方法。結構較為復雜。
關於常見的數據可視化方法有哪些,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
『貳』 大數據可視化設計到底是啥,該怎麼用
大數據可視化是個熱門話題,在信息安全領域,也由於很多企業希望將大數據轉化為信息可視化呈現的各種形式,以便獲得更深的洞察力、更好的決策力以及更強的自動化處理能力,數據可視化已經成為網路安全技術的一個重要趨勢。
文章目錄
一、什麼是網路安全可視化
1.1 故事+數據+設計 =可視化
1.2 可視化設計流程
二、案例一:大規模漏洞感知可視化設計
2.1整體項目分析
2.2分析數據
2.3匹配圖形
2.4確定風格
2.5優化圖形
2.6檢查測試
三、案例二:白環境蟲圖可視化設計
3.1整體項目分析
3.2分析數據
3.3 匹配圖形
3.4優化圖形
3.5檢查測試
一、什麼是網路安全可視化
攻擊從哪裡開始?目的是哪裡?哪些地方遭受的攻擊最頻繁……通過大數據網路安全可視化圖,我們可以在幾秒鍾內回答這些問題,這就是可視化帶給我們的效率 。 大數據網路安全的可視化不僅能讓我們更容易地感知網路數據信息,快速識別風險,還能對事件進行分類,甚至對攻擊趨勢做出預測。可是,該怎麼做呢?
1.1 故事+數據+設計 =可視化
做可視化之前,最好從一個問題開始,你為什麼要做可視化,希望從中了解什麼?是否在找周期性的模式?或者多個變數之間的聯系?異常值?空間關系?比如政府機構,想了解全國各個行業漏洞的分布概況,以及哪個行業、哪個地區的漏洞數量最多;又如企業,想了解內部的訪問情況,是否存在惡意行為,或者企業的資產情況怎麼樣。總之,要弄清楚你進行可視化設計的目的是什麼,你想講什麼樣的故事,以及你打算跟誰講。
有了故事,還需要找到數據,並且具有對數據進行處理的能力,圖1是一個可視化參考模型,它反映的是一系列的數據的轉換過程:
我們有原始數據,通過對原始數據進行標准化、結構化的處理,把它們整理成數據表。
將這些數值轉換成視覺結構(包括形狀、位置、尺寸、值、方向、色彩、紋理等),通過視覺的方式把它表現出來。例如將高中低的風險轉換成紅黃藍等色彩,數值轉換成大小。
將視覺結構進行組合,把它轉換成圖形傳遞給用戶,用戶通過人機交互的方式進行反向轉換,去更好地了解數據背後有什麼問題和規律。
最後,我們還得選擇一些好的可視化的方法。比如要了解關系,建議選擇網狀的圖,或者通過距離,關系近的距離近,關系遠的距離也遠。
總之,有個好的故事,並且有大量的數據進行處理,加上一些設計的方法,就構成了可視化。
1.2 可視化設計流程
一個好的流程可以讓我們事半功倍,可視化的設計流程主要有分析數據、匹配圖形、優化圖形、檢查測試。首先,在了解需求的基礎上分析我們要展示哪些數據,包含元數據、數據維度、查看的視角等;其次,我們利用可視化工具,根據一些已固化的圖表類型快速做出各種圖表;然後優化細節;最後檢查測試。
具體我們通過兩個案例來進行分析。
二、案例一:大規模漏洞感知可視化設計
圖2是全國范圍內,各個行業漏洞的分布和趨勢,橙黃藍分別代表了漏洞數量的高中低。
2.1整體項目分析
我們在拿到項目策劃時,既不要被大量的信息資料所迷惑而感到茫然失措,也不要急於完成項目,不經思考就盲目進行設計。首先,讓我們認真了解客戶需求,並對整體內容進行關鍵詞的提煉。可視化的核心在於對內容的提煉,內容提煉得越精確,設計出來的圖形結構就越緊湊,傳達的效率就越高。反之,會導致圖形結構臃腫散亂,關鍵信息無法高效地傳達給讀者。
對於大規模漏洞感知的可視化項目,客戶的主要需求是查看全國范圍內,各個行業的漏洞分布和趨勢。我們可以概括為三個關鍵詞:漏洞量、漏洞變化、漏洞級別,這三個關鍵詞就是我們進行數據可視化設計的核心點,整體的圖形結構將圍繞這三個核心點來展開布局。
2.2分析數據
想要清楚地展現數據,就要先了解所要繪制的數據,如元數據、維度、元數據間關系、數據規模等。根據需求,我們需要展現的元數據是漏洞事件,維度有地理位置、漏洞數量、時間、漏洞類別和級別,查看的視角主要是宏觀和關聯。涉及到的視覺元素有形狀、色彩、尺寸、位置、方向,如圖4。
2.3匹配圖形
2.4確定風格
匹配圖形的同時,還要考慮展示的平台。由於客戶是投放在大屏幕上查看,我們對大屏幕的特點進行了分析,比如面積巨大、深色背景、不可操作等。依據大屏幕的特點,我們對設計風格進行了頭腦風暴:它是實時的,有緊張感;需要新穎的圖標和動效,有科技感;信息層次是豐富的;展示的數據是權威的。
最後根據設計風格進一步確定了深藍為標准色,代表科技與創新;橙紅藍分別代表漏洞數量的高中低,為輔助色;整體的視覺風格與目前主流的扁平化一致。
2.5優化圖形
有了圖形後,嘗試把數據按屬性繪制到各維度上,不斷調整直到合理。雖然這里說的很簡單,但這是最耗時耗力的階段。維度過多時,在信息架構上廣而淺或窄而深都是需要琢磨的,而後再加上交互導航,使圖形更「可視」。
在這個任務中,圖形經過很多次修改,圖7是我們設計的過程稿,深底,高亮的地圖,多顏色的攻擊動畫特效,營造緊張感;地圖中用紅、黃、藍來呈現高、中、低危的漏洞數量分布情況;心理學認為上方和左方易重視,「從上到下」「從左至右」的「Z」字型的視覺呈現,簡潔清晰,重點突出。
完成初稿後,我們進一步優化了維度、動效和數量。維度:每個維度,只用一種表現,清晰易懂;動效:考慮時間和情感的把控,從原來的1.5ms改為3.5ms;數量:考慮了太密或太疏時用戶的感受,對圓的半徑做了統一大小的處理。
2.6檢查測試
最後還需要檢查測試,從頭到尾過一遍是否滿足需求;實地投放大屏幕後,用戶是否方便閱讀;動效能否達到預期,色差是否能接受;最後我們用一句話描述大屏,用戶能否理解。
三、案例二:白環境蟲圖可視化設計
如果手上只有單純的電子表格(左),要想找到其中IP、應用和埠的訪問模式就會很花時間,而用蟲圖(右)呈現之後,雖然增加了很多數據,但讀者的理解程度反而提高了。
3.1整體項目分析
當前,企業內部IT系統復雜多變,存在一些無法精細化控制的、非法惡意的行為,如何精準地處理安全管理問題呢?我們的主要目標是幫助用戶監測訪問內網核心伺服器的異常流量,概括為2個關鍵詞:內網資產和訪問關系,整體的圖形結構將圍繞這兩個核心點來展開布局。
3.2分析數據
接下來分析數據,案例中的元數據是事件,維度有時間、源IP、目的IP和應用,查看的視角主要是關聯和微觀。
3.3 匹配圖形
根據以往的經驗,帶有關系的數據一般使用和弦圖和力導向布局圖。最初我們採用的是和弦圖,圓點內部是主機,用戶要通過3個維度去尋找事件的關聯。通過測試發現,用戶很難理解,因此選擇了力導向布局圖(蟲圖)。第一層級展示全局關系,第二層級通過對IP或埠的鑽取進一步展現相關性。
3.4優化圖形
優化圖形時,我們對很多細節進行了調整: – 考慮太密或太疏時用戶的感受,只展示了TOP N。 – 弧度、配色的優化,與我們UI界面風格相一致。 – IP名稱超長時省略處理。 – 微觀視角中,源和目的分別以藍色和紫色區分,同時在線上增加箭頭,箭頭向內為源,向外是目的,方便用戶理解。 – 交互上,通過單擊鑽取到單個埠和IP的信息;滑鼠滑過時相關信息高亮展示,這樣既能讓畫面更加炫酷,又能讓人方便地識別。
3.5檢查測試
通過調研,用戶對企業內部的流向非常清楚,視覺導向清晰,鑽取信息方便,色彩、動效等細節的優化幫助用戶快速定位問題,提升了安全運維效率。
四、總結
總之,藉助大數據網路安全的可視化設計,人們能夠更加智能地洞悉信息與網路安全的態勢,更加主動、彈性地去應對新型復雜的威脅和未知多變的風險。
可視化設計的過程中,我們還需要注意:1、整體考慮、顧全大局;2、細節的匹配、一致性;3、充滿美感,對稱和諧。
『叄』 如何實現大數據可視化
1.考慮用戶
管理咨詢公司Aspirent視覺分析實踐主管Dan Gastineau表示,企業應使用顏色、形狀、大小和布局來顯示可視化的設計和使用。
Aspirent使用顏色來突出希望用戶關注的分析方面。而大小可有效說明數量,但過多使用不同大小來傳遞信息可能會導致混亂。這里應該有選擇地使用大小,即在咨詢團隊成員想要強調的地方。
2.講述連貫的故事
與你的受眾溝通,保持設計的簡單和專注性。顏色到圖表數量等細節可幫助確保儀錶板講述連貫的故事。MicroStrategy產品管理高級副總裁Saurabh
Abhyankar說:「儀錶板就像一本書,它需要考慮讀者的設計元素,而不僅僅是強制列出所有可訪問的數據。」儀錶板的設計將成為推動部署的因素。
3.迭代設計
應不斷從視覺分析用戶獲得反饋意見。隨著時間的推移,數據探索會引發新的想法和問題,而隨時間和部署推移提高數據相關性會使用戶更智能。
從你的受眾徵求並獲取反饋意見可改善體驗。谷歌雲端數據工作室首席產品經理Nick
Mihailovski表示,快速構建概念、快速獲取反饋意見並進行迭代可更快獲得更好的結果。另外,還可將調查和表格整合到精美的報告中,也可以幫助確保大數據的可視化結果確實有助於目標受眾。
4.個性化一切
應確保儀錶板向最終用戶顯示個性化信息,並確保其相關性。並且,還應確保可視化在設計上反映其所在的設備,並為最終用戶提供離線訪問,這將讓可視化走得更長遠。Mihailovski說,通過精心設計的互動式可視化來吸引觀眾以及傳播數據文化,這會使分析具有吸引力和富有樂趣。
5.從分析目標開始
應確保數據類型和分析目標可反映所選的可視化類型。Mihailovski稱:「人們通常會採用相反的方法,他們先看到整潔或模糊的可視化類型,然後試圖使其數據相匹配。」對於大數據項目的可視化,簡單的表格或條形圖有時可能是最有效的。
『肆』 大數據可視化大屏圖表設計經驗,教給你!
自從跟大家分享第一篇 《大數據可視化大屏設計經驗,教給你!》 ,很多小夥伴都會問我一些相關的問題,看了小夥伴給我發的視覺稿,整體都還不錯,但是發現圖表的設計都有一些問題,大家可能對數據可視化的圖表設計經驗少一些,所以這篇文章就挖掘一下圖表的細節表現,分享我曾經遇到過的坑和對圖表設計的理解。
圖表設計
圖表設計概念
圖表設計是數據可視化的一個分支領域,是對數據進行二次加工,用統計圖表的方式進行呈現,也是數據可視化的核心表現,圖表設計既要保證圖表本身數據清晰准確、直觀易懂,又要在找准用戶關注的核心內容進行適當的突顯,幫助用戶通過數據進行決策。
下面分析三種常用的可視化圖表設計:
折線圖
折線圖常用於表示數據的變化和趨勢,坐標軸的不同對折線的變化幅度有很大的影響。
左圖坐標軸設定的太低,折線變化過於陡峭,圖中數值區間為(10-34)數據可視化的表現過於誇大了折線變化的趨勢。
右圖坐標軸的數值設定的太高,則折線變化過於平緩,無法清晰的表現折線的變化。
合理的折線圖應當占據圖表的三分之二的茄卜位置,圖表的X軸數值范圍應根據折線的數值增減變化而變化,這需要跟前端小哥哥小姐姐說明,做成動態計算。
折線圖的折線粗細要合理,過細的折線會降低數據表現,過粗的折線會損失折線中的大納孝數據波動細節,視覺上較難精準找到折線點的相應數值!我通常用兩個像素的線,看起來比較合適!
右圖刻度線顏色過重,影響圖表數據的表現,零基線跟圖表內的刻度線對比不夠明顯,整體很亂。零基線是強調起始位置的,一般要比圖表內的線顏色凸出一些。
條形圖/柱狀圖
理想很豐滿,現實很骨感。這個案例是我之前在工作中遇到的問題,數據進來後,被嚇到了,問題的原因是沒有跟前端小哥姐溝通好,他們把X軸寫死,導致出現這種問題,其實應該情況要把這些圖表的取值范圍寫成動態計算的。
例如,以現在數值范圍為例,數據的最高值為18,X軸最高數值應該為25,當數據又上升一定的高度後,X軸再上升到相應的數值高度,這滾稿樣避免了如右圖的問題。
坐標軸的標簽文字最好能水平排列, 當X軸標簽文字過多時,不建議傾斜排列、上下排列、換行排列 文字多了這樣的展示大大降低了閱讀性!下圖給出兩個解決方案,大大提高標簽文字的閱讀性!
解決方案
柱子之間過於分散就會失去數據之間的關聯性,過密就會變得數據之間沒有獨立性更不利於舒適閱讀。
當柱子為n時,柱子直接的距離建議與n相差不要太大,柱子靠邊的距離,最好是柱子之間的一半的距離,這樣視覺上最為舒適。
餅圖
左1圖,不建議在餅圖內與百分比數值一起顯示,餅圖本身的形狀和大小,文字過多時容易溢出,如果出現一個2%一個1%,就很難辨別圖形指向,這樣也就失去了數據可視化的意義,PPT通常有這樣的設計樣式,因為是個死圖。
左3圖,人的閱讀習慣是從左到右,從上到下,所以數據從大到小排列,更有助於閱讀,圖形也更具美感!
當餅圖為檢出率,或者一些重要信息檢測的重點關注數據,就不建議大小數據順時針排列,左1圖這種情況一般很少出現,因為關注的是檢出數值,展示未檢出數據實為雞肋,可能是極少情況的需要吧!
右圖對於類似檢出率的數據最為合適,直觀清晰,沒有無用數據干擾!
當餅圖的標簽維度過多時,就不適合把數據圍繞餅圖一周展示,會很亂,不易閱讀,解決方案如右圖!
圖表分類圖
分享一張圖表分類大全,保存起來,設計數據可視化產品,會有重要參考價值!
這張圖由設計師Abela對圖表的各種特徵進行了大致的概括總結。
『伍』 數據可視化的基本流程
作者 | 向倩文
來源 | 數據產品手記
大多數人對數據可視化的第一印象,可能就是各種圖形,比如Excel圖表模塊中的柱狀圖、條形圖、折線圖、餅圖、散點圖等等,就不一一列舉了。以上所述,只是數據可視化的具體體現,但是數據可視化卻不止於此。
數據可視化不是簡單的視覺映射,而是一個以數據流向為主線的一個完整流程,主要包括數據採集、數據處理和變換、可視化映射、用戶交互和用戶感知。一個完整的可視化過程,可以看成數據流經過一系列處理模塊並得到轉化的過程,用戶通過可視化交互從可視化映射後的結果中獲取知識和靈感。
圖1 可視化的基本流程圖
可視化主流程的各模塊之間,並不僅僅是單純的線性連接,而是任意兩個模塊之間都存在聯系。例如,數據採集、數據處理和變換、可視化編碼和人機交互方式的不同,都會產生新的可視化結果,用戶通過對新的可視化結果的感知,從而又會有新的知識和靈感的產生。
下面,對數據可視化主流程中的幾個關鍵步驟進行說明。
01
數據採集
數據採集是數據分析和可視化的第一步,俗話說「巧婦難為無米之炊」,數據採集的方法和質量,很大程度上就決定了數據可視化的最終效果。
數據採集的分類方法有很多,從數據的來源來看,可以分為內部數據採集和外部數據採集。
1.內部數據採集:
指的是採集企業內部經營活動的數據,通常數據來源於業務資料庫,如訂單的交易情況。如果要分析用戶的行為數據、APP的使用情況,還需要一部分行為日誌數據,這個時候就需要用「埋點」這種方法來進行APP或Web的數據採集。
2.外部數據採集:
指的數通過一些方法獲取企業外部的一些數據,具體目的包括,獲取競品的數據、獲取官方機構官網公布的一些行業數據等。獲取外部數據,通常採用的數據採集方法為「網路爬蟲」。
以上的兩類數據採集方法得來的數據,都是二手數據。通過調查和實驗採集數據,屬於一手數據,在市場調研和科學研究實驗中比較常用,不在此次探討范圍之內。
02
數據處理和變換
數據處理和數據變換,是進行數據可視化的前提條件,包括數據預處理和數據挖掘兩個過程。
一方面,通過前期的數據採集得到的數據,不可避免的含有雜訊和誤差,數據質量較低;另一方面,數據的特徵、模式往往隱藏在海量的數據中,需要進一步的數據挖掘才能提取出來。
常見的數據質量問題包括:
1.數據收集錯誤,遺漏了數據對象,或者包含了本不應包含的其他數據對象。
2.數據中的離群點,即不同於數據集中其他大部分數據對象特徵的數據對象。
3.存在遺漏值,數據對象的一個或多個屬性值缺失,導致數據收集不全。
4.數據不一致,收集到的數據明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數,或者所填的郵政編碼和城市之間並沒有對應關系。
5.重復值的存在,數據集中包含完全重復或幾乎重復的數據。
正是因為有以上問題的存在,直接拿採集的數據進行分析or可視化,得出的結論往往會誤導用戶做出錯誤的決策。因此,對採集到的原始數據進行數據清洗和規范化,是數據可視化流程中不可缺少的一環。
數據可視化的顯示空間通常是二維的,比如電腦屏幕、大屏顯示器等,3D圖形繪制技術解決了在二維平面顯示三維物體的問題。
但是在大數據時代,我們所採集到的數據通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數據中,挖掘有價值的信息來支持決策,除了需要對數據進行清洗、去除雜訊之外,還需要依據業務目的對數據進行二次處理。
常用的數據處理方法包括:降維、數據聚類和切分、抽樣等統計學和機器學習中的方法。
03
可視化映射
對數據進行清洗、去噪,並按照業務目的進行數據處理之後,接下來就到了可視化映射環節。可視化映射是整個數據可視化流程的核心,是指將處理後的數據信息映射成可視化元素的過程。
可視化元素由3部分組成:可視化空間+標記+視覺通道
1.可視化空間
數據可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪制技術,解決了在二維平面顯示的問題,如3D環形圖、3D地圖等。
圖2 可視化空間示例
2.標記
標記,是數據屬性到可視化幾何圖形元素的映射,用來代表數據屬性的歸類。
根據空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別採用了點、線、面、體這四種不同類型的標記。
圖3 標記類型示例
3.視覺通道
數據屬性的值到標記的視覺呈現參數的映射,叫做視覺通道,通常用於展示數據屬性的定量信息。
常用的視覺通道包括:標記的位置、大小(長度、面積、體積...)、形狀(三角形、圓、立方體...)、方向、顏色(色調、飽和度、亮度、透明度...)等。
圖3中的四個圖形示例,就很好的利用了位置、大小、顏色等視覺通道來進行數據信息的可視化呈現。
「標記」、「視覺通道」是可視化編碼元素的兩個方面,兩者的結合,可以完整的將數據信息進行可視化表達,從而完成可視化映射這一過程。
關於可視化編碼元素的優先順序,以及如何根據數據的特徵選擇合適的可視化表達,下次會專題來分享下。
04
人機交互
可視化的目的,是為了反映數據的數值、特徵和模式,以更加直觀、易於理解的方式,將數據背後的信息呈現給目標用戶,輔助其作出正確的決策。
但是通常,我們面對的數據是復雜的,數據所蘊含的信息是豐富的。
如果在可視化圖形中,將所有的信息不經過組織和篩選,全部機械的擺放出來,不僅會讓整個頁面顯得特別臃腫和混亂,缺乏美感;而且模糊了重點,分散用戶的注意力,降低用戶單位時間獲取信息的能力。
常見的交互方式包括:
1.滾動和縮放:當數據在當前解析度的設備上無法完整展示時,滾動和縮放是一種非常有效的交互方式,比如地圖、折線圖的信息細節等。但是,滾動與縮放的具體效果,除了與頁面布局有關系外,還與具體的顯示設備有關。
2.顏色映射的控制:一些可視化的開源工具,會提供調色板,如D3。用戶可以根據自己的喜好,去進行可視化圖形顏色的配置。這個在自助分析等平台型工具中,會相對多一點,但是對一些自研的可視化產品中,一般有專業的設計師來負責這項工作,從而使可視化的視覺傳達具有美感。
3.數據映射方式的控制:這個是指用戶對數據可視化映射元素的選擇,一般一個數據集,是具有多組特徵的,提供靈活的數據映射方式給用戶,可以方便用戶按照自己感興趣的維度去探索數據背後的信息。這個在常用的可視化分析工具中都有提供,如tableau、PowerBI等。
4.數據細節層次控制:比如隱藏數據細節,hover或點擊才出現。
05
用戶感知
可視化的結果,只有被用戶感知之後,才可以轉化為知識和靈感。
用戶在感知過程,除了被動接受可視化的圖形之外,還通過與可視化各模塊之間的交互,主動獲取信息。
如何讓用戶更好的感知可視化的結果,將結果轉化為有價值的信息用來指導決策,這個裡面涉及到的影響因素太多了,心理學、統計學、人機交互等多個學科的知識。
學習之路漫漫,一直在路上, 我們會持續分享數據可視化領域的知識,記得持續follow我們喲!