❶ PowerBI數據處理-聚合
數據的聚合在PowerBI中扮演著至關重要的角色,它可以幫助我們對數據進行求和、中值、最大值、最小值、平均值以及計數等操作。下面,我們將通過具體的場景,介紹幾種聚合的常用方式以及它們各自的優缺點。
首先,是PowerBI中常見的數據聚合方式。當我們使用「表」視覺對象時,對於數值類型的數據,系統通常會默認進行求和操作,並顯示為「Sum of XXX」。而對於文本類型的數據,如「標題」等,系統則會顯示為「Count of XXX」。這是數據聚合的基本操作之一。
其次,我們可以通過函數進行數據聚合。在PowerBI中,我們通常會使用SUM、AVERAGE、MAX、MIN、COUNT等函數進行數據聚合,這些函數的使用與Excel中的用法基本一致。在Power BI Desktop中,聚合函數的使用方式如下圖所示。
此外,PowerQuery中也提供了多種聚合方式。例如,我們假設有一個數據表A,包含「TimeByDay」和「ResourceName」等欄位,用於標識數據。另一個數據表B同樣包含「TimeByDay」和「ResourceName」,用於標識數據。如果一個資源對應一天的標准工時是8小時,且該資源的工時投入總和剛好是8工時,我們需要將兩個表中的數據按照「TimeByDay」和「ResourceName」兩個欄位進行合並。
在處理這個問題時,我們有兩種聚合方法可以選擇。一種是在合並數據表B後,對表B進行展開和聚合操作。另一種是在合並前,對表B進行聚合操作。下面,我們分別介紹這兩種方法。
在合並數據表B後,我們可以通過展開表B並選擇聚合功能來實現數據的合並。在展開表B時,系統會提供「Expand」和「Aggregate」兩個選項,我們需要選擇「Aggregate」,然後選擇需要展開的數據列。聚合方式通常包括Sum和Count,數值列默認使用Sum,文本列默認使用Count,用戶可以根據實際需求在具體數據列右側進行選擇。
這種方法的主要缺點是,在載入合並後的數據表時可能需要較長時間,原因是合並前對兩個表進行了多次操作,導致計算量較大。通過備份多餘數據列、減少合並前的合並操作以及確保數據載入時無錯誤等方式,可以有效減少載入時間。
另一種方法是在合並前對表B進行聚合操作,通過使用「Group By」功能來簡化數據處理。在數據表B中應用「Group By」功能,可以實現數據求和等操作,這個功能雖然簡單但經常被忽視。通過「Group By」功能,我們可以選擇「Basic」或「Advanced」模式。在「Advanced」模式下,我們可以同時設置多個聚合列,包括需要保留的數據列和要聚合的數據列。這種方式的優勢在於處理速度快,操作簡便。
最後,聚合且合並後的數據表如上圖所示,它展示了數據聚合在PowerBI中的應用。以上便是有關數據聚合的相關PowerBI數據處理內容。