❶ PowerBI数据处理-聚合
数据的聚合在PowerBI中扮演着至关重要的角色,它可以帮助我们对数据进行求和、中值、最大值、最小值、平均值以及计数等操作。下面,我们将通过具体的场景,介绍几种聚合的常用方式以及它们各自的优缺点。
首先,是PowerBI中常见的数据聚合方式。当我们使用“表”视觉对象时,对于数值类型的数据,系统通常会默认进行求和操作,并显示为“Sum of XXX”。而对于文本类型的数据,如“标题”等,系统则会显示为“Count of XXX”。这是数据聚合的基本操作之一。
其次,我们可以通过函数进行数据聚合。在PowerBI中,我们通常会使用SUM、AVERAGE、MAX、MIN、COUNT等函数进行数据聚合,这些函数的使用与Excel中的用法基本一致。在Power BI Desktop中,聚合函数的使用方式如下图所示。
此外,PowerQuery中也提供了多种聚合方式。例如,我们假设有一个数据表A,包含“TimeByDay”和“ResourceName”等字段,用于标识数据。另一个数据表B同样包含“TimeByDay”和“ResourceName”,用于标识数据。如果一个资源对应一天的标准工时是8小时,且该资源的工时投入总和刚好是8工时,我们需要将两个表中的数据按照“TimeByDay”和“ResourceName”两个字段进行合并。
在处理这个问题时,我们有两种聚合方法可以选择。一种是在合并数据表B后,对表B进行展开和聚合操作。另一种是在合并前,对表B进行聚合操作。下面,我们分别介绍这两种方法。
在合并数据表B后,我们可以通过展开表B并选择聚合功能来实现数据的合并。在展开表B时,系统会提供“Expand”和“Aggregate”两个选项,我们需要选择“Aggregate”,然后选择需要展开的数据列。聚合方式通常包括Sum和Count,数值列默认使用Sum,文本列默认使用Count,用户可以根据实际需求在具体数据列右侧进行选择。
这种方法的主要缺点是,在加载合并后的数据表时可能需要较长时间,原因是合并前对两个表进行了多次操作,导致计算量较大。通过备份多余数据列、减少合并前的合并操作以及确保数据加载时无错误等方式,可以有效减少加载时间。
另一种方法是在合并前对表B进行聚合操作,通过使用“Group By”功能来简化数据处理。在数据表B中应用“Group By”功能,可以实现数据求和等操作,这个功能虽然简单但经常被忽视。通过“Group By”功能,我们可以选择“Basic”或“Advanced”模式。在“Advanced”模式下,我们可以同时设置多个聚合列,包括需要保留的数据列和要聚合的数据列。这种方式的优势在于处理速度快,操作简便。
最后,聚合且合并后的数据表如上图所示,它展示了数据聚合在PowerBI中的应用。以上便是有关数据聚合的相关PowerBI数据处理内容。