『壹』 数据分析中数据从哪找
1、简单、公开的数据集
先分享一些科研机构、企业、政府会开放的一些数据集和一些专业的数据下载网站。这些数据集一般都比较完善、质量相对较高,拿到手数据清洗的工作比较少,适合新手做一些简单基础的分析。
中国统计信息网:全国各级政府各年度的国民经济和社会发展统计信息,部分数据免费
国家统计局:各种民生相关的统计数据,而且所有数据都是免费,而且这个网站的友情链接里还有很多其他地方的数据以及国外数据。
2、数据可视化项目数据集
最常见的数据可视化项目就是制作某某地区人均收入区别的信息图,找数据可视化项目相关的数据集的时候,我们希望数据集尽量“干净”,减少数据清洗的工作,数据要足够有趣,能够支撑起丰富的图表。
3、数据建模、机器学习的数据集
UCI:UCI是加州大学欧文分校开放的经典数据集,是机器学习领域最有名的数据存储库。包含各种数据集,比如经典的泰坦尼克号幸存预测到最新的数据(如空气质量和GPS轨迹)。
阿里天池:作为国内互联网龙头阿里巴巴旗下的大数据竞赛网站,提供了很多比赛数据集可以练手,说不定还能顺手拿个奖,赚点奖金。
『贰』 power bi 如何获取数据做可视化
获取数据
Power BI Desktop 可连接到种类广泛的多种数据源,包括本地数据库、Excel 工作表和云服务等。 它可帮助清理数据和设置数据格式,以使数据更为有用,包括拆分和重命名列、更改数据类型和处理日期。还可创建列之间的关系,以便可以更轻松地将数据建模和分析数据。
lPower BI Desktop入门
在本主题中,我们将深入探讨一下 Power BI 的前两个部分如何结合在一起:
在Power BI Desktop中创建一个报表。
在Power BI 服务中发布该报表。
选择获取数据。 此时将显示数据源集合,允许你选择数据源。无论选择的数据源是什么,Power BI 都会连接到该数据源,并显示来自源的可用数据。
在 Power BI Desktop报表视图中,你可以开始生成报表。
报表视图具有五个主要区域:
功能区,用于显示与报表和可视化效果相关联的常见任务
报表视图或画布,可在其中创建和排列可视化效果
底部的页面选项卡,用于选择或添加报表页
可视化效果窗格,你可以在其中更改可视化效果、自定义颜色或轴、应用筛选器、拖动字段等
字段窗格,可在其中将查询元素和筛选器拖到报表视图,或拖到可视化效果的筛选器窗格
通过选择边缘的小箭头,可以折叠可视化效果和字段窗格,以便在报表视图中提供更多空间以生成炫酷的可视化效果。修改可视化效果时,你会看到这些箭头朝上或朝下,这意味着你可以相应展开或折叠该部分。
若要创建可视化效果,只需将字段从字段列表拖到报表视图即可。 此示例中,我们来拖动RetirementStats中的“状态”字段,看看会发生什么。
看一下Power BI Desktop 自动创建了基于地图的可视化效果,因为它识别到“状态”字段包含地理位置数据。
创建具有几个可视化效果的报表之后,我们就可以将该报表发布到Power BI 服务了。 在 Power BI Desktop 的开始功能区,选择发布。
系统将提示你登录到 Power BI。当你登录并完成此发布过程后,你将看到以下对话框。选择成功!下面的链接以进入 Power BI 服务,你可以在此处看到你刚刚发布的报表。
当登录到 Power BI 时,你将看到刚才你在该服务上发布的 Power BI Desktop 文件。 在下图中,在 Power BIDesktop 中创建的报表显示在报表部分。
在该报表中,我可以选择大头针图标将该视觉对象固定到仪表板(下图)。
选择该图标时,将显示以下对话框,让我将视觉对象固定到现有仪表板,或创建新仪表板。
当我们从报告中固定几个视觉对象时,我们可以在仪表板中看到这些视觉对象。
当然,使用 Power BI 还可以执行更多操作,例如,共享你创建的仪表板。
接下来,我们了解一下可以自动创建仪表板的功能,只需连接到云服务(如 Facebook、Salesforce)等服务即可。
l连接到 Power BIDesktop中的数据源
Power BI Desktop可以连接一系列数据源,包括本地数据库、Excel 工作簿和云服务。 目前,超过 59 种不同的云服务(例如 GitHub 和 Marketo)具有特定的连接器,并且你可以通过 XML、CSV、文本和 ODBC 连接到通用源。 Power BI 甚至将直接从网站 URL 擦除表格数据! 但让我们从头开始,打开 Power BI Desktop,然后连接数据。
启动Power BI Desktop并移至“开始屏幕”时,你可以在功能区“开始”选项卡上选择“获取数据”。
在 Power BI Desktop 中,存在各种不同的可用数据源。根据你的选择,将要求你在计算机或网络上查找相应源,或者系统会提示你登录某个服务,以对你的请求进行验证。
连接后,你将看到的第一个窗口是导航器。 导航器显示你的数据源的表或实体,单击其中一个将提供其内容的预览。然后,可以立即导入所选的表或实体,或在导入数据前,选择编辑以转换并清理数据。
选定想要导入到 Power BI Desktop 中的表后,通过选择右下角的加载按钮,可以将其加载到 Power BI Desktop 中。
但是,在将这些表加载到 Power BI Desktop 中之前,有时你可能想要先对它们进行更改。你可能只想要客户的子集,或可能会筛选仅发生在特定国家/地区的销售数据。 在这些情况下,可以先选择“编辑”按钮,筛选或转换这些数据,再将其所有导入到 Power BI Desktop 中。
下一部分中,我们将在该位置提取并编辑数据。
l使用查询编辑器清除并转换数据
当你在“导航器”中选择“编辑”时,此时将启动“查询编辑器”并使用你从数据源中选择的表或其他实体进行填充。
你还可以使用开始功能区中的编辑查询按钮直接从Power BI Desktop启动查询编辑器。
一旦查询编辑器与可供你定型的数据进行加载后,你将看到以下几个分区:
在功能区中,许多按钮当前处于活动状态,以与查询中的数据进行交互
在左窗格中,列出了所有查询(每个查询各对应一个表或一个实体)并可供选择、查看和定型
在中央窗格中,将显示已选择查询中的数据,可供你调整
显示的查询设置窗口列出了查询的属性和应用步骤
在中央窗格中,右键单击某一列将显示多种不同的可用转换,如从表中删除该列、以新名称复制该列并替换值。根据此菜单,你还可以通过常用分隔符将文本列拆分成多列。
查询编辑器功能区包含其他工具,如更改列的数据类型、添加科学记数法或根据日期(如一周中的某天)提取元素。
应用转换时,每个步骤都将出现在查询编辑器右侧的查询设置窗格中的应用步骤列表中。可以使用此列表撤消或查看特定更改,甚至更改步骤的名称。 若要保存你的转换,请选择开始选项卡上的关闭并应用。
选择关闭并应用后,查询编辑器将应用所做的查询更改,并将其应用到 Power BI Desktop。
当在查询编辑器中转换数据时,你可以进行所有类型的操作,其中包括高级转换。 在下一节,我们将看看其中几个高级转换。
l更高级的数据源和转换
在本文中,我们将讨论一些适用于PowerBI Desktop的高级数据导入和清理方法 。 在查询编辑器中塑造好你的数据并将其引入Power BI Desktop中后,你可以以多种不同的方式进行查看。 Power BI Desktop 中有三种视图:报表视图、数据视图和关系视图。通过选择画布左上方的图标可以查看每个视图。
若要更改视图,只需选择两个图标中的任意一个。 图标旁的黄色条指示处于活动状态的视图。
Power BI Desktop 可在建模过程中随时将来自多个源的数据合并为单一报表。若要将其他源添加到现有报表,请在开始功能区中选择编辑查询,然后在查询编辑器中选择新源。
Power BI Desktop中可以使用许多不同的可能性数据源,其中包括文件夹。通过连接到文件夹,你可以同时导入来自多个文件的数据,例如一系列 Excel 文件的 CSV 文件。 所选文件夹中包含的文件会以二进制内容显示在查询编辑器中,单击内容顶部的双箭头图标将会加载它们的值。
Power BI 最有用的工具之一就是筛选器。 例如,选择与列相邻的下拉箭头将打开文本筛选器清单,你可以使用它来删除模型中的值。
你还可以合并和追加查询,并将多个表(或来自文件夹中多个文件的数据)转变成仅包含你所需数据的单一表格。你可以使用追加查询工具将数据从新表添加到现有查询。 Power BI Desktop 将尝试匹配查询中的列,你可以根据需要在查询编辑器中进行调整。
最后,添加自定义列工具为高级用户提供了使用功能强大的 M 语言从草稿编写查询表达式的选项。 你可以添加基于 M 查询语言语句的自定义列,并按所需的方式获取你的数据。
l清理格式不规则的数据
有时数据不采用简单列格式,这种情况常出现在 Excel 电子表格中,适合肉眼查看的表格布局不一定是自动查询的最优选择。例如,以下电子表格具有跨多个列的标题。幸运的是,Power BI 中的工具能将多列表格快速转化为数据集供你使用。
Ø转置数据
例如,使用查询编辑器中的转置,你可以对数据进行翻转(即将列变为行,将行变为列),从而将数据分解为可操作的格式。
Ø设置数据格式
你可能还需要设置数据格式,以便 Power BI 在导入数据后对其进行适当分类和标识。
通过几种转换(包括将行提升为标题以分解标题、使用填充将null值变为给定列中上方或下方行内找到的值,以及逆透视列),即可将数据清理为可在 Power BI 中使用的数据集。
通过 Power BI,你可以在你的数据上对这些转换进行试验,确定可将数据转换为 Power BI 可处理的列格式的转换类型。 请记住,你采取的所有操作都记录在“查询编辑器”中的“应用的步骤”部分中,因此如果转换未达到预期,只需单击该步骤前面的小图标的x撤消操作即可。
Ø创建视觉对象
数据 Power BI 可用格式后,即可通过转换和清理数据开始创建视觉对象。