⑴ 下列选择中,什么是一种高级语言windows excel
Excel文件是常见的数据文件,数据分析过程中经常会用到。有时我们需要用程序代码对 Excel 文件进行一些自动化处理,这需要程序语言能够方便地解析 Excel 数据。
可以用于解析和处理 Excel 文件的程序语言一般有以下几种:
1、 常规高级编程语言,比如 Java
2、 Excel VBA
3、 Python
4、 esProc SPL
本文依次介绍以上几种程序语言解析Excel文件的特点,重点放在如何将Excel文件读出为结构化数据,之后是用来再计算或是入库或是其它用途,就只作简单介绍。
一、 高级语言(以Java为例)
高级语言几乎都可以读取Excel数据文件,但要看有没有第三方提供专业的API来读取,若是没有,就需要程序员自己去了解Excel数据文件的结构,编写程序来读取数据,工作量非常大。幸运的是, Apache为Java提供了开源包poi用以读写Excel文件,它能读取每个单元格的数据和属性。让我们来看看用poi如何将Excel文件读成结构化的数据。
先看一个很简单的文件:第一行是列标题,第二行开始直到最后一行都是数据行。文件内银兆容如下图:
可以看出来,Python读取Excel文件的代码比较简单,比Java前进了一大步。而且pandas封装了不少结构化数据的处理函数,对于后续计算也比Java和VBA提供了较好的支持。如果是可读入内存的小文件,它可以很简单地处理。
可惜的是,pandas没有针对大文件提供直接分批处理的方法,无论读取还是运算仍然要自己写,非常麻烦。可参考Python 如何处理大文件。
四、 esProc SPL
esProc是专业的数据处理工具,提供了各种读取Excel文件的方法,其脚本语言SPL中封装了丰富的结构化数据计算函数,可以完美地支持各种后续计算、数据导出及入库等工作。
esProc读取Excel文件的程序非常简单,只要写一行代码就可以:
1、 简单格式
=file("simple.xls").xlsimport@t()
选项@t表示第一行是列标题
2、 复杂表头
=file("complex.xls"). xlsimport(;1,5).rename(#1:No,#2:ItemCode,#3:ItemName,
#4:Unit,#5:Quantity,#6:Price,#7:Sum)
参数1,5表示读第1个sheet,从第5行开始读(也可以指定结束行),读数以后再用rename修改列名
3、 交叉表
=file("cross.xls").xlsimport@t(;1,2).rename(#1:Type).pivot@r(Type;Area,Amount)
pivot函数中以Type分组对表数据进行行列转置,选项@r表示将列数据转换为行数据,转换后新的列名分别为“Area”、“Amount”。
从代码上可以看出来,对于解析Excel文件,esProc SPL比Python pandas更为简洁。事实上,SPL做后续处理计算比pandas有更大优势,具体可参考桌面轻量级数据处理脚本。
而且,esProc还可以很方便地进行大文件数据的读取和计算,它提供游标机制,允许数据分析师用类似处理小数据量的语法,直观地处理较大的数据量,程序代码和处理小文件一样简单,比如简单格式的大数据量文件,用游标读数的程序代码是:
=file("big.xlsx").xlsimport@tc()
通过比较,我们可以看到,Python pandas和esProc SPL用于解析Excel文件的代码都很简练,而且也都具备丰富的结构化计算函数,可以实现日常工作中的数据处理。两者相比,esProc SPL更为简洁,并且还能方便地处理大文件。
⑵ excel算是半结构化数据吗
不属于。
数据库才属于结构化数据,而EXCEL是电子表格,是一种应用,而不是专门的数据存储。
EXCEL的数据随意性很大,虽然也能做成结构化形式,但我认为它不属于结构化数据。