Ⅰ 大数据时代,市场经济会发生改变吗,计划经济是否可能
在大数据时代,特别是万物互联的时代,人类获得数据的能力远远超过大家想象内,人类取得对数据进行重新处理容以及处理的速度的能力也远远超过大家,不管是AI也好,MI也好,我们对世界的认识将会提升到一个新的高度。所以,我想说明的一个问题,由于大数据让市场变得更加聪明。由于大数据,让计划和预判成为了可能。
Ⅱ 基于大数据的配电设备状态可视化平台技术领域
1.一种基于大数据的配电设备状态可视化平台,其特征在于,所述配电设备状态可视化平台采用松耦合方式与众多的信息系统连接,以进行交互,所述耦合方式为采用面向服务的体系结构SOA,所述SOA是一个组件模型,所述SOA用于通过定义的接口和契约将应用程序的不同功能单元联系起来,所述接口采用中立的方式进行定义,并应该独立于实现服务的硬件平台、操作系统和编程语言,以使得构建在各种这样的系统中的服务通过统一和通用的方式进行交互,其中,所述配电设备状态可视化平台包括:
数据处理模块,用于获取多平台数据,并对所述多平台数据进行处理,并展示处理后的数据,数据获取包括信息内网数据获取和信息外网数据获取,其中数据获取/转换装置部署在信息内网,通过安全隔离装置、并基于安全的传输通道获取处于信息外网的业务系统数据;所述数据获取基于跨平台编程接口企业服务总线,采用数据接口、数据中心共享、网络隔离下的安全文件传输方式;具体地,接口的实现方式包括:Web Service服务调用接口、页面嵌入集成接口、结构化数据获取接口、非结构化数据获取接口和电网空间数据获取接口,其中,所述Web Service服务调用接口,对于配电设备状态可视化平台需要在线监测未提供服务接口的数据,通过服务调用获取状态监测中的数据,且随取随用、对于配电设备状态可视化平台,需要进一步处理的状态监测信息,并且状态检测已经提供服务接口的,数据不在配电设备状态可视化平台数据库中存贮;所述页面嵌入集成接口,对于配电设备状态可视化平台,不需要进一步处理的状态监测信息,且状态检测已经提供了相应的模块页面,则通过url调用相应的功能页面;所述结构化数据获取接口:针对常规关系型数据库数据,采用JDBC/ODBC编程接口直接获取数据库数据,对于安全极别高、私密的数据,由业务系统提供接口由数据获取/转换装置调用获取或由业务系统主动推送,将相关数据发送到企业消息总线上,数据获取/转换装置会对消息总线进行监听以获取数据;所述非结构化数据获取接口:对于文档、音频、监控视频、巡检获得的图片非结构化数据,数据获取/转换装置通过通用的文件传输协议直接读取调用相关文件,并进行后续的相关清理、转换处理工作;所述电网空间数据获取接口:电网空间数据包含坐标轴、经纬度结构化数据,以及图像、文本非结构化数据,数据获取/转换装置根据不同的数据类型分别利用结构化数据接口和非结构化数据接口从系统中获取数据,对于由数据获取/转换装置调用编程接口或系统接口从业务系统中拉取的数据,在装置中配置相关策略,定义好相关的接口、周期、调用频率、调用对象相关参数,数据获取/转换装置会自动执行相关任务,从业务系统中拉取数据;
数据分析模块,用于进行大数据集成、存储、检索以及数据挖掘分析;
评估模块,用于生成基于大数据的配电设备评估模型,并根据所述配电设备评估模型对配电设备进行评价,并根据评价结果生成相应的处理策略。
2.根据权利要求1所述的基于大数据的配电设备状态可视化平台,其特征在于,所述多平台数据至少包括:生产管理系统数据、在线监测系统数据、空间地理信息系统数据、气象系统数据和视频监控平台数据。
3.根据权利要求2所述的基于大数据的配电设备状态可视化平台,其特征在于,所述数据处理模块用于对获取到的多平台数据进行预处理和清洗,包括:
根据所述多平台数据所述的业务系统、类型、结构、大小,打上统一规范的标记,用于标识该数据的来源和种类,同时,结合预设的数据规则库,根据数据的标记,将相应的规则与数据进行封装,封装完成的数据可识别、可控制并带有相应清洗规则,可以送到数据清洗阶段进行清洗工作。
4.根据权利要求1所述的基于大数据的配电设备状态可视化平台,其特征在于,所述数据分析模块包括感知层、网络层和应用层,其中,
所述感知层用于进行数据采集;
所述网络层用于进行数据传输;
所述应用层进一步包括服务层、业务层、展现层、及一个工具集,所述服务层用于提供数据的挖掘分析能力,所述业务层用于实现具体产品的业务需求,所述展现层用于提供交互界面,所述工具集用于提供安装部署工具、数据挖掘工具、业务建模工具、代码生成工具。
5.根据权利要求4所述的基于大数据的配电设备状态可视化平台,其特征在于,所述感知层、网络层和应用层之间进行交互,所述交互包括消息流和数据流,通过所述消息流来控制数据流的处理。
6.根据权利要求1所述的基于大数据的配电设备状态可视化平台,其特征在于,所述配电设备评估模型至少包括:变压器类设备故障预测模型、开关和组合电器类设备状态的发展趋势和故障概率动态预测模型、基于复杂关联关系的输电线路故障预测模型。
7.根据权利要求6所述的基于大数据的配电设备状态可视化平台,其特征在于,所述评估模块用于采用融合多因素的状态评价分析算法,包括:
1)分析决策问题,构造出系统的命题集,即系统的识别框架Ω {A1,A2,……,Ak};
2)针对目标信息系统,构造基于识别框架的证据体Ei(i 1,2,……,m);
3)根据所收集到的各证据体的资料—全局全量数据,结合识别框架中各命题集合的特点,确定出各证据体的基本可信度分配mi(Aj),j 1,2,……,K,表示不同状态信息对设备状态的反应能力;
4)根据基本可信度分配mi(Aj),分别计算单证据体作用下识别框架中各命题的信度区间[Beli,Pli];
5)利用D-S合成规则计算所有证据体联合作用下的基本可信度分配m(Aj)和信度区间[Bel,Pl];
6)根据具体问题构造相应的决策规则;
7)根据该决策规则得出决策结论。
8.根据权利要求1所述的基于大数据的配电设备状态可视化平台,其特征在于,所述评估模块对配电设备进行评价,包括:
A)按照配电设备状态评价导则中的相关要求,对应导则中的各个状态量阈值逐一扫描数据,当任意一个数据超过导则中限定的阈值时,将该数据标记为异常值,与原始数据分离;
B)将数据变换为多元时间序列,计算出各一维时间序列的互协方差函数和互相关函数,从而得到传递函数分子、分母多项式的阶数及延迟参数,然后拟合传递函数模型,最后根据模型残差序列的ACF检验来判定干扰时刻及产生的异常数据;
C)基于增量递推的最小二乘回归参数估计和广义似然比变化点检测,采用增量机制确定数据序列回归模型参数和分割点,实时提取数据趋势特征,将趋势改变的数据标记为异常数据。
9.根据权利要求8所述的基于大数据的配电设备状态可视化平台,其特征在于,其中,配电线路在不同天气条件下的故障率为将时间折合成单位为年时故障发生的次数,以1个日历年为单位时故障率的平均值可以表示为:
其中,N为正常天气的期望持续时间,S为恶劣天气的期望持续时间; λ表示正常天气时元件故障率的期望值,λ′为恶劣天气时元件故障率的期望值;
使用两状态天气模型来描述变压器的偶然失效模式故障率,其表达式为:
其中,为变压器偶然失效的统计平均值,N为正常天气的持续时间,S为恶劣天气的持续时间,F为发生在恶劣天气的故障的比例,w为变压器当前所处的天气状况,正常天气w 0,恶劣天气w 1。
10.根据权利要求1所述的基于大数据的配电设备状态可视化平台,其特征在于,所述评估模块还用于根据设备状态和系统风险进行设备重要度评估,包括:
a)根据大数据状态评价结果、运行信息、微气象数据,利用PHM模型计算系统元件考虑大数据的实时故障概率;
b)使用枚举法选择系统状态,枚举至3阶故障,形成预想故障事件,并计算故障事件发生的概率;
c)对选取的系统状态进行静态安全分析,利用最优潮流计算系统状态是否满足充裕性,如需切负荷那么该系统状态为紧急状态,进入步骤d),如不需切负荷则该系统状态为警戒状态或 健康 状态,对系统进行N-1校验,如果满足安全准则,则为 健康 状态,返回步骤b),否则为警戒状态,进入步骤d);
d)计算该系统状态下的紧急指数或警戒指数,利用风险追踪模型计算该状态下各个故障元件的贡献值;
e)返回步骤b)直到遍历预想故障集的所有故障事件;
f)计算系统总紧急指数和总警戒指数,并计算元件紧急重要度指标和警戒重要度指标,根据重要度指标排序,确定系统薄弱设备。
Ⅲ 浅谈计算机与大数据的相关论文
在大数据环境下,计算机信息处理技术也面临新的挑战,要求计算机信息处理技术必须不断的更新发展,以能够对当前的计算机信息处理需求满足。下面是我给大家推荐的计算机与大数据的相关论文,希望大家喜欢!
计算机与大数据的相关论文篇一
浅谈“大数据”时代的计算机信息处理技术
[摘 要]在大数据环境下,计算机信息处理技术也面临新的挑战,要求计算机信息处理技术必须不断的更新发展,以能够对当前的计算机信息处理需求满足。本文重点分析大数据时代的计算机信息处理技术。
[关键词]大数据时代;计算机;信息处理技术
在科学技术迅速发展的当前,大数据时代已经到来,大数据时代已经占领了整个环境,它对计算机的信息处理技术产生了很大的影响。计算机在短短的几年内,从稀少到普及,使人们的生活有了翻天覆地的变化,计算机的快速发展和应用使人们走进了大数据时代,这就要求对计算机信息处理技术应用时,则也就需要在之前基础上对技术实施创新,优化结构处理,从而让计算机数据更符合当前时代发展。
一、大数据时代信息及其传播特点
自从“大数据”时代的到来,人们的信息接收量有明显加大,在信息传播中也出现传播速度快、数据量大以及多样化等特点。其中数据量大是目前信息最显著的特点,随着时间的不断变化计算机信息处理量也有显著加大,只能够用海量还对当前信息数量之大形容;传播速度快也是当前信息的主要特点,计算机在信息传播中传播途径相当广泛,传播速度也相当惊人,1s内可以完成整个信息传播任务,具有较高传播效率。在传播信息过程中,还需要实施一定的信息处理,在此过程中则需要应用相应的信息处理工具,实现对信息的专门处理,随着目前信息处理任务的不断加强,信息处理工具也有不断的进行创新[1];信息多样化,则也就是目前数据具有多种类型,在庞大的数据库中,信息以不同的类型存在着,其中包括有文字、图片、视频等等。这些信息类型的格式也在不断发生着变化,从而进一步提高了计算机信息处理难度。目前计算机的处理能力、打印能力等各项能力均有显著提升,尤其是当前软件技术的迅速发展,进一步提高了计算机应用便利性。微电子技术的发展促进了微型计算机的应用发展,进一步强化了计算机应用管理条件。
大数据信息不但具有较大容量,同时相对于传统数据来讲进一步增强了信息间关联性,同时关联结构也越来越复杂,导致在进行信息处理中需要面临新的难度。在 网络技术 发展中重点集中在传输结构发展上,在这种情况下计算机必须要首先实现网络传输结构的开放性设定,从而打破之前计算机信息处理中,硬件所具有的限制作用。因为在当前计算机网络发展中还存在一定的不足,在完成云计算机网络构建之后,才能够在信息处理过程中,真正的实现收放自如[2]。
二、大数据时代的计算机信息处理技术
(一)数据收集和传播技术
现在人们通过电脑也就可以接收到不同的信息类型,但是在进行信息发布之前,工作人员必须要根据需要采用信息处理技术实施相应的信息处理。计算机采用信息处理技术实施信息处理,此过程具有一定复杂性,首先需要进行数据收集,在将相关有效信息收集之后首先对这些信息实施初步分析,完成信息的初级操作处理,总体上来说信息处理主要包括:分类、分析以及整理。只有将这三步操作全部都完成之后,才能够把这些信息完整的在计算机网络上进行传播,让用户依照自己的实际需求筛选满足自己需求的信息,借助于计算机传播特点将信息数据的阅读价值有效的实现。
(二)信息存储技术
在目前计算机网络中出现了很多视频和虚拟网页等内容,随着人们信息接收量的不断加大,对信息储存空间也有较大需求,这也就是对计算机信息存储技术提供了一个新的要求。在数据存储过程中,已经出现一系列存储空间无法满足当前存储要求,因此必须要对当前计算机存储技术实施创新发展。一般来讲计算机数据存储空间可以对当前用户关于不同信息的存储需求满足,但是也有一部分用户对于计算机存储具有较高要求,在这种情况下也就必须要提高计算机数据存储性能[3],从而为计算机存储效率提供有效保障。因此可以在大数据存储特点上完成计算机信息新存储方式,不但可以有效的满足用户信息存储需求,同时还可以有效的保障普通储存空间不会出现被大数据消耗问题。
(三)信息安全技术
大量数据信息在计算机技术发展过程中的出现,导致有一部分信息内容已经出现和之前信息形式的偏移,构建出一些新的计算机信息关联结构,同时具有非常强大的数据关联性,从而也就导致在计算机信息处理中出现了新的问题,一旦在信息处理过程中某个信息出现问题,也就会导致与之关联紧密的数据出现问题。在实施相应的计算机信息管理的时候,也不像之前一样直接在单一数据信息之上建立,必须要实现整个数据库中所有将数据的统一安全管理。从一些角度分析,这种模式可以对计算机信息处理技术水平有显著提升,并且也为计算机信息处理技术发展指明了方向,但是因为在计算机硬件中存在一定的性能不足,也就导致在大数据信息安全管理中具有一定难度。想要为数据安全提供有效保障,就必须要注重数据安全技术管理技术的发展。加强当前信息安全体系建设,另外也必须要对计算机信息管理人员专业水平进行培养,提高管理人员专业素质和专业能力,从而更好的满足当前网络信息管理体系发展需求,同时也要加强关于安全技术的全面深入研究工作[4]。目前在大数据时代下计算机信息安全管理技术发展还不够成熟,对于大量的信息还不能够实施全面的安全性检测,因此在未来计算机信息技术研究中安全管理属于重点方向。但是因为目前还没有构建完善的计算机安全信息管理体系,因此首先应该强化关于计算机重点信息的安全管理,这些信息一旦发生泄漏,就有可能会导致出现非常严重的损失。目前来看,这种 方法 具有一定可行性。
(四)信息加工、传输技术
在实施计算机信息数据处理和传输过程中,首先需要完成数据采集,同时还要实时监控数据信息源,在数据库中将采集来的各种信息数据进行存储,所有数据信息的第一步均是完成采集。其次才能够对这些采集来的信息进行加工处理,通常来说也就是各种分类及加工。最后把已经处理好的信息,通过数据传送系统完整的传输到客户端,为用户阅读提供便利。
结语:
在大数据时代下,计算机信息处理技术也存在一定的发展难度,从目前专业方面来看,还存在一些问题无法解决,但是这些难题均蕴含着信息技术发展的重要机遇。在当前计算机硬件中,想要完成计算机更新也存在一定的难度,但是目前计算机未来的发展方向依旧是云计算网络,把网络数据和计算机硬件数据两者分开,也就有助于实现云计算机网络的有效转化。随着科学技术的不断发展相信在未来的某一天定能够进入到计算机信息处理的高速发展阶段。
参考文献
[1] 冯潇婧.“大数据”时代背景下计算机信息处理技术的分析[J].计算机光盘软件与应用,2014,(05):105+107.
[2] 詹少强.基于“大数据”时代剖析计算机信息处理技术[J].网络安全技术与应用,2014,(08):49-50.
[3] 曹婷.在信息网络下计算机信息处理技术的安全性[J].民营科技,2014, (12):89CNKI
[4] 申鹏.“大数据”时代的计算机信息处理技术初探[J].计算机光盘软件与应用,2014,(21):109-110
计算机与大数据的相关论文篇二
试谈计算机软件技术在大数据时代的应用
摘要:大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理和分析能力;同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。对企业而言,能够从大数据中获得全新价值的消息是令人振奋的。然而,如何从大数据中发掘出“真金白银”则是一个现实的挑战。这就要求采用一套全新的、对企业决策具有深远影响的解决方案。
关键词:计算机 大数据时代 容量 准确 价值 影响 方案
1 概述
自从计算机出现以后,传统的计算工作已经逐步被淘汰出去,为了在新的竞争与挑战中取得胜利,许多网络公司开始致力于数据存储与数据库的研究,为互联网用户提供各种服务。随着云时代的来临,大数据已经开始被人们广泛关注。一般来讲,大数据指的是这样的一种现象:互联网在不断运营过程中逐步壮大,产生的数据越来越多,甚至已经达到了10亿T。大数据时代的到来给计算机信息处理技术带来了更多的机遇和挑战,随着科技的发展,计算机信息处理技术一定会越来越完善,为我们提供更大的方便。
大数据是IT行业在云计算和物联网之后的又一次技术变革,在企业的管理、国家的治理和人们的生活方式等领域都造成了巨大的影响。大数据将网民与消费的界限和企业之间的界限变得模糊,在这里,数据才是最核心的资产,对于企业的运营模式、组织结构以及 文化 塑造中起着很大的作用。所有的企业在大数据时代都将面对战略、组织、文化、公共关系和人才培养等许多方面的挑战,但是也会迎来很大的机遇,因为只是作为一种共享的公共网络资源,其层次化和商业化不但会为其自身发展带来新的契机,而且良好的服务品质更会让其充分具有独创性和专用性的鲜明特点。所以,知识层次化和商业化势必会开启知识创造的崭新时代。可见,这是一个竞争与机遇并存的时代。
2 大数据时代的数据整合应用
自从2013年,大数据应用带来令人瞩目的成绩,不仅国内外的产业界与科技界,还有各国政府部门都在积极布局、制定战略规划。更多的机构和企业都准备好了迎接大数据时代的到来,大数据的内涵应是数据的资产化和服务化,而挖掘数据的内在价值是研究大数据技术的最终目标。在应用数据快速增长的背景下,为了降低成本获得更好的能效,越来越趋向专用化的系统架构和数据处理技术逐渐摆脱传统的通用技术体系。如何解决“通用”和“专用”体系和技术的取舍,以及如何解决数据资产化和价值挖掘问题。
企业数据的应用内容涵盖数据获取与清理、传输、存储、计算、挖掘、展现、开发平台与应用市场等方面,覆盖了数据生产的全生命周期。除了Hadoop版本2.0系统YARN,以及Spark等新型系统架构介绍外,还将探讨研究流式计算(Storm,Samza,Puma,S4等)、实时计算(Dremel,Impala,Drill)、图计算(Pregel,Hama,Graphlab)、NoSQL、NewSQL和BigSQL等的最新进展。在大数据时代,借力计算机智能(MI)技术,通过更透明、更可用的数据,企业可以释放更多蕴含在数据中的价值。实时、有效的一线质量数据可以更好地帮助企业提高产品品质、降低生产成本。企业领导者也可根据真实可靠的数据制订正确战略经营决策,让企业真正实现高度的计算机智能决策办公,下面我们从通信和商业运营两个方面进行阐述。
2.1 通信行业:XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取 措施 ,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对 企业运营 的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
2.2 商业运营:辛辛那提动物园使用了Cognos,为iPad提供了单一视图查看管理即时访问的游客和商务信息的服务。借此,动物园可以获得新的收入来源和提高营收,并根据这些信息及时调整营销政策。数据收集和分析工具能够帮助银行设立最佳网点,确定最好的网点位置,帮助这个银行更好地运作业务,推动业务的成长。
3 企业信息解决方案在大数据时代的应用
企业信息管理软件广泛应用于解决欺诈侦测、雇员流动、客户获取与维持、网络销售、市场细分、风险分析、亲和性分析、客户满意度、破产预测和投资组合分析等多样化问题。根据大数据时代的企业挖掘的特征,提出了数据挖掘的SEMMA方法论――在SAS/EM环境中,数据挖掘过程被划分为Sample、Explore、Modify、Model、Assess这五个阶段,简记为SEMMA:
3.1 Sample 抽取一些代表性的样本数据集(通常为训练集、验证集和测试集)。样本容量的选择标准为:包含足够的重要信息,同时也要便于分析操作。该步骤涉及的处理工具为:数据导入、合并、粘贴、过滤以及统计抽样方法。
3.2 Explore 通过考察关联性、趋势性以及异常值的方式来探索数据,增进对于数据的认识。该步骤涉及的工具为:统计 报告 、视图探索、变量选择以及变量聚类等方法。
3.3 Modify 以模型选择为目标,通过创建、选择以及转换变量的方式来修改数据集。该步骤涉及工具为:变量转换、缺失处理、重新编码以及数据分箱等。
3.4 Model 为了获得可靠的预测结果,我们需要借助于分析工具来训练统计模型或者机器学习模型。该步骤涉及技术为:线性及逻辑回归、决策树、神经网络、偏最小二乘法、LARS及LASSO、K近邻法以及其他用户(包括非SAS用户)的模型算法。
3.5 Assess 评估数据挖掘结果的有效性和可靠性。涉及技术为:比较模型及计算新的拟合统计量、临界分析、决策支持、报告生成、评分代码管理等。数据挖掘者可能不会使用全部SEMMA分析步骤。然而,在获得满意结果之前,可能需要多次重复其中部分或者全部步骤。
在完成SEMMA步骤后,可将从优选模型中获取的评分公式应用于(可能不含目标变量的)新数据。将优选公式应用于新数据,这是大多数数据挖掘问题的目标。此外,先进的可视化工具使得用户能在多维直方图中快速、轻松地查阅大量数据并以图形化方式比较模拟结果。SAS/EM包括了一些非同寻常的工具,比如:能用来产生数据挖掘流程图的完整评分代码(SAS、C以及Java代码)的工具,以及交换式进行新数据评分计算和考察执行结果的工具。
如果您将优选模型注册进入SAS元数据服务器,便可以让SAS/EG和SAS/DI Studio的用户分享您的模型,从而将优选模型的评分代码整合进入 工作报告 和生产流程之中。SAS模型管理系统,通过提供了开发、测试和生产系列环境的项目管理结构,进一步补充了数据挖掘过程,实现了与SAS/EM的无缝联接。
在SAS/EM环境中,您可以从SEMMA工具栏上拖放节点进入工作区的工艺流程图中,这种流程图驱动着整个数据挖掘过程。SAS/EM的图形用户界面(GUI)是按照这样的思路来设计的:一方面,掌握少量统计知识的商务分析者可以浏览数据挖掘过程的技术方法;另一方面,具备数量分析技术的专家可以用微调方式深入探索每一个分析节点。
4 结束语
在近十年时间里,数据采集、存储和数据分析技术飞速发展,大大降低了数据储存和处理的成本,一个大数据时代逐渐展现在我们的面前。大数据革新性地将海量数据处理变为可能,并且大幅降低了成本,使得越来越多跨专业学科的人投入到大数据的开发应用中来。
参考文献:
[1]薛志文.浅析计算机网络技术及其发展趋势[J].信息与电脑,2009.
[2]张帆,朱国仲.计算机网络技术发展综述[J].光盘技术,2007.
[3]孙雅珍.计算机网络技术及其应用[J].东北水利水电,1994.
[4]史萍.计算机网络技术的发展及展望[J].五邑大学学报,1999.
[5]桑新民.步入信息时代的学习理论与实践[M].中央广播大学出版社,2000.
[6]张浩,郭灿.数据可视化技术应用趋势与分类研究[J].软件导刊.
[7]王丹.数字城市与城市地理信息产业化――机遇与挑战[J].遥感信息,2000(02).
[8]杨凤霞.浅析 Excel 2000对数据的安全管理[J].湖北商业高等专科学校学报,2001(01).
计算机与大数据的相关论文篇三
浅谈利用大数据推进计算机审计的策略
[摘要]社会发展以及时代更新,在该种环境背景下大数据风潮席卷全球,尤其是在进入新时期之后数据方面处理技术更加成熟,各领域行业对此也给予了较高的关注,针对当前计算机审计(英文简称CAT)而言要想加速其发展脚步并将其质量拔高就需要结合大数据,依托于大数据实现长足发展,本文基于此就大数据于CAT影响进行着手分析,之后探讨依托于大数据良好推进CAT,以期为后续关于CAT方面研究提供理论上参考依据。
[关键词]大数据 计算机审计 影响
前言:相较于网络时代而言大数据风潮一方面提供了共享化以及开放化、深层次性资源,另一方面也促使信息管理具备精准性以及高效性,走进新时期CAT应该融合于大数据风潮中,相应CAT人员也需要积极应对大数据带了的机遇和挑战,正面CAT工作,进而促使CAT紧跟时代脚步。
一、初探大数据于CAT影响
1.1影响之机遇
大数据于CAT影响体现在为CAT带来了较大发展机遇,具体来讲,信息技术的更新以及其质量的提升促使数据方面处理技术受到了众多领域行业的喜爱,当前在数据技术推广普及阶段中呈现三大变化趋势:其一是大众工作生活中涉及的数据开始由以往的样本数据实际转化为全数据。其二是全数据产生促使不同数据间具备复杂内部关系,而该种复杂关系从很大程度上也推动工作效率以及数据精准性日渐提升,尤其是数据间转化关系等更为清晰明了。其三是大众在当前处理数据环节中更加关注数据之间关系研究,相较于以往仅仅关注数据因果有了较大进步。基于上述三大变化趋势,也深刻的代表着大众对于数据处理的态度改变,尤其是在当下海量数据生成背景下,人工审计具备较强滞后性,只有依托于大数据并发挥其优势才能真正满足大众需求,而这也是大数据对CAT带来的重要发展机遇,更是促进CAT在新时期得以稳定发展重要手段。
1.2影响之挑战
大数据于CAT影响还体现在为CAT带来一定挑战,具体来讲,审计评估实际工作质量优劣依托于其中数据质量,数据具备的高质量则集中在可靠真实以及内容详细和相应信息准确三方面,而在CAT实际工作环节中常常由于外界环境以及人为因素导致数据质量较低,如数据方面人为随意修改删除等等,而这些均是大数据环境背景下需要严格把控的重点工作内容。
二、探析依托于大数据良好推进CAT措施
2.1数据质量的有效保障
依托于大数据良好推进CAT措施集中在数据质量有效保障上,对数据质量予以有效保障需要从两方面入手,其一是把控电子数据有效存储,简单来讲就是信息存储,对电子信息进行定期检查,监督数据实际传输,对信息系统予以有效确认以及评估和相应的测试等等,进而将不合理数据及时发现并找出信息系统不可靠不准确地方;其二是把控电子数据采集,通常电子数据具备多样化采集方式,如将审计单位相应数据库直接连接采集库进而实现数据采集,该种直接采集需要备份初始传输数据,避免数据采集之后相关人员随意修改,更加可以与审计单位进行数据采集真实性 承诺书 签订等等,最终通过电子数据方面采集以及存储两大内容把控促使数据质量更高,从而推动CAT发展。
2.2公共数据平台的建立
依托于大数据良好推进CAT措施还集中在公共数据平台的建立,建立公共化分析平台一方面能够将所有采集的相关数据予以集中化管理存储,更能够予以多角度全方面有效分析;另一方面也能够推动CAT作业相关标准予以良好执行。如果将分析模型看作是CAT作业标准以及相应的核心技术,则公共分析平台则是标准执行和相应技术实现关键载体。依托于公共数据平台不仅能够将基础的CAT工作实现便捷化以及统一化,而且深层次的实质研究有利于CAT数据处理的高速性以及高效性,最终为推动CAT发展起到重要影响作用。
2.3审计人员的强化培训
依托于大数据良好推进CAT措施除了集中在上述两方面之外,还集中在审计人员的强化培训上,具体来讲,培训重点关注审计工作于计算机上的具 体操 作以及操作重点难点,可以构建统一培训平台,在该培训平台中予以多元化资料的分享,聘请高技能丰富 经验 人士予以平台授课,提供专业技能知识沟通互动等等机会,最终通过强化培训提升审计人员综合素质,更加推动CAT未来发展。
三、结论
综上分析可知,当前大数据环境背景下CAT需要将日常工作予以不断调整,依托于大数据促使审计人员得以素质提升,并利用公共数据平台建立和相应的数据质量保障促使CAT工作更加高效,而本文对依托于大数据良好推进CAT进行研究旨在为未来CAT优化发展献出自己的一份研究力量。
猜你喜欢:
1. 人工智能与大数据论文
2. 大数据和人工智能论文
3. 计算机大数据论文参考
4. 计算机有关大数据的应用论文
5. 有关大数据应用的论文
Ⅳ K均值聚类分析的原理
在训练图像中,数据事件数量非常多。如果将这些数据事件逐一与模拟区域数据模式进行比对,对计算机性能要求高,计算效率低下。对数据事件分析发现,很多数据事件具有很高的相似性,可以将其划分为同一类。这样大大减少数据事件的个数,提高了运算效率。基于这样考虑,聚类分析技术被引入到多点地质统计学中。
J.B.MacQueen在1967年提出的K-means算法是到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数,误差平方和准则函数定义为
多点地质统计学原理、方法及应用
式中:mi(i=1,2,…,k)是类i中数据对象的均值,分别代表K个类。
K-means算法的工作原理:首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化,这标志着已经收敛,因此算法结束。
基本步骤如下:
a.对于数据对象集,任意选取K个对象作为初始的类中心;
b.根据类中对象的平均值,将每个对象重新赋给最相似的类;
c.更新类的平均值,即计算每个类中对象的平均值;
d.重复b和c步骤;
e.直到不再发生变化。
图2-7是利用K-means方法做的一个数据事件的聚类分析结果。数据类定义为10个。数据事件来自于图2-8,采用的数据样板是8×8的数据样板。
K-means算法优点为当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,缺点主要有三个:
图2-7 K-means方法聚类结果
图2-8 用于聚类的训练图像,数据样板选择为8*8
1)在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。这是K-means算法的一个不足。
2)在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。
3)从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进,提高算法应用范围。