导航:首页 > 数据分析 > 数据分析时数据集太大怎么办

数据分析时数据集太大怎么办

发布时间:2023-10-02 14:18:49

1. excel数据太大(上百兆)怎么导出数据

EXCEL里面的数据过多导致文件过大,出现这种情况,最好的办法是将数据分类并切割成N个文件,没有特别好的办法。因为你即使把文件从xls(2003版本)格式保存为xlsx格式(2007版本),但是下次打开时候电脑巨慢,我之前碰到过。

2. 如何进行大数据分析及处理

1.可视化分析

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

2. 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计 学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。

另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如 果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。

3. 预测性分析

大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。

4. 语义引擎

非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。

语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5.数据质量和数据管理。

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集: ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取: 关系数据库、NOSQL、SQL等。

基础架构: 云存储、分布式文件存储等。

数据处理: 自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。

处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理解也称为计算语言学。

一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。

统计分析: 假设检验、显著性检验、差异分析、相关分析、T检验、 方差分析 、 卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、 因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘: 分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

模型预测 :预测模型、机器学习、建模仿真。

结果呈现: 云计算、标签云、关系图等。

大数据的处理

1. 大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。

并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。

也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3. 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。

比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。

该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。

3. excel数据量太大经常没反应怎么办

第一部分:如何给Excel工作簿减肥
除了工作簿本身有宏病毒(关于如何识别宏病毒,本文的结束处有说明)外,有下列的几个原因可能导致工作簿异常膨胀
一。工作表中的格式过于复杂(如多种字体,多种颜色,条件格式等等)
我们都知道,一个工作表有65536*256个单元格,这个非常大的一个范围。我们在应用一些格式设置时,往往为了方便,直接在整行,或整列,或者在多行和多列中应用,这样其实是不妥当的。我相信很少有人会用满整列,或者整行。大量的没有用到的单元格被加上了一些格式后,Excel并不总是知道这个单元格是不需要用的,而往往在计算时会包括这些单元格。另外,格式的多样性(包括字体,颜色等),势必是要造成Excel文件体积变大,这是不难理解的。
用尽量少的格式样式,如字体和颜色,毕竟Excel的优势不是在于文书,版面的展示(那是Word,PowerPoint等的强项)
删除“空白”的单元格。找到工作表中最右下角的单元格(请注意:除非你有自信,请不要过分依赖Excel 的"定位"=>"最后一个单元格"所给你的结果),我是说你可以手工找到这个单元格。然后选中这个单元格右边所有的列,然后执行菜单命令:"编辑"=〉"清除"=〉"全部",接下来,选中这个单元格下面所有的行,同样执行菜单命令:"编辑"=〉"清除"=〉"全部",然后保存
二。图片或者其他绘图图形较多,或者图片选择了不恰当的格式
选择适当的图片格式
在文档中引用的图片格式一般有三种,BMP、JPG、GIF。BMP格式保存的图片保真度较高,但大小往往是其它两种格式的几倍至几十倍,而照片、扫描图片等用GIF格式保存则失真非常严重,因此建议图片先采用JPG格式保存,然后再引入到文档中,这种格式的图片大小不仅比BMP格式小很多,而且往往也比GIF的格式小,而保真度与BMP格式则相差无几。
利用“插入”引入图片
插入图片有两种方法,第一种是将图片保存为一个JPG格式的文件,选择“插入→图片→来自文件”,打开“插入图片”对话框,选中所需插入的图片文件,点击“插入”即可。另一种是用“画图”、“Microsoft照片编辑器”等打开这个JPG文件,选中并复制,然后在文档中点击“粘贴”即可插入。强烈建议大家采用第一种方法,虽然两种方法得到的图片质量是一样的,但第一种方法所形成的文档的大小可能会比第二种小几十倍!
彻底清除图形对象:例如我们自己画的一些图形,比如你现在不要用它们了,你选择行或者列范围删除,清除都是清除不掉了,他们只是可能缩小了。这个时候,就可以用到本版"流浪的风"提到过的一个方法
1.先找到其中的一个文本框(找不到就自己添加一个)
2.选中这个文本框,按F5--->定位条件--->对象-->确定
3.按Delete清除
4.保存关闭
5.看看现在文件有多大,打开看看速度还慢不慢
三。公式和名称较多或者公式,名称,数据透视表等所引用的单元格范围过大
由于和第二点类似的原因,我们在定义名称,编写公式,指定数据透视表的数据源时往往图一时方便,而指定了过大的单元格范围。例如在A列中有包括标题在内的10个数据(A1:A10),标题为“姓名”,我们现在要定义一个名称,例如"姓名",很多人会用 插入=〉名称=〉指定=〉首行,这当然是方便的,但这样的话“姓名”这个名称就引用了A2:A65536,而不是实际的A2:A10。你能想象到两者的差别吗?
这时候,有的朋友要说:我这样做的原因是因为我的数据是在不断增加的呀,我可不想每次在变动的时候都去改这个名称。
当然,你是对的,谁会愿意这样做呢?

当我确信我定义的这个名称所引用的范围不可能是固定的时候,我采用了一个方法就是“动态命名”。听起来有点耳熟对吗?请看这个例子:为简单起见,我们假设数据都是连续地在A10后面开始添加,也就是说我们希望当我们添加到A15时,这个"姓名"就如我所愿地指向A2:A15,而这一切都是自动完成的。那么你可以在"插入"=〉"名称"=>"定义"对话框中,找到"姓名",然后修改引用位置为=OFFSET($A$2,0,0,COUNTA($A:$A)-1,1),然后点击"添加"。请留步,先不要急着关闭这个对话框。你现在可以将鼠标放在"引用位置"的这个框里面,由此来验证你要的结果。看到了吗?工作表中那一闪一闪的区域就表示了目前"姓名"所引用的单元格范围。
这只是一个简单的示范,利用这种技巧,可能让我们用最经济的方式得到我们需要的结果。
在公式引用中,在指定数据透视表的数据源时,都可以运用类似的技巧。当然,我不会推荐你写类似这样的公式=CountA(OFFSET($A$2,0,0,COUNTA($A:$A)-1,1)),而是推荐你先定义好这个名称,然后这样写公式:=CountA(姓名)
这种效果在数组公式中更明显,除非你有足够的耐心和勇气,请不要在数组公式用引用过大的单元格范围,特别是那些不必要的单元格。
请注意,以上的检查应该是针对工作簿中的所有工作表,包括隐藏的
四。VBA代码,尤其是用户窗体的影响
现在很多朋友都已经学会了用VBE来构建自己的工程,这是多么令人振奋的一件事!但今天我们要讨论的是如何处理VBA工程可能带来一些副作用以及如何压缩它?
有很多测试证明,用户窗体会是增加文件大小的比较突出的原因之一。而反复地改写工程中模块的代码,也或多或少地会增加文件的大小(我们可以这样理解:反复地改写工程代码,总是会留下一些痕迹和碎片)
对于这个问题,可以考虑将所有模块,窗体,都导出为文件,然后保存,然后再依次导入。
关于用户窗体,作为开发者应该考虑的是:是否真的有必要用某个窗体?举个简单的例子,如果只是接收用户输入数值,就完全可以用InputBox方法或者属性,而不需专门用一个窗体。同时,工作表本身可以用来做用户交互的界面,应该充分利用。

五。外部链接(特别是死链接)的影响
有的时候,我们的工作簿中可能包含了一些外部引用,这样我们可以共享其他工作簿的一些信息。如果你的工作簿中包含外部链接,你可以通过"编辑"=>"链接"对话框中查看到。默认情况下,文件在打开时,总是尝试去链接源文件,以刷新数据。在保存时,会纪录链接的变化情况。
当源文件的位置或者内容发生变化时,就可能产生死链接。
我个人非常不主张用链接方式来实现不同文件间数据的共享,这既不是最方便的方法,而且在文件分发过程中会遇到一些问题。我当然知道数据共享是有意义的,但我经常会尝试用其他的途径来实现。
六。关于自动保存选项的考量
选中这个选项时,每次进行保存文档的操作则只保存文档的修改部分,保存速度较快,但文档的大小也会增加,即使是对文档进行删减操作也是如此。目前计算机的速度较快,因此开启这项功能所带来速度的增加毫不明显,但付出的代价是文档的大小急剧膨胀,建议不要选中这个选项。试着关闭这个选项,再对文档稍作修改,然后保存,你会惊奇地发现文档的大小会大幅度缩小!
七。文件异常退出(或者其他不可预见的原因)造成的工作簿内工作表结构方面的损坏
有时候,由于一些不可预见的原因(例如停电),Excel被迫异常退出。虽然目前没有专门的工具可以检测这种情况对工作簿内部可能造成的损坏程度,但是有理由相信多少是有影响的。
如果你的文件中不存在前面提到的几个问题,同时你还是确信文件体积不正常,你可以尝试如下的方法
新建一个工作簿,把现有文件中的工作表一一剪切到新的工作簿中。请注意这里用的是“剪切”方法,不是“移动或复制工作表”,也不是“复制”。没错,就是先选中工作表中的内容,然后“剪切”,光标移动到目标工作表,然后“粘贴”。这样做唯一不足的地方就是,目标工作表的行和列格式可能要稍微调整一下。
第二部分:如何给Excel加速
可能影响Excel的运行速度的几个方面
1。设备的配置是否合理?特别是Office 2003,功能的确是很强大了,但相应的对硬件的要求也提高了。一般用户都用Windows Xp系统,然后装Office 2003 ,当然还有其他的软件了,这样的情况,我推荐的配置是:CPU P4 1G及以上,内存256MB及以上,硬盘40G及以上。根据自己的计算机的配置情况,你也可能选择只安装部分(而不一定是全部)Office组件和工具。
2。加载宏。Excel内置了几个加载宏程序,可以帮助我们实现一些高级功能。另外,我们自己也可以编写,或者在网上也可以找到更多的各式各样的加载宏程序。在使用加载宏时我可以给出的建议有:首先一定要确认加载宏的来源是否正当?下载后,安装前,强烈推荐要先杀毒。其次,要用的时候再加载它,而不主张一直把所有的加载宏都加载上。
3。自动重算,自动保存选项的考量。这两个选项在一定程度上给我们的工作带来了便利。但在有些时候(例如是公式比较多的时候),特别是自动重算,可能导致运行速度变慢。前面提到:自动保存选项也是可能导致文件增大的一个因素。有选择性地在操作一些文件时关闭这两个选项,可能会对运行速度有帮助。
4。迭代计算选项的考量。出于某种特殊的需求,我们可能会允许工作簿进行迭代计算,也就是循环引用(这种有目的的循环引用可以被用到解联立方程等一些特殊的场合)。但是这种循环引用会导致工作表频繁地被计算,当工作表任何地方发生变化时,就被重新计算一次。所以,这一点也是影响Excel速度的原因之一。建议不要勾上这个选项。
5。文件不正常(主要是本文第一部分所提到的一些情况)。这一项的解决不再赘述。
6。不恰当地使用了其他一些外部工具可能导致的问题。例如一些测试版的软件,就好比目前的VSTO 2005 BETA2 ,这里面有一些针对Excel进行编程的工具。有的朋友(请注意:只是可能)就会发现,安装了这个工具后,或者即使后来卸载了这个工具后,Excel在读文件,特别是内部有宏的文件时非常奇怪地“吃”内存,具体地说就是Excel会疯狂地占用内存,以致根本就无法正常工作。对于这种情况,有一个比较简便的方法就是使用:帮助=〉检测与修复 ,有两个选项:修复时恢复快捷方式;放弃自定义设置并恢复默认设置。如果两个选项都选上了,或者至少第二个选项选上了的话,执行修复完后一般都能解决这个问题。请注意:在执行这个操作之前,请确定你已经清楚这样操作可能导致的一些问题(例如Outlook的个人数据文件可能需要重新指定:文件不会丢失,但修复完重新开Outlook前,请到控制面板=〉邮件 对话框中指定你的个人数据文件)。强烈建议你要先阅读相应的帮助文档。
第三部分:如何识别宏病毒?
在VBE(Visual Basic编辑器)中,激活工程资源管理器,并定位到你要检查的工作簿。 检查工作簿中所有模块(包括ThisWorkBook模块)中的代码,查看是否有你不熟悉的VBA代码。病毒代码往往格式混乱并且含有大量奇怪的变量名称。另一个选择是使用市售的查毒软件。
为保证安全,建议将OFFICE 的宏安全性级别设置为中级后者以上(请注意:如果设置为高级的话,你将不会收到任何的通知,Excel自动禁止所有宏运行)
第四部分:结语
1。正如我不止一次在新闻组中提到的一样,Excel并不是设计用来存储数据的。所以我不推荐在Excel中存放太多的数据。虽然Excel工作簿所允许的工作表数量并没有什么具体的限制(Excel2003),但我推荐的工作表数量不要超过10个。上次有个朋友说他有一个文件足有81MB,这是在是令人担忧的。即使前三部分提到的一些问题都解决好了,而数据量如此之大的话,速度还肯定是慢的。
2。以上为个人经验,仅供参考和研究交流之用
3。在你决定按照以上提到的一些方法进行操作之前,建议你保留一份文件备份到安全的地方。
这里补充一点:
数据透视表是可以解决相关的问题点,请问有没有样板,即数组与透视表对比的两个文件贴上来看一下,以便学习.
数组公式、VBA威力巨大,在某些情形下提高效率非常明显,但各有其弱点。数组公式在大数据的时候,运行速度慢得无法忍受。比如,我日常需要编制得几个报表,原始数据有4-8万行,20——30列,用数组根本无法操作。倒是利用数据透视表及其他一些组合功能,可谓神速。而VBA主要适用与日常比较固定的一些工作,对于一些临时性工作而言,缺乏灵活性,有杀鸡用牛刀之嫌疑。因此,根据我个人多年工作经验的体会,能熟练地灵活运用EXCEL基本功能和常用函数,就可以高效地完成大部分日常工作。
我比较常用地东西有:数据透视表,数据——有效性,ctrl+enter,index ,match,indirect,offset,if,vlookup,下拉列表框,绝对引用与相对引用,编辑——选择性粘贴(数值、乘除、转置等),图表,条件格式,定义名称,分列,填充等。
相反观点:数据透视表的计算是excel中内置的,同样的计算次数速度与数组公式是一样的,数组公式计算慢有两个因素,一是公式的编写不合理,另一个主要的原因是数组公式要对所有的引用数据进行计算,不管这些数据是否有效。
VBA应该是最灵活的,在VBA中结合数组公式是可以达到最佳目的的,可用VBA先分析出数组公式要用的有效引用区域,在辅助表中进行数组计算(这个速度比用VBA直接分析计算要快得多),再将结果记入需要的单元格中,然后删除辅助表。
其实你说的那些基本操作均可用VBA来做的,速度比手工做要快

4. SQL数据库太大怎么办

我有个大的 SQL 文件要回放,需要马上做,但又怕压死业务,怎么办?

先来建一个测试库:

可以看到 CPU 已经非常冷静,并且缓慢的处理数据。

💡小贴士:pv 工具既可以用于显示文件流的进度,也可以用于文件流的限速。在本实验中,我们用 PV 来限制 SQL 文件发到 MySQL client 的速度,从而限制 SQL 的回放速度,达到不影响其他业务的效果。

阅读全文

与数据分析时数据集太大怎么办相关的资料

热点内容
win10打游戏好还是win7系统好 浏览:820
数据解压后找不到文件 浏览:360
学习编程感觉没学到什么 浏览:128
微信收到的文件有几种图片 浏览:251
iphone4听筒进水没有声音 浏览:890
苹果手机什么游戏免费 浏览:823
什么软件可以加密文件夹 浏览:953
vba截取绝对路径的文件路径 浏览:911
黑苹果忘记登录密码忘记 浏览:77
windows查看文件 浏览:100
如何编辑文件盒上标签 浏览:662
iphone上怎么用熊猫看书看txt 浏览:912
ps存储不了原文件 浏览:460
杭州天翼宽带超级密码 浏览:660
华为share从微信拖文件 浏览:633
编程技术有什么好处 浏览:911
iphone短信插件汉化 浏览:714
怎么破解wifi登陆密码 浏览:543
切割sql文件 浏览:8
文件名带圈字母怎么输入 浏览:183

友情链接