1. 脏数据潜在的隐患以及数据整合
很少有什么IT项目比数据整合更令人头疼的了 如果我们换个方式思考 就会发现有一件事是比数据整合更可怕的 那就是数据整合出现了问题
有时候 这是由于用户出错或者恶意用户的蓄意破坏 导致不良数据堆积引起的问题 有时候原始数据是完好无损的 但是从一个系统/数据库转移到另一个系统/数据库的过程中丢失 被删截或者被修改了 也会造成麻烦 数据会过时 也会在你企业内部的人事斗争过程中不幸被流弹击中 要知道每个人都是死抱着自己的一小片数据存储地盘 不愿与其他人分享
有很多的方式会导致数据项目的流产 本文列举了其中五种最常见的情况 告诉你究竟是什么地方出错了 将会导致什么样的后果 以及可以采取什么措施避免同样的情况发生在自己身上 文中所涉及的公司名字一概隐去 希望不要让你自己的经历像本文所叙述的对象那样沦为他人口中的经验教训
亲爱的 *** 邮件事件
小心你的数据来源 它有可能会反过来摆你一道 这个事例源于一个大型金融服务机构的客户呼叫中心 就像几乎所有的客服柜台一样 这里的客户服务代表们要做的就是接听电话 并把客户信息输入到一个共享数据库里
这个特殊的数据库里有一列是用来记录称谓的 并且是可编辑的 但是数据库管理员并没有对这一列的输入规则进行约束 例如只能输入某某先生 某某女士之类的称谓 反而可以接受客服代表输入的任何长达 或 字符的内容 在倾听一些客户愤怒的投诉时 部分客服代表就会给每条记录添加一些他们自己想出来的不完全友善的注释 例如 这个客户真是个 *** 这类的注释
这种情况持续了很多年 因为机构里的其他系统都不会从这个称谓列中提取数据 所以没有人注意到这一情况 其后某天 市场部决定发起一次直接邮寄活动来推广一项新服务 他们想出了一个绝妙的点子 与其花钱购买一份名单 不如利用客服柜台的数据库
于是 以诸如 亲爱的 *** 客户Linlin 这样的措词抬头的邮件开始源源不断的发到客户邮箱里
当然没有任何客户会签约使用这项新服务 该机构直到开始检查他们所发出的邮件时 才弄清楚前因后果
我们拥有的数据不是属于我们自己的 如今世界的联系日趋紧密 很可能会有人找到了你的数据 并把它利用在一个你完全想象不到的地方 如果你从别的地方获取数据 那么在你利用它们执行新任务时 必须要确保你的数据质量管理水平过关了
判断水平 过不过关 取决于你要如何利用这些数据 正确性是判断数据质量的基本要素之一 对于直邮产业 数据的准确率达到 %至 %就可能就够了 而对于制药业 你就必须达到 %甚至更高 不过 没有什么公司想要或者需要完美的数据 更不用说为了得到完美数据而付出金钱 因为要数据保持完美的代价太昂贵了 问题是要怎样利用数据 以及数据的准确率达到什么程度才足够好
死去的人有没有选举权
相信大家对数据清洗(Data cleansing)这个术语并不陌生 它是数据整合过程中必须进行的一个复杂过程 通过检测和清除掉垃圾数据(包括不正确 过时 冗余以及不完整的数据) 以保证数据的正确性 可靠性 完整性和一致性 从字面上 我们就可以看出数据清洗是一个 生死攸关 的问题 下面讲述的也是 生死攸关 的事例 年美国国会选举期间 某 *** 工作志愿者在通过电话让已登记的选民来投票的过程中发现 每十个选民中有三个是已经死裂芦滑去的人 因此没有资格投票 现代肆腊社会里死者数据不全所引发的问题很常见 确实也给生者带来了很大的困扰
对于诸如保险公司 投资公司 基金公司 通讯公司等拥有大量客户的服务类企业而言 客户数据是其重要的财富来源 然而 客户数据质量问题却一直是困扰企业开发新服务项目的绊脚石 在一项关于客户数据质量的调查研究中发现 平均而言 %的客户数据记录存在各种问题 例如各种证件号码输入错误 联系方式过期等等 其中有五分之一的数据问题是由于客户的死亡造成的 其中一部分客户死亡时间超过十年却仍保留着股东的身份
这并不是客户的疏忽 只是自然发生的问题 私营企业上市 被并购或者拆分 而他们的股东数哗蚂据却一直被保留着 甚至长达数十年之久 不过这些垃圾数据所引起的问题可能比起在不必要的邮寄费用上浪费一点钱更为严重 最令人担心的问题莫过于欺诈和盗窃ID 如果这些情况发生在颇具影响力的机构组织里 必会导致更为严重的现实问题 例如已故股东的红利被陌生人兑现 继承人的继承权被剥夺 公司机密泄漏等等
那么要怎么解决这个问题呢?利用商业评测软件可以识别不同系统的异常数据并做好标记方便检查 即便如此 所有的企业都应当加强重视 做好内部监控 严格执行例行的基本检查 事实上 每一个企业都或多或少存在垃圾数据方面的问题 从风险管理的观点来看 最好的解决方案就是持之以恒地检查 如果你从上文的内容能认识到这个自然发生的现象可能会对你产生什么影响的话 已经有了一个好的开始
数据重复的代价
用户出错会引发麻烦事 用户自作聪明造成的问题可能更严重 某保险公司从上世纪 年代开始就将大部分客户资料保存在一个主应用软件中 并规定数据录入操作员录入新数据前先要搜索数据库中是否已经有该客户的记录 但是搜索功能执行起来非常慢而且不够准确 所以大多数操作员不再执行这一步骤 而从头开始输入新记录 这样做确实简单轻松多了 然而 结果是很多客户公司的记录在数据库里重复达几百次 使系统运行地更慢 数据搜索结果更加不准确 形成了恶性循环
不幸的是 这个应用软件已经根深蒂固的嵌入到该公司的其他系统了 管理部门不愿意花钱把它替换掉 最后 该公司的IT部门发现如果公司再也无法查找用户资料了 将会造成的每天 万美元的损失 直到这时候 公司才如梦初醒 使用识别系统来清洗数据 最终清除了近四万条重复记录
重复数据的问题一直都让IT管理员头痛不已 数据库越庞大 这个问题越严重 但是 很少有人真正认识到问题的严重性 如果有人告诉你他的客户数据库里有 %的重复数据 很可能低估了 不过 我们也没有什么灵丹妙药彻底解决这个问题 即使我们能够利用数据匹配技术来沙里淘金 跨越多个数据库找出唯一有用的信息 最难的一关可能是让企业里的不同利益团体就什么数据可以大家共享以及如何构建匹配达成一致 同一个机构里的两个不同的部门可能对匹配和重复项有完全不同的定义 类似的数据整合工作会因为相关人员不能对 谁才是数据的所有者 以及 什么数据可以拿来与别人交换 的意见不和而土崩瓦解
小心老化的数据
相信很多人对魔域大冒险(Zork)这款最经典的文字冒险游戏还记忆犹新 通过问答形式由游戏设置提供情景描述 而玩家输入选择关键词判断来推动游戏发展 是现代RPG游戏的鼻祖 现在 还有不少人仍在开发这类古老的游戏 这也没什么 问题是他们数据库里保存的用户资料也同样的古老
某老款游戏开发商利用MailChimp的网络营销服务来联系以前的一万名客户 就是为了提醒他们游戏的第二版终于完成了 他们所用的大部分电子邮件地址至少是十年前的 其中有一部分是Hotmail帐户 很久之前就被遗弃不用了 以致微软已经把这些邮件地址当成垃圾邮件陷阱了 于是 一天之内 所有的MailChimp邮件都被Hotmail的垃圾邮件过滤器列入了黑名单
幸好游戏开发商以前保留了原始记录 包括每位客户下载其游戏时的IP地址 这成了MailChimp的救命稻草 MailChimp给Hotmail的客服发了紧急申明 证明这些邮箱帐户是合法客户 只是年代比较久远 第二天 hotmail就把MailChimp从黑名单中解救出来了
所有的数据都会快速老化 就像放射性物质发生衰变一样 而联络数据比其他数据老化得更快 数据库管理人员必须定期更新每一个系统的数据
美国工商资料库是个巨额产业 而联络资料是所有资料中最受销售人员青睐的 但也是最难维护的 年成立于美国的是一个在线商务联络资料数据库 面向销售专业人员 采用Wiki式数据清洗方式来维护 该网站的三十多万名用户通过上传新名片资料或纠正错误的名片资料来换取点数 上传的每条记录必须完整 如果上传不正确或是资料太老旧 就会扣除相应的点数 而用户能得到的利益就是用获得的点数购买自己所需要的名片资料
Jigsaw的首席执行官Jim Fowler称一家科技公司想要把他们公司的数据库和Jigsaw的数据库进行比较 以便清除不良数据 该科技公司拥有四万条记录 其中只有 %是当前可用的 而且全部数据都不完整 Jigsaw发现他们大部分合作客户都拥有很多毫无价值的数据 根本就没办法去匹配纠正 公司花费了数百万美元在客户关系管理软件上 可见这些数据有多糟糕 有时候公司的真正价值不在拥有的数据本身 而在于有没有能力与时俱进地跟上数据变化的速度 Jigsaw的能力正是在于完善数据并进行自我清洗 如果没有自我修正的机制 Jigsaw也只不过是一家毫无价值的数据公司而已
小错误与大麻烦
好数据和不良数据之间的差别很可能就体现在一个小点上 某专案优化解决方案供应商的高级顾问告诉我们 他曾为一个大型数据整合项目做顾问 这个项目看起来一切都运行正常 但六个月后 某人打开一个数据表 只看到了一排排符号 什么数据都没有
这其实只是一个字符代码错误 本来在一些域里应该用省略号(三个点)的 但有人只输入了两个点 导致了整个数据线的崩溃 该公司不得不费尽力气从备份中重新创建整个数据库 查找省略号 然后用正确数据替换
很多时候 问题不仅仅是简单的数据录入错误或者是 脏数据进脏数据出 的问题而已 很多企业在进行不同操作系统之间的数据移植或从老的SQL版本中升级数据等操作时并没有做好充分计划 他们总是希望利用手头上任何可利用资源火速进行 而把数据清洗任务冀望于以后完成 更甚者 他们的测试环境和操作环境可能并不一致 或者他们只用少量数据子集来测试 没有测试过的数据很可能会在后面的操作引发大麻烦
企业经历著深刻的技术革命 却没有在数据整合和维护的管理上花费足够的时间和精力 最终只会成为不良数据的牺牲品 在数据迁移的过程中 有无数的机会让它们成为不良数据
不要指望IT部门来验证你的数据 让与这些数据密切相关的有能力的用户来帮助你做好数据整合计划和测试 在你决定进行整合之前 先查看一下所有数据 确定用于从中提取数据的应用软件 如果可以 最好测试所有的数据而不是其中某个子集 要知道正如上面的例子所示 就算是一个小的不能再小的错误都会把你和你的数据拉进痛苦的深渊
我们最后再用一个实例来说明小错误和大麻烦之间的关系
某商业风险管理解决方案供应商的某位客户创建了一个SQL服务器数据库 用来确定是否有错误的CAD文件在其网络内部流窜 原本的设想是 如果错误的数据包超过某设定阈值 公司管理员就会知道并进行数据挖掘和清洗工作 问题是他们不小心颠倒了数据库的规则设置(把两个阈值放反了) 导致错误数据包越多 提交公司的报告里显示的网络运行情况就越好 最后该公司网络被某种蠕虫病毒入侵 破坏了他们的工程CAD档案 他们不得不重头开始花费大量的金钱来重建大部分的文档 这一切都是因为一个非常简单数据提取设置错误造成的
lishixin/Article/program/Oracle/201311/17541
2. 数据清理中需要考虑到的因素包括
1、预处理:在实际业务处理中,数据通常磨斗是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题)
1、预处理:在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):
1.数据缺失(Incomplete)是老伏属性值为空的情况。如Occupancy=“”
2.数据噪声(Noisy)是数据值不合常理的情况。如Salary=“瞎含磨-100”
3.数据不一致(Inconsistent)是数据前后存在矛盾的情况。
如Age=“42”vs.Birthday=“01/09/1985”
4.数据冗余(Rendant)是数据量或者属性数目超出数据分析需要的情况。
5.数据集不均衡(Imbalance)是各个类别的数据量相差悬殊的情况。
6.离群点/异常值(Outliers)是远离数据集中其余部分的数据。
7.数据重复(Duplicate)是在数据集中出现多次的数据。标准化处理如:id对应不上淘宝个人信息表1阿宏xxxx支付宝个人信息表阿宏xxxx天猫个人信息表3阿宏xxxx标准化后对照表idnametbidzfbidtmId0001阿宏123淘宝个人信息表(+Standardid)1阿宏xxxx001支付宝个人信息表2阿宏xxxx001天猫个人信息表3阿宏xxxx00
去重处理分2种类型_全部字段:distinctgroupby、row_number_核心字段:row_number处理结果需要保留哪条数据要看具体情况4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位。缺失值处理,重新收集,分数据的重要程度平均法、中位数取行业标准取最常用的值空值替换
6、格式内容的处理时间、日期、数值、全半角格式不一致内容中不应该存在的内容内容与改字段应有的内容不一致
7、逻辑错误处理,年龄超过200、月份13月日期2月30,按照缺失值处理
8、修正矛盾数据确定那个字段是正确的
9、非需求数据清洗
10.关联性验证
3. 标题 为什么要进行数据清洗如果不进行数据清洗会有什么影响
为了保证数据的准确性和完整性,如果没有数据清洗那么结果会产生误差。
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗方法
一般来说,数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。
数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。
数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。
4. 数据清洗需清理哪些数据
数据清洗需要清理的数据,是输入数据后需要对数据进行预处理,只有处理得当的数据才能进到数据挖掘的步骤。而处理数据包括对数据数量和质量的处理。
包括对缺失的数据有添补或删除相关行列方法,具体步骤自己判断,如果数据量本来就很少还坚持删除,那就是自己的问题了。
添补:常用拉格朗日插值或牛顿插值法,也蛮好理解,属于数理基础知识。(pandas库里自带拉格朗日插值函数,而且这个好处是还可以在插值前对数据进行异常值检测,如果异常那么该数据就也被视为需要进行插值的对象)。
删除:这个也好理解,就是对结果分析没有直接影响的数据删除。
异常值
这个是否剔除需要视情况而定
像问题1中视为缺失值重新插值
删除含有异常值的记录(可能会造成样本量不足,改变原有分布)
平均值修正(用前后两个观测值平均值)
综上,还是方案一靠谱。
人生苦短,学好python
3 数据量太多,有三种方法:集成,规约,变换
(1)数据是分散的时,这个就是指要从多个分散的数据仓库中抽取数据,此时可能会造成冗余的情况。此时要做的是【数据集成】。
数据集成有两方面内容:
①冗余属性识别②矛盾实体识别
属性:
对于冗余属性个人理解是具有相关性的属性分别从不同的仓库中被调出整合到新表中,而新表中由于属性太多造成冗余,这时可以靠相关性分析来分析属性a和属性b的相关系数,来度量一个属性在多大程度上蕴含另一个属性。等等。
数据清洗时预处理阶段主要做两件事情:
一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。
二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。
数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。
5. 数据清洗是什么数据清洗有哪些方法
随着大数据时代的发展,越来越多的人开始投身于大数据分析行业。当我们进行大数据分析时,我们经常听到熟悉的行业词,如数据分析、数据挖掘、数据可视化等。然而,虽然一个行业词的知名度不如前几个词,但它的重要性相当于前几个词,即数据清洗。
顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。哪些数据被称为脏数据?例如,需要从数据仓库中提取一些数据,但由于数据仓库通常是针对某一主题的数据集合,这些数据是从多个业务系统中提取的,因此不可避免地包含不完整的数据。错误的数据非常重复,这些数据被称为脏数据。我们需要借助工具,按照一定的规则清理这些脏数据,以确保后续分析结果的准确性。这个过程是数据清洗。
常用的数据清洗方法主要有以下四种:丢弃、处理和真值转换。让我们来看看这四种常见的数据清洗方法。
1、丢弃部分数据
丢弃,即直接删除有缺失值的行记录或列字段,以减少趋势数据记录对整体数据的影响,从而提高数据的准确性。但这种方法并不适用于任何场景,因为丢失意味着数据特征会减少,以下两个场景不应该使用丢弃的方法:数据集中存在大量数据记录不完整和数据记录缺失值明显的数据分布规则或特征。
2、补全缺失的数据
与丢弃相比,补充是一种更常用的缺失值处理方法,通过某种方法补充缺失的数据,形成完整的数据记录对后续的数据处理。分析和建模非常重要。
3、不处理数据
不处理是指在数据预处理阶段,不处理缺失值的数据记录。这主要取决于后期的数据分析和建模应用。许多模型对缺失值有容忍度或灵活的处理方法,因此在预处理阶段不能进行处理。
4、真值转换法
承认缺失值的存在,并将数据缺失作为数据分布规律的一部分,将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。然而,变量的实际值可以作为变量值参与模型计算,而缺失值通常不能参与计算,因此需要转换缺失值的真实值。
俗话说,工欲善其事,必先利其器。一个好用的工具对数据清洗工作很有帮助,思迈特软件Smartbi的数据清洗功能就十分优秀。
思迈特软件Smartbi的轻量级ETL功能,可视化流程配置,简单易用,业务人员就可以参与。采用分布式计算架构,单节点支持多线程,可处理大量数据,提高数据处理性能。强大的数据处理功能不仅支持异构数据,还支持内置排序、去重、映射、行列合并、行列转换聚合以及去空值等数据预处理功能。
现在你知道什么是数据清洗吗?数据清洗是数据分析中一个非常重要的环节,不容忽视。Smartbi的这些功能配置,无疑是数据清洗的好帮手。
6. 什么是脏数据
脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格侍宴式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。
通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。
因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。
脏数据产生的影响:
1、丢失的修改:一个事物的更新覆盖了另一个事物的更新。例如:事物A和B读入同一数据并修渣厅改,B提交的结果破坏了A提交的结果,导致A的修改被丢失。
2、不可重复读:一个事物两次读取同一个数据,两次读取的数据不一致。不可重复读是指事物A读取数据后,事物B执行更新操作,事务A 无法再现前一次读取结果。
(1)事物A读取某一数据后,事物B对其作了修改,当事物A再次读取数据时,得到与前一次不同的值。
(2)事物A按一定的条件从数据库中读取了某些数据后,事物B删除了其中部分记录,当A再次以相同条件读取时,发现某些记录消失了。
3、脏读:一个事物读取了另一个事物未提交的数据。读“脏”数据是指事物A修改某一数据,并将其写回磁盘,事物B读取同一数据后,A由于某种原因被撤销,这时A已修改过的数据恢复原值,B读到的数据就与数据库中的数据不一致,则B读到的数据为“脏”数据,即不正确的数据。
4、幻读:一个事务按相同的查询条件重新读取以前检索过的数据,却发现其他事务插入了满足其查询条件的新数据,这种现象就称为“老梁银幻读”。
7. 干净数据是不需要清洗的数据
干净数据,clean data,大数据新词。
数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。
8. 数据清洗
从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解决方式和方法。在此简略描述一下,若有错误,请指出,不胜感激!
解决数据质量问题
解决数据的各种问题,包括但不限于:
数据的完整性----例如人的属性中缺少性别、籍贯、年龄等
数据的唯一性----例如不同来源的数据出现重复的情况
数据的权威性----例如同一个指标出现多个来源的数据,且数值不一样
数据的合法性----例如获取的数据与常识不符,年龄大于150岁
数据的一致性----例如不同来源的不同指标,实际内涵是一样的,或是同一指标内涵不一致
数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。
那么为了解决以上的各种问题,我们需要不同的手段和方法来一一处困饥冲理。
每种问题都有各种情况,每种情况适用不同的处理方法,具体如下:
解决数据的完整性问题:
解题思路:数据缺失,那么补上就好了。
补数据有什么方法?
通过其他信息补全,例如使用身份证件号码推算性别、籍贯、出生日期、年龄等
通过前后数据补全,例如时间序列缺数据了,可以使用前后的均值,缺的多了,可以使用平滑等处理,Matlab可以自动补全
实在补不全的,虽然很可惜,但也必须要剔除。但是不要删掉,没准以后可以用得上
解决数据的唯一性问题
解题思路:去除重复记录,只保留一条。
去重的方法有:
按主键去重,用sql或者excel“去除重复记录”即可,
按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重。
解决数据的权威性问题
解题思路:用最权威的那个渠道的数据
方法:
对不同渠道设定权威级别,例如:在家里,首先得相信媳妇说的。。。
解决数据的合法性问题
解题思路:设定判定规则
设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除
字段类型合法规则:日期字段格式为“2010-10-10”
字段内容合法规则:性别 in (男、女、未知);出生日期<=今天
设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理
警告规则:年龄》110
离群值人工特殊处理,使用分箱、聚类、回归、等方式发现离群值
解决数据的一致性问题
解题思路:建立数据体系,包含但不限于:
指标体系(度量)
维度(分组、统计口径)
单位
频度
数据
让数据更适合做挖掘或展示
目标包括但不限于:
高维度----不适合挖掘
维度太低----不适合挖掘
无关信息----减少存储
字段冗余----一个字汪歼段是其他字肢散段计算出来的,会造成相关系数为1或者主成因分析异常)
多指标数值、单位不同----如GDP与城镇居民人均收入数值相差过大
解决高维度问题
解题思路:降维,方法包括但不限于:
主成分分析
随机森林
解决维度低或缺少维度问题
解题思路:抽象,方法包括但不限于:
各种汇总,平均、加总、最大、最小等
各种离散化,聚类、自定义分组等
解决无关信息和字段冗余
解决方法:剔除字段
解决多指标数值、单位不同问题
解决方法:归一化,方法包括但不限于:
最小-最大
零-均值
小数定标
9. 大数据时代,为什么要对数据进行清洗
简单的来说,进行数据清洗就是使数据变得完整,从而使后续对这些数据进行分析的结果更为准确
10. 数据冗余是不是应该消除干净
数据冗余指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象手好。可以说增加数据的独立性和减少数据冗余为企业范围信息资源管理和大规模信息系统获得成功的前提条件。
数据拆槐冗余会妨碍数据库中数据的完整性(integrality),也会造成存贮空间的浪费。尽可能地降低数据冗余度,是数据库设计的主要目标之一。关系模式的规范化理沦(以下称NF理论)的主要思想之一就是最小冗余原则,即规范化的关系模式在某种意义上应该冗余度最小。
但是,NF理论没有标准的概念可用,按等价原则,在有或没有泛关系假设(universal relation assumption)等不同前提下,冗余的定义可能有好几种。
数据的应用中为了某种目的采取数据冗余方式。
1、重复存储或传输数据以防止数据的丢失。
2、对数据进行冗余性的编码来防止数据的丢失、错误,并提供对错误数据进行反变换得到原始数据的功能。
3、为简化流程所造成额数据冗余。
4、为加快处理过程而将同一数据在不同地点存放。
5、为方便处理而使同一信息在不同地点有不同的表现形式。
6、大量数据的索引,一般在数据库中经常使用。
7、方法类的信息冗余。
8、为了完备性而配备的冗余数据。
9、规则性的冗余。根据法律、制度、规则等约束进行的毕御铅。
10、为达到其他目的所进行的冗余。