大数据收集很困难_大数据怎么收集

㈠大数据发展遇到的困境

大数据的理念已经被追捧多年，但是还远未达到人们想象的完全实用的程度。大数据的发展受阻主要表现在以下几个方面:

1.数据基础的缺失

大数据发展的前提条件是要有丰富的数据源，对于制造业，IT行业数据化程度比较高，虽然缺少资源共享和信息交换，但至少可以在公司内部探索和尝试。

但对于教育，医疗行业数据化程度还是远远落后于大数据时代的需求。单从患者的角度考虑，自己在各个医院的病例和居家检测的医学数据。如果将这些数据利用起来，就会遇到数据源不算，数据格式不统一，隐私问题等等。

2.数据孤岛之踵

不同的数据源独立存在，不能够互相共享，形成了一个个数据孤岛。

政府部门缺乏数据开放的动力，由于其掌握的数据有一定的敏感性而趋于保守态度。比如税务部门的个人纳税信息会涉及到个人隐私，公安部门的监控信息更是涉及到个人的人身安全问题。

各大企业不会随便开放自身有价值的数据，因为它有巨大的商业价值，也关系到企业的生死存亡。比如搜索引擎，谷歌的搜寻效果比其他的好，其实他们的技术差别不大。真正的差异是谷歌的数据量大，能够找到最佳的搜索策略。而其他的搜索引擎则相反，从而造成恶性循环。

即使没有商业竞争，企业也会尽量独占数据。比如航空公司的航班晚点，他不会提前通知，而会出于商业利益选择在乘客登记结束后广播通知。

3.难以突破创新的瓶颈

对于相应行业数据垄断的大企业，利用自身垄断地位阻碍创新使垄断地位更加坚固。搜索引擎就是一个很好的案例，还有某互联网公司利用资源优势模仿竞争对手的创新产品，并且挤垮对手。

4.个人隐私

个人信息越来越多的被别人掌握，我们既不能阻止，也不知道会产生怎样的后果。一方面，我们的虚拟世界和实际生活轨迹可以通过大数据洞察一切，预测我们的行为。另一方面，作为数据的主人，却不知道数据如何被记录，流向哪里，被谁利用，这个过程我们一无所知。

大数据的发展需要解决个人隐私问题。一方面不能被无限制的使用，每个人都有对个人隐私有知情权，拒绝的权利。另一方面需要将个人隐私数据找到安全，可靠的方法共享，这样大数据才能够发展。

5.其他方面

数据的泛滥，盲目的崇拜等

㈡如何应对物联网时代下数据采集的机遇与挑战

大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富，价值堪比石油。因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。

大数据时代的来临

互联网特别是移动互联网的发展，加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示，1998年全球网民平均每月使用流量是1MB（兆字节），2000年是10MB，2003年是100MB，2008年是1GB（1GB等于1024MB），2014年将是10GB。全网流量累计达到1EB（即10亿GB或1000PB）的时间在2001年是一年，在2004年是一个月，在2007年是一周，而2013年仅需一天，即一天产生的信息量可刻满1.88亿张DVD光盘。我国网民数居世界之首，每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB（1TB等于1000GB），存储量40PB(1PB等于1000TB)。网络公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。一个8Mbps（兆比特每秒）的摄像头一小时能产生3.6GB数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在，一个病人的CT影像数据量达几十GB，而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。总之，大数据存在于各行各业，一个大数据时代正在到来。

信息爆炸不自今日起，但近年来人们更加感受到大数据的来势迅猛。一方面，网民数量不断增加，另一方面，以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网，人均0.1个；2013年全球将有500亿个设备联网，人均70个。随着宽带化的发展，人均网络接入带宽和流量也迅速提升。全球新产生数据年增40%，即信息总量每两年就可以翻番，这一趋势还将持续。目前，单一数据集容量超过几十TB甚至数PB已不罕见，其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。

数据规模越大，处理的难度也越大，但对其进行挖掘可能得到的价值更大，这就是大数据热的原因。首先，大数据反映舆情和民意。网民在网上产生的海量数据，记录着他们的思想、行为乃至情感，这是信息时代现实社会与网络空间深度融合的产物，蕴含着丰富的内涵和很多规律性信息。根据中国互联网络信息中心统计，2012年底我国网民数为5.64亿，手机网民为4.2亿，通过分析相关数据，可以了解大众需求、诉求和意见。其次，企业和政府的信息系统每天源源不断产生大量数据。根据赛门铁克公司的调研报告，全球企业的信息存储总量已达2.2ZB（1ZB等于1000EB），年增67％。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元，收集环境和社会管理所需的信息。2011年，英国《自然》杂志曾出版专刊指出，倘若能够更有效地组织和使用大数据，人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。

大数据应用的领域

大数据技术可运用到各行各业。宏观经济方面，IBM日本公司建立经济指标预测系统，从互联网新闻中搜索影响制造业的480项经济数据，计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具，从近千万条网民留言中归纳出六种心情，进而对道琼斯工业指数的变化进行预测，准确率达到87%。制造业方面，华尔街对冲基金依据购物网站的顾客评论，分析企业产品销售状况；一些企业利用大数据分析实现对采购和合理库存量的管理，通过分析网上数据了解客户需求、掌握市场动向。有资料显示，全球零售商因盲目进货导致的销售损失每年达1000亿美元，这方面的数据分析大有作为。

在农业领域，硅谷有个气候公司，从美国气象局等数据库中获得几十年的天气数据，将各地降雨、气温、土壤状况与历年农作物产量的相关度做成精密图表，预测农场来年产量，向农户出售个性化保险。在商业领域，沃尔玛公司通过分析销售数据，了解顾客购物习惯，得出适合搭配在一起出售的商品，还可从中细分顾客群体，提供个性化服务。在金融领域，华尔街“德温特资本市场”公司分析3.4亿微博账户留言，判断民众情绪，依据人们高兴时买股票、焦虑时抛售股票的规律，决定公司股票的买入或卖出。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业，对他们发放无需担保的贷款。目前已放贷300多亿元，坏账率仅0.3%。

在医疗保健领域，“谷歌流感趋势”项目依据网民搜索内容分析全球范围内流感等病疫传播状况，与美国疾病控制和预防中心提供的报告对比，追踪疾病的精确率达到97%。社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台，医生借此可获得在医院通常得不到的临床效果统计数据。基于对人体基因的大数据分析，可以实现对症下药的个性化治疗。在社会安全管理领域，通过对手机数据的挖掘，可以分析实时动态的流动人口来源、出行，实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎，可以收集热点事件，挖掘舆情，还可以追踪造谣信息的源头。美国麻省理工学院通过对十万多人手机的通话、短信和空间位置等信息进行处理，提取人们行为的时空规律性，进行犯罪预测。在科学研究领域，基于密集数据分析的科学发现成为继实验科学、理论科学和计算科学之后的第四个范例，基于大数据分析的材料基因组学和合成生物学等正在兴起。

麦肯锡公司2011年报告推测，如果把大数据用于美国的医疗保健，一年产生潜在价值3000亿美元，用于欧洲的公共管理可获得年度潜在价值2500亿欧元；服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元；利用大数据分析，零售商可增加运营利润60%，制造业设备装配成本会减少50%。

大数据技术的挑战和启示

目前，大数据技术的运用仍存在一些困难与挑战，体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志，去伪存真，尽可能收集异源甚至是异构的数据，必要时还可与历史数据对照，多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标，通常要用到冗余配置、分布化和云计算技术，在存储时要按照一定规则对数据进行分类，通过过滤和去重，减少存储量，同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数，其复杂性不仅体现在数据样本本身，更体现在多源异构、多实体和多空间之间的交互动态性，难以用传统的方法描述与度量，处理的复杂度很大，需要将高维图像等多媒体数据降维后度量与处理，利用上下文关联进行语义分析，从大量动态而且可能是模棱两可的数据中综合信息，并导出可理解的内容。第四是结果的可视化呈现，使结果更直观以便于洞察。目前，尽管计算机智能化有了很大进步，但还只能针对小规模、有结构或类结构的数据进行分析，谈不上深层次的数据挖掘，现有的数据挖掘算法在不同行业中难以通用。

大数据技术的运用前景是十分光明的。当前，我国正处在全面建成小康社会征程中，工业化、信息化、城镇化、农业现代化任务很重，建设下一代信息基础设施，发展现代信息技术产业体系，健全信息安全保障体系，推进信息网络技术广泛运用，是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情，把握规律，实现科学发展，做出科学决策具有重要意义，我们必须重新认识数据的重要价值。

为了开发大数据这一金矿，我们要做的工作还很多。首先，大数据分析需要有大数据的技术与产品支持。发达国家一些信息技术（IT）企业已提前发力，通过加大开发力度和兼并等多种手段，努力向成为大数据解决方案提供商转型。国外一些企业打出免费承接大数据分析的招牌，既是为了练兵，也是为了获取情报。过分依赖国外的大数据分析技术与平台，难以回避信息泄密风险。有些日常生活信息看似无关紧要，其实从中也可摸到国家经济和社会脉搏。因此，我们需要有自主可控的大数据技术与产品。美国政府2012年3月发布《大数据研究与发展倡议》，这是继1993年宣布“信息高速公路”之后又一重大科技部署，联邦政府和一些部委已安排资金用于大数据开发。我们与发达国家有不少差距，更需要国家政策支持。

中国人口居世界首位，将会成为产生数据量最多的国家，但我们对数据保存不够重视，对存储数据的利用率也不高。此外，我国一些部门和机构拥有大量数据却不愿与其他部门共享，导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁，应注重公开信息，应重视数据挖掘。美国联邦政府建立统一数据开放门户网站，为社会提供信息服务并鼓励挖掘与利用。例如，提供各地天气与航班延误的关系，推动航空公司提升正点率。

大数据的挖掘与利用应当有法可依。去年底全国人大通过的加强网络信息保护的决定是一个好的开始，当前要尽快制定“信息公开法”以适应大数据时代的到来。现在很多机构和企业拥有大量客户信息。应当既鼓励面向群体、服务社会的数据挖掘，又要防止侵犯个体隐私；既提倡数据共享，又要防止数据被滥用。此外，还需要界定数据挖掘、利用的权限和范围。大数据系统本身的安全性也是值得特别关注的，要注意技术安全性和管理制度安全性并重，防止信息被损坏、篡改、泄露或被窃，保护公民和国家的信息安全。

大数据时代呼唤创新型人才。盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万—49万，缺口14万—19万人；需要既熟悉本单位需求又了解大数据技术与应用的管理者150万，这方面的人才缺口更大。中国是人才大国，但能理解与应用大数据的创新人才更是稀缺资源。

大数据是新一代信息技术的集中反映，是一个应用驱动性很强的服务领域，是具有无穷潜力的新兴产业领域；目前，其标准和产业格局尚未形成，这是我国实现跨越式发展的宝贵机会。我们要从战略上重视大数据的开发利用，将它作为转变经济增长方式的有效抓手，但要注意科学规划，切忌一哄而上。

㈢大数据怎么收集

通过数据抓取和数据监测，整合成一个巨大的数据库——产业经济数据监测、预测与政策模拟平台

㈣ 7个因素决定大数据的复杂性如何处理

7个因素决定大数据的复杂性如何处理

我们谈论了很多关于复杂数据及其为你的商业智能带来的挑战和机遇，但是导致数据复杂化的是什么呢？

以及你如何区分你的公司当前的数据是否是“复杂的”，亦或不久的将来会变得复杂？本文将解决这些问题。

为什么这很重要？

当你试图将数据转化为商业价值时，它的复杂度很可能会预示你将面对的困难程度——复杂数据的准备和分析通常要比简单数据更加困难，以及通常需要一组不同的BI 工具来实现。复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作和数据模型。因此重要的是，通过了解您目前的数据的复杂程度以及它在未来的复杂性趋向，来评估您的大数据/商业智能项目是否能够胜任这一任务。

简单测试：大数据或者异构数据

在高级层面上，有两种基本的迹象表明你的数据可能被视为是复杂的：

你的数据很“大”：我们把大放在引号里是因为它貌似符合“大数据”术语的含义。然而事实是，处理海量数据在计算资源需要处理巨大的数据集方面提出了一个挑战，就像把小麦从谷壳分开的困难，或者说在一个巨大的原始信息中辨别信号和杂音。

你的数据来自许多不同的数据源：多重数据源通常意味着脏数据，或者遵循着不同的内部逻辑结构的简单的多个数据集。为了确保数据源有统一的数据语言，数据必须被转换或整合到一个中央资源库。

可以认为这是两个最初的（可供选择的）征兆：如果你正处理大数据或异构数据，你应当开始思考数据的复杂性。但是深究一下，对你的公司的数据的复杂性，以下有7个更具体的指标。

（注意，以上两点之间有相似之处，但不互相排除——反之，例如，离散数据往往意味着各种各样的数据结构类型）

7个因素决定你的数据的复杂性

1、数据结构

不同数据源的数据，或甚至来自同一个源的不同表，通常设计同样的信息但结构却完全不同：

举例来说，想象你们人力资源部有三种不同的表格，一个是员工个人信息表，另一个是员工职位和薪资表第三个是员工职位要求表，诸如此类——而你们财务部门随同保险、福利和其他花费一起记录同样的信息到单个表中。另外，在这些表中的一些表可能提到员工的全名，而另一些则只有名字的首字母，或者二者的结合。为了从所有表中有效使用数据，同时不丢失或重复信息，需要数据建模或准备工作。

这是最简单的用例：更进一步复杂化的是处理最初没有适当地模式的非结构化数据源（例如NoSQL 数据库）。

2、数据大小

再次回到模糊的“大数据”概念，你收集的数据量会影响你需要用来分析它的软硬件的类型。这个可以通过原始大小来衡量：字节，TB或PB——数据增长越大，越有可能“窒息”广泛使用的内存数据库（IMDB），依赖于转化压缩数据到服务器内存。其他因素包括多元异构数据——包含很多数据行的表（Excel，可以说是最常用的数据分析工具，最大行数限制为1048576行），或结构化数据——包含很多数据列的表。

你将会发现在分析工具和方法上用于分析100,000行数据和那些用于分析1亿行数据的是明显不同的。

3、数据细节

你想要探索的数据的粒度水平。当创建一个仪表盘或报表，展现总结或聚合数据时常常比让终端用户钻取到每一个细节更容易实现——然而这是以牺牲数据分析的深度和数据挖掘为代价而做的权宜之计。

创建一个BI系统，使其具有颗粒向海量数据钻取处理分析的能力，（不依赖于预定义查询，聚合或汇总表）

4、查询语言

不同的数据源有不同的数据语言：虽然SQL是从常见数据源和RDBMS提取数据的主要手段，但是当使用第三方平台时你会经常需要通过它自己的API和语法去连接它，以及解析用于访问数据的数据模型和协议。

你的BI工具需要足够灵活的根据数据源允许这种本地连接的方式，或者通过内置插件或API访问，否则你会发现你自己将不得不重复一个繁琐的导出数据到表格SQL数据库数据仓库的过程，然后导入到你的商业智能软件里，从而使你的分析变得麻烦。

5、数据类型

一方面动态数据以表格形式存储，处理的大多是数值型数据，但是大规模和非结构化的机器数据完全是另外一回事儿，就像是文字数据集存储在MongoDB中，当然了，更别提像视频音频这种超大规模的非结构化数据了。

不同的数据类型具有不同的规则，为使得商业决策建立在对公司数据的全面考虑的基础上，找到一种建立单一可信来源的方法是至关重要的。

6、离散数据

数据存储在多个位置：例如，组织里的不同部门，本地或云（付费存储或通过云应用），来自客户或供应商的外部数据等。这种数据不仅收集起来很困难（简单来说是由于及时而有效的接收数据而需要的利益相关者的数量）。而且一旦收集了——在不同的数据集交叉引用和分析之前，通常需要“清理”或标准化，因为每个本地数据集是根据相关组织应用程序自身的实际和关注收集数据。

7、数据量的增长

最终，你不仅需要考虑当前数据，还有数据的增长或变化的速度。如果经常更新数据源，或经常增加新的数据源，这将会消耗你的软硬件资源（无论何时当源数据发生重大更改时,不是非常先进的系统都需要重新获取整个数据集）,以及上述提到的关于结构、类型、大小的复合性问题等。

怎样掌控复杂数据？

如果你认同上述的一个或更多以及你的数据刚刚好是复杂的，不要绝望：理解，是找到一个合适的解决方案的第一步，以及复杂数据的分析本身不需要过于复杂。我们将在未来的文章中涉及解决复杂数据的方法，但是你将想问自己的第一件事可能是——控制复杂数据你实际需要多少BI系统。

以上是小编为大家分享的关于7个因素决定大数据的复杂性如何处理的相关内容，更多信息可以关注环球青藤分享更多干货

㈤大数据面行业发展面临哪些现实困境

1、大部分数据都是孤立的，与其他类型的数据隔离开来，无法进行宏观全面的分析。例如，财务数据很难与消费者数据轻松汇总，以获得关于特定客户行为对公司财务绩效影响的更深刻的见解。
2、很难足够快地处理大数据以使洞察有用。大多数类型的数据的价值都是短暂的，消费者今天所做的将在明天和后天发生改变。为了获得最大利益，企业需要能够快速提供行动指导的洞察，但大多数传统的数据库系统无法以必要的速度处理数据。
3、收集的大部分数据都被浪费掉了。负责在海量数据中寻找业务问题“答案”的业务分析师必须过滤掉不相关的数据，并找出可能存在答案的特定数据集。结果，估计有60%至73%的数据未提供价值。如今，另一个主要的数据来源正在推动潮流——物联网数据。物联网在许多方面加剧了数据问题，但它也提供了解决方案。

㈥如何提高收集数据和分析数据的能力

谈一些个人的工作经验，希望对后来人有帮助。首先总结下平时数据分析的一般步骤。

---------------------------浓缩精华版--------------------------------

第一步：数据准备：（70%时间）

获取数据（爬虫，数据仓库）

验证数据

数据清理（缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集）

使用python进行文件读取csv或者txt便于操作数据文件（I/O和文件串的处理，逗号分隔）

抽样（大数据时。关键是随机）

存储和归档

第二步：数据观察（发现规律和隐藏的关联）

单一变量：点图、抖动图；直方图、核密度估计；累计分布函数

两个变量：散点图、LOESS平滑、残差分析、对数图、倾斜

多个变量：假色图、马赛克图、平行左边图

第三步：数据建模
推算和估算（均衡可行性和成本消耗）

缩放参数模型（缩放维度优化问题）

建立概率模型（二项、高斯、幂律、几何、泊松分布与已知模型对比）

第四步：数据挖掘

选择合适的机器学习算法（蒙特卡洛模拟，相似度计算，主成分分析）

大数据考虑用Map/Rece

得出结论，绘制最后图表

循环到第二步到第四步，进行数据分析，根据图表得出结论完成文章。

------------------------------业务分析版--------------------------------
“无尺度网络模型”的作者艾伯特-拉斯洛·巴拉巴西认为——人类93%的行为是可以预测的。数据作为人类活动的痕迹，就像金矿等待发掘。但是首先你得明确自己的业务需求，数据才可能为你所用。

1. 数据为王，业务是核心
了解整个产业链的结构
制定好业务的发展规划

衡量的核心指标有哪些

有了数据必须和业务结合才有效果。首先你需要摸清楚所在产业链的整个结构，对行业的上游和下游的经营情况有大致的了解。然后根据业务当前的需要，指定发展计划，从而归类出需要整理的数据。最后一步详细的列出数据核心指标（KPI），并且对几个核心指标进行更细致的拆解，当然具体结合你的业务属性来处理，找出那些对指标影响幅度较大的影响因子。前期资料的收集以及业务现况的全面掌握非常关键。

2. 思考指标现状，发现多维规律
熟悉产品框架，全面定义每个指标的运营现状

对比同行业指标，挖掘隐藏的提升空间

拆解关键指标，合理设置运营方法来观察效果

争对核心用户，单独进行产品用研与需求挖掘

发现规律不一定需要很高深的编程方法，或者复杂的统计公式，更重要的是培养一种感觉和意识。不能用你的感觉去揣测用户的感觉，因为每个人的教育背景、生活环境都不一样。很多数据元素之间的关系没有明显的显示，需要使用直觉与观察（数据可视化技术来呈现）。

3. 规律验证，经验总结
发现了规律之后不能立刻上线，需要在测试机上对模型进行验证。

P.S.数学建模能力对培养数感有一定的帮助
推荐两个论坛：
数学建模与数学应用论坛(Mathematical Modeling and Mathematical Applications Forum)

数学中国 (数学建模)-最专业的数学理论研究、建模实践平台

㈦收集大数据真的有那么难么

在谈及大数据概念时，人们经常会问：到底什么是大数据看面对这个问题，不同专的人都有不同的理解，也能描述属出很多不同的话语来。但如果用一句话来概括，应该怎样描述看

其实大数据是一种现象，这种现象就是舍恩伯格的大数据时代书中描述的大数据的4V特征，即数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)。拥有这4V特征的数据都叫大数据。
透过现象看本质，大数据的本质是什么。大数据的本质还是数据，只是数据量比以前大了一点点。从数据的角度看，数据的价值不在于其本身，而在于其分析后的商业价值。因此大数据的价值也在其分析后的商业价值。谷歌使用大数据进行的流感预测，使人们感受到了大数据带来的巨大商业价值，因此人们纷纷利用大数据进行商业分析。

㈧如何解决大数据4个特点带来的四个困难

我觉得大数据是现代非常值得研究关注的一个课题，困难很多。

导航:首页 > 网络数据 > 大数据收集很困难

大数据收集很困难

与大数据收集很困难相关的资料

友情链接