① 大数据三大核心技术:拿数据、算数据、卖数据!
大数据的由来
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
1
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据的应用领域
大数据无处不在,大数据应用于各个行业,包括金融、 汽车 、餐饮、电信、能源、体能和 娱乐 等在内的 社会 各行各业都已经融入了大数据的印迹。
制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车 行业,利用大数据和物联网技术的无人驾驶 汽车 ,在不远的未来将走入我们的日常生活。
互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。
城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。
体育 娱乐 ,大数据可以帮助我们训练球队,决定投拍哪种 题财的 影视作品,以及预测比赛结果。
安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了 社会 生产和生活,未来必将产生重大而深远的影响。
大数据方面核心技术有哪些?
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
数据采集与预处理
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
Flume NG
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。
NDC
Logstash
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。
Sqoop
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapRece 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式计算
流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
Zookeeper
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。
数据存储
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
Phoenix
Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。
Redis
Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。
Atlas
Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。
Ku
Ku是围绕Hadoop生态圈建立的存储引擎,Ku拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Ku不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Ku的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。
在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减少磁盘上的存储。
数据清洗
MapRece作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Rece(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。
Oozie
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。
Azkaban
Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求
数据查询分析
Hive
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapRece。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapRece jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapRece程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapRece 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->rece->map->shuffle->rece…的模型。如果一个Query会被编译成多轮MapRece,则会有更多的写中间结果。由于MapRece执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。
Impala
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapRece批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapRece任务,相比Hive没了MapRece启动时间。
Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->rece模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark
Spark拥有Hadoop MapRece所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr
Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
Elasticsearch
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。
数据可视化
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。
在上面的每一个阶段,保障数据的安全是不可忽视的问题。
基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
简单说有三大核心技术:拿数据,算数据,卖数据。
② 大数据有哪些重要的作用
主要由以下三点作用:
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
③ 大数据未来的前景怎么样
大数据行业发展前景十分的好,比如现在很多的人工智能也需要大数据技术的支持,没有大数据的支持,人工智能将无法智能,这将进一步扩大大数据人才的缺口。
并且大数据自身就能够打造出庞大的价值空间,随着大数据应用于各行各业,并改变着各行各业,同时也引领大数据人才的变革,在国家及当地政府支持下,大数据在快速发展。
广大的学生群体、跨行就业、在职提升等人群都想进入大数据行业,但是又比较担心大数据的就业前景不好,因此大数据的就业前景备受大家关注。
大数据领域的就业岗位有以下几个特点:
1、就业岗位多
大数据技术本身具有一个天然的产业链,这条产业链涉及到诸多环节,包括数据采集、数据传输、数据存储、数据安全、数据分析、数据呈现和数据应用等,这些环节会释放出大量的人才需求。
2、人才类型覆盖广
大数据领域不仅人才需求量大,同时需要各种不同层次的人才,既需要具备创新能力的研究型人才,也需要应用型人才和技能型人才,随着大数据技术逐渐开始落地应用,大数据人才需求正在从创新型人才向应用型人才和技能型人才过渡,而这部分人才的规模也比较庞大。
3、行业覆盖广
大数据人才的就业渠道不仅仅包括科技公司和互联网公司,随着产业结构升级的不断推进,广大传统行业也将陆续释放出大量的大数据岗位,这是大数据就业的一个重要特点。从目前的行业特征来看,首先释放出大数据人才需求的行业包括金融、通信、医疗、出行和教育等行业,未来传统制造业也会释放出大量的岗位需求。
4、薪资待遇高
随着大数据、人工智能产品的应用,传统行业的诸多岗位将逐渐开始升级,人力资源的岗位附加值将逐渐提升,所以可以预见未来大数据领域的薪资待遇将不断提升。从近些年大数据方向研究生的就业薪资待遇来看,整体的薪资待遇还是比较可观的,而且在逐年提升。
④ 如何通过大数据分析提升商品管理
数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下:
平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
众数:是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
⑤ 大数据时代如何提升挖掘能力
利用它将数据转化为商业智能,提高企业的核心竞争力。从投资的角度来看,如对数据研究所支付的费用少于研究成果所带来的价值,数据挖掘就值得去做。正如修行的省悟过程一样,要将数据挖掘引入公司,并非只有一种途径。
⑥ 大数据成为提升公共服务质量和效率的重要手段是从什么视角看大数据的价值体现
大数据成为提升公共服务质量和效率的重要手段是从政府、民众、企业视角看大数据的价值体现。
在各类公共服务之中,政府公共服务部门亟须搭建快速、精准、高效的数字化办公流程和政务服务模式,为政府、民众和企业提供快捷、精准、高效、方便的公共服务,实现政府从粗放式管理向精细化管理转变、从单兵式管理向协作式管理转变、从线下实体化管理向线上网络化管理转变。
大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
(2)做小而美模式的中小微企业可以利用大数据做服务转型。
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
⑦ 高校如何利用大数据来提升招生与录取的质量
摘要:大数据时代的到来,对大学的招生、就业来说既是机遇也是挑战,大学的招生、就业模式必须不断创新,从而适应数据化时代的发展。本文在大数据时代背景下,分析了大学招生和就业人才培养联动机制,提出了具体措施。
⑧ 大数据都体现在哪些方面
第一:大数据技术不断提升数据自身的价值。大数据技术的核心诉求之一就是数据的价值化,大数据产业链几乎都是围绕数据价值化来打造的,随着大数据技术的不断发展,数据的价值必然会越来越大。
第二:人工智能离不开数据。数据作为人工智能发展的三个重要基础,在未来的智能化时代也将扮演着重要的角色,所以数据的价值也必然会随着人工智能技术的发展而得到提升。在工业互联网时代,人工智能技术是一个重要的发展趋势,借助于人工智能技术,工业互联网能够发挥出更大的作用,从而能够为广大的行业企业赋能。
第三:数据是互联网的价值载体。互联网发展到现在,急需一个体现互联网价值的载体,而数据就是这个天然的载体,相信随着互联网的不断发展,互联网整合社会资源的能力会越来越强,数据的价值也会不断得到攀升。由于互联网无处不在,所以通过数据来承载互联网价值也比较方便,未来通过互联网来实现“价值交换”也是一个比较明显的发展趋势。
⑨ 如何应用大数据提升智慧园区综合管理
信息技术的高速发展,不断推动着信息技术服务业业务向细分化、多样化方向发展,促使新产品、新业态大量涌现,进而创造新的市场空间,带动产业升级优化。大数据产业化进程加速,信息技术服务业由传统PC时代向新兴技术转移的节奏开始加速。企业专注自身优势领域的同时,亟需结合新兴技术支撑自身发展,开放合作成为产业主要趋势。于此同时,信息技术产业的竞争正从单一企业竞争演进到以聚合生态圈协同效应的全产业链竞争,生态圈建设的重要性凸显。根据2016年全国工业和信息化工作会议报告,2016年主要预期目标软件和信息技术服务业收入14%左右。根据国务院印发的《促进大数据发展行动纲要》(以下简称“《纲要》”),全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,有关发达国家相继制定实施大数据战略性文件,大力推动大数据发展和应用。目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。
《纲要》明确指出,①2018年底前建成国家政府数据统一开放平台;②到2020年,形成一批具有国际竞争力的大数据处理、分析、可视化软件和硬件支撑平台等产品。③培育10家国际领先的大数据核心龙头企业,500家大数据应用、服务和产品制造企业。实现关键部门的关键设备安全可靠。④2020年底前,逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等民生保障服务相关领域的政府数据集向社会开放。⑤中小微企业公共服务大数据。形成全国统一的中小微企业公共服务大数据平台。这是国家大数据战略的一个顶层设计,发展大数据是国家战略。虽然目前看来,人力资源的配给与现有的数据库管理技术基本是足够的,但是未来,如果人类管理数据的效率不能保持同步提升,人类在大数据时代将无法对数据进行有效管理。大数据管理技术以及开放的大数据生态圈将促使大数据行业的快速发展。
(一)大数据市场竞争格局
大数据产业属技术密集型产业,竞争更多是技术实力与创新能力的比拼,离数据越近的产业环节,产业价值越大。能掌控大数据实时集成、海量信息处理和管理、云存储等技术的厂商将成为产业的主导者,主导未来大数据产业技术发展方向,促进商业模式创新。大数据产业链现在已经初现雏形,围绕大数据的产生与集聚、组织与管理、分析与发现、应用与服务各层级正在加速构建。目前,在大数据产业链上有三种大数据公司:
(1)基于数据本身的公司(数据拥有者):拥有数据,不具有数据分析的能力;(2)基于技术的公司(技术提供者):技术供应商或者数据分析公司等;(3)基于思维的公司(服务提供者):挖掘数据价值的大数据应用公司。
(二)大数据产业进入壁垒
1、数据资源壁垒
大数据时代的一大特点就是,数据成为企业核心资产,丰富的高质量数据资源是大数据产业发展的前提。近几年在互联网产业及金融、电信信息化快速发展的带动下,我国数据资源总量有了快速增长,已达到全球的13%,但其他行业受信息化水平制约,数据储量仍不丰富。对数据的掌握决定对市场的支配权;越靠近最终用户的企业,将在产业链中拥有越大的发言权。
2、技术壁垒
两类企业将在大数据产业链处于重要地位。一种是掌握海量有效数据的企业,第二种是有强大数据分析能力的企业。关键是谁拥有更多、更准、更有价值的数据。中国大数据应用处在起步阶段。淘宝、腾讯以及网络这些互联网巨头是率先使用大数据技术的用户,但他们主要基于开源软件自主开发大数据应用。行业进入需要具有较高的技术层次,技术和产品的创新能力是推动公司取得竞争优势的关键因素。
3、政策壁垒
为把握大数据时代战略机遇,我国要加速营造良好的大数据产业生态环境,政府应不断完善政策法规,创建适度宽松的发展环境,提升中国在世界信息产业的地位;IT厂商应聚焦技术创新与服务模式创新,洞察用户需求,提供高可用性的整体性解决方案;行业用户应当通过云平台实现数据大集中,形成企业数据资产;同时深度分析挖掘大数据的价值,推动企业智能决策。
4、专利壁垒
保护知识产权是软件与信息技术服务产业发展的重要因素,只有保护好知识产权,才能保护和提高开发商开发软件的积极性,才能促进软件产业的蓬勃发展,十二五规划对知识产权的保护力度进一步增大,这将对专利壁垒起到良好的促进作用。
(三)影响大数据产业发展的有利因素和不利因素
l 大数据产业发展的有利因素
1、国家政策大力支持
公司处于国家行业政策鼓励和重点支持发展的行业。发展和提升软件和信息技术服务业,对于推动信息化和工业化深度融合,培育和发展战略性新兴产业,建设创新型国家,加快经济发展方式转变和产业结构调整,提高国家信息安全保障能力和国际竞争力具有重要意义。为此国家出台《国务院关于印发进一步鼓励软件产业和集成电路产业发展若干政策的通知》、《国务院关于加快培育和发展战略性新兴产业的决定》、《软件和信息技术服务业十二五发展规划》、《关于印发促进大数据发展行动纲要的通知》等政策,从税收、研究经费、进出口优惠、人才培养、知识产权保护、市场开发和投融资等方面给予了较为全面的政策支持。根据国家发展规划,预期未来国家还将出台更多针对软件和信息产业的专门政策,这将有力地推动我国软件和信息产业的健康稳步发展。
2、大数据技术开发应用前景广阔
国家计划在2018年底前建成国家政府数据统一开放平台,率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放,带动社会公众开展大数据增值性、公益性开发和创新应用,充分释放数据红利,与云计算、物联网、移动互联网等新一代信息技术融合发展,与传统产业协同发展新业态、新模式,促进传统产业转型升级和新兴产业发展,激发大众创业、万众创新活力。
l 行业发展的不利因素
1、产业创新体系不健全,核心技术缺乏
长久以来,我国信息化建设过程中存在着“重硬轻软”的思想倾向。在软件产品开发层面,民众版权意识薄弱,盗版现象严重。另外,国内企业普遍规模较小、自主创新能力不足。创新能力不足是制约中国信息产业尤其是软件和信息服务业发展的瓶颈。目前,行业内虽已涌现出一些具有自主知识产权的高技术、高附加值的产品,但从总体上看,多数企业或产品尚没有自己的自主知识产权或核心技术,企业依靠产品的低水平重复开发、国外知名品牌产品代理销售等业务生存的现象较为普遍。
2、人才结构矛盾突出
软件和信息技术服务业是一个知识密集型产业,具有高技术含量和高附加值的特点,其发展需离不开大量的高素质人才。目前,我国软件行业从业人员数量规模可观,但高层次、复合型、领军型人才依然缺乏,尤其是在经营管理、技术创新等方面具有国际化视野的高端人才较为匮乏,这已经成为制约中国软件和信息技术服务业发展的关键因素之一。
3、大数据行业发展仍在初级阶段
我国的大数据产业具备良好基础,发展前景广阔。一是一批世界级的互联网公司在大数据应用上不断推陈出新,智能搜索、广告、电商、社交等借助大数据技术持续进化,互联网金融、O2O(online
to offline)等应用借助大数据向线下延伸。二是大数据技术紧跟国际先进水平,具备建设和运营世界最大规模大数据平台的能力,单集群规模达5000 到10000
台服务器,数据管理规模达到EB(1EB=1018B)级别,在机器学习等方面也有所突破。三是当前和未来一段时间,我国面临着经济结构转型升级、政府和公共服务改进提升等紧迫任务,这些方面大数据都有广阔的应用前景。大数据在全球的发展还都处于初期,技术、制度、观念等方面都需要改变。对我国来说,数据资源不丰富,数据开放程度较低、技术差距大,技术水平不高,技术扩散不畅和法律法规不完善是限制当前大数据发展的主要问题,金鹏信息智慧园区软件。