1. 什么是大数据,通俗的讲
有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,maprece是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapRece组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。
2. 有谁知道大数据指的是什么
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
说起大数据,就要说到商业智能:
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能作为一个工具,是用来处理企业中现有数据,并将其转换成知识、分析和结论,辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术,包含了从数据仓库到分析型系统等。
商务智能的产生发展
商业智能的概念经由Howard Dresner(1989年)的通俗化而被人们广泛了解。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。
商务智能是20世纪90年代末首先在国外企业界出现的一个术语,其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势,也有人称之为混沌世界中的智能。因此,越来越多的企业提出他们对BI的需求,把BI作为一种帮助企业达到经营目标的一种有效手段。
目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
为了将数据转化为知识,需要利用数据仓库、线上分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是ETL、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。
把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
企业导入BI的优点
1.随机查询动态报表
2.掌握指标管理
3.随时线上分析处理
4.视觉化之企业仪表版
5.协助预测规划
导入BI的目的
1.促进企业决策流程(Facilitate the Business Decision-Making Process):BIS增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质。
2.降低整体营运成本(Power the Bottom Line):BIS改善企业的资讯取得能力,大幅降低IT人员撰写程式、Poweruser制作报表的时间与人力成本,而弹性的模组设计介面,完全不需撰写程式的特色也让日后的维护成本大幅降低。
3.协同组织目标与行动(Achieve a Fully Coordinated Organization):BIS加强企业的资讯传播能力,消除资讯需求者与IT人员之间的认知差距,并可让更多人获得更有意义的资讯。全面改善企业之体质,使组织内的每个人目标一致、齐心协力。
商业智能领域的技术应用
商业智能的技术体系主要有数据仓库(Data Warehouse,DW)、联机分析处理(OLAP)以及数据挖掘(Data Mining,DM)三部分组成。
数据仓库是商业智能的基础,许多基本报表可以由此生成,但它更大的用处是作为进一步分析的数据源。所谓数据仓库(DW)就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。多维分析和数据挖掘是最常听到的例子,数据仓库能供给它们所需要的、整齐一致的数据。
在线分析处理(OLAP)技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。
数据挖掘(DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。
商业智能的应用范围
1.采购管理
2.财务管理
3.人力资源管理
4.客户服务
5.配销管理
6.生产管理
7.销售管理
8.行销管理
商业智能实施步骤
商业智能系统处理流程[1]
商业智能(BI)作为一个概念,描述与业务紧密结合,并且根据需要进行相关特性展示和数据处理的过程。
为了让数据“活”起来,往往需要利用数据仓库、数据挖掘、报表设计与展示、联机在线分析(OLAP)等技术。数据或者数据源包含的种类繁多,例如存储在关系型数据库中的,在外围数据文件中的,在业务流中实时产生存储在内存中的等等。而商业智能最终能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。
这些分析有财务管理、点击流分析(Clickstream)、供应链管理、关键绩效指标(Key Performance Indicators, KPI)、客户分析等。商业智能关注的是,从各种渠道(软件,系统,人,等等)发掘可执行的战略信息。商业智能用的工具有抽取(Extraction)、转换(Transformation)和加载(Load)软件(搜集数据,建立标准的数据结构,然后把这些数据存在另外的数据库中)、数据挖掘和在线分析(Online Analytical Processing,允许用户容易地从多个角度选取和察看数据)等 。
商业智能系统的功能
商业智能系统应具有的主要功能:
数据仓库:高效的数据存储和访问方式。提供结构化和非结构化的数据存储,容量大,运行稳定,维护成本低,支持元数据管理,支持多种结构,例如中心式数据仓库,分布式数据仓库等。存储介质能够支持近线式和二级存储器。能够很好的支持现阶段容灾和备份方案。
数据ETL:数据ETL支持多平台、多数据存储格式(多数据源,多格式数据文件,多维数据库等)的数据组织,要求能自动化根据描述或者规则进行数据查找和理解。减少海量、复杂数据与全局决策数据之间的差距。帮助形成支撑决策要求的参考内容。
数据统计输出(报表):报表能快速的完成数据统计的设计和展示,其中包括了统计数据表样式和统计图展示,可以很好的输出给其他应用程序或者Html形式表现和保存。对于自定义设计部分要提供简单易用的设计方案,支持灵活的数据填报和针对非技术人员设计的解决方案。能自动化完成输出内容的发布。
分析功能:可以通过业务规则形成分析内容,并且展示样式丰富,具有一定的交互要求,例如预警或者趋势分析等。要支持多维度的联机在线分析(OLAP分析),实现维度变化、旋转、数据切片和数据钻取等。帮助决策做出正确的判断。
典型的商业智能系统
典型的商业智能系统有:
客户分析系统、菜篮分析系统、反洗钱系统、反诈骗系统、客户联络分析系统、市场细分系统、信用计分系统、产品收益系统、库存运作系统以及与商业风险相关的应用系统等。
[编辑]商业智能解决方案厂商
提供商业智能解决方案的著名IT厂商包括微软、IBM、Oracle、Microstrategy、Business Objects、Cognos、SAS等
最后,希望你关注一下FineBI,帆软软件的大数据解决方案,我看了,还是很不错的
3. 大数据的定义是什么
大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
4. 大数据是什么概念
世界包含的多得难以想象的数字化信息变得更多更快……从商业到科学,从政府到艺术,这种影响无处不在。科学家和计算机工程师们给这种现象创造了一个新名词:“大数据”。
所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢?
七:最后北京开运联合给您总结一下
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
1、从大数据的价值链条来分析,存在三种模式:
1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
2、未来在大数据领域最具有价值的是两种事物:
1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;
2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
大 数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不
断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于
数据的应用需求和应用水平进入新的阶段。
5. 大数据的权威定义
大数据是IT行业的术语,指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据起源 2008年9月,美国《自然》杂志,正式提出“大数据”概念
2011年2月1日,美国《科学》杂志,通过社会调查的方式,第一次分析了大数据对人们生活的影响
2011年5月,麦肯锡研究院分布报告。大数据是指其大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。
具有4V特征(value,volume,velocity,variety)
Value:价值高。
Volume:体量大。(数据每个18月翻一番,而每年产生的数据量增长到44万亿GB)
Velocity:速度快。(数据生成,存储,分析,处理远远超过人们的想象力)
Variety:种类多。
大数据的来源
按产生主体
(1)企业(关系型数据库,数据仓库)
(2)人(浏览信息,聊天,电子商务......)
(3)机器(服务器产生日志,视频监控数据)
数据来源的行业划分
(1)BAT三大公司为代表
(2)电信、金融、保险、电力、石化系统
(3)公共安全、医疗、交通领域
(4)气象、地理、政务等领域
(5)制造业和其他产业
3.按数据存储的形式划分
(1)结构化
(2)非结构化
二.大数据技术支撑
大数据运用场景
环境,教育,医疗,农业,智慧城市,零售业,金融业。
大数据的处理方法
数据采集
数据抓取,数据导入,物联网设备自动抓取
数据预处理
数据清理,数据集成,数据转换,数据规约。
转换:过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
规约:寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。
统计与分析
统计与分析主要是利用分布式数据库,或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求,在这些方面需要使用不同的框架和方法。
Hadoop:大数据的核心,主要组成部分包括:maprece(处理)和HDFS(存储)和yarn(集群资源管理和调度);
Hbase:常用数据库;spark:实时数据处理框架;sqoop:数据导入导出;flume:日志采集工具
Hive:数据仓库,必须有SQL基础,可以做离线的数据分析,把复杂的maprece代码转化为简单的sql语句,
而且可以处理的数据类型更加丰富,对接的工具也更多,是整个大数据学习中非常主要的一部分。
6. 大数据是什么
大数据是什么意思呢?
如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB级别。
最早提出“大数据”这一概念的 是全球知名咨询公司麦肯锡,它是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征。
研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。若从技术角度来看,大数据的战略意义不在于掌握庞大的数据,而在于对这些含有意义的数据进行专业化处理,换言之,如果把大数据比作一种产业,那么这种产业盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
7. 大数据是怎么定义的,大数据包括什么
最早提出大数据的是麦肯锡公司,当时的定义是:
渗透在每一个行业和业务领域的数据,通过人们对这些海量数据的挖掘和运用,产生出一波新的生产率增长和消费者盈余浪潮。
后来麦肯锡全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
网络的定义:
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
简单理解为:
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。简单的说就是超级存储,海量数据上传到云平台后,大数据就会对数据进行深入分析和挖掘。