Ⅰ 大数据是做什么的
目前大数据已经在营销、金融 、工业、医疗、教育、交通、保险、执法、体育、政府、旅游、物流等领域广泛应用。
一句话 大数据就是管理和利用大量数据的。
分开来讲就是数据如何产生、数据如何搬运、数据如何存储、数据有效的整理起来方便使用、数据如何进行加工提高价值、数据怎么使用,管理这整个生命周期。
数据的产生:就是数据的源头,我们怎么来生产数据。有业务上用的数据比如MySQL中的用户表,有前端埋点(监控用户的每个操作),有程序输出的日志数据,有爬虫爬来的数据。这么多数据的源头,我们需要一个数据该怎么产生数据。
数据接入:数据怎么从这么多源头搬运到数据中心进行统一处理。用什么方法搬运,搭建个管道让它一直进来,还是隔段时间搬运一次,这都是要考虑的。
数据存储:大量数据如何存,才能不会丢,而且读取快。
数据仓库:数据怎么进行有效的管理就是数据仓库该考虑的事情了。
数据计算:大量的数据要进行加工,才能产生价值,那么加工工具的效率就影响着你的效率。
数据应用:数据能用来做什么。
Ⅱ 大数据具体是做什么有哪些应用
大数据即海量的数据,一般至少要达到TB级别才能算得上大数据,相比于传统的企业内数据,大数据的内容和结构要更加多样化,数值、文本、视频、语音、图像、文档、XML、HTML等都可以作为大数据的内容。
提到大数据,最常见的应用就是大数据分析,大数据分析的数据来源不仅是局限于企业内部的信息化系统,还包括各种外部系统、机器设备、传感器、数据库的逗吵渣数据,如:政府、银行、国计民生、行业产业、社交网站等数据,通过大数据分析技术及工具将海量数据进行统计汇总后,以图形图表的方式进行数据展现,实现数据的可视化,在此基础上结合机器学习算法,对数据进行深度挖掘,发掘数据的潜在价值。
应用部分,大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合,大数据分析的应用场景具有行业性,不同行业所呈现碰肢的内容与分析维度各不相同,具体场景包括:互联网行业、政府行业、金融行业、传统企业中的地产、医疗、能源、制造、电信行业等等。
1.互联网行业大数据的应用代表为电商、社交、网络检索领域,可以根据销售数据、客户行为(活跃度、商品偏好、购买率等)数据、交易数据、商品收藏数据、售后数据等、搜索数据刻画用户画像,根据客户的喜好为其推荐对应的产品。
2.政府行业在大数据分析部分包括质检部门、公安部门、气象部门、医疗部门等,质检部门包括对商品生产、加工、物流、贸易、消费全过程的信息进行采集、验证、检查,保证食品物品安全;气象部门通过构建大气运动规律评估模型、气象变化关联性分析等路径,精准地预测气象变化,寻找最佳的解决方案,规划应急、救灾工作。
3.金融行业的大数据分析多应用于银行、证券、保险等细分领域,在大山悄数据分析方面结合多种渠道数据进行分析,客户在社交媒体上的行为数据、在网站上消费的交易数据、客户办理业务的预留数据,结合客户年龄、资产规模、消费偏好等对客户群进行精准定位,分析其在金融业的需求等。
4.传统行业包括:能源、电信、地产、零售、制造等。电信行业借助大数据应用分析传感器数据异常情况,预测设备故障,提高用户满意度;能源行业利用大数据分析挖掘客户行为特征、消费规律,提高能源需求准确性;地产行业通过内外部数据的挖掘分析,使管理者掌握和了解房地产行业潜在的市场需求,掌握商情和动态,针对细分市场实施动态定价和差别定价等;制造行业通过大数据分析实现设备预测维护、优化生产流程、能源消耗管控、发现潜在问题并及时预警等。
伴随着信息化的快速发展、数据量加大,已经进入数据时代,相信各行业间日后对于大数据的应用会更多、更深入。
Ⅲ 大数据是干什么的啊,好学吗
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据必须借由计算机对数据进行统计。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
各行各业的决策正在从"业务驱动" 转变"数据驱动"。对大数据的分析可以使 零售商 实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的 营销策略 提供决策支持;可以帮助 企业 为 消费者 提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进 经济发展 、维护社会稳定等方面的重要作用。
大数据学习需要有java和scala基础,你的统计学,逻辑思维,还有英语不太差的话,学习就不太艰难。
Ⅳ 大数据是干什么的 有什么用
关于复大数据,麦肯锡全球研究制所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
简单理解为:
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
大数据的核心作用是数据价值化,简单说就是大数据让数据产生各种“价值”,这个数据价值化的过程就是大数据要做的主要事情。
Ⅳ 大数据到底是什么行业啊,具体是干什么的啊
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。
在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。
一、大数据工程师做什么?
用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
找出过去事件的特征
大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。
预测未来可能发生的事情
通过引入关键因素,大数据工程师可以预测未来的消费趋势。
找出最优化的结果
根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。
二、需要具备的能力
数学及统计学相关的背景
计算机编码能力
实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。
对特定应用领域或行业的知识
在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。
Ⅵ 大数据是干什么的!
1 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )
2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)
3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)
4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)
5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)
6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)
7 数据处理
7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)
7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)
8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)
9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)
10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)
11 搭建数据仓库(这里的数据仓库的搭建不是指 Hive ,Hive 是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)
总之就是离不开写 SQL ...
Ⅶ 大数据是干嘛的
大数据一种在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合。大数据主要是用于对数据进行收集、存储、分析和应用