1. 大数据时代如何做好数据治理
企业数据分析系统的数据来源是各个业务系统或手工数据,这些数据的格式、内容等都有可能不同。如果不进行数据治理,数据的价值难以发挥。只有对数据标准进行规范,管理元数据、数据监控等,才能得到高质量的数据。得到规范的数据后,才可在此基础上进行主题化的数据建模、数据挖掘、数据分析等。
2013年被众多的IT人定义为中国的大数据元年,这一年国内的大数据项目开始在交通、电信、金融部门被广泛推动。各大银行对Hadoop的规划、POC尤其风生水起,带动了一波大数据应用的热潮,这个热潮和当初数据仓库进入中国时的2000年左右很相似:应用还没有想好,先归集一下数据,提供一些查询和报表,以技术建设为主,业务推动为辅。这就导致了这股Hadoop热潮起来的时候,传统企业都是以数据归集为主的,而BAT这样的企业则天生以数据为生,早早进入了数据驱动技术和业务创新的阶段。
随着Hadoop技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入Hadoop集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。 睿治数据治理平台平台架构
元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。
数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。
建立完整的、科学的、安全的、高质量的数据管控技术体系,是首要的任务。作为数据管控的基石,为了更好支撑后续工作的开展,技术体系必须一步到位,是功能完备、高质量、高扩展性的,而不是仅实现部分功能,或者功能不完善的“半成品”。
叠加更多业务数据、细化数据业务属性与管理属性、优化与调整数据管控流程,尤其是适应未来的现代企业数据管控制度的建立完善,是逐步积累推广、不断磨合改进的长期过程。这些工作应及早启动,并成为后续大数据平台建设工作的重点。
谈大数据时代的数据治理 当前要做的是功能框架的完善,而完善的着力点则是“数据资产目录”:用资产化的视角来管理一个企业的数据,只有把数据作为资产来认识和管理,大数据项目才能达成预期,也能够治理好。大数据时代带来的价值,个人认为主要有两个,一个是技术架构,主要是架构理念的进步,另外一个更重要的则是对数据的重视。大数据时代是数据的时代,IT向DT转型,不单单是BAT,所有的IT公司,未来都在数据这两个字上。
对于一个企业来说,把数据作为资产,才是建设大数据的最终目的,而不是仅仅是因为Hadoop架构带来性价比和未来的扩展性。当一个企业把数据作为资产,他就像管理自己名下存折、信用卡一样,定期梳理,无时无刻不关心资产的变化情况,关注资产的质量。
而资产目录就是管理资产的形式和手段,他像菜单一样对企业的资产进行梳理、分门别类,提供给使用者;使用者通过菜单,点选自己需要的数据,认可菜单对应的后端处理价值,后厨通过适当的加工,推出相应的数据服务;这是一个标准的流程,而这些流程之上,附着一整套数据管理目标和流程。
大数据平台以数据资产目录为核心,将元数据、数据标准、主数据、数据质量、数据生命周期、数据轮廓等信息在逻辑层面关联起来,在管理层面上整合成统一的整体,构建起数据管理体系,全面的支持数据服务等具体应用。
大数据平台实现了数据存储、清洗和应用。在数据汇入和汇出的过程中,需要对数据的元数据进行统一记录和管理,以利于后续的数据应用和数据血缘分析。数据质量一直是数据集成系统的基础工作,对数据的各个环节设置数据质量检查点,对数据质量进行剖析、评估,以保证后续应用的可信度。
在数据收集的过程中,随着数据维度、指标的聚集,如何找到所需的业务指标及属性,并且评估相关属性的业务及技术细节,需要对收集的所有数据进行业务属性,并进行分类,建立完善的数据资产目录。
数据资产目录是整个大数据平台的数据管理基础,而数据资产目录由于数据的多样性,在使用的过程中,必然涉及数据权限的申请、审批管控流程,而管控流程的建立依赖于相应岗位的设立和对应职责的建立。
大数据平台的数据管理架构规划,通过数据物理集中和数据逻辑整合,彻底摆脱企业“数据竖井”的困境。大数据平台数据管理架构分为功能架构、流向规划和数据架构三个层面。
数据管理功能架构:借鉴DAMA数据管理和DMM数据成熟度理论,着眼于数据管理技术和数据管理流程融合,组织数据管理功能。
数据流向规划架构:规划整个大数据平台的数据流向,并在数据流入、数据整合、数据服务的具体环节实现精细化管理。
数据管理的数据架构:以数据资产目录为核心,数据项为最小管理单元,将技术元数据(实体、属性和关系)、业务元数据和管理元数据(数据标准、主数据、数据质量、数据安全)融合为彼此紧密联系、密不可分的整体,共同构成精细化管理的数据基础。
数据管理在整个大数据平台不仅仅是一个主要功能模块,它还是整个企业层面数据治理的重要组成部分,它是技术和管理流程的融合,也需要合理管控流程框架下组织机构之前的协调合作。如何利用统一的数据管理模块对企业所有进入到数据湖的数据进行有效管控,不单单取决于数据管理模块本身,也取决于元数据的合理采集、维护,组织结构及制度的强力支持保证。
谈大数据时代的数据治理 大数据平台数据管理参照了DAMA对于数据管理的九个管理目标,并进行裁剪,并对部分管理目标进行了合并,并参照了CMMI制定DMM数据成熟度目标,采用循序渐进,逐步完善的策略对管理目标进行分阶段完成,制定完整的管控流程和数据治理规范,以便持续的对数据进行管理,递进实现DMM定义的成熟度目标。
亿信睿治数据治理管理平台和DAMA的对应关系如下:
谈大数据时代的数据治理 大数据平台数据管理的核心内容是数据资产目录,围绕数据资产目录的数据流入、数据整合、数据服务都是数据管理的核心。数据管理主要管理数据的流动,以及管理流动带来的数据变化,并对数据底层的数据结构、数据定义、业务逻辑进行采集和管理,以利于当前和未来的数据使用。为了更好的对数据进行管理和使用,制度层面的建设、流程的设立必不可少,同时也兼顾到数据在流动过程中产生的安全风险和数据隐私风险。
因此数据管理介入到完整的数据流转,并在每个节点都有相应的管理目标对应,整个数据流框架如下图所示:
谈大数据时代的数据治理 企业在建制大数据平台的同时,对进入数据湖的数据进行梳理,并按照数据资产目录的形式对外发布。在发布数据资产之后,则对进出数据湖的数据进行严格的出入库管理,保证数据可信度,并定期进行数据质量剖析检查,确保数据资产完善、安全、可信,避免“不治理便破产”的谶言。
2. 现在是大数据时代,伊利股份如何利用大数据的
伊利股份是比较重视消费者的消费数据。伊利股份与尼尔森、凯度、英敏特等权威机构进行大数据合作,并基于互联网消费者的超大量数据,搭建了覆盖430个数据源、有效数据量级达到全网90%以上的大数据雷达平台。通过大数据技术的应用,伊利股份可以精准洞察消费市场,更好的满足消费者的需求。
3. 海南省大数据开发应用条例
第一章总 则第一条为了推动大数据的开发应用,发挥大数据提升经济发展、社会治理和改善民生的作用,促进大数据产业的发展,培育壮大数字经济,服务中国(海南)自由贸易试验区和中国特色自由贸易港建设,根据有关法律法规,结合本省实际,制定本条例。第二条本省行政区域内大数据开发应用及相关活动适用本条例。
本条例所称大数据,是指以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,以及对数据集合开发利用形成的新技术和新业态。第三条大数据开发应用应当坚持全省统筹、依法管理、市场主导、创新引领、共享开放、保障安全的原则。第四条省、市、县、自治县人民政府领导本行政区域内大数据开发应用工作,协调解决大数据开发应用重大问题。
省人民政府信息化主管部门负责规划、指导、监督全省大数据开发应用工作,市、县、自治县人民政府信息化主管部门负责本行政区域内的大数据管理工作。
县级以上人民政府其他部门应当按照各自职责做好大数据开发应用相关工作。第五条省人民政府设立省大数据管理机构,作为实行企业化管理但不以营利为目的、履行相应行政管理和公共服务职责的法定机构。
省大数据管理机构负责组织实施大数据开发应用总体规划,统筹政务信息化项目管理和政务信息资源共享开放,管理运营政务数据资产,推进政务和社会大数据开发应用,具体实施大数据开发应用监督工作。第六条省人民政府信息化主管部门应当会同省大数据管理机构和有关部门,按照适度超前、合理布局、绿色集约、资源共享的原则,编制本省大数据开发应用总体规划,报省人民政府批准后公布实施。
市、县、自治县人民政府和省人民政府有关部门应当依据本省大数据开发应用总体规划,编制本区域、本部门、本行业大数据开发应用专项规划,报省人民政府信息化主管部门和省大数据管理机构备案。第七条省人民政府标准化主管部门应当会同省人民政府信息化主管部门和省大数据管理机构制定数据采集、开发、交换、共享、开放、安全等标准,实现数据准确、完整、规范,促进大数据的开发应用。
省大数据管理机构应当制定政务信息资源全过程管理规范。第八条任何单位或者个人采集、开发和利用数据应当遵守法律法规规定,遵循合法、正当、必要的原则,不得损害国家利益、社会公共利益和他人合法权益。第九条县级以上人民政府及有关部门应当加强大数据开发应用、安全等方面知识的宣传普及、教育培训,增强全社会大数据安全意识,提高大数据开发应用和安全风险防范能力。第二章大数据开发与共享第十条省人民政府应当建立跨部门、跨区域、跨行业的大数据信息资源协同推进机制,统筹规划全省信息基础设施,推进信息资源的归集整合、共享开放和融合应用。
市、县、自治县人民政府应当推进本行政区域内信息基础设施建设,提升大数据开发应用支撑能力,提高信息基础设施网络化智能化水平。第十一条省大数据管理机构应当建设、管理全省统一的政务数据中心、信息共享交换平台、政务大数据公共服务平台和政务数据开放平台等政务信息资源共享开放基础设施以及全省基础性、公共性政务信息化项目。
已建、新建的政务信息系统,应当与全省统一的政务信息资源共享开放基础设施互联互通和信息共享。第十二条鼓励和支持基础电信运营商建设国际海底光缆及省内登陆点等信息基础设施,构建安全便利的国际互联网数据专用通道,提高本省的国际通信互联互通水平。第十三条省大数据管理机构应当统筹推动政务数据采集汇聚、登记管理、共享开放,推动社会数据汇聚融合、互联互通、开发利用。第十四条政务信息资源实行目录管理。
政务部门应当按照国家和本省有关规定和标准,编制、注册登记、更新、维护政务信息资源目录,并负责采集政务数据。
省大数据管理机构和市、县、自治县人民政府信息化主管部门应当按照国家有关规定,统筹确认政务信息资源共享目录和开放目录。
本条例所称政务部门,是指政府部门及法律法规授权具有行政职能的事业单位和社会组织。第十五条政务信息资源共享分为无条件共享、有条件共享、不予共享三种类型,实行负面清单管理,负面清单以外的政务信息资源应当共享。
凡列入不予共享类的政务信息资源,应当有法律、行政法规或者国务院政策依据。
省大数据管理机构应当会同保密等有关部门开展政务信息资源负面清单审核工作。
4. 大数据培训国内权威机构有哪些》
这个看机构的品牌知名度。往届学员就业薪资等,讲师实力,
课程大纲等多方面去考虑。 综合起来才是一个机构的水平。
5. 国内外在利用大数据上的不同做法
近期外卖企业 大数据 杀熟受到知名媒体的批评,同时也证明了这一事实,由此可以看出中国互联网行业的短视,相比之下外国企业却是利用大数据进行创新,这或许就是中外互联网行业最大的不同吧。
大数据杀熟的疑问其实早已存在,例如此前的网约车企业杀熟就曾引发巨大的争论,不过当时并未有权威机构对此证实,而相关的网约车企业也迅速对此否认。
这次外卖企业以大数据杀熟则得到了知名媒体的证明,说明了中国互联网企业确实有利用它们掌握的大数据谋求更丰厚的利润,宰割国内消费者。
其实如果再放开来说,中国互联网行业存在着许多弊病,除了大数据杀熟之外,它们还利用自己的大数据优势广泛向消费者推送相关的广告,这是属于侵犯隐私的行为,实在过于肆意妄为。
或许也正是它们在国内可以如此做,导致它们只能蜗居国内市场,至今在海外市场都难以取得突破,因为在海外市场它们需要遵守当地的法规,重视消费者的隐私,无法如国内这样如此轻松的赚取丰厚的利润。
相比起中国的互联网行业,国外互联网企业却是利用大数据进行创新,不断增强自己的竞争力,同时获得消费者的支持。
以全球知名的互联网企业谷歌为例,它拥有大数据的优势,却是利用大数据研发健康产品等帮助人类预防疾病,对比起中国的互联网企业可以看出它们正利用大数据进行创新,实现更加高大上的目标,映衬出中国互联网行业的短视。
或许也正是这种差异,导致中国互联网企业出海往往难以与它们进行竞争,无奈之下中国的互联网企业在国内市场发展壮大之后考虑的是如何在国内市场如何掘金,甚至瞄准消费者手里那几块菜钱,却没有找到高大上的目标。
对比起在国内牛逼哄哄的互联网企业,中国制造却已在国际市场取得了可喜的成就,中国制造的产品如电视、手机等产品都已在国际市场站稳脚跟,证明了中国制造的实力,这更是映衬得中国互联网行业目光短浅。
如今新华网批评外卖平台大数据杀熟,或许能让这些互联网企业反思自己,不再以竭力压榨国内消费者为目的,将目标放在创新方面,增强自己的竞争力,以与国际企业竞争为目标。
6. 贵州省大数据发展应用促进条例
第一章总则第一条为推动大数据发展应用,运用大数据促进经济发展、完善社会治理、提升政府服务管理能力、服务改善民生,培育壮大战略性新兴产业,根据有关法律、法规的规定,结合本省实际,制定本条例。第二条本省行政区域内大数据发展应用及其相关活动,应当遵守本条例。
本条例所称大数据,是指以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,是对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。第三条大数据发展应用应当坚持统筹规划、创新引领,政府引导、市场主导,共享开放、保障安全的原则。第四条省人民政府坚持应用和服务导向,推进大数据发展应用先行先试;积极引进和培育优势企业、优质资源、优秀人才,促进大数据产业核心业态、关联业态、衍生业态协调发展;加快推进国家大数据综合试验区和大数据产业发展聚集区、大数据产业技术创新试验区、大数据战略重点实验室、大数据安全与管理工程、跨境数据自由港等建设发展,形成大数据资源汇集中心、企业聚集基地、产业发展基地、人才创业基地、技术创新基地和应用服务示范基地。第五条省人民政府统一领导全省大数据发展应用工作,市、州和县级人民政府负责本行政区域内大数据发展应用工作。
县级以上人民政府应当将大数据发展应用纳入本行政区域国民经济和社会发展规划,协调解决大数据发展应用的重大问题。
县级以上人民政府信息化行政主管部门负责大数据发展应用的具体工作,县级以上人民政府其他部门按照各自职责做好大数据发展应用相关工作。第六条省人民政府信息化行政主管部门会同有关部门,按照适度超前、合理布局、绿色集约、资源共享的原则,编制本省大数据发展应用总体规划,报省人民政府批准后公布实施。
市、州和县级人民政府以及省人民政府有关行政主管部门编制本区域、本部门、本行业大数据发展应用专项规划的,应当与省大数据发展应用总体规划相衔接,并报省人民政府信息化行政主管部门备案。第七条县级以上人民政府及其部门应当加强大数据发展应用宣传教育,提高全社会大数据发展应用意识和能力。第二章发展应用第八条省、市、州人民政府可以设立大数据发展应用专项资金,用于大数据发展应用研究和标准制定、产业链构建、重大应用示范工程建设、创业孵化等;县级人民政府根据需要,可以相应设立大数据发展应用专项资金。
依法设立大数据发展基金,引导社会资本投资大数据发展应用。
鼓励金融机构创新金融产品,完善金融服务,支持大数据发展应用;鼓励社会资金采取风险投资、创业投资、股权投资等方式,参与大数据发展应用;鼓励、支持符合条件的大数据企业依法进入资本市场融资。第九条县级以上人民政府可以确定本行政区域大数据发展应用重点领域,制定支持大数据产业发展、产品应用、购买服务等政策措施。
县级以上人民政府应当结合本行政区域大数据发展应用重点领域,制定大数据人才引进培养计划,积极引进领军人才和高层次人才,加强本土人才培养,并为大数据人才开展教学科研和创业创新等活动创造条件。第十条县级以上人民政府应当根据土地利用总体规划和大数据发展应用总体规划、专项规划,保障大数据项目建设用地;对新增大数据项目建设用地,优先列入近期城乡规划、土地利用年度计划;年度内新增建设用地,优先用于大数据建设项目。第十一条符合国家税收优惠政策规定的大数据企业,享受税收优惠。
大数据高层次人才或者大数据企业员工年缴纳个人所得税达到规定数额的,按照有关规定给予奖励;具体办法由省人民政府制定。第十二条鼓励高等院校、教学科研机构和企事业单位以设立研发中心、技术持股、期权激励、学术交流、服务外包、产业合作等方式,积极利用国内外大数据人才资源。
鼓励高等院校、科研机构、职业学校与企业合作,开展大数据发展应用技术研究,建立大数据教育实践、创新创业和培训基地。
支持高等院校大数据学科建设,开设大数据相关课程。第十三条省人民政府应当整合资源、加大投入,加快信息基础设施建设,推动省内通信网络互联互通,提高城乡宽带、移动互联网覆盖率和接入能力,推进全省通信骨干网络扩容升级,提升互联网出省带宽能力。
鼓励、支持网络通信运营企业加快骨干传输网、无线宽带网及新一代移动互联网建设和改造升级,优化网络通信基础设施布局,提高网络通信质量,降低网络通信资费。
7. 什么是征信大数据
大数据征信是利用数据分析和模型进行风险评估,依据评估分数,预测还款人的还款能力、还款意愿、以及欺诈风险。在金融风控领域,大数据指的是全量数据和用户行为数据。目前使用的是围绕客户周围的与客户信用情况高度相关的数据,利用数据实施科学风控。
1、大数据征信模型可以使信用评价更精准:大数据征信模型将海量数据纳入征信体系,并以多个信用模型进行多角度分析。
以美国互联网金融公司ZestFinance为例,它的模型基本会处理3500个数据项,提取近70000个变量,利用身份验证模型、欺诈模型、还款能力模型等十余个模型进行分析,使评价结果更加全面准确,是模型评估性能大大提高。
2、大数据征信能纳入更为多样性的行为数据:大数据时代,每个相关机构都在最大程度上设法获取行为主体的数据信息,使数据在最大程度上覆盖广泛、实时鲜活。
3、大数据征信带来了更为时效性的评判标准:传统风控的另外一个缺点是缺乏实效性数据的输入,其风控模型反映的往往是滞后数据的结果。利用滞后数据的评估结果来管理信用风险,本身产生的结构性风险就较大。
大数据的数据采集和计算能力,可以帮助企业建立实时的风险管理视图。借助于全面多纬度的数据、自我学习能力的风控模型、实时计算结果,企业可以提升量化风险评估能力。
(7)利用权威机构做大数据标准扩展阅读:
从1980年代末至今,征信行业先后经历了起步、搭建征信平台、央行主导统筹等数个阶段。 2015年1月5日,人民银行印发《关于做好个人征信业务准备工作的通知》,要求芝麻信用,腾讯征信等八家机构做好个人征信业务的准备工作,择时发放第一批牌照,但一直不见下文。
最终等来的却是由中国互联网金融协会与芝麻信用、腾讯征信等把家征信机构联手成立的百行征信。这意味着征信这个金融业最关键的阀门,最终还是要由政府来监督把控。
截止目前,百行征信已与120余家互联网金融机构和消费金融机构达成了信用信息合作共享协议,与50余家机构达成了合作意向。
没有征信牌照,征信创业公司无法合法的去获取核心数据,比如银行信贷数据或者运营商,公安局的隐私数据;也无法以牌照去融资收购其他征信公司,资金上毫无优势。因而,业内人士认为,初创公司很难在征信领域发展壮大,成为未来的寡头之一。
8. 如何推进大数据标准国际化
加快构建大数据交易国际(国内)标准体系。以公开公平公正为核心,建立包容审慎的数据交易治理规则、制度,促进形成政府、企业、社会多方参与、高效联动、信息共享,推动产业经济向现代化、智慧化迈进;建立数据确权工作机制,形成价值评估定价模型,健全报价、询价、竞价、定价机制,构建高效的交易服务流程,搭建区块链数据产品交易系统;建立完善“所有权与使用权分离”的数据要素管理新体制,构建数据要素有序流通、高效利用的新机制;构建规范的数据产品库,建立以信息充分披露为基础的数据登记平台,利用区块链技术、数据安全沙箱、多方安全计算等方式,明晰数据权利取得方式及权利范围,全面提升数据登记的安全性、合规性、保密性。
完善法律、法规保障体系。出台促进大数据交易的法律、法规以及行业标准等,以数据交易促发展、以数据安全保发展。
补齐专业职能监管的“短板”。汇聚专业技能人才、组建专门监管部门、明细监管职能(职责)、配备特种监管设施、实施专项监管计划,确保大数据交易规范有序发展、壮大成为互联网经济中的新的经济增长点。
依法规范中介服务。制定数据中介服务机构运营管理制度,严格数据中介服务机构准入;建立全链条数据运营服务体系,为市场参与者提供数据清洗、法律咨询、价值评估、分析评议、尽职调查等服务。
增强资产安全意识。全面提升数据采集者、存储者、传输者、使用者、监管者等群体的资产安全意识,并将其列入“固定资产”范畴。