导航:首页 > 网络数据 > 大数据的标签管理

大数据的标签管理

发布时间:2024-05-04 09:35:14

A. 基于大数据的用户标签体系建设思路和应用

基于大数据的用户标签体系建设思路和应用
在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式。
如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战。通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案。
但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?
这些都是产品设计层面需要解决的问题。
掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台,通过大数据技术实现医生学习的智能化和个性化,而要构建这样一个学习平台,最基础的就是要建立用户的标签体系。
经过长时间的学习、思考、借鉴和实践,现在已经有了自己的标签构建思路,并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集,现在已经有了亿万级别的日志数据,正在搭建数据处理和标签计算平台,以下是我们整理的建设思想。
标签系统的结构
标签系统可以分为三个部分:数据加工层、数据服务层和数据应用层。
每个层面向的用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。
数据加工层
数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块,同时又有网站、APP、小程序等多个产品形式,每个产品模块和产品端都会产生大量的业务数据和行为数据,这些数据极为相似又各不相同,为了搭建完善的用户标签体系,需要尽可能汇总最大范围的数据。收集了所有数据之后,需要经过清洗、去重、去无效、去异常等等。
数据业务层
数据加工层为业务层提供最基础的数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。
在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。
主要完成以下核心任务:
定义业务方需要的标签。创建标签实例。执行业务标签实例,提供相应数据。数据应用层
应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,构建具体的数据应用场景。
(1)标签的类型
从数据提取维度来看,标签可分为:事实标签、模型标签和预测标签。
(2)事实标签
从生产系统获取数据,定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等,以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签,如是否活跃用户、是否是考生等。
(3)模型标签
对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。
(4)预测标签
基于用户的属性、行为、信令、位置和特征,挖掘用户潜在需求,针对这些潜在需求配合营销策略、规则进行打标,实现营销适时、适机、适景推送给用户。
从数据的时效性来看,标签可分为:静态属性标签和动态属性标签。
(5)静态属性标签
长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。
(6)动态属性标签
存在有效期,需要定期地更新,保证标签的有效性。比如:用户的购买力,用户的活跃情况。
标签的定义
给用户打标签,建立用户画像,最终都是为了去应用,所以我们要站在应用场景上去定义用户的标签体系,每个标签都有最终的用途。比如:我们做考试培训服务,我们需要建立“是否考生”的标签。
另外,不同的行业他们的用户特征也是有显著区别的,比如:医生用户相比普通用户来说,就多了像“科室”、“职称”、“所在医院等级”等特殊含义的标签。
而标签是有层级关系的,既是为了管理,更好的理解,又是为了控制粗细力度,方便最终的应用。标签深度一般控制在四级比较合适,到了第四级就是具体的标签实例。
我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类,下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类,最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。
标签的维护
每个标签都不会凭空产生的,也不会一成不变,更不会凭空消失。标签的维护需要生成规则,需要定义权重,需要更新策略。
生成规则
如第一部分所说,标签分为事实标签,模型标签和预测标签三大类。对于这三类的标签,生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可,它即包含明确的标签定义,又包含无法穷举的标签集,比如:关注的病种。
而模型标签需要进行数据的关联和逻辑关系的设计,通过一定的模型对数据进行计算得来。而预测标签相对就非常的复杂,无法从原始数据提取标签,标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。
定义权重
一个标签会在多个场景下出现,比如:一个疾病标签,它极可能在浏览过程中生成,也有可能在搜索场景下产生,但是对于这两个场景所对应的同一个标签,他们的权重是不同的。浏览相比搜索,权重要小得多,因为搜索的主动需求更大。
更新策略
上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签,对于静态属性标签的处理相对比较简单,就不停的累加即可。但是对于动态属性标签,需要对过期标签进行降权甚至删除处理,比如:医生考试前和考试后,会影响“是否考生”这个标签的,这就需要制定更新策略。
标签建设的技术架构
标签体系的建设涉及很多环节,数据量也十分巨大,需要有一个健壮且高效的技术架构来支持数据的存储及计算,掌上医讯采用了sql数据库和no-sql数据库来满足结构化数据和非结构化数据的存储。
使用hadoop的分布式存储技术及hive和hbase组件作为数据仓库,使用MapRece和spark分布式计算来提高计算速度,使用kylin进行多维分析,通过BI工具和接口对外提供应用,使用sqoop和kettle进行数据的抽取及流程的调用。
更多的应用场景
用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中,但随着标签的完善以及智能化处理的提升,这套标签体系将有更广阔的应用场景。
(1)智能化学习场景的构建
通过用户学习需求的标签的分析进行用户分群,针对不同的用户群在APP的功能和内容上进行个性化展示,满足不同学习需求的用户个性化的学习服务。
(2)精准营销推广的建立
更细粒度的对用户进行筛选,同时能够精准预测可能存在的目标用户进行推广,从而扩大医生覆盖,提升推广的转化率。
(3)KOL用户画像的描绘
基于该标签模型,增加对外部数据的采集分析,更加完整的生成医生360度的用户画像,帮助企业寻找潜在的KOL用户,实现用户洞察,辅助市场决策。
标签的建设是一个看似高大上,其实很繁琐、纠结的过程,需要对业务抽丝剥茧,还要应对运营需求的各种变化,不过对公司发展的影响也是深远的。

B. 如何理解数据资产目录和数据资产标签

《数据资产管理实践白皮书》中对数据资产管理的定义、重要性、管理范围以及项目落地实施的步骤作了全面的指导性说明,白皮书中汇集了国内各行业数据资产管理专家的智慧结晶,对完善国内数据资产管理相关理论体系起到了非常大的促进作用。

白皮书中也明确说明了数据资产管理是为了解决企业在释放数据价值过程中面临的诸多问题,通过系统化的管理方式实现数据的可得、可用、好用的目的,从而实现数据资产价值的最大化。而在实施落地过程中,要实现数据资产“可得”这个目标,首先就需要明确如何实现数据资产管理的全面性,也就是要优先解决企业中有哪些数据资产,以及这些数据资产在哪里的问题。

同时,数据资产管理系统的用户涵盖了企业中对数据资产进行管理和使用在内的多种多样的角色,而不同的角色,关心的内容也不同,因此,数据资产管理系统中需要从不同的角度来描述数据资产,并对数据资产从类型、用途等多种角度进行分类,以满足不同工作岗位的不同角色对企业数据资产进行查找和使用的问题。为了满足用户对数据资产分类管理和便捷查询的目的,数据资产管理系统中引入了资产目录和资产标签这两个概念。

虽然,资产目录和资产标签这两个概念的目的都是为了对数据资产进行归类,但是,在实践的过程中,会遇到对这两个概念定义不清,导致大家都知道这两个概念,又无法对两者的区别给出明确定义的问题。并且,对于这两者的概念和区别,很少能在哪个资料中明确地给出一个标准统一的说明,也导致在数据资产系统建设的初期会出现一定程度概念不清晰,需求沟通过程中效率低下的问题。

那么,数据资产目录和数据资产标签的区别是什么呢?

在说明这两个概念的差别之前,可以想一下目录和标签的区别,在生活中的很多场景中都使用了这两个概念。

例如,每一本书都会有目录,目录中描述了整本书的内容体系框架,也明确标注了不同章节内容的页码,方便读者快速定位。那么,目录其实至少包含了两个方面的作用,第一个是为了让读者快速了解书中包含的内容,第二个是为了让读者根据内容的体系框架快速定位到页数,方便快速查找。有很多专业书籍中,不仅会有目录,在书籍的最后还会有专业术语表或者是参考文献表等。而这些,都是为了满足读者从某一个专业术语角度或是某一篇参考文献为出发点,找到书中相对应内容的需求。

再举一个例子,市面上有很多云笔记软件,国内比较著名的有印象笔记、有道云笔记和为知笔记等,在这些云笔记软件中也能够找到目录和标签的概念。例如,云笔记软件中可以创建笔记本组、笔记本或是笔记的文件夹结构用于对用户记录的笔记进行归类,同时,又会有一个标签管理的功能,用户可以定义不同的标签组和标签,并且可以对笔记本中的笔记打上多个标签。这样又实现了可以从目录中定位到笔记,又可以从某个标签找到与标签相关笔记的目的。

从这两个例子阐述的目录和标签的特征,比较之后可以归结出几个特点:

根据以上例子中所描述的场景,进而总结出的目录和标签的差别,再结合数据资产管理的业务场景,基本可以总结出数据资产目录和数据资产标签的特征和构建的方式。

数据资产目录和数据资产标签的概念是在建设数据资产管理系统中,必需要考虑和设计的前提条件,甚至是在整体规划和咨询的必需产出物。目录和标签的构建,体现出的不仅仅是企业资产的种类和范围,还体现了对业务场景中数据资产的应用程度,同时也是赋能业务和数据资产价值最大化的体现。

C. 瀹㈡埛鐢诲儚鍙婃爣绛句綋绯

涓銆佹爣绛剧$悊绯荤粺鐨勫簲鐢ㄥ強鍏跺満鏅

1.鏍囩剧郴缁熺殑瀹氫箟

鐢ㄦ埛鏍囩炬槸濉鍏呯敤鎴风敾鍍忕殑鏍稿績鍥犵礌锛屾槸灏嗙敤鎴峰湪骞冲彴鍐呮墍浜х敓鐨勮屼负鏁版嵁锛屽垎鏋愭彁鐐煎悗鐢熸垚鍏锋湁宸寮傛х壒寰佺殑褰㈠硅瘝銆傚湪鐢ㄦ埛涓庝紒涓氫簰鍔ㄧ殑杩囩▼涓锛屼篃浼氫富鍔ㄦ垨鑰呰鍔ㄧ暀涓嬪悇绉嶈屼负鏁版嵁锛屼紒涓氬彲浠ュ皢杩欎簺鏁版嵁鎶撳彇骞跺綊绾虫垚涓涓涓鏍囩捐瘝锛屽氨褰㈡垚浜嗘弿杩扮敤鎴风壒寰佺殑鏍囩俱

2.鏍囩剧郴缁熺殑搴旂敤

鏍囩剧郴缁熶富瑕佸簲鐢ㄤ簬浠ヤ笅鍦烘櫙锛

1銆佺敤鎴风壒寰佹礊瀵

鐢ㄦ埛鐢诲儚鏄甯鍔╀紒涓氬憳宸ヤ簡瑙g敤鎴风殑閲嶈佸伐鍏凤紝鍙浠ヨ緟鍔╀笟鍔′汉鍛樺揩閫熻幏鍙栫敤鎴风殑淇℃伅锛屽缓绔嬭ょ煡锛屽彂鐜扮敤鎴风壒寰侊紝鑾峰緱涓氬姟鐏垫劅銆

2銆佸唴瀹圭簿鍑嗘帹閫

浠ュ㈡埛鏈嬪弸鍦堣繍钀ヤ负渚嬶紝杩愯惀浜哄憳鍙浠ユ寚瀹氭爣绛剧敤鎴峰彲瑙侊紝璁╂秷鎭绮惧噯瑙﹁揪锛岃繖鏍峰彲浠ュ疄鐜版湅鍙嬪湀鐨勫畾鍚戞帹閫併

瀹氭湡鍦板仛涓浜涘㈡埛鏈嬪弸鍦堛佸井淇$兢绂忓埄娲诲姩锛屽畾鍚戦個璇锋煇涓鏍囩剧殑鐢ㄦ埛鍙備笌锛屾彁鍗囩ぞ缇よ繍钀ユ晥鐜囷紝骞朵笖鎻愬崌钀ラ攢鐨勭簿鍑嗘с

濡傛灉鏄鍥哄畾鐨勬枃妗&钀ラ攢鎺ㄩ侊紝鍙浠ュ仛鎴愯嚜鍔ㄥ寲锛屾瘮濡備細鍛樺埌鏈熸彁閱掋佹矇榛橀勮︽彁閱掋佹祦澶卞彫鍥炵瓑銆

3銆佹暟鎹鍒嗘瀽

鎴戜滑鍙浠ラ氳繃鏍囩惧仛寰堝氱淮搴︾殑鍒嗘瀽銆

渚嬪備互鎬у埆缁村害杩涜屽垎鏋愮粺璁★紝浠ヨ屼笟杩涜屽垎鏋愮粺璁★紝濡傛灉浠ョ敤鎴风殑棣栨℃潵婧愪綔涓烘爣绛撅紝杩樺彲浠ヤ簡瑙g敤鎴风殑娓犻亾淇℃伅銆傜敤鎴锋爣绛撅紙鐢ㄦ埛灞炴э級鍙浠ヤ綔涓虹粏鍒嗙淮搴︽敮鎸佸氳嗚掔殑鏁版嵁灞曠ず銆

4銆佸叾浠栧姛鑳藉簲鐢

闄や簡涓婅堪鍦烘櫙浠ュ栵紝鐢ㄦ埛鏍囩捐繕鍙浠ユ垚涓哄叾浠栧姛鑳界殑鍩虹锛屾瘮濡傚ソ鍙嬭傚彉鍔熻兘锛屾櫤鑳借〃鍗曞姛鑳界瓑銆傝嚜鍔ㄥ寲鐨勪笟鍔$郴缁熻兘鏇存湁鏁堢殑鍒╃敤杩欎簺鐢ㄦ埛鏍囩撅紝浠庤屽彂鎸ユ洿宸ㄥぇ鐨勫▉鍔涖

浜屻佸満鏅鏍囩剧被鍨

1.闈欐佹爣绛句笌鍔ㄦ佹爣绛

鎸夋暟鎹鐨勫疄鏁堟ф潵鐪嬶紝鏍囩惧彲鍒嗕负闈欐佸睘鎬ф爣绛句笌鍔ㄦ佸睘鎬ф爣绛俱

闈欐佹爣绛撅細鐢ㄦ埛涓诲姩鎻愪緵鐨勬暟鎹锛氭寚鐢ㄦ埛涓嶅彉鐨勫熀纭淇℃伅锛屽氫负鐢ㄦ埛鍥哄畾鏁版嵁锛屽傚撳悕銆佹у埆銆佸勾榫勩佽韩楂樸佷綋閲嶃佽亴涓氥佸湴鍖恒佽惧囦俊鎭銆佹潵婧愭笭閬撶瓑銆 闈欐佹爣绛句富瑕佺敤浜庝簡瑙g敤鎴风殑鍩虹闇姹傘

鍔ㄦ佹爣绛撅細瀛樺湪鏈夋晥鏈燂紝闇瑕佸畾鏈熷湴鏇存柊锛屼繚璇佹爣绛剧殑鏈夋晥鎬с傛瘮濡傜敤鎴风殑璐涔板姏锛岀敤鎴风殑娲昏穬鎯呭喌銆

阅读全文

与大数据的标签管理相关的资料

热点内容
ps入门必备文件 浏览:348
以前的相亲网站怎么没有了 浏览:15
苹果6耳机听歌有滋滋声 浏览:768
怎么彻底删除linux文件 浏览:379
编程中字体的颜色是什么意思 浏览:534
网站关键词多少个字符 浏览:917
汇川am系列用什么编程 浏览:41
笔记本win10我的电脑在哪里打开摄像头 浏览:827
医院单位基本工资去哪个app查询 浏览:18
css源码应该用什么文件 浏览:915
编程ts是什么意思呢 浏览:509
c盘cad占用空间的文件 浏览:89
不锈钢大小头模具如何编程 浏览:972
什么格式的配置文件比较主流 浏览:984
增加目录word 浏览:5
提取不相邻两列数据如何做图表 浏览:45
r9s支持的网络制式 浏览:633
什么是提交事务的编程 浏览:237
win10打字卡住 浏览:774
linux普通用户关机 浏览:114

友情链接