导航:首页 > 数据分析 > 医保接收外部数据出错是什么意思

医保接收外部数据出错是什么意思

发布时间:2024-07-27 14:03:07

大数据时代,运营商的身法与心法

大数据时代,运营商的身法与心法
我始终相信,无论在哪里,有什么职位,做什么工作,如果内心没有足够的动力、期盼与爱的话,一个人是无法产生强烈的使命感与责任感的,或者说,没有幸福感。
最近读完了《幸福的方法》,对书中一段话非常有感触:"忙碌奔波型是未来的奴隶,享乐主义型是现在的奴隶,而虚无主义型则是过去的奴隶。"在运营商工作的我们都经历过从通信业黄金十年带来的"金饭碗"、行业遭遇"高原平台期"的铜饭碗,甚至全社会"人人得而诛之以后快"的"纸饭碗",无论是企业还是身处其中的个人,都在感受着巨大的压力与阻力。
于是,一些人选择了"享乐主义"式生存,日复一日在单位混日子;一些人则选择了"虚无主义"式生存,沉浸在过去的辉煌,躺在功劳簿上过日子;还有一些人选择"忙碌奔波"式生存,开不完的会、做不够的汇报、写不尽的方案,虽终日忙忙碌碌却无所作为。正是如此,才有了我上篇文章中写到的"四种人"——那些想走又能走的人最终选择了离开这里,那些想走却不能走的整日抱怨体制,那些不想走也不能走的昏昏度日,剩下那些能走却不想走的痛苦挣扎……
一、运营商正在经历什么?
借用双城记那段经典开场白:这是一个最好的时代,这是一个最坏的时代。对于运营商这样天生依靠人口红利、规模红利的传统企业,未来的日子或许并不好走。无论是从媒体的口诛笔伐,还是用户的人人喊打,亦或是员工的纷纷出离,种种迹象都在表明这个行业早已从大象快跑的“神坛”跌落,变得迟钝、缓慢甚至有些狼狈了。
可十年前绝不是这样。三十年前更加不是。
《大跨越:中国电信业三十春秋》的开篇语这样写道:从经济瓶颈到社会先导,从全球末游到用户总量世界第一,改革开放三十年中国电信业实现了举世瞩目的大跨越!这一切是怎么得来的?这本生动再现改革开放30年来中国通信业辉煌历程的著作选择了两个有意义的时间点,1978年跟2008年,前者是中国正式吹响改革开放号角的关键一年,而后者则是代表了通信业黄金十年的关键一年。
字里行间都可以读到中国通信业经历过怎样的辉煌,可以感受到从业者那种由衷的自信与荣耀。时代巨变,昔日巨头创造了比以往更加令人瞩目的经营业绩,却在政治地位以及行业形象上连连败走麦城。
时至今日当我们再次谈论运营商,你想到了什么?是财务报表上无比闪耀的光辉业绩,还是面对行业内外竞争暗战的困惑焦虑;是建成一张张4G、4G 网络的骄傲欣喜,还是管道化、低值化、边缘化的郁闷心酸;是对KPI下多少就能完成多少的自信得意,还是对基层不断涌现离职潮的始料未及。
是运营商真的做错了什么吗?可能并不是。
放眼看看这个时代吧!这是一个在和同行不断抗衡,却无奈被OTT抄了后路的时代;一个到处充斥着机会,细看时却满目危机的时代;一个传统大机构失势瓦解,个人自由连接全面崛起的时代……
这是一个唯变不破的大时代。在这个时代里,竞争对手变了、游戏规则变了、用户习惯也变了,曾经习以为常的一切突然间发生了天翻地覆的变化。话音、短信这些传统业务正在加速下滑,流量虽然成为新的增长点,却不得不面临着“提速降费”的巨大压力。可以说,在这样的时代背景下,运营商像是被困的巨兽,想挣扎却又充满无力感,想改变却又害怕不确定,想突破却又找不到突破口……
唯一的方法大概就剩下三个字:豁出去。
二、运营商该怎么办?
对于眼下的运营商来说,出路无非两条,要么精耕存量客户,挖掘更大的价值点;要么开辟新市场,寻找行业的破局地。关于精耕存量市场,已经有太多这方面的文章,这里不再赘述。我想重点谈谈新市场。
1.新市场在哪里?
日前,互联网教父、科技商业预言家的凯文·凯利在斯坦福大学进行长达3小时的分享,畅谈他对未来20年重大科技商业潮流的见解。我对其中一个观点很感兴趣,他说不管你现在做什么行业,你做的生意都是数据生意。
数据!
无论是风生水起的移动互联网,还是改变世界的芸芸众生,他们都在通过运营商的网络来获取信息。
2014年三月在北京举行的一场大数据产业推介会上,阿里巴巴集团创始人马云在主题演讲中发表了他的观点——“人类正从IT时代走向DT时代。IT时代是以自我控制、自我管理为主,而DT时代,它是以服务大众、激发生产力为主的技术。”
我们都知道,今年的双11全球狂欢节中,阿里巴巴天猫用时不到12小时就打破了去年创下的571亿元的交易额,最终将记录锁定在912亿,其中无线交易占比71%,全球产生成交的国家和地区达到205个。
巨量交易额的背后是什么?是阿里越来越强大的供货和物流系统?还是传统零售业的全面没落?其实都不是的。我以为这背后体现了阿里巴巴强大的数据分析和挖掘能力。在这样的购物节中,最重要的问题是商家要备多少货?而这可以通过平台历史销售大数据,预测货品需求,为商户提供库存依据,提升库存效率和有效性。
而在百货商店时代,购物数据只有通过人工才有可能统计完并且不一定准确,但是阿里巴巴会把每个人的历史购物和浏览数据都留在云上。因此,淘宝可不光是一个电商平台,更是顾客的大数据平台。
阿里巴巴集团副总裁涂子沛在讲到这个概念的时候举了一个更容易理解的案例:请你预测全国哪些地区会有更多的二孩出生?按照传统的数据统计,估计只能依靠人口普查、各地市区县统计部门的层层上报,不但会有偏差而且还会滞后。而在阿里巴巴,只需要统计哪些区域的孕婴用品销量激增就可以了,不但真实而且更加便捷。
运营商也是一样的。你以为运营商只是通信管道的提供者?其实或许还是信息适配的服务商。在过去,我们使用的文件、文件夹、桌面这些东西都是停留在本地的。我还记得那个时候最好的备份工具大概是移动硬盘或者是蓝光光盘之类的东西。而进入网络时代之后,数据就出现在网页上、链接里。现在的云上有标签、有流量、有新闻,还有各种各样我们需要的信息。云、数据化才是这个时代的关键词。要知道,这些所有的信息都是通过运营商的网络传输的,就和从淘宝上销售的商品信息一样,除了信息本身,它的发送端和接收端或许才是我们关心的重点。
于是,将合适的信息主动推送给需要的人,就是运营商能提供的大数据服务了。
2.新市场有多大?
中国云计算技术与产业联盟理事长吴基传曾指出:大数据是云计算服务的基础,是构架云平台最基本的要素,没有对海量信息的分析的大数据,就没有为所有信息消费者获取有价值的信息的可能性。
因此在商业界,大数据已经开始成为很多企业的生意。《2015年中国大数据交易白皮书》显示,预计到2020年,中国大数据产业市场规模将超过这个市场去年规模的10倍,由2014年的767亿元扩大至8228.81亿元。
2015年8月19日,国务院常务会议通过《关于促进大数据发展的行动纲要》,这或许意味着,大数据在中国将逐渐步入正轨,进入到顶层设计时代,这无疑将加速经济发展引擎的进一步开发。
从运营商的角度来看呢?以中国移动为例,我们有超过8.2亿用户,110万4G基站,经营分析系统里有10B以上的数据,我们的10086每分钟都有海量用户的呼叫,实际上所有这些动作每天都在产生大量的数据。那么,这些数据到底有多大,集中以后会是个什么效果?
有人曾经做过测算,一个省公司一天的数据要上百P,这些数据集中在一点传输到中国移动(贵安)大数据中心,需要重建一个中国移动的CMNET,也就是中国移动Internet的骨干网。
所以某种意义上来说,运营商拥有采之不尽用之不绝的数据富矿,站在金矿上总比无矿可挖强,这也是我判断运营商或许会在大数据时代“触底反弹”的依据之一。
3.还有什么不确定因素?
虽说前途可期,但毕竟是一个全新的领域。在新领域就一定有新的游戏规则,也会有相应的规则适应过程。
在过去的几年中,大数据的概念在产业界引发了无数的争议和讨论,甚至长期出现在Gartner的新兴技术成熟度曲线(也称新兴技术炒作周期报告)中。原因非常简单,一项新技术多被谈及概念,虽然在媒体上屡屡曝光,但应用案例寥寥。
因此,大数据越来越被看做是评论界的谈资,而非真正意义上的产业。
在贵阳成立的全球第一家大数据交易所,通过电子系统面向全球提供数据交易服务,计划2020年数据清洗交易量年达1万PB、年总额3万亿。然而,成立至今,这个深孚众望的机构撮合的交易记录也不过3000多笔。“有意愿交易大数据的企业和机构还不多。”交易所工作人员如是说。
除此之外,还有几个关键不确定因素在影响着大数据产业发展。
A.技术能力不足。IT作为后端的支撑手段,大量通过外包或采购方式实现,所以在自身软件开发和大数据平台运维、大数据新技术应用、大数据分析挖掘方面能力相当有限。
B.数据“墙”大量存在。很多数据是分散在不同的系统中的,经过长时间的“竖井”式运作,已经形成了难以突破的壁垒。以中国移动为例,B域主要是经营分析数据、O域主要是网络运维数据、M域主要是管理信息数据,但这三域的IT系统分别由三个不同的部门负责,整合难度较大,较难形成“1 1>2”的数据融合效果。
C.组织架构不匹配。目前看,很少有机构会设置专门的部门去集中各种散落的数据,更别提对这些数据进行标准化的管理和维护了。
D.思维观念的滞后。如果说技术、资金、人才方面的劣势都可以通过后天的努力来补足,那么意识层面的缺失就需要相当长时间的培育了。
除了以上说的几点,大数据交易的安全性、定价的合理性、客户信息的保密性,都在一定程度上影响着大数据业务的规模和发展空间。
三、运营商玩大数据的心法与身法
运营商究竟该怎么玩儿大数据呢?窃以为先要回答好三个问题:一是数据在哪里?二是数据放哪里?三是数据怎么用?
1.数据在哪里?
都说我们正在经历一个全新的商业时代——分享经济的时代,消费者正在放弃传统的、效率低下的企业,转而投入分享型企业的怀抱,来获取他们想要的产品和服务。Uber让座驾更好地分享,Airbnb让空闲的房屋更好地分享,八戒网让创意和设计更好地分享……现在看,一切可以分享的都是价值数据。
在分享经济的时代,真正分享的是有效的供需关系。因此,在分享经济中,更重要的其实是创建供需场景,建立供需联系。
数据也是相同的道理。随着移动互联网、云计算、物联网等新一代信息技术的爆发式发展,智能手机、平板电脑、可穿戴设备以及遍布各个角落的传感器,正在越来越多地接入到运营商网络。各种交互数据、传感数据正源源不断从各行各业迅速生成。这些数量庞大、种类广泛、迅速产生和更新的大数据,蕴含着前所未有的社会价值和商业价值。
如何能够有效挖掘并体现出数据的价值是亟待解决的问题。窃以为,关键就在于建立数据使用的场景并搭建数据交易平台。
比如说,城市规划设计院需要对新区进行商业价值评估,可以通过运营商的网格数据分析提供区域人口及经济状况解析;再比如,医疗机构需要在一段时期对药物及医疗设备做储备,可以通过医保报账平台统计该区域的医疗诊断及药物使用情况,预测出该区域可以发生的大规模疾病,从而及时储备相关资源。
重要的是,帮助数据消费者更加迅速有效地找到他们需要的数据,并促成双方交易。
2.数据放哪里?
如此大规模的数据存放在哪里也是考验大数据产业的要素之一。要知道并不是所有的机构都有足够的资源去建设自己的数据中心。而在这方面,运营商恰好可以提供服务。
通信行业有个词叫做“电信级服务”,意思是通信服务要具备不间断运行、大容量、高稳定性、可靠性等特点。而要达到这些条件,就需要完备的QoS保障机制,而其中重要一环就是设施先进、管理规范的通信机房。
因此可以说,在数据机房方面,通信运营商具有先天的优势。
能否将此作为运营商进入大数据市场的切入点呢?开放、合作就成了这个部分的关键词。前文说过,传统机构中有很多数据与信息孤岛,要想打破不断构筑的“数据墙”,首先是要将他们集中化的存储、管理、运营。因此,运营商的高标准数据中心或许只是一个必要而非充分条件,要让源自不同领域的数据发生“化合作用”的前提是将这些数据存放在运营商的数据中心。
ICT基础设施有连接和存储的作用,其产生的数据通过不同的终端存储下来,这些数据在应用程序中使用才会有价值。而运营商同时具备连接和存储两项功能。
面向未来,运营商数据中心将成为网络的中心,构建面向业务的敏捷、柔性、绿色的云IT基础架构将使运营商数据中心成为新一代ICT基础设施的驱动中心。
3.数据怎么用?
运营商现在最大的挑战是什么?是端到端的质量保障不足导致用户体验还不够好吗?是受到OTT业务的冲击导致传统业务快速下滑吗?还是业务量收剪刀差不断加大、投资压力日趋吃紧吗?个人认为都不是的。我们最大的挑战在于用户往往满足于现有的业务。这会让我们产生严重的路径依赖,从而也会形成“自满”情绪。
事实上,运营商现在面临着三大重要转变:一是从关注功能向关注最终用户体验转变;二是从提供语音和带宽向提供丰富、开放的ICT融合信息服务转变;三是从基于人口红利的增长向应用创新增长转变。这三个转变带来了商业模式、运营模式、研发模式和科技创新的转变,将驱动电信行业从封闭走向开放的数字化运营。
数字化运营,至少有三件事可以做:一是盘点数据资产;二是建立计算能力;三是开放数据平台。按照贵州移动芈大伟总经理的思路,运营商大数据发展路径分为1.0、2.0和3.0三个版本
大数据1.0主要针对运营商内部分析,建设重点以数据整合和能力构建为主,为数据价值发掘奠定基础,重点支撑精准营销和精确建网;大数据2.0主要针对数据价值提升,重点是逐步拓展对内对外数据价值挖掘的能力;大数据3.0主要针对数据变现,聚焦重点客户和行业,构建数据生态系统,逐步凸显外部收入。
目前,运营商在IT系统和网络系统上积累了很多数据资产(当然如果处置不当也可能会变成数据遗产……),通过SDN和NFV等IT技术重构的通信网络,将会形成全新的弹性、智能的网络架构。而网络IT化,就要求建立以云数据中心为核心的网络架构,数据中心将成为ICT基础设施的核心,数据中心的布局和规划决定未来网络的架构,也决定了未来的竞争力。
伴随20多年的互联网发展,掌握未来的“联接一代”和“数字元人”已经长成。相比上一代人,他们的沟通、交友、娱乐、消费、工作、学习等行为方式和思维模式,已经发生深刻的变化,他们对于数字社会和互联网的依赖与生俱来,代表着互联网时代的新消费行为。
运营商新的业务运营系统不再是简单的支持系统,更不是简单的营销界面在线化,而是连接运营商、客户和合作伙伴,连接网络、应用和内容的价值创造系统和生态链系统。传统的线下营业厅或将大幅减少甚至消失,取而代之的,是用户可以全在线模式按需、实时定制享受各项服务,运营商通过大数据分析洞察客户和精确营销,提供更加智能的客户服务。
从购买产品走向购买服务,商业世界的游戏规则正在发生根本上的变化,商家和用户之间的关系从交付那一刻才刚刚开始。
互联网之父劳伦斯·罗伯茨曾讲过:“自网络诞生以来,我们只实现了网速的提高,而在提升网络性能及其他方面毫无进步。”在这方面,运营商正在积极从消费体验出发打造新型的业务运营系统,新系统不再是简单的业支系统和网管系统,更不是简单的营销在线化,而是连接运营商、客户和合作伙伴,连接网络、应用和内容的价值创造系统。
后记
对于运营商来说,传统通信的黄金十年也早已过去,创新增长的白金十年或许才刚开始。站在时代交替的十字路口,我满脑子都只有一个想法——“或许我没有赶上通信业的黄金十年,但我一定不会再错过大数据时代的白金十年”。

② 反欺诈数据挖掘技术在医疗保险业的应用

一、项目背景

最近的新闻中都是用户在看似正常的消费或取款后,发现自己的卡却被盗刷了,这种现象就是欺诈交易。欺诈交易是存在于银行、保险、证券等各行各业的危害现象,给人们经济、生活带来较大损失和威胁。作为世界难题,发达各国纷纷辅以了强大的信息化管理系统,通过数据挖掘和人工智能辅助侦测、识别和评估欺诈交易,有效提高了反欺诈技术手段。

CRISP-DM,即跨行业数据挖掘标准流程(如下图),是迄今为止最流行的数据挖据流程参考模型。图中所示的各个大小节点之间的关联会有循环和粗略不一,过程并不是重点,关键是数据挖掘的结果最终能嵌入到业务流程,以提升业务效率和效益。

CRISP-DM和SPSS自有开发的SPSS Modeler契合度非常好, 支持严格设计、半试验研究、偏智能化的三大统计方法论,是全球最为出色的统计软件之一.本次以SPSS Modeler18为建模工具,利用非真实的医疗保险业数据(投保人信息、梁物模医疗机构信息表、索赔信息表、医疗橡缓诊断与处理信息表)作为内部业务数据、非真实的小额贷款数据作为第三方客户数据源,进行欺诈交易发现的数据挖掘建模和分析, 也相信于其他行业具有借鉴意义。

在CRISP-DM的商业理解阶段,首先对企业进行拥有资源、需求、风险、成本收益的形势评估,以便对数据挖掘目标的进行确定。

业务梳理的医疗保险欺诈风险分析如下:

1)国内医疗保险欺诈表现形式

主要有 : 冒名顶替 ( 即就医资格作假) ; 病因作假 ( 将非医保支付病种( 如车祸 、工伤、打架斗殴、自杀等 ) 改成医保支付病种); 夸大损失; 票据作假; 医疗文书作假; 住院床位作假( 即挂床住院 ) ; 编造虚假住院、门诊特殊病等有关资料“骗保” 。

2)欺诈的主体

在“第三方付费 ”的制度下 ,医务人员和被保险人可能合谋欺诈保险机构。

主要有三个角色:投保人、医疗机构、保险公司,发生欺诈的可能性来源有投保人、医疗机构。结合业务特征整理数据挖掘的目标和思路方向如下:

数据异常检测;

对投保人进行分类研究,使用用户画像,并结合外部数据对已有和潜在的客户进行欺诈评分预测;

对医疗机构信息的分类研究;

医疗索赔检测。

声明: 鉴于篇幅,本篇概为总揽,对具体的思路、算法将在今后做专题。

二、数据与模型分析

2.1数据异常检测

不少数据异常情况从业务逻辑来说是一件可以凭借经验直接判断的事情。比如某客户的索赔频率和额度在一段时间大量增加、投保人的支付金额和投保人医疗费用数据大小关系异常等,都可以视为疑似欺诈,相关过程不做技术展示了。

Benford定律和anomaly detection是审计、证券等行业运用比蚂仔较广泛的异常监测方法。所谓异常检测就是发现与大部分对象不同的对象,其实就是发现离群点。我们可以同时多种异常检测方法来提升发现欺诈交易的命中率。Benford定律的是个有点趣的定律,揭示了海量数据中首位数字分布特征:数据的第一位数字数字越大,出现的频率越低。通过聚类建模,以医疗机构编号、支付金额、索赔笔数等为输入变量:

我们可以得出当索赔阙值大于50 、聚类的距离阙值大于0.2的机构疑似欺诈报告:“医疗保健机构编号:10083642887,医疗保健机构细类: psychology,医疗保健机构索赔索赔数量 58”和“医疗保健机构编号: 10085843968,医疗保健机构细类: med trans,医疗保健机构索赔索赔数量 71”。

为扩大异常数据搜索范围,利用专门的异常检测方法Anomaly建模:

得到如下表中异常偏离指数大于1.5、Anomaly标记为“T” 的疑似欺诈投保人名单:

通过查看模型的结果,表中也展示出导致该条记录被视为异常值的3个最重要影响因子及影响指数,可以轻易看出包括DIAG诊断、Procere处理过程、MEDcode医疗措施在内的因子是导致疑似欺诈的重要因素。

经过欺诈部门审核完毕,可以比较两种算法的命中率。

2.2投保人的欺诈分析

包括:聚类迁移,欺诈评分,用户画像。

2.2.1客户的聚类迁移

通常来说,在较短时间内,不论是机构还是个人的状态、行为模式是较稳定的,不会发生太大的变化。如果对投保人所做的聚类细分,在一年甚至半年内有客户变换所在细分群组的话,可以提交疑似欺诈报告。聚类建模挑选几个关键输入变量(参考RFM模型),比如支付金额、支付笔数、保险条款分别对第一年和第二年进行聚类建模并作群组变换的标记,可以得到疑似欺诈名单。

在对客户的聚类分析中,可以发现一些记录数量很少的群组,在营销活动中常常被忽略,但在欺诈发现中却是值得引起注意的一个异常行为类群。

2.2.2欺诈评分:单分类器和集成学习(Ensemble Learning)

个人信用体系建设在发达国家已经非常成熟,众所熟悉的银行业就涉及到信用审批,额度确定,以及反欺诈等专业的应用。 美国银行业中每年八千亿美元的刷卡量中仅造成一个亿左右的损失,占总量的约0.02%,其成熟发展的数据挖掘技术成果斐然。

欺诈评分可以主要分三个步骤:变量转换,生成logsitic回归模型和评分转化。样本随机地分成两部分:一部分用于建立模型,另一部分用来对模型进行检验。变量的Bining(分箱)处理实际上对数据是有一定损失的,但出于以业务服务为出发点的需求,必须考虑到分箱变量对于业务人员来说更方便使用和理解。

输入logistics回归模型的是各个(分箱)变量的WOE值(weight of evidence) 。Woe值的计算公式:WOE=ln(好客户占比/怀客户占比)*100。

变量转换包含以下步骤:

1)剔除冗余变量(相关系数较大的变量保留其一即可);

2)对连续变量的Bining处理和离散变量的类别归并处理;

3)IV值的计算和WOE值的计算,为提升预测能力,尽量筛选IV值大于等于0.02和小于等于0.05的变量。

上图是变量转换数据流的模型和输出的一部分,可以看出第一次输出表格,作为离散变量的信用卡数据还可以继续计算其违约率进行转换分类。

逐步法进行logistic回归建模后,还要利用统计方法对回归系数进行评分转化,评分转化步骤涉及到一个量表编制的业务量化过程,暂不详述。预测模型的检验可以用roc、k-s指标法等,评分卡检验需要反映出哪个分段是区分最大,选择ks指标法:

一般,KS>0.2即可认为模型有比较好的预测准确性。

回归是单分类器的基本常见算法之一,还可以用决策树C5.0建模。

查看C5.0模型可以得到客户发生欺诈的8条规则,根据这些规则可以了解发生欺诈交易之前的若干显著特征,从而发现客户的欺诈征兆,及早进行防范。在规则1中,可以看到年龄在27岁以下、持信用卡类型为“支票”、国籍是希腊、南斯拉夫的客户是发生欺诈交易的高风险的客户群之一。

单分类器虽然在过去广泛运用,但存在明显的不足。近些年来美国银行业大量采用了树形算法家族,目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,新近的还有梯度递增树算法。这些集成学习方法避免了变量间的相互依存性问题,而且预测分析能力也逐步增强,适用范围广,在反欺诈和其他一些领域被证明效果非常好,是我们专业人士关注的方向。

Boosting算法的主要思想是在T次迭代中,每次迭代对分类错误的样本加大重采样权重,使得在下一次的迭代中更加关注这些样本。这样训练的多个弱分类器进行加权融合,产生一个最后的结果分类器,提高了该弱分类算法的准确率。我们使用boosting 设置50棵决策树迭代:

建模及结果:

2.2.3用户画像

近年比较热的用户画像,为的是公司追本溯源对客群有更多感性的认识,辅助市场部进行精准营销,并利用内部数据和外部(第三方)数据建立起大规模的数据仓库体系,成为公司的核心价值资源。用户通常具有人口统计学,社会群体特征,金融业务特征、个人兴趣爱好等等几大标签体系。通过对用户画像的研究,搭建客户的各类标签体系,可以帮助我们分分钟认识客户。

一般来说,银行具有丰富的交易数据、个人属性数据、消费数据、信用数据和客户数据,用户画像的需求较大也实践较早。目前很多社交兴趣爱好等信息来自于第三方补充。保险行业的产品是一个长周期产品,保险客户再次购买保险产品的转化率很高,对用户的画像也会是一个必要的过程。

根据业务经验和集成算法理论(当数据集较大时,可以分为不同的子集,分别进行训练,然后再合成分类器),像银行业、电信业等大型公司的客户数据,我们可以首先根据客户价值(长尾理论)的高低分类,再分别对高价值客户、中低价值客户等建立可能不同类型的模型以实现更好的分类效果。针对每次不同而丰富的营销业务需求,第一步先从庞大的客户标签体系中构建出的标签特征子集,再通过进行LR(RANKING MODEL)等计算标签影响因子,进行标签的权重赋值,所得排名靠前的标签就是此项业务人员所需了解的目标用户的画像了,同时也能较准确地为市场部提供相应的营销客户名单,大大提升业务效率。

假定开头使用的anomaly数据异常检测结果为真实,增加投保人信息表中的客户属性:“是/否发生欺诈”并按结果分别标记,使用k-Means建模并输出各聚类群组的欺诈比例,查看得出结果报告:

从输出结果中,对于欺诈比例较高的的聚类,我们可以重点考察他们的群组特征标签,spss modeler中可以直接察看聚类特征的比较情况,得出聚类7的模型特征描述如下,实现了分分钟便认识欺诈交易的陌生人。

2.3医疗机构的分类研究

医疗机构的分类研究同样可以首先使用聚类迁移分析方法(同上投保人的聚类迁移法),国外的反欺诈技术已经深入结合到各机构的管理过程中了,并取得良好成效。

2.4医疗索赔的检测

医疗服务过程在各机构的处理方式上,通过人工审查欺诈是一件比较有难度和成本的事情。结合临床路径的概念和经验,借助数据挖掘技术建立模型,自动识别每一项特定医疗服务的系列特征,如防射疗程、化疗疗程度等,是推动医疗保险业欺诈发现重大进展。国内也开始了更多深入的研究与应用。

三、总结

③ 大数据在医保管理中的应用与发展方向

大数据在医保管理中的应用与发展方向
当前,医疗保险面临基金收支平衡压力增大、医疗服务违规行为多发、传统经验决策方式落后等多方面挑战,从信息化建设角度,人社部门推进全民参保登记、医保智能监控、支付方式改革和移动支付探索等工作,积极开展了医保大数据应用。但在应用过程中仍然面临数据质量有待提升、数据应用尚不充分、安全体系还需健全等问题。继续深化医保大数据应用,下一步应重点围绕四个方面:一是汇聚和完善医保大数据;二是加快大数据平台建设;三是持续助力医保业务发展;四是构建数据安全体系。

当前,在全民医保体系逐渐完善、人口老龄化趋势加剧、医疗需求快速释放、医疗费用不断攀升等因素的综合作用下,医疗保险面临基金收支平衡压力增大,医疗服务违规行为多发,传统经验决策方式落后等多方面挑战,如何充分利用大数据、“互联网+”等信息化手段,进一步支撑医疗保险在新形势下持续发展,实现全民医保、安全医保、科学医保和便捷医保,全面提升医保质量,是摆在我们面前的重要课题。
当前医保管理面临的困境
1医保基金收支平衡压力增大
随着生活水平提高,参保人更加关注健康,医疗需求不断上升,同时全民医保从制度全覆盖转向人员全覆盖,基本医保支出规模随之快速增长。这些因素都给医保基金平衡带来较大压力。2016年,人社部门管理的基本医疗保险参保人数7.44亿人,基金支出10767亿元。参保人享受医保待遇25亿人次。考虑到当前经济下行和人口老龄化的形势,未来医疗保险基金收支平衡压力更大。
2医疗服务违规行为多发
我国医保待遇支出高速增长,既有惠民生政策、人口老龄化、医疗技术进步、医疗成本上升等正常因素,更有大处方、乱检查、假发票等不合理因素。2016年审计署对医疗保险基金专项审计显示,一些医疗服务机构和个人通过虚假就医、分解住院、虚假异地发票等手段套取医保基金2亿余元。面对如此规模的支出,人工审核、抽查审核、固定规则审核等医保传统监管手段,对于日趋复杂的医保基金使用场景难以全面覆盖,对于日益隐蔽的医疗服务违规行为难以有效识别。
3传统经验决策方式落后
过去医保政策制定和效率评估往往依赖业务知识和工作经验。随着参保人数的快速增长,医疗行为的复杂变化、医保经办人手普遍吃紧,传统的经验决策方式越来越无法满足业务发展需求,在当前信息技术快速发展、医疗数据不断积累的基础上,充分利用先进技术手段,深入挖掘海量数据资源优势,通过制度运行模拟、政策效率评估、资金压力测试等方式,辅助实现决策高效化、科学化、精确化,是医保业务发展的必然要求。
医保大数据的应用
社会保险信息化多年来秉承全国统一规划、统一建设的原则,伴随统筹层次提升,推进数据向上集中、服务向下延伸,逐步奠定了坚实的数据基础。利用渐成规模的医保大数据,人社部门积极推动多项应用,遏制违规行为,辅助科学决策,保护基金安全。
1推动全民参保计划,实现全民医保
党的十八届五中全会通过的《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》明确提出“实施全民参保计划,基本实现法定人员全覆盖”。2017年,人社部加快推进全民参保登记系统建设、部省对接、数据上报等工作,目前已基本形成部省两级全民参保登记库,支持摸清法定未参保人员情况,助力全民参保计划,实现应参尽参。截至2017年底,各省共计上报包括医疗保险在内的人员参保信息30.42亿条,为下一步参保扩面提供了有力的数据支撑。
2实施医保智能监控,打造安全医保
2012年,人社部组织建设了医保智能监控系统,针对门诊、住院等不同业务环节设计了500余条监控规则,对频繁就医、分解住院、过高费用、大处方、药占比异常等常见违规医疗服务行为进行监控,监控对象涵盖医疗服务机构、医师、参保人员等。2014年,在前期工作基础上,人社部下发《关于进一步加强基本医疗保险医疗服务监管的意见》(人社部发〔2014〕54号),明确了监管途径、各方职责、问题处理程序等。近几年,开展医保智能监控工作的统筹地区数量不断增加,目前全国超过90%以上的统筹地区已全面开展智能监控工作。通过全场景、全环节、全时段自动监控的震慑作用,遏制了大量潜在违法、违规行为,保障了参保人员权益和医保基金安全。
3推广支付方式改革,促进科学医保
近年来,基于过去多年积累的医保数据,人社部门广泛开展了优化支付方式工作,积极推行复合式医保支付方式探索。2017年,国务院办公厅下发了《关于进一步深化基本医疗保险支付方式改革的指导意见》(国办发〔2017〕55号),对改革目标提出了明确要求。目前绝大部分地区均开展了总额控制,分析医保历史数据是医保部门与医疗机构协商制定总额的主要依据。此外部分地区在单病种、DRGs等支付方式的探索过程中也充分利用了医保数据。如沈阳市从2015年开始探索DRGs支付,应用本地医保支付数据,优化DRGs分组。上海强化数学模型在医保预算中的应用,同步推进按病种付费。
4探索医保移动支付,引导便捷医保
《“互联网+人社”2020行动计划》(人社部发〔2016〕105号)提出“支付结算”行动主题,要求建设人力资源和社会保障支付结算平台,拓展社会保障卡线上支付结算模式。社会保障卡经过十九年建设发展,为线上应用打下了深厚基础,具有身份凭证、信息记录、自助查询、就医结算、缴费和待遇领取、金融支付等功能,已成为持卡人方便快捷享受人力资源和社会保障权益及其他政府公共服务的电子凭证。各地根据文件精神,结合“互联网+”要求,积极探索实践医保移动支付,如杭州、武汉、深圳、昆明等地参保人可通过手机完成门诊费用医保支付,缓解窗口排队压力;沈阳、天津、嘉兴、珠海等地参保人可线上购药,通过手机或移动POS刷卡完成医保支付,改善用户体验。
医保大数据的应用挑战
1数据质量有待提升
一是数据不完整。从各地层面,社会保险信息系统管理的医保数据主要集中在参保、结算类基本数据,医疗行为过程中的医嘱、病历、药品进销存、检查检验报告等数据没有全面采集,服务反馈、治疗效果类数据,以及日志、视频、文件等非结构化数据普遍缺失,制约了医保智能监控、支付方式改革等应用的深入开展,难以支撑面向参保人开展精准服务。从部级层面,自2009年开展医保联网监测指标上报以来,各地按月向人社部上报数据,医保主要包括参保、享受待遇、定点医疗机构等基本信息,缺乏业务明细信息。
二是数据时效性不强。医保联网监测数据按月上报,支持了部级基金监管、宏观决策、社会保险参保待遇比对查询等多项系统应用。但按月更新的数据时效难以满足全国统筹、重点业务实时监控等新业务需要。
三是数据准确性不高。从部级联网监测数据来看,虽然数据规模、覆盖人群快速增长,但仍然存在各险种、各业务基本信息、业务状态信息不一致,部分代码使用不标准、不规范,甚至存在不少错误或无效信息等问题,对数据的深入分析和广泛应用带来较大影响。
2数据应用尚不充分
一是数据应用意识不足。近年来,人社部门逐渐认识到数据的巨大价值,积极开展数据应用,但相较于人社部门管理的大数据,已开发的数据只是冰山一角,海量数据还在“沉睡”,沉睡数据中的问题不断累积,反过来影响数据应用工作开展。毕竟只有持续应用,才能从根本上促进数据质量提升。
二是对“问题数据”重视不够。明显异常的数据一部分是数据质量低下的垃圾数据,也有部分是客观业务问题导致数据错误。在数据应用过程中,常常首先筛除异常数据,实际上也筛除了可能存在的问题和风险。大数据时代,更要培养重视异常数据的意识,善于从中发现问题、防范风险,逐步减少“问题数据”,提升数据质量。
三是跨业务数据应用不足。目前对数据的开发应用,多集中于单业务板块,跨业务联动应用不足,如社保与就业数据关联分析、就医信息与人员生存状态的结合判断等。数据只有真正融会贯通,才能激发新思路,创造新价值。
3安全体系还需健全
2014年,人社部先后下发了《人力资源和社会保障数据中心应用系统安全管理规范(试行)》(人社厅发〔2014〕47号)和《人力资源和社会保障数据中心数据库安全管理规范(试行)》(人社厅发〔2014〕48号),从具体操作层面对应用系统和数据库安全提出了规范要求。然而,大数据环境下数据链条变长、数据规模增长、数据来源多样、数据流动性增强,使得数据安全保护难度加大,个人信息泄露风险加剧,传统的安全控制措施面临挑战。
医保大数据的发展方向
1汇聚和完善医保大数据
一是夯实基础信息。统筹全民参保登记库和持卡人员基础信息库建设,完善部级人员、单位基础信息库,准确掌握服务对象基本情况,进一步发挥人社基础性信息库作用,实现一数一源、“一人一卡”。
二是整合信息资源。从数据上报时效上,优化联网监测数据上报机制,由按月上报调整为按日实时更新;从数据上报粒度上,扩充上报指标,补充明细业务数据。从数据收集来源上,利用互联网、移动终端等渠道增加信息收集来源,补充医疗服务结果、质量、满意度等类数据,同时推动与医保局、卫健委等部门间数据共享,实现数据融合。
三是提升数据质量。持续抓好数据质量提升,一方面做好与人口库等外部数据比对,核准数据资源。另一方面逐步排查数据异常原因,对可能存在的无效数据,进一步分析比对,发现问题及时督促整改。
2加快大数据平台建设
实现对医保大数据的高效集约管理,建设大数据平台势在必行。党的十九大报告提出要“建立全国统一的社会保险公共服务平台”,其内涵是运用“互联网+”、大数据等信息化手段,为群众提供无地域流动边界、无制度衔接障碍、参保权益信息更加公开透明、社保服务更加便捷高效、各服务事项一体化有机衔接的社会保险公共服务。高效的对外服务需要底层大数据平台的强大数据支撑能力,因此,建设适应人社业务,协同、监管、决策、服务的可靠安全人社大数据管理平台,作为大数据产生、汇集、分析和应用的基础,实现数据统一标准、统一管控,提升管理服务效率,为上层应用提供数据支撑服务,是当前的重点任务。
3持续助力医保业务发展
大数据应用的根本出发点和立足点是推动业务发展,提升管理效能,实现决策科学化、监管精准化、服务人本化。具体应用如:发挥大数据聚类、决策树等算法优势,支持单病种、DRGs等支付标准设计、测算和评价,推进多元复合式医保支付方式改革工作深入开展;完善药品数据和统一标准,借鉴各地先进经验,探索制定药品支付标准;利用大数据技术,分析并预测基金运行情况,完善筹资与待遇机制;深化医保智能监控系统应用,探索利用人工智能、图计算等前沿技术,提高监控精确度,实现更加智能化的监控;推进电子社保卡研究应用,提供网上费用结算、医保移动支付等服务,打造线上应用服务体系;利用大数据推荐模型,面向参保人提供精准推荐等健康管理服务。
4构建数据安全体系
大数据环境下的数据应用实践,对数据安全和个人隐私保护提出了更高的要求。要切实树立数据安全意识,实现数据全生命周期管理,确保数据安全、完整和一致。
一是建立数据管理机制,包括信息资源目录、数据分级分类管理、数据安全管理制度、数据共享开放流程等,确保管理过程规范,权责明晰;
二是加强基础设施保障,启用电子印章、数据加密、生物特征识别等安全技术手段,为数据安全提供基础保障;
三是确保个人信息安全,提供服务要获得个人授权,保护个人隐私。

④ 大数据技术是什么

大数据本身是一个抽象的概念。从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低,如图 1 所示。下面分别对每个特征作简要描述。

1)Volume:表示大数据的数据体量巨大。
数据集合的规模不断扩大,已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。

例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。网络首页导航每天需要提供的数据超过 1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。图 2 展示了每分钟互联网产生的各类数据的量。

2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。

加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快,处理模式已经开始从批处理转向流处理。

业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,可以从各种类型的数据中快速获得高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。

3)Variety:表示大数据的数据类型繁多。

传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。

现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、 日志文件等。企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。

4)Value:表示大数据的数据价值密度低。

大数据由于体量不断加大,单位数据的价值密 度在不断降低,然而数据的整体价值在提高。以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。

通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润

阅读全文

与医保接收外部数据出错是什么意思相关的资料

热点内容
手机锁屏后的文件在哪里 浏览:282
枪神纪母猴飞天教程 浏览:516
快捷建立文件夹 浏览:477
exe视频文件没有注册类 浏览:451
unix批量删除文件名前缀 浏览:541
k750s升级bios 浏览:147
学韩语用什么app 浏览:478
110固态硬盘分区win10 浏览:317
怎么恢复系统文件 浏览:358
数据线转换器多少钱 浏览:274
美国队长qq皮肤多少钱 浏览:630
win8word文档在哪 浏览:180
甘肃省人事局文件在哪里 浏览:689
spss安装输入代码 浏览:546
网络语言知乎 浏览:596
iphoneicloud无法显示 浏览:112
ict程序包 浏览:729
java有哪些条件语句 浏览:345
冒险岛120级去哪里升级 浏览:511
手机输入法声音文件 浏览:876

友情链接