導航:首頁 > 數據分析 > 醫保接收外部數據出錯是什麼意思

醫保接收外部數據出錯是什麼意思

發布時間:2024-07-27 14:03:07

大數據時代,運營商的身法與心法

大數據時代,運營商的身法與心法
我始終相信,無論在哪裡,有什麼職位,做什麼工作,如果內心沒有足夠的動力、期盼與愛的話,一個人是無法產生強烈的使命感與責任感的,或者說,沒有幸福感。
最近讀完了《幸福的方法》,對書中一段話非常有感觸:"忙碌奔波型是未來的奴隸,享樂主義型是現在的奴隸,而虛無主義型則是過去的奴隸。"在運營商工作的我們都經歷過從通信業黃金十年帶來的"金飯碗"、行業遭遇"高原平台期"的銅飯碗,甚至全社會"人人得而誅之以後快"的"紙飯碗",無論是企業還是身處其中的個人,都在感受著巨大的壓力與阻力。
於是,一些人選擇了"享樂主義"式生存,日復一日在單位混日子;一些人則選擇了"虛無主義"式生存,沉浸在過去的輝煌,躺在功勞簿上過日子;還有一些人選擇"忙碌奔波"式生存,開不完的會、做不夠的匯報、寫不盡的方案,雖終日忙忙碌碌卻無所作為。正是如此,才有了我上篇文章中寫到的"四種人"——那些想走又能走的人最終選擇了離開這里,那些想走卻不能走的整日抱怨體制,那些不想走也不能走的昏昏度日,剩下那些能走卻不想走的痛苦掙扎……
一、運營商正在經歷什麼?
借用雙城記那段經典開場白:這是一個最好的時代,這是一個最壞的時代。對於運營商這樣天生依靠人口紅利、規模紅利的傳統企業,未來的日子或許並不好走。無論是從媒體的口誅筆伐,還是用戶的人人喊打,亦或是員工的紛紛出離,種種跡象都在表明這個行業早已從大象快跑的「神壇」跌落,變得遲鈍、緩慢甚至有些狼狽了。
可十年前絕不是這樣。三十年前更加不是。
《大跨越:中國電信業三十春秋》的開篇語這樣寫道:從經濟瓶頸到社會先導,從全球末游到用戶總量世界第一,改革開放三十年中國電信業實現了舉世矚目的大跨越!這一切是怎麼得來的?這本生動再現改革開放30年來中國通信業輝煌歷程的著作選擇了兩個有意義的時間點,1978年跟2008年,前者是中國正式吹響改革開放號角的關鍵一年,而後者則是代表了通信業黃金十年的關鍵一年。
字里行間都可以讀到中國通信業經歷過怎樣的輝煌,可以感受到從業者那種由衷的自信與榮耀。時代巨變,昔日巨頭創造了比以往更加令人矚目的經營業績,卻在政治地位以及行業形象上連連敗走麥城。
時至今日當我們再次談論運營商,你想到了什麼?是財務報表上無比閃耀的光輝業績,還是面對行業內外競爭暗戰的困惑焦慮;是建成一張張4G、4G 網路的驕傲欣喜,還是管道化、低值化、邊緣化的郁悶心酸;是對KPI下多少就能完成多少的自信得意,還是對基層不斷涌現離職潮的始料未及。
是運營商真的做錯了什麼嗎?可能並不是。
放眼看看這個時代吧!這是一個在和同行不斷抗衡,卻無奈被OTT抄了後路的時代;一個到處充斥著機會,細看時卻滿目危機的時代;一個傳統大機構失勢瓦解,個人自由連接全面崛起的時代……
這是一個唯變不破的大時代。在這個時代里,競爭對手變了、游戲規則變了、用戶習慣也變了,曾經習以為常的一切突然間發生了天翻地覆的變化。話音、簡訊這些傳統業務正在加速下滑,流量雖然成為新的增長點,卻不得不面臨著「提速降費」的巨大壓力。可以說,在這樣的時代背景下,運營商像是被困的巨獸,想掙扎卻又充滿無力感,想改變卻又害怕不確定,想突破卻又找不到突破口……
唯一的方法大概就剩下三個字:豁出去。
二、運營商該怎麼辦?
對於眼下的運營商來說,出路無非兩條,要麼精耕存量客戶,挖掘更大的價值點;要麼開辟新市場,尋找行業的破局地。關於精耕存量市場,已經有太多這方面的文章,這里不再贅述。我想重點談談新市場。
1.新市場在哪裡?
日前,互聯網教父、科技商業預言家的凱文·凱利在斯坦福大學進行長達3小時的分享,暢談他對未來20年重大科技商業潮流的見解。我對其中一個觀點很感興趣,他說不管你現在做什麼行業,你做的生意都是數據生意。
數據!
無論是風生水起的移動互聯網,還是改變世界的芸芸眾生,他們都在通過運營商的網路來獲取信息。
2014年三月在北京舉行的一場大數據產業推介會上,阿里巴巴集團創始人馬雲在主題演講中發表了他的觀點——「人類正從IT時代走向DT時代。IT時代是以自我控制、自我管理為主,而DT時代,它是以服務大眾、激發生產力為主的技術。」
我們都知道,今年的雙11全球狂歡節中,阿里巴巴天貓用時不到12小時就打破了去年創下的571億元的交易額,最終將記錄鎖定在912億,其中無線交易佔比71%,全球產生成交的國家和地區達到205個。
巨量交易額的背後是什麼?是阿里越來越強大的供貨和物流系統?還是傳統零售業的全面沒落?其實都不是的。我以為這背後體現了阿里巴巴強大的數據分析和挖掘能力。在這樣的購物節中,最重要的問題是商家要備多少貨?而這可以通過平台歷史銷售大數據,預測貨品需求,為商戶提供庫存依據,提升庫存效率和有效性。
而在百貨商店時代,購物數據只有通過人工才有可能統計完並且不一定準確,但是阿里巴巴會把每個人的歷史購物和瀏覽數據都留在雲上。因此,淘寶可不光是一個電商平台,更是顧客的大數據平台。
阿里巴巴集團副總裁塗子沛在講到這個概念的時候舉了一個更容易理解的案例:請你預測全國哪些地區會有更多的二孩出生?按照傳統的數據統計,估計只能依靠人口普查、各地市區縣統計部門的層層上報,不但會有偏差而且還會滯後。而在阿里巴巴,只需要統計哪些區域的孕嬰用品銷量激增就可以了,不但真實而且更加便捷。
運營商也是一樣的。你以為運營商只是通信管道的提供者?其實或許還是信息適配的服務商。在過去,我們使用的文件、文件夾、桌面這些東西都是停留在本地的。我還記得那個時候最好的備份工具大概是移動硬碟或者是藍光光碟之類的東西。而進入網路時代之後,數據就出現在網頁上、鏈接里。現在的雲上有標簽、有流量、有新聞,還有各種各樣我們需要的信息。雲、數據化才是這個時代的關鍵詞。要知道,這些所有的信息都是通過運營商的網路傳輸的,就和從淘寶上銷售的商品信息一樣,除了信息本身,它的發送端和接收端或許才是我們關心的重點。
於是,將合適的信息主動推送給需要的人,就是運營商能提供的大數據服務了。
2.新市場有多大?
中國雲計算技術與產業聯盟理事長吳基傳曾指出:大數據是雲計算服務的基礎,是構架雲平台最基本的要素,沒有對海量信息的分析的大數據,就沒有為所有信息消費者獲取有價值的信息的可能性。
因此在商業界,大數據已經開始成為很多企業的生意。《2015年中國大數據交易白皮書》顯示,預計到2020年,中國大數據產業市場規模將超過這個市場去年規模的10倍,由2014年的767億元擴大至8228.81億元。
2015年8月19日,國務院常務會議通過《關於促進大數據發展的行動綱要》,這或許意味著,大數據在中國將逐漸步入正軌,進入到頂層設計時代,這無疑將加速經濟發展引擎的進一步開發。
從運營商的角度來看呢?以中國移動為例,我們有超過8.2億用戶,110萬4G基站,經營分析系統里有10B以上的數據,我們的10086每分鍾都有海量用戶的呼叫,實際上所有這些動作每天都在產生大量的數據。那麼,這些數據到底有多大,集中以後會是個什麼效果?
有人曾經做過測算,一個省公司一天的數據要上百P,這些數據集中在一點傳輸到中國移動(貴安)大數據中心,需要重建一個中國移動的CMNET,也就是中國移動Internet的骨幹網。
所以某種意義上來說,運營商擁有采之不盡用之不絕的數據富礦,站在金礦上總比無礦可挖強,這也是我判斷運營商或許會在大數據時代「觸底反彈」的依據之一。
3.還有什麼不確定因素?
雖說前途可期,但畢竟是一個全新的領域。在新領域就一定有新的游戲規則,也會有相應的規則適應過程。
在過去的幾年中,大數據的概念在產業界引發了無數的爭議和討論,甚至長期出現在Gartner的新興技術成熟度曲線(也稱新興技術炒作周期報告)中。原因非常簡單,一項新技術多被談及概念,雖然在媒體上屢屢曝光,但應用案例寥寥。
因此,大數據越來越被看做是評論界的談資,而非真正意義上的產業。
在貴陽成立的全球第一家大數據交易所,通過電子系統面向全球提供數據交易服務,計劃2020年數據清洗交易量年達1萬PB、年總額3萬億。然而,成立至今,這個深孚眾望的機構撮合的交易記錄也不過3000多筆。「有意願交易大數據的企業和機構還不多。」交易所工作人員如是說。
除此之外,還有幾個關鍵不確定因素在影響著大數據產業發展。
A.技術能力不足。IT作為後端的支撐手段,大量通過外包或采購方式實現,所以在自身軟體開發和大數據平台運維、大數據新技術應用、大數據分析挖掘方面能力相當有限。
B.數據「牆」大量存在。很多數據是分散在不同的系統中的,經過長時間的「豎井」式運作,已經形成了難以突破的壁壘。以中國移動為例,B域主要是經營分析數據、O域主要是網路運維數據、M域主要是管理信息數據,但這三域的IT系統分別由三個不同的部門負責,整合難度較大,較難形成「1 1>2」的數據融合效果。
C.組織架構不匹配。目前看,很少有機構會設置專門的部門去集中各種散落的數據,更別提對這些數據進行標准化的管理和維護了。
D.思維觀念的滯後。如果說技術、資金、人才方面的劣勢都可以通過後天的努力來補足,那麼意識層面的缺失就需要相當長時間的培育了。
除了以上說的幾點,大數據交易的安全性、定價的合理性、客戶信息的保密性,都在一定程度上影響著大數據業務的規模和發展空間。
三、運營商玩大數據的心法與身法
運營商究竟該怎麼玩兒大數據呢?竊以為先要回答好三個問題:一是數據在哪裡?二是數據放哪裡?三是數據怎麼用?
1.數據在哪裡?
都說我們正在經歷一個全新的商業時代——分享經濟的時代,消費者正在放棄傳統的、效率低下的企業,轉而投入分享型企業的懷抱,來獲取他們想要的產品和服務。Uber讓座駕更好地分享,Airbnb讓空閑的房屋更好地分享,八戒網讓創意和設計更好地分享……現在看,一切可以分享的都是價值數據。
在分享經濟的時代,真正分享的是有效的供需關系。因此,在分享經濟中,更重要的其實是創建供需場景,建立供需聯系。
數據也是相同的道理。隨著移動互聯網、雲計算、物聯網等新一代信息技術的爆發式發展,智能手機、平板電腦、可穿戴設備以及遍布各個角落的感測器,正在越來越多地接入到運營商網路。各種交互數據、感測數據正源源不斷從各行各業迅速生成。這些數量龐大、種類廣泛、迅速產生和更新的大數據,蘊含著前所未有的社會價值和商業價值。
如何能夠有效挖掘並體現出數據的價值是亟待解決的問題。竊以為,關鍵就在於建立數據使用的場景並搭建數據交易平台。
比如說,城市規劃設計院需要對新區進行商業價值評估,可以通過運營商的網格數據分析提供區域人口及經濟狀況解析;再比如,醫療機構需要在一段時期對葯物及醫療設備做儲備,可以通過醫保報賬平台統計該區域的醫療診斷及葯物使用情況,預測出該區域可以發生的大規模疾病,從而及時儲備相關資源。
重要的是,幫助數據消費者更加迅速有效地找到他們需要的數據,並促成雙方交易。
2.數據放哪裡?
如此大規模的數據存放在哪裡也是考驗大數據產業的要素之一。要知道並不是所有的機構都有足夠的資源去建設自己的數據中心。而在這方面,運營商恰好可以提供服務。
通信行業有個詞叫做「電信級服務」,意思是通信服務要具備不間斷運行、大容量、高穩定性、可靠性等特點。而要達到這些條件,就需要完備的QoS保障機制,而其中重要一環就是設施先進、管理規范的通信機房。
因此可以說,在數據機房方面,通信運營商具有先天的優勢。
能否將此作為運營商進入大數據市場的切入點呢?開放、合作就成了這個部分的關鍵詞。前文說過,傳統機構中有很多數據與信息孤島,要想打破不斷構築的「數據牆」,首先是要將他們集中化的存儲、管理、運營。因此,運營商的高標准數據中心或許只是一個必要而非充分條件,要讓源自不同領域的數據發生「化合作用」的前提是將這些數據存放在運營商的數據中心。
ICT基礎設施有連接和存儲的作用,其產生的數據通過不同的終端存儲下來,這些數據在應用程序中使用才會有價值。而運營商同時具備連接和存儲兩項功能。
面向未來,運營商數據中心將成為網路的中心,構建面向業務的敏捷、柔性、綠色的雲IT基礎架構將使運營商數據中心成為新一代ICT基礎設施的驅動中心。
3.數據怎麼用?
運營商現在最大的挑戰是什麼?是端到端的質量保障不足導致用戶體驗還不夠好嗎?是受到OTT業務的沖擊導致傳統業務快速下滑嗎?還是業務量收剪刀差不斷加大、投資壓力日趨吃緊嗎?個人認為都不是的。我們最大的挑戰在於用戶往往滿足於現有的業務。這會讓我們產生嚴重的路徑依賴,從而也會形成「自滿」情緒。
事實上,運營商現在面臨著三大重要轉變:一是從關注功能向關注最終用戶體驗轉變;二是從提供語音和帶寬向提供豐富、開放的ICT融合信息服務轉變;三是從基於人口紅利的增長向應用創新增長轉變。這三個轉變帶來了商業模式、運營模式、研發模式和科技創新的轉變,將驅動電信行業從封閉走向開放的數字化運營。
數字化運營,至少有三件事可以做:一是盤點數據資產;二是建立計算能力;三是開放數據平台。按照貴州移動羋大偉總經理的思路,運營商大數據發展路徑分為1.0、2.0和3.0三個版本
大數據1.0主要針對運營商內部分析,建設重點以數據整合和能力構建為主,為數據價值發掘奠定基礎,重點支撐精準營銷和精確建網;大數據2.0主要針對數據價值提升,重點是逐步拓展對內對外數據價值挖掘的能力;大數據3.0主要針對數據變現,聚焦重點客戶和行業,構建數據生態系統,逐步凸顯外部收入。
目前,運營商在IT系統和網路系統上積累了很多數據資產(當然如果處置不當也可能會變成數據遺產……),通過SDN和NFV等IT技術重構的通信網路,將會形成全新的彈性、智能的網路架構。而網路IT化,就要求建立以雲數據中心為核心的網路架構,數據中心將成為ICT基礎設施的核心,數據中心的布局和規劃決定未來網路的架構,也決定了未來的競爭力。
伴隨20多年的互聯網發展,掌握未來的「聯接一代」和「數字元人」已經長成。相比上一代人,他們的溝通、交友、娛樂、消費、工作、學習等行為方式和思維模式,已經發生深刻的變化,他們對於數字社會和互聯網的依賴與生俱來,代表著互聯網時代的新消費行為。
運營商新的業務運營系統不再是簡單的支持系統,更不是簡單的營銷界面在線化,而是連接運營商、客戶和合作夥伴,連接網路、應用和內容的價值創造系統和生態鏈系統。傳統的線下營業廳或將大幅減少甚至消失,取而代之的,是用戶可以全在線模式按需、實時定製享受各項服務,運營商通過大數據分析洞察客戶和精確營銷,提供更加智能的客戶服務。
從購買產品走向購買服務,商業世界的游戲規則正在發生根本上的變化,商家和用戶之間的關系從交付那一刻才剛剛開始。
互聯網之父勞倫斯·羅伯茨曾講過:「自網路誕生以來,我們只實現了網速的提高,而在提升網路性能及其他方面毫無進步。」在這方面,運營商正在積極從消費體驗出發打造新型的業務運營系統,新系統不再是簡單的業支系統和網管系統,更不是簡單的營銷在線化,而是連接運營商、客戶和合作夥伴,連接網路、應用和內容的價值創造系統。
後記
對於運營商來說,傳統通信的黃金十年也早已過去,創新增長的白金十年或許才剛開始。站在時代交替的十字路口,我滿腦子都只有一個想法——「或許我沒有趕上通信業的黃金十年,但我一定不會再錯過大數據時代的白金十年」。

② 反欺詐數據挖掘技術在醫療保險業的應用

一、項目背景

最近的新聞中都是用戶在看似正常的消費或取款後,發現自己的卡卻被盜刷了,這種現象就是欺詐交易。欺詐交易是存在於銀行、保險、證券等各行各業的危害現象,給人們經濟、生活帶來較大損失和威脅。作為世界難題,發達各國紛紛輔以了強大的信息化管理系統,通過數據挖掘和人工智慧輔助偵測、識別和評估欺詐交易,有效提高了反欺詐技術手段。

CRISP-DM,即跨行業數據挖掘標准流程(如下圖),是迄今為止最流行的數據挖據流程參考模型。圖中所示的各個大小節點之間的關聯會有循環和粗略不一,過程並不是重點,關鍵是數據挖掘的結果最終能嵌入到業務流程,以提升業務效率和效益。

CRISP-DM和SPSS自有開發的SPSS Modeler契合度非常好, 支持嚴格設計、半試驗研究、偏智能化的三大統計方法論,是全球最為出色的統計軟體之一.本次以SPSS Modeler18為建模工具,利用非真實的醫療保險業數據(投保人信息、梁物模醫療機構信息表、索賠信息表、醫療橡緩診斷與處理信息表)作為內部業務數據、非真實的小額貸款數據作為第三方客戶數據源,進行欺詐交易發現的數據挖掘建模和分析, 也相信於其他行業具有借鑒意義。

在CRISP-DM的商業理解階段,首先對企業進行擁有資源、需求、風險、成本收益的形勢評估,以便對數據挖掘目標的進行確定。

業務梳理的醫療保險欺詐風險分析如下:

1)國內醫療保險欺詐表現形式

主要有 : 冒名頂替 ( 即就醫資格作假) ; 病因作假 ( 將非醫保支付病種( 如車禍 、工傷、打架斗毆、自殺等 ) 改成醫保支付病種); 誇大損失; 票據作假; 醫療文書作假; 住院床位作假( 即掛床住院 ) ; 編造虛假住院、門診特殊病等有關資料「騙保」 。

2)欺詐的主體

在「第三方付費 」的制度下 ,醫務人員和被保險人可能合謀欺詐保險機構。

主要有三個角色:投保人、醫療機構、保險公司,發生欺詐的可能性來源有投保人、醫療機構。結合業務特徵整理數據挖掘的目標和思路方向如下:

數據異常檢測;

對投保人進行分類研究,使用用戶畫像,並結合外部數據對已有和潛在的客戶進行欺詐評分預測;

對醫療機構信息的分類研究;

醫療索賠檢測。

聲明: 鑒於篇幅,本篇概為總攬,對具體的思路、演算法將在今後做專題。

二、數據與模型分析

2.1數據異常檢測

不少數據異常情況從業務邏輯來說是一件可以憑借經驗直接判斷的事情。比如某客戶的索賠頻率和額度在一段時間大量增加、投保人的支付金額和投保人醫療費用數據大小關系異常等,都可以視為疑似欺詐,相關過程不做技術展示了。

Benford定律和anomaly detection是審計、證券等行業運用比螞仔較廣泛的異常監測方法。所謂異常檢測就是發現與大部分對象不同的對象,其實就是發現離群點。我們可以同時多種異常檢測方法來提升發現欺詐交易的命中率。Benford定律的是個有點趣的定律,揭示了海量數據中首位數字分布特徵:數據的第一位數字數字越大,出現的頻率越低。通過聚類建模,以醫療機構編號、支付金額、索賠筆數等為輸入變數:

我們可以得出當索賠闕值大於50 、聚類的距離闕值大於0.2的機構疑似欺詐報告:「醫療保健機構編號:10083642887,醫療保健機構細類: psychology,醫療保健機構索賠索賠數量 58」和「醫療保健機構編號: 10085843968,醫療保健機構細類: med trans,醫療保健機構索賠索賠數量 71」。

為擴大異常數據搜索范圍,利用專門的異常檢測方法Anomaly建模:

得到如下表中異常偏離指數大於1.5、Anomaly標記為「T」 的疑似欺詐投保人名單:

通過查看模型的結果,表中也展示出導致該條記錄被視為異常值的3個最重要影響因子及影響指數,可以輕易看出包括DIAG診斷、Procere處理過程、MEDcode醫療措施在內的因子是導致疑似欺詐的重要因素。

經過欺詐部門審核完畢,可以比較兩種演算法的命中率。

2.2投保人的欺詐分析

包括:聚類遷移,欺詐評分,用戶畫像。

2.2.1客戶的聚類遷移

通常來說,在較短時間內,不論是機構還是個人的狀態、行為模式是較穩定的,不會發生太大的變化。如果對投保人所做的聚類細分,在一年甚至半年內有客戶變換所在細分群組的話,可以提交疑似欺詐報告。聚類建模挑選幾個關鍵輸入變數(參考RFM模型),比如支付金額、支付筆數、保險條款分別對第一年和第二年進行聚類建模並作群組變換的標記,可以得到疑似欺詐名單。

在對客戶的聚類分析中,可以發現一些記錄數量很少的群組,在營銷活動中常常被忽略,但在欺詐發現中卻是值得引起注意的一個異常行為類群。

2.2.2欺詐評分:單分類器和集成學習(Ensemble Learning)

個人信用體系建設在發達國家已經非常成熟,眾所熟悉的銀行業就涉及到信用審批,額度確定,以及反欺詐等專業的應用。 美國銀行業中每年八千億美元的刷卡量中僅造成一個億左右的損失,占總量的約0.02%,其成熟發展的數據挖掘技術成果斐然。

欺詐評分可以主要分三個步驟:變數轉換,生成logsitic回歸模型和評分轉化。樣本隨機地分成兩部分:一部分用於建立模型,另一部分用來對模型進行檢驗。變數的Bining(分箱)處理實際上對數據是有一定損失的,但出於以業務服務為出發點的需求,必須考慮到分箱變數對於業務人員來說更方便使用和理解。

輸入logistics回歸模型的是各個(分箱)變數的WOE值(weight of evidence) 。Woe值的計算公式:WOE=ln(好客戶佔比/懷客戶佔比)*100。

變數轉換包含以下步驟:

1)剔除冗餘變數(相關系數較大的變數保留其一即可);

2)對連續變數的Bining處理和離散變數的類別歸並處理;

3)IV值的計算和WOE值的計算,為提升預測能力,盡量篩選IV值大於等於0.02和小於等於0.05的變數。

上圖是變數轉換數據流的模型和輸出的一部分,可以看出第一次輸出表格,作為離散變數的信用卡數據還可以繼續計算其違約率進行轉換分類。

逐步法進行logistic回歸建模後,還要利用統計方法對回歸系數進行評分轉化,評分轉化步驟涉及到一個量表編制的業務量化過程,暫不詳述。預測模型的檢驗可以用roc、k-s指標法等,評分卡檢驗需要反映出哪個分段是區分最大,選擇ks指標法:

一般,KS>0.2即可認為模型有比較好的預測准確性。

回歸是單分類器的基本常見演算法之一,還可以用決策樹C5.0建模。

查看C5.0模型可以得到客戶發生欺詐的8條規則,根據這些規則可以了解發生欺詐交易之前的若干顯著特徵,從而發現客戶的欺詐徵兆,及早進行防範。在規則1中,可以看到年齡在27歲以下、持信用卡類型為「支票」、國籍是希臘、南斯拉夫的客戶是發生欺詐交易的高風險的客戶群之一。

單分類器雖然在過去廣泛運用,但存在明顯的不足。近些年來美國銀行業大量採用了樹形演算法家族,目前接觸較多的集成學習主要有2種:基於Boosting的和基於Bagging,新近的還有梯度遞增樹演算法。這些集成學習方法避免了變數間的相互依存性問題,而且預測分析能力也逐步增強,適用范圍廣,在反欺詐和其他一些領域被證明效果非常好,是我們專業人士關注的方向。

Boosting演算法的主要思想是在T次迭代中,每次迭代對分類錯誤的樣本加大重采樣權重,使得在下一次的迭代中更加關注這些樣本。這樣訓練的多個弱分類器進行加權融合,產生一個最後的結果分類器,提高了該弱分類演算法的准確率。我們使用boosting 設置50棵決策樹迭代:

建模及結果:

2.2.3用戶畫像

近年比較熱的用戶畫像,為的是公司追本溯源對客群有更多感性的認識,輔助市場部進行精準營銷,並利用內部數據和外部(第三方)數據建立起大規模的數據倉庫體系,成為公司的核心價值資源。用戶通常具有人口統計學,社會群體特徵,金融業務特徵、個人興趣愛好等等幾大標簽體系。通過對用戶畫像的研究,搭建客戶的各類標簽體系,可以幫助我們分分鍾認識客戶。

一般來說,銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據,用戶畫像的需求較大也實踐較早。目前很多社交興趣愛好等信息來自於第三方補充。保險行業的產品是一個長周期產品,保險客戶再次購買保險產品的轉化率很高,對用戶的畫像也會是一個必要的過程。

根據業務經驗和集成演算法理論(當數據集較大時,可以分為不同的子集,分別進行訓練,然後再合成分類器),像銀行業、電信業等大型公司的客戶數據,我們可以首先根據客戶價值(長尾理論)的高低分類,再分別對高價值客戶、中低價值客戶等建立可能不同類型的模型以實現更好的分類效果。針對每次不同而豐富的營銷業務需求,第一步先從龐大的客戶標簽體系中構建出的標簽特徵子集,再通過進行LR(RANKING MODEL)等計算標簽影響因子,進行標簽的權重賦值,所得排名靠前的標簽就是此項業務人員所需了解的目標用戶的畫像了,同時也能較准確地為市場部提供相應的營銷客戶名單,大大提升業務效率。

假定開頭使用的anomaly數據異常檢測結果為真實,增加投保人信息表中的客戶屬性:「是/否發生欺詐」並按結果分別標記,使用k-Means建模並輸出各聚類群組的欺詐比例,查看得出結果報告:

從輸出結果中,對於欺詐比例較高的的聚類,我們可以重點考察他們的群組特徵標簽,spss modeler中可以直接察看聚類特徵的比較情況,得出聚類7的模型特徵描述如下,實現了分分鍾便認識欺詐交易的陌生人。

2.3醫療機構的分類研究

醫療機構的分類研究同樣可以首先使用聚類遷移分析方法(同上投保人的聚類遷移法),國外的反欺詐技術已經深入結合到各機構的管理過程中了,並取得良好成效。

2.4醫療索賠的檢測

醫療服務過程在各機構的處理方式上,通過人工審查欺詐是一件比較有難度和成本的事情。結合臨床路徑的概念和經驗,藉助數據挖掘技術建立模型,自動識別每一項特定醫療服務的系列特徵,如防射療程、化療療程度等,是推動醫療保險業欺詐發現重大進展。國內也開始了更多深入的研究與應用。

三、總結

③ 大數據在醫保管理中的應用與發展方向

大數據在醫保管理中的應用與發展方向
當前,醫療保險面臨基金收支平衡壓力增大、醫療服務違規行為多發、傳統經驗決策方式落後等多方面挑戰,從信息化建設角度,人社部門推進全民參保登記、醫保智能監控、支付方式改革和移動支付探索等工作,積極開展了醫保大數據應用。但在應用過程中仍然面臨數據質量有待提升、數據應用尚不充分、安全體系還需健全等問題。繼續深化醫保大數據應用,下一步應重點圍繞四個方面:一是匯聚和完善醫保大數據;二是加快大數據平台建設;三是持續助力醫保業務發展;四是構建數據安全體系。

當前,在全民醫保體系逐漸完善、人口老齡化趨勢加劇、醫療需求快速釋放、醫療費用不斷攀升等因素的綜合作用下,醫療保險面臨基金收支平衡壓力增大,醫療服務違規行為多發,傳統經驗決策方式落後等多方面挑戰,如何充分利用大數據、「互聯網+」等信息化手段,進一步支撐醫療保險在新形勢下持續發展,實現全民醫保、安全醫保、科學醫保和便捷醫保,全面提升醫保質量,是擺在我們面前的重要課題。
當前醫保管理面臨的困境
1醫保基金收支平衡壓力增大
隨著生活水平提高,參保人更加關注健康,醫療需求不斷上升,同時全民醫保從制度全覆蓋轉向人員全覆蓋,基本醫保支出規模隨之快速增長。這些因素都給醫保基金平衡帶來較大壓力。2016年,人社部門管理的基本醫療保險參保人數7.44億人,基金支出10767億元。參保人享受醫保待遇25億人次。考慮到當前經濟下行和人口老齡化的形勢,未來醫療保險基金收支平衡壓力更大。
2醫療服務違規行為多發
我國醫保待遇支出高速增長,既有惠民生政策、人口老齡化、醫療技術進步、醫療成本上升等正常因素,更有大處方、亂檢查、假發票等不合理因素。2016年審計署對醫療保險基金專項審計顯示,一些醫療服務機構和個人通過虛假就醫、分解住院、虛假異地發票等手段套取醫保基金2億余元。面對如此規模的支出,人工審核、抽查審核、固定規則審核等醫保傳統監管手段,對於日趨復雜的醫保基金使用場景難以全面覆蓋,對於日益隱蔽的醫療服務違規行為難以有效識別。
3傳統經驗決策方式落後
過去醫保政策制定和效率評估往往依賴業務知識和工作經驗。隨著參保人數的快速增長,醫療行為的復雜變化、醫保經辦人手普遍吃緊,傳統的經驗決策方式越來越無法滿足業務發展需求,在當前信息技術快速發展、醫療數據不斷積累的基礎上,充分利用先進技術手段,深入挖掘海量數據資源優勢,通過制度運行模擬、政策效率評估、資金壓力測試等方式,輔助實現決策高效化、科學化、精確化,是醫保業務發展的必然要求。
醫保大數據的應用
社會保險信息化多年來秉承全國統一規劃、統一建設的原則,伴隨統籌層次提升,推進數據向上集中、服務向下延伸,逐步奠定了堅實的數據基礎。利用漸成規模的醫保大數據,人社部門積極推動多項應用,遏制違規行為,輔助科學決策,保護基金安全。
1推動全民參保計劃,實現全民醫保
黨的十八屆五中全會通過的《中共中央關於制定國民經濟和社會發展第十三個五年規劃的建議》明確提出「實施全民參保計劃,基本實現法定人員全覆蓋」。2017年,人社部加快推進全民參保登記系統建設、部省對接、數據上報等工作,目前已基本形成部省兩級全民參保登記庫,支持摸清法定未參保人員情況,助力全民參保計劃,實現應參盡參。截至2017年底,各省共計上報包括醫療保險在內的人員參保信息30.42億條,為下一步參保擴面提供了有力的數據支撐。
2實施醫保智能監控,打造安全醫保
2012年,人社部組織建設了醫保智能監控系統,針對門診、住院等不同業務環節設計了500餘條監控規則,對頻繁就醫、分解住院、過高費用、大處方、葯佔比異常等常見違規醫療服務行為進行監控,監控對象涵蓋醫療服務機構、醫師、參保人員等。2014年,在前期工作基礎上,人社部下發《關於進一步加強基本醫療保險醫療服務監管的意見》(人社部發〔2014〕54號),明確了監管途徑、各方職責、問題處理程序等。近幾年,開展醫保智能監控工作的統籌地區數量不斷增加,目前全國超過90%以上的統籌地區已全面開展智能監控工作。通過全場景、全環節、全時段自動監控的震懾作用,遏制了大量潛在違法、違規行為,保障了參保人員權益和醫保基金安全。
3推廣支付方式改革,促進科學醫保
近年來,基於過去多年積累的醫保數據,人社部門廣泛開展了優化支付方式工作,積極推行復合式醫保支付方式探索。2017年,國務院辦公廳下發了《關於進一步深化基本醫療保險支付方式改革的指導意見》(國辦發〔2017〕55號),對改革目標提出了明確要求。目前絕大部分地區均開展了總額控制,分析醫保歷史數據是醫保部門與醫療機構協商制定總額的主要依據。此外部分地區在單病種、DRGs等支付方式的探索過程中也充分利用了醫保數據。如沈陽市從2015年開始探索DRGs支付,應用本地醫保支付數據,優化DRGs分組。上海強化數學模型在醫保預算中的應用,同步推進按病種付費。
4探索醫保移動支付,引導便捷醫保
《「互聯網+人社」2020行動計劃》(人社部發〔2016〕105號)提出「支付結算」行動主題,要求建設人力資源和社會保障支付結算平台,拓展社會保障卡線上支付結算模式。社會保障卡經過十九年建設發展,為線上應用打下了深厚基礎,具有身份憑證、信息記錄、自助查詢、就醫結算、繳費和待遇領取、金融支付等功能,已成為持卡人方便快捷享受人力資源和社會保障權益及其他政府公共服務的電子憑證。各地根據文件精神,結合「互聯網+」要求,積極探索實踐醫保移動支付,如杭州、武漢、深圳、昆明等地參保人可通過手機完成門診費用醫保支付,緩解窗口排隊壓力;沈陽、天津、嘉興、珠海等地參保人可線上購葯,通過手機或移動POS刷卡完成醫保支付,改善用戶體驗。
醫保大數據的應用挑戰
1數據質量有待提升
一是數據不完整。從各地層面,社會保險信息系統管理的醫保數據主要集中在參保、結算類基本數據,醫療行為過程中的醫囑、病歷、葯品進銷存、檢查檢驗報告等數據沒有全面採集,服務反饋、治療效果類數據,以及日誌、視頻、文件等非結構化數據普遍缺失,制約了醫保智能監控、支付方式改革等應用的深入開展,難以支撐面向參保人開展精準服務。從部級層面,自2009年開展醫保聯網監測指標上報以來,各地按月向人社部上報數據,醫保主要包括參保、享受待遇、定點醫療機構等基本信息,缺乏業務明細信息。
二是數據時效性不強。醫保聯網監測數據按月上報,支持了部級基金監管、宏觀決策、社會保險參保待遇比對查詢等多項系統應用。但按月更新的數據時效難以滿足全國統籌、重點業務實時監控等新業務需要。
三是數據准確性不高。從部級聯網監測數據來看,雖然數據規模、覆蓋人群快速增長,但仍然存在各險種、各業務基本信息、業務狀態信息不一致,部分代碼使用不標准、不規范,甚至存在不少錯誤或無效信息等問題,對數據的深入分析和廣泛應用帶來較大影響。
2數據應用尚不充分
一是數據應用意識不足。近年來,人社部門逐漸認識到數據的巨大價值,積極開展數據應用,但相較於人社部門管理的大數據,已開發的數據只是冰山一角,海量數據還在「沉睡」,沉睡數據中的問題不斷累積,反過來影響數據應用工作開展。畢竟只有持續應用,才能從根本上促進數據質量提升。
二是對「問題數據」重視不夠。明顯異常的數據一部分是數據質量低下的垃圾數據,也有部分是客觀業務問題導致數據錯誤。在數據應用過程中,常常首先篩除異常數據,實際上也篩除了可能存在的問題和風險。大數據時代,更要培養重視異常數據的意識,善於從中發現問題、防範風險,逐步減少「問題數據」,提升數據質量。
三是跨業務數據應用不足。目前對數據的開發應用,多集中於單業務板塊,跨業務聯動應用不足,如社保與就業數據關聯分析、就醫信息與人員生存狀態的結合判斷等。數據只有真正融會貫通,才能激發新思路,創造新價值。
3安全體系還需健全
2014年,人社部先後下發了《人力資源和社會保障數據中心應用系統安全管理規范(試行)》(人社廳發〔2014〕47號)和《人力資源和社會保障數據中心資料庫安全管理規范(試行)》(人社廳發〔2014〕48號),從具體操作層面對應用系統和資料庫安全提出了規范要求。然而,大數據環境下數據鏈條變長、數據規模增長、數據來源多樣、數據流動性增強,使得數據安全保護難度加大,個人信息泄露風險加劇,傳統的安全控制措施面臨挑戰。
醫保大數據的發展方向
1匯聚和完善醫保大數據
一是夯實基礎信息。統籌全民參保登記庫和持卡人員基礎信息庫建設,完善部級人員、單位基礎信息庫,准確掌握服務對象基本情況,進一步發揮人社基礎性信息庫作用,實現一數一源、「一人一卡」。
二是整合信息資源。從數據上報時效上,優化聯網監測數據上報機制,由按月上報調整為按日實時更新;從數據上報粒度上,擴充上報指標,補充明細業務數據。從數據收集來源上,利用互聯網、移動終端等渠道增加信息收集來源,補充醫療服務結果、質量、滿意度等類數據,同時推動與醫保局、衛健委等部門間數據共享,實現數據融合。
三是提升數據質量。持續抓好數據質量提升,一方面做好與人口庫等外部數據比對,核准數據資源。另一方面逐步排查數據異常原因,對可能存在的無效數據,進一步分析比對,發現問題及時督促整改。
2加快大數據平台建設
實現對醫保大數據的高效集約管理,建設大數據平台勢在必行。黨的十九大報告提出要「建立全國統一的社會保險公共服務平台」,其內涵是運用「互聯網+」、大數據等信息化手段,為群眾提供無地域流動邊界、無制度銜接障礙、參保權益信息更加公開透明、社保服務更加便捷高效、各服務事項一體化有機銜接的社會保險公共服務。高效的對外服務需要底層大數據平台的強大數據支撐能力,因此,建設適應人社業務,協同、監管、決策、服務的可靠安全人社大數據管理平台,作為大數據產生、匯集、分析和應用的基礎,實現數據統一標准、統一管控,提升管理服務效率,為上層應用提供數據支撐服務,是當前的重點任務。
3持續助力醫保業務發展
大數據應用的根本出發點和立足點是推動業務發展,提升管理效能,實現決策科學化、監管精準化、服務人本化。具體應用如:發揮大數據聚類、決策樹等演算法優勢,支持單病種、DRGs等支付標准設計、測算和評價,推進多元復合式醫保支付方式改革工作深入開展;完善葯品數據和統一標准,借鑒各地先進經驗,探索制定葯品支付標准;利用大數據技術,分析並預測基金運行情況,完善籌資與待遇機制;深化醫保智能監控系統應用,探索利用人工智慧、圖計算等前沿技術,提高監控精確度,實現更加智能化的監控;推進電子社保卡研究應用,提供網上費用結算、醫保移動支付等服務,打造線上應用服務體系;利用大數據推薦模型,面向參保人提供精準推薦等健康管理服務。
4構建數據安全體系
大數據環境下的數據應用實踐,對數據安全和個人隱私保護提出了更高的要求。要切實樹立數據安全意識,實現數據全生命周期管理,確保數據安全、完整和一致。
一是建立數據管理機制,包括信息資源目錄、數據分級分類管理、數據安全管理制度、數據共享開放流程等,確保管理過程規范,權責明晰;
二是加強基礎設施保障,啟用電子印章、數據加密、生物特徵識別等安全技術手段,為數據安全提供基礎保障;
三是確保個人信息安全,提供服務要獲得個人授權,保護個人隱私。

④ 大數據技術是什麼

大數據本身是一個抽象的概念。從一般意義上講,大數據是指無法在有限時間內用常規軟體工具對其進行獲取、存儲、管理和處理的數據集合。
目前,業界對大數據還沒有一個統一的定義,但是大家普遍認為,大數據具備 Volume、Velocity、Variety 和 Value 四個特徵,簡稱「4V」,即數據體量巨大、數據速度快、數據類型繁多和數據價值密度低,如圖 1 所示。下面分別對每個特徵作簡要描述。

1)Volume:表示大數據的數據體量巨大。
數據集合的規模不斷擴大,已經從 GB 級增加到 TB 級再增加到 PB 級,近年來,數據量甚至開始以 EB 和 ZB 來計數。

例如,一個中型城市的視頻監控信息一天就能達到幾十 TB 的數據量。網路首頁導航每天需要提供的數據超過 1-5PB,如果將這些數據列印出來,會超過 5000 億張 A4 紙。圖 2 展示了每分鍾互聯網產生的各類數據的量。

2)Velocity:表示大數據的數據產生、處理和分析的速度在持續加快。

加速的原因是數據創建的實時性特點,以及將流數據結合到業務流程和決策過程中的需求。數據處理速度快,處理模式已經開始從批處理轉向流處理。

業界對大數據的處理能力有一個稱謂——「 1 秒定律」,也就是說,可以從各種類型的數據中快速獲得高價值的信息。大數據的快速處理能力充分體現出它與傳統的數據處理技術的本質區別。

3)Variety:表示大數據的數據類型繁多。

傳統 IT 產業產生和處理的數據類型較為單一,大部分是結構化數據。隨著感測器、智能設備、社交網路、物聯網、移動計算、在線廣告等新的渠道和技術不斷涌現,產生的數據類型無以計數。

現在的數據類型不再只是格式化數據,更多的是半結構化或者非結構化數據,如 XML、郵件、博客、即時消息、視頻、照片、點擊流、 日誌文件等。企業需要整合、存儲和分析來自復雜的傳統和非傳統信息源的數據,包括企業內部和外部的數據。

4)Value:表示大數據的數據價值密度低。

大數據由於體量不斷加大,單位數據的價值密 度在不斷降低,然而數據的整體價值在提高。以監控視頻為例,在一小時的視頻中,有用的數據可能僅僅只有一兩秒,但是卻會非常重要。現在許多專家已經將大數據等同於黃金和石油,這表示大數據當中蘊含了無限的商業價值。

通過對大數據進行處理,找出其中潛在的商業價值,將會產生巨大的商業利潤

閱讀全文

與醫保接收外部數據出錯是什麼意思相關的資料

熱點內容
網路上有人想訪問我的地址怎麼辦 瀏覽:730
linux解壓zip亂碼 瀏覽:839
看直播數據用哪個平台最好 瀏覽:730
win10晶元驅動程序版本 瀏覽:763
如何給word添加公式編輯器 瀏覽:666
iphone桌面文件夾怎樣合並 瀏覽:919
要我蘋果賬號密碼忘記了怎麼辦 瀏覽:578
快快卡在配置游戲文件 瀏覽:393
數據包重發時間怎麼調整 瀏覽:882
youtubeapp怎麼下載 瀏覽:366
編程檢測是什麼 瀏覽:753
網路攝像機的傳輸距離 瀏覽:941
超值貓qq群購秒殺群 瀏覽:138
pdf文件能備注嗎 瀏覽:174
html可視化數據源碼在哪裡 瀏覽:387
adobereader專用卸載工具 瀏覽:28
vivo手機數據如何備份 瀏覽:888
ithmb文件轉換器 瀏覽:66
看病找什麼網站好 瀏覽:579
linux如何查看文件系統 瀏覽:581

友情鏈接