㈠ 數據分析之風控
上世紀90年代初,以美國運通(Amarican Express)為首的美國信用卡金融公司開始運用數據建模來提升風控能力,解決精準營銷等問題。Discover,Capital One緊隨其後
1995年,AMEX的風控模型開始試運行,1997年風控系統正式上線,此後幾年,AMEX保持高速增長且把不良貸款降到業內最低
2008年,discover將全球數據分析中心搬到上海。從這個中心流出的風控人才,填充了中國各大互金公司
業務類型:有抵押貸(房貸車貸)、信用貸(比如宜人貸)、消費分期貸(手機家電等)、小額現金貸(500/1000/1500)等
風控涉及業務:1)數據採集:包括徵信數據,運營商數據,爬蟲,網站埋點,歷史借款數據,黑名單,第三方數據等
2)反欺詐引擎:主要包括反欺詐規則與反欺詐模型。
3)規則引擎:即常說的策略。主要通過數據分析手段統計不同欄位和各個區間的壞賬率,然後篩選得到信用較好的人群進行放款
4)風控模型&評分卡:模型演算法之間並無顯著不同,而是根據其發生的不同時間點進行劃分(貸前/貸中/貸後),即目標產生的方式不一樣。通常信貸領域都是以逾期天數來定義目標變數。A卡可以用客戶歷史逾期天數最大值,B卡可以用多期借款中逾期最大的一次。C卡因為用途不同有不同的建立方法
5)催收:是風控的最終手段。這個環節可以產生很多對模型有幫助的數據,比如催收記錄的文字描述,觸達率,欺詐標簽等等
1)爬蟲可以爬取手機APP的信息。我們可以將手機APP分成4類:工具,社交、娛樂、金融。計算每種APP的個數,這樣就有了4個特徵
2)從運營商數據可以知道客戶打了多少電話,發了多少簡訊,用了多少流量,是否有過欠費等信息
3)徵信報告很多時候都是一個簡單的徵信分數,一般都是得分越高,客戶質量越好
4)從基本信息中獲取用戶畫像,比如從身份證中得到年齡、性別、戶籍3個特徵
黑名單的升級版本就是規則引擎。然而它是靠經驗生成的。比如保險公司可能會拒絕連續退貨5次或者退貨比例達到80%的人購買退貨險。規則通常需要投入大量的精力維護,不斷更新修改,否則會造成大量的誤判。對疑似套現金額、筆數超過一定數目,建議拒絕准入,或做重點關注。XX天內申請借貸數大於某個值,建議拒絕
比如我們可以設定一個准入規則,如職業為公務員、醫生、律師等。
還可以設置直接放款原則,比如芝麻分大於750分
目標變數如何確定:以A卡為例,主要通過roll-rate與vintage。舉個例子,我們可以定義在8個月逾期超過60天的客戶為壞客戶,8個月未逾期的為好客戶。而八個月逾期在0-60天內為不確定客戶,從樣本中排除。
1)前期准備工作:不同的模型針對不同的業務場景,在建模項目開始前需要對業務的邏輯和需求有清晰的理解
2)模型設計:包括模型的選擇(評分卡還是集成模型),單個模型還是做模型細分。是否需要做拒絕推斷,怎麼定義觀察期、表現期、好壞用戶。確定數據來源
3)數據拉取及清洗:根據觀察期和表現期的定義從數據池中取數,並進行數據清洗和穩定性驗證。數據清洗包括異常、缺失、重復。穩定性驗證主要考察變數在時間序列上的穩定性,指標有PSI,IV,平均值/方差等
4)特徵工程:主要是特徵的預處理和篩選。評分卡主要是通過IV進行篩選。另外會基於對業務的理解進行特徵構造,包括特徵交叉(兩個或以上特徵相乘/相除/笛卡爾積),特徵轉換等
5)模型建立和評估:評分卡可以用邏輯回歸,只需要做二分類預測可以選擇xgb.模型建好後需要進行模型評估,計算auc,ks。並對模型做交叉驗證來評估泛化能力
6)模型上線部署:在風控後台配置模型規則,對於一些復雜的模型比如xgb,一般是將模型文件轉換為pmml格式,並封裝。在後台上傳文件與配置參數
7)模型監控:前期主要是監控模型整體與變數的穩定性。衡量標准主要是PSI(population stability index)。其實psi 就是按分數分區間後,各個分數區間實際與期望佔比的差異。如果小於10%,無需更新模型。小於25%,就需要重點關注模型了。如果大於25%就需要更新模型。計算模型psi一般用等頻,可以分10箱
1.A卡B卡C卡含義與區別
A卡(application score card):即申請評分卡,在客戶申請處理期,預測客戶開戶後一定時期內違約拖欠的風險概率,有效的排除了信用不良客戶和非目標客戶的申請。同時對客戶進行風險定價----確定額度與利率。用到的數據主要是用戶以往的信用歷史,多頭借貸,消費記錄等信息。
B卡(behavior score card):行為評分卡,在賬戶管理期,根據賬戶歷史上所表現出的各種行為特徵來預測該賬戶未來的信貸表現。一是防控貸中風險,二是對用戶的額度做一個調整。用到的數據主要是用戶在本平台的登錄、瀏覽、消費行為等數據。還有借還款,逾期等借貸表現數據。
C卡(collection score card):催收評分卡,對逾期賬戶預測催收策略反應的概率,從而採取相應的催收措施
三張卡的區別:
數據要求不同:A卡一般可做貸款0-1年的信用分析。B卡則是在申請人有了一定行為後,有了較大數據進行的分析。C卡則對數據要求更大,需加入催收後客戶反應等屬性數據
特徵不同:A卡用到的大部分是申請者的背景信息,比如客戶填寫的基本信息,以及第三方信息。而且這個模型一般也會比較謹慎。B卡利用了很多基於交易的特徵。
2.風控領域為何選擇邏輯回歸模型,有哪些局限性
1)首先是因為邏輯回歸客群變化的敏感度不如其他高復雜度模型,因此穩健性好
2)模型直觀,系數含義好闡述,易理解
缺點是容易欠擬合,准確度不是很高。另外對數據要求比較高,缺失、異常、特徵共線性都比較敏感
3.為何用IV而不是WOE篩選特徵
因為IV考慮了分組中樣本比例的影響。即使這個分組的WOE很高,但是分組的樣本佔比很小的話,最終這個特徵的預測能力可能還是很小
4.ROC與KS指標(ks在0.2-0.75,auc在0.5-0.9較好)
ROC曲線把TP,FP當作橫縱坐標,而KS曲線把TP,FP都當成是縱坐標,橫坐標是閥值。KS能找出模型中差異最大的一個分組,大於0.2即可認為有比較好的預測准確性。而ROC能反應整體區分效果
5.分箱方法與badrate單調
目前在行業里,大家用貪心演算法進行分箱的比較多,比如best_ks,卡方分箱等。badrate單調性只在連續型數值變數與有序型離散變數(如學歷/尺碼)分箱的過程中才會考慮。至於為何要考慮badrate單調性,主要是出於業務理解,比如歷史逾期越多那麼badrate越大。
6.為何不同的風控模型,一般都不會選用相同的特徵
被拒絕的人,是因為某些特徵表現差。如果用相同的特徵做重復篩選,那麼隨著時間推移,以後建模的樣本裡面就沒有這些人了。這樣特徵上的樣本分布就變了。
7.風控中用的無監督演算法有哪些
聚類演算法,基於圖的離群檢測,LOF(局部異常因子),孤立森林等
8.卡方分箱
卡方分箱是基於合並的數據離散化方法.基本思想是相鄰的區間具有類似的類分布,則將之合並.而卡方值是衡量兩個區間相似性的標准,卡方值越低越相似.當然也不可能無限合並下去,我們給它設定一個閥值.根據自由度與置信度得到.比如類別數是N,那麼自由度就是N-1.而置信度表示發生的概率。一般可以取90%。
9.best-ks分箱
與卡方分箱相反,best-ks分箱是一個逐步拆分的過程。將特徵值從小到大排序,KS最大的那個值即為切點,然後把數據分為兩部分。重復這個過程,直到箱體數達到我們的預設的閥值即可。
10.拒絕推斷(reject inference)
申請評分卡是利用通過審核的授信客戶的歷史數據來建立模型,但是此模型會忽略原先被拒絕的這部分客群對評分卡模型的影響。需要通過拒絕推論來對模型進行修正,以便使模型更加的精確與穩定。另外,公司的規則變化也可能讓過去被拒絕的客戶現在能通過。適用於中低通過率的場景。
常用方法:硬性截斷法---先用初始模型對拒絕用戶進行打分,設置一個閥值。高於此分數標記為好用戶,反之為壞用戶。然後把標記後的拒絕用戶加入樣本中重新訓練模型。分配法---此方法適用於評分卡。將樣本根據評分高低進行分組,並計算各組的違約率。然後對拒絕用戶進行打分並按照之前的方法分組,以各組的違約率為抽樣比例,隨機抽取該分組下的違約用戶,指定為壞用戶,剩下的標記為好用戶。然後將標記好的拒絕用戶加入樣本重新訓練
11.建模過程中如何保證模型的穩定性
1)在數據預處理階段可以驗證變數在時間序列上的穩定性,方法有:計算月IV的差異,觀察變數覆蓋率的變化,兩個時間點的PSI差異等。例如我們選取1-10月的數據集,借鑒K折驗證的思想,得到10組驗證結果。觀察隨著月份的推移,模型的變化是否有比較大的趨勢變化
2)在變數篩選階段剔除與業務理解相悖的變數。如果是評分卡,可以剔除區分度太強的變數,模型受這個變數影響太大,穩定性會下降
3)做交叉驗證,一種是時間序列上的交叉驗證,一種是K折交叉驗證
4)選擇穩定性好的模型。比如xgb 隨機森林等
12.怎麼處理高維稀疏特徵與弱特徵
對於高維稀疏特徵,邏輯回歸比gbdt效果好。後者的懲罰項主要是樹深度與葉子數目,這對稀疏數據來說懲罰並不嚴厲,容易過擬合。使用邏輯回歸評分卡,則可以把特徵離散化為0與非0,然後再進行woe編碼。
如果用評分卡建模,弱特徵一般會被舍棄掉。評分卡的入模特徵數不宜過多,一般在15個以下。而xgb對數據的要求不高,而且精度好。一些弱特徵進行交叉組合也許有意想不到的效果。
13.模型上線後發現穩定性不佳,或者線上的區分效果不好,怎麼調整
模型穩定性不佳首先檢查當初建模時有沒有考慮特徵的穩定性。在模型前期發現穩定性不佳的變數,考慮棄用或用其他變數代替。另外分析線上線下用戶和建模時用戶的分布差異,考慮在建模時增加拒絕推斷的步驟,讓建模樣本的分布更加接近實際的整體申請用戶
線上的效果不好可以從變數角度分析。剔除掉效果不好的變數,挖掘新的變數入模。如果一個模型已上線較長的時間,用戶的屬性也慢慢發生偏移,那麼重新取數做下模型
14.怎麼做風控模型冷啟動
產品剛上線時,沒有積累的用戶數據,或者用戶沒有表現出好壞,此時可以考慮: 1)不做模型,只做規則。憑借業務經驗,做一些硬性規則,比如設定用戶的准入門檻,考量用戶的信用歷史與多頭風險,可以接入第三方的反欺詐服務和數據產品的規則。也可以結合人工審核來對用戶的申請資料做風險評估 2)藉助相近模型的數據來建模。
15.樣本不平衡問題
除了調整類權重以外,主要採用采樣方法來解決。常見的有樸素隨機過采樣,SMOTE,ADASYN(自適應綜合過采樣)
16.運營商數據處理
根據通話日期,可以將通話記錄分為近7天,近半月,近一月,近三月,近6月等時間窗口。也可以按具體日期劃分為工作日、節假日等。根據通話時間,可以將一天劃為凌晨、上午、下午、晚上。至於電話號碼,一種思路是按照歸屬地劃分為 省市,另一種思路是對號碼打標簽,根據電話邦、網路手機衛士、搜狗號碼通的標記,區分出快遞外賣、騷擾電話、金融機構、中介等。甚至根據業務積累區分號碼是否是黑名單用戶、申請用戶或申請被拒用戶。用戶與不同號碼標簽的通話情況,可以側面反應用戶的通話習慣和生活特點
17.逐步回歸
當自變數之間的關系比較復雜,對於變數的取捨不易把握時,我們可以使用逐步回歸的方法進行變數篩選。逐步回歸的基本思想是將變數逐個引入模型,每引入一個變數進行F檢驗,並對已經選入的變數進行t檢驗,當原來引入的變數在後面的變數引入之後不再顯著時,則將原來的變數刪除。以確保每次引入引入新的變數之前回歸方程中只包含顯著性變數
18.在邏輯回歸中,為什麼常常要做特徵組合(特徵交叉)
邏輯回歸屬於廣義線性模型,特徵組合可以引入非線性特徵,提升模型的表達能力
部分引用文章: https://www.jianshu.com/u/0ce0500106d https://new.qq.com/omn/20180115/20180115A0RUEZ.html https://www.ixueshu.com/document/.html https://www.e-learn.cn/content/qita/775233 https://cloud.tencent.com/developer/article/144 8182 https://www.shangyexin.com/article/details/id-171268/ https://blog.csdn.net/sunyaowu315/article/details/87162765 https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc https://zhuanlan.hu.com/p/56474197 https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu https://cloud.tencent.com/developer/article/1489429 https://cloud.tencent.com/developer/article/1059236 https://github.com/taenggu0309/Scorecard--Function
㈡ 如何利用大數據做金融風控
大數據能夠進行數據變現的商業模式目前就是兩個,一個是精準營銷,典型的場景是商品推薦和精準廣告投放,另外一個是大數據風控,典型的場景是互聯網金融的大數據風控。
金融的本質是風險管理,風控是所有金融業務的核心。典型的金融借貸業務例如抵押貸款、消費貸款、P2P、供應鏈金融、以及票據融資都需要數據風控識別欺詐用戶及評估用戶信用等級。
傳統金融的風控主要利用了信用屬性強大的金融數據,一般採用20個緯度左右的數據,利用評分來識別客戶的還款能力和還款意願。信用相關程度強的數據 緯度為十個左右,包含年齡、職業、收入、學歷、工作單位、借貸情況、房產,汽車、單位、還貸記錄等,金融企業參考用戶提交的數據進行打分,最後得到申請人 的信用評分,依據評分來決定是否貸款以及貸款額度。其他同信用相關的數據還有區域、產品、理財方式、行業、繳款方式、繳款記錄、金額、時間、頻率等。普惠在線
互聯網金融的大數據風控並不是完全改變傳統風控,實際是豐富傳統風控的數據緯度。互聯網風控中,首先還是利用信用屬性強的金融數據,判斷借款人的還 款能力和還款意願,然後在利用信用屬性較弱的行為數據進行補充,一般是利用數據的關聯分析來判斷借款人的信用情況,藉助數據模型來揭示某些行為特徵和信用 風險之間的關系。
互聯網金融公司利用大數據進行風控時,都是利用多維度數據來識別借款人風險。同信用相關的數據越多地被用於借款人風險評估,借款人的信用風險就被揭示的更充分,信用評分就會更加客觀,接近借款人實際風險。
常用的互聯網金融大數據風控方式有以下幾種:
驗證借款人身份
驗證借款人身份的五因素認證是姓名、手機號、身份證號、銀行卡號、家庭地址。企業可以藉助國政通的數據來驗證姓名、身份證號,藉助銀聯數據來驗證銀行卡號和姓名,利用運營商數據來驗證手機號、姓名、身份證號、家庭住址。
如果借款人是欺詐用戶,這五個信息都可以買到。這個時候就需要進行人臉識別了,人臉識別等原理是調用國政通/公安局 API介面,將申請人實時拍攝的照片/視頻同客戶預留在公安的身份證進行識別,通過人臉識別技術驗證申請人是否是借款人本人。
其他的驗證客戶的方式包括讓客戶出示其他銀行的信用卡及刷卡記錄,或者驗證客戶的學歷證書和身份認證。
分析提交的信息來識別欺詐
大部分的貸款申請都從線下移到了線上,特別是在互聯網金融領域,消費貸和學生貸都是以線上申請為主的。
線上申請時,申請人會按照貸款公司的要求填寫多維度信息例如戶籍地址,居住地址,工作單位,單位電話,單位名稱等。如果是欺詐用戶,其填寫的信息往 往會出現一些規律,企業可根據異常填寫記錄來識別欺詐。例如填寫不同城市居住小區名字相同、填寫的不同城市,不同單位的電話相同、不同單位的地址街道相 同、單位名稱相同、甚至居住的樓層和號碼都相同。還有一些填寫假的小區、地址和單位名稱以及電話等。
如果企業發現一些重復的信息和電話號碼,申請人欺詐的可能性就會很高。
分析客戶線上申請行為來識別欺詐
欺詐用戶往往事先准備好用戶基本信息,在申請過程中,快速進行填寫,批量作業,在多家網站進行申請,通過提高申請量來獲得更多的貸款。
企業可以藉助於SDK或JS來採集申請人在各個環節的行為,計算客戶閱讀條款的時間,填寫信息的時間,申請貸款的時間等,如果這些申請時間大大小於 正常客戶申請時間,例如填寫地址信息小於2秒,閱讀條款少於3秒鍾,申請貸款低於20秒等。用戶申請的時間也很關鍵,一般晚上11點以後申請貸款的申請 人,欺詐比例和違約比例較高。
這些異常申請行為可能揭示申請人具有欺詐傾向,企業可以結合其他的信息來判斷客戶是否為欺詐用戶。
利用黑名單和灰名單識別風險
互聯網金融公司面臨的主要風險為惡意欺詐,70%左右的信貸損失來源於申請人的惡意欺詐。客戶逾期或者違約貸款中至少有30%左右可以收回,另外的一些可以通過催收公司進行催收,M2逾期的回收率在20%左右。
市場上有近百家的公司從事個人徵信相關工作,其主要的商業模式是反欺詐識別,灰名單識別,以及客戶徵信評分。反欺詐識別中,重要的一個參考就是黑名單,市場上領先的大數據風控公司擁有將近1000萬左右的黑名單,大部分黑名單是過去十多年積累下來的老賴名單,真正有價值的黑名單在兩百萬左右。
黑名單來源於民間借貸、線上P2P、信用卡公司、小額借貸等公司的歷史違約用戶,其中很大一部分不再有借貸行為,參考價值有限。另外一個主要來源是催收公司,催收的成功率一般小於於30%(M3以上的),會產生很多黑名單。
灰名單是逾期但是還沒有達到違約的客戶(逾期少於3個月的客戶),灰名單也還意味著多頭借貸,申請人在多個貸款平台進行借貸。總借款數目遠遠超過其還款能力。
黑名單和灰名單是很好的風控方式,但是各個徵信公司所擁有的名單僅僅是市場總量的一部分,很多互聯網金融公司不得不接入多個風控公司,來獲得更多的 黑名單來提高查得率。央行和上海經信委正在聯合多家互聯網金融公司建立統一的黑名單平台,但是很多互聯網金融公司都不太願意貢獻自家的黑名單,這些黑名單 是用真金白銀換來的教訓。另外如果讓外界知道了自家平台黑名單的數量,會影響其公司聲譽,降低公司估值,並令投資者質疑其平台的風控水平。
利用移動設備數據識別欺詐
行為數據中一個比較特殊的就是移動設備數據反欺詐,公司可以利用移動設備的位置信息來驗證客戶提交的工作地和生活地是否真實,另外來可以根據設備安裝的應用活躍來識別多頭借貸風險。
欺詐用戶一般會使用模擬器進行貸款申請,移動大數據可以識別出貸款人是否使用模擬器。欺詐用戶也有一些典型特徵,例如很多設備聚集在一個區域,一起 申請貸款。欺詐設備不安裝生活和工具用App,僅僅安裝和貸款有關的App,可能還安裝了一些密碼破譯軟體或者其他的惡意軟體。
欺詐用戶還有可能不停更換SIM卡和手機,利用SIM卡和手機綁定時間和頻次可以識別出部分欺詐用戶。另外欺詐用戶也會購買一些已經淘汰的手機,其機器上面的操作系統已經過時很久,所安裝的App版本都很舊。這些特徵可以識別出一些欺詐用戶。
利用消費記錄來進行評分
大會數據風控除了可以識別出壞人,還可以評估貸款人的還款能力。過去傳統金融依據借款人的收入來判斷其還款能力,但是有些客戶擁有工資以外的收入,例如投資收入、顧問咨詢收入等。另外一些客戶可能從父母、伴侶、朋友那裡獲得其他的財政支持,擁有較高的支付能力。
按照傳統金融的做法,在家不工作照顧家庭的主婦可能還款能力較弱。無法給其提供貸款,但是其丈夫收入很高,家庭日常支出由其太太做主。這種情況,就需要消費數據來證明其還款能力了。
常用的消費記錄由銀行卡消費、電商購物、公共事業費記錄、大宗商品消費等。還可以參考航空記錄、手機話費、特殊會員消費等方式。例如頭等艙乘坐次數,物業費高低、高爾夫球俱樂部消費,遊艇俱樂部會員費用,奢侈品會員,豪車4S店消費記錄等消費數據可以作為其信用評分重要參考。
互聯網金融的主要客戶是屌絲,其電商消費記錄、旅遊消費記錄、以及加油消費記錄都可以作為評估其信用的依據。有的互聯金融公司專門從事個人電商消費數據分析,只要客戶授權其登陸電商網站,其可以藉助於工具將客戶歷史消費數據全部抓取並進行匯總和評分。
參考社會關系來評估信用情況
物以類聚,人與群分。一般情況下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,
參考借款人常聯系的朋友信用評分可以評價借款人的信用情況,一般會採用經常打電話的朋友作為樣本,評估經常聯系的幾個人(不超過6六個人)的信用評分,去掉一個最高分,去掉一個最低分,取其中的平均值來判斷借款人的信用。這種方式挑戰很大,只是依靠手機號碼來判斷個人信用可信度不高。一般僅僅用於反欺詐識別,利用其經常通話的手機號在黑名單庫裡面進行匹配,如果命中,則此申請人的風險較高,需要進一步進行調查。
參考借款人社會屬性和行為來評估信用
參考過去互聯網金融風控的經驗發現,擁有伴侶和子女的借款人,其貸款違約率較低;年齡大的人比年齡低的人貸款違約率要高,其中50歲左右的貸款人違 約率最高,30歲左右的人違約率最低。貸款用於家庭消費和教育的貸款人,其貸款違約率低;聲明月收入超過3萬的人比聲明月收入低於1萬5千的人貸款違約率 高;貸款次數多的人,其貸款違約率低於第一次貸款的人。
經常不交公共事業費和物業費的人,其貸款違約率較高。經常換工作,收入不穩定的人貸款違約率較高。經常參加社會公益活動的人,成為各種組織會員的人,其貸款違約率低。經常更換手機號碼的人貸款違約率比一直使用一個電話號碼的人高很多。
午夜經常上網,很晚發微博,生活不規律,經常在各個城市跑的申請人,其帶貸款違約率比其他人高30%。刻意隱瞞自己過去經歷和聯系方式,填寫簡單信 息的人,比信息填寫豐富的人違約概率高20%。借款時間長的人比借款時間短短人,逾期和違約概率高20%左右。擁有汽車的貸款人比沒有汽車的貸款人,貸款 違約率低10%左右。
利用司法信息評估風險
涉毒涉賭以及涉嫌治安處罰的人,其信用情況不是太好,特別是涉賭和涉毒人員,這些人是高風險人群,一旦獲得貸款,其貸款用途不可控,貸款有可能不會得到償還。
尋找這些涉毒涉賭的嫌疑人,可以利用當地的公安數據,但是難度較大。也可以採用移動設備的位置信息來進行一定程度的識別。如果設備經常在半夜出現在 賭博場所或賭博區域例如澳門,其申請人涉賭的風險就較高。另外中國有些特定的地區,當地的有一部分人群從事涉賭或涉賭行業,一旦申請人填寫的居住地址或者 移動設備位置信息涉及這些區域,也要引起重視。涉賭和涉毒的人員工作一般也不太穩定或者沒有固定工作收入,如果申請人經常換工作或者經常在某一個階段沒有 收入,這種情況需要引起重視。涉賭和涉毒的人活動規律比較特殊,經常半夜在外面活動,另外也經常住本地賓館,這些信息都可以參考移動大數據進行識別。
總之,互聯網金融的大數據風控採用了用戶社會行為和社會屬性數據,在一定程度上補充了傳統風控數據維度不足的缺點,能夠更加全面識別出欺詐客戶,評價客戶的風險水平。互聯網金融企業通過分析申請人的社會行為數據來控制信用風險,將資金借給合格貸款人,保證資金的安全。
㈢ 大數據風控是什麼
大數據風控指的就是大數據風險控制,是指通過運用大數據構建模型的方法進行風險控制和風險提示。通過採集大量企業或個人的各項指標進行數據建模的大數據風控更為科學有效。
大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據風控主要是通過建立數據風險模型,篩選海量數據,提取出對企業有用的數據,再進行分析判斷風險性。
(3)風控數據有哪些擴展閱讀:
大數據風控能解決的問題:
1、有效提高審核的效率和有效性:
引入大數據風控技術手段分析,通過多維度的信息分析、過濾、交叉驗證、匯總,可以形成一張全面的申請人數據畫像,輔助審核決策,可以提高審核的效率和有效性。
2、有效降低信息的不對稱:
引入大數據風控技術手段分析,通過多維度的信息分析、過濾、交叉驗證、匯總,可以形成一張全面的申請人數據畫像,輔助審核決策,可以提高審核的效率和有效性。
3、有效進行貸後檢測:
通過大數據技術手段對貸款人進行多維度動態事件(如保險出險、頻繁多頭借貸、同類型平台新增逾期等)分析,做到及時預警。
參考資料來源:網路-大數據風控
㈣ 風控管理模型作用有哪些
風控管理模型具有企業信息、財務數據、貿易數據三大類數據,基於統計模型和專家法,動態反映評級對象的最新現狀,並定期檢驗模型計算結果的妥適性而對模型進行修正。
企業信息:包含行業、地域、成立年限、歷史交易情況、經營者屬性等。
財務數據:風控管理模型包含流動比率、負債比率、總資產周轉率、應收賬款周轉率、庫存周轉率、相關同比環比等作用。
貿易數據:風控管理模型包含銷售商品的名稱和分類、最近周期(如日、周、月、季等)銷售數量和金額明細和匯總、最近周期進貨數量和金額明細和匯總、最近周期庫存數量和金額明細和匯總、商品結構分析、相關同比環比等作用。
除此之外,風控管理模型能夠幫助業務進行精準的數據對接及供應鏈事件、付款時間異常提醒,還可以進行大型交易警戒值設定等等。充分展現出融資方的還款風險系數,對企業今後更好的發展打下堅實的基礎。
㈤ 大數據風控有哪些優點
風控是金融行業的核心業務,大數據風控是對多維度、大量數據的智能處理,批量標准化的執行流程,通過全方位收集用戶的各項數據信息,並進行有效的建模、迭代,對用戶信用狀況進行評價,可以決定是否放貸以及放貸額度、貸款利率 。大數據風控更能貼合信息發展時代風控業務的發展要求;越來越激烈的行業競爭,也正是現今大數據風控如此火熱的重要原因。比如淺橙科技,他們有自主研發的HAS風控體系,以風控技術、大數據應用技術為核心,搭建了大數據機器學習架構,能夠用先進的人工智慧和機器學習技術進行自主挖掘,迭代更新,為金融機構和用戶提供更專業、更智能的服務。
大數據風控優勢
01 數據量大
這也是大數據風控宣傳的活字招牌。 根據公開資料,螞蟻金服的風控核心CTU 投入了2200多台伺服器,專門用於風險的檢測、分析和處置。每天處理2億條數據,數據維度有10萬多個。
02 數據維度多
傳統金融風控與大數據風控的顯著區別在於對傳統金融數據和非傳統金融數據的應用。傳統的金融數據包括上文中提及的個人社會特徵、收入、借貸情況等等。而互金公司的大數據風控,採納了大量的非傳統金融數據。比如阿里巴巴的網購記錄,京東的消費記錄等等。
03 雙重變數降低主觀判斷誤差
大數據風控在運行邏輯上不強調強因果關系,而是看重統計學上的相關性。
除了傳統變數(即傳統網貸公司房貸審批的經驗判斷),還納入了非傳統變數,將風控審核的因果關系放寬到相關關系,通過互聯網的方式抓取大量數據之後,進行系列數據分析和篩選,並運用到風險審核當中去。這樣不僅能簡化風控流程,提高審批效率,而且能有效避免因為認為主觀判斷的失誤。
04 適用范圍更廣
中國的互金服務的客群可簡單分為:無信貸歷史記錄者和差信貸歷史記錄者。他們沒有徵信報告或金融服務記錄,對傳統金融機構而言,他們的風控審核助力有限,同理,學歷、居住地、借貸記錄這些傳統的強金融風控指標可能在面對無信貸記錄者和差信貸記錄者時都會面臨同樣的問題。而互金公司可可以通過其他方式補充新的風控數據來源,並且驗證這些數據的有效性。