㈠ 数据分析之风控
上世纪90年代初,以美国运通(Amarican Express)为首的美国信用卡金融公司开始运用数据建模来提升风控能力,解决精准营销等问题。Discover,Capital One紧随其后
1995年,AMEX的风控模型开始试运行,1997年风控系统正式上线,此后几年,AMEX保持高速增长且把不良贷款降到业内最低
2008年,discover将全球数据分析中心搬到上海。从这个中心流出的风控人才,填充了中国各大互金公司
业务类型:有抵押贷(房贷车贷)、信用贷(比如宜人贷)、消费分期贷(手机家电等)、小额现金贷(500/1000/1500)等
风控涉及业务:1)数据采集:包括征信数据,运营商数据,爬虫,网站埋点,历史借款数据,黑名单,第三方数据等
2)反欺诈引擎:主要包括反欺诈规则与反欺诈模型。
3)规则引擎:即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率,然后筛选得到信用较好的人群进行放款
4)风控模型&评分卡:模型算法之间并无显著不同,而是根据其发生的不同时间点进行划分(贷前/贷中/贷后),即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值,B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法
5)催收:是风控的最终手段。这个环节可以产生很多对模型有帮助的数据,比如催收记录的文字描述,触达率,欺诈标签等等
1)爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类:工具,社交、娱乐、金融。计算每种APP的个数,这样就有了4个特征
2)从运营商数据可以知道客户打了多少电话,发了多少短信,用了多少流量,是否有过欠费等信息
3)征信报告很多时候都是一个简单的征信分数,一般都是得分越高,客户质量越好
4)从基本信息中获取用户画像,比如从身份证中得到年龄、性别、户籍3个特征
黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护,不断更新修改,否则会造成大量的误判。对疑似套现金额、笔数超过一定数目,建议拒绝准入,或做重点关注。XX天内申请借贷数大于某个值,建议拒绝
比如我们可以设定一个准入规则,如职业为公务员、医生、律师等。
还可以设置直接放款原则,比如芝麻分大于750分
目标变量如何确定:以A卡为例,主要通过roll-rate与vintage。举个例子,我们可以定义在8个月逾期超过60天的客户为坏客户,8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户,从样本中排除。
1)前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解
2)模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型细分。是否需要做拒绝推断,怎么定义观察期、表现期、好坏用户。确定数据来源
3)数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性,指标有PSI,IV,平均值/方差等
4)特征工程:主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造,包括特征交叉(两个或以上特征相乘/相除/笛卡尔积),特征转换等
5)模型建立和评估:评分卡可以用逻辑回归,只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估,计算auc,ks。并对模型做交叉验证来评估泛化能力
6)模型上线部署:在风控后台配置模型规则,对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式,并封装。在后台上传文件与配置参数
7)模型监控:前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI(population stability index)。其实psi 就是按分数分区间后,各个分数区间实际与期望占比的差异。如果小于10%,无需更新模型。小于25%,就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频,可以分10箱
1.A卡B卡C卡含义与区别
A卡(application score card):即申请评分卡,在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史,多头借贷,消费记录等信息。
B卡(behavior score card):行为评分卡,在账户管理期,根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险,二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款,逾期等借贷表现数据。
C卡(collection score card):催收评分卡,对逾期账户预测催收策略反应的概率,从而采取相应的催收措施
三张卡的区别:
数据要求不同:A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后,有了较大数据进行的分析。C卡则对数据要求更大,需加入催收后客户反应等属性数据
特征不同:A卡用到的大部分是申请者的背景信息,比如客户填写的基本信息,以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。
2.风控领域为何选择逻辑回归模型,有哪些局限性
1)首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型,因此稳健性好
2)模型直观,系数含义好阐述,易理解
缺点是容易欠拟合,准确度不是很高。另外对数据要求比较高,缺失、异常、特征共线性都比较敏感
3.为何用IV而不是WOE筛选特征
因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高,但是分组的样本占比很小的话,最终这个特征的预测能力可能还是很小
4.ROC与KS指标(ks在0.2-0.75,auc在0.5-0.9较好)
ROC曲线把TP,FP当作横纵坐标,而KS曲线把TP,FP都当成是纵坐标,横坐标是阀值。KS能找出模型中差异最大的一个分组,大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果
5.分箱方法与badrate单调
目前在行业里,大家用贪心算法进行分箱的比较多,比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量(如学历/尺码)分箱的过程中才会考虑。至于为何要考虑badrate单调性,主要是出于业务理解,比如历史逾期越多那么badrate越大。
6.为何不同的风控模型,一般都不会选用相同的特征
被拒绝的人,是因为某些特征表现差。如果用相同的特征做重复筛选,那么随着时间推移,以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。
7.风控中用的无监督算法有哪些
聚类算法,基于图的离群检测,LOF(局部异常因子),孤立森林等
8.卡方分箱
卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N,那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。
9.best-ks分箱
与卡方分箱相反,best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序,KS最大的那个值即为切点,然后把数据分为两部分。重复这个过程,直到箱体数达到我们的预设的阀值即可。
10.拒绝推断(reject inference)
申请评分卡是利用通过审核的授信客户的历史数据来建立模型,但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正,以便使模型更加的精确与稳定。另外,公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。
常用方法:硬性截断法---先用初始模型对拒绝用户进行打分,设置一个阀值。高于此分数标记为好用户,反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组,并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组,以各组的违约率为抽样比例,随机抽取该分组下的违约用户,指定为坏用户,剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练
11.建模过程中如何保证模型的稳定性
1)在数据预处理阶段可以验证变量在时间序列上的稳定性,方法有:计算月IV的差异,观察变量覆盖率的变化,两个时间点的PSI差异等。例如我们选取1-10月的数据集,借鉴K折验证的思想,得到10组验证结果。观察随着月份的推移,模型的变化是否有比较大的趋势变化
2)在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡,可以剔除区分度太强的变量,模型受这个变量影响太大,稳定性会下降
3)做交叉验证,一种是时间序列上的交叉验证,一种是K折交叉验证
4)选择稳定性好的模型。比如xgb 随机森林等
12.怎么处理高维稀疏特征与弱特征
对于高维稀疏特征,逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目,这对稀疏数据来说惩罚并不严厉,容易过拟合。使用逻辑回归评分卡,则可以把特征离散化为0与非0,然后再进行woe编码。
如果用评分卡建模,弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多,一般在15个以下。而xgb对数据的要求不高,而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。
13.模型上线后发现稳定性不佳,或者线上的区分效果不好,怎么调整
模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量,考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异,考虑在建模时增加拒绝推断的步骤,让建模样本的分布更加接近实际的整体申请用户
线上的效果不好可以从变量角度分析。剔除掉效果不好的变量,挖掘新的变量入模。如果一个模型已上线较长的时间,用户的属性也慢慢发生偏移,那么重新取数做下模型
14.怎么做风控模型冷启动
产品刚上线时,没有积累的用户数据,或者用户没有表现出好坏,此时可以考虑: 1)不做模型,只做规则。凭借业务经验,做一些硬性规则,比如设定用户的准入门槛,考量用户的信用历史与多头风险,可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估 2)借助相近模型的数据来建模。
15.样本不平衡问题
除了调整类权重以外,主要采用采样方法来解决。常见的有朴素随机过采样,SMOTE,ADASYN(自适应综合过采样)
16.运营商数据处理
根据通话日期,可以将通话记录分为近7天,近半月,近一月,近三月,近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间,可以将一天划为凌晨、上午、下午、晚上。至于电话号码,一种思路是按照归属地划分为 省市,另一种思路是对号码打标签,根据电话邦、网络手机卫士、搜狗号码通的标记,区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况,可以侧面反应用户的通话习惯和生活特点
17.逐步回归
当自变量之间的关系比较复杂,对于变量的取舍不易把握时,我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型,每引入一个变量进行F检验,并对已经选入的变量进行t检验,当原来引入的变量在后面的变量引入之后不再显著时,则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显著性变量
18.在逻辑回归中,为什么常常要做特征组合(特征交叉)
逻辑回归属于广义线性模型,特征组合可以引入非线性特征,提升模型的表达能力
部分引用文章: https://www.jianshu.com/u/0ce0500106d https://new.qq.com/omn/20180115/20180115A0RUEZ.html https://www.ixueshu.com/document/.html https://www.e-learn.cn/content/qita/775233 https://cloud.tencent.com/developer/article/144 8182 https://www.shangyexin.com/article/details/id-171268/ https://blog.csdn.net/sunyaowu315/article/details/87162765 https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc https://zhuanlan.hu.com/p/56474197 https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu https://cloud.tencent.com/developer/article/1489429 https://cloud.tencent.com/developer/article/1059236 https://github.com/taenggu0309/Scorecard--Function
㈡ 如何利用大数据做金融风控
大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。
金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。
传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据 纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,最后得到申请人 的信用评分,依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。普惠在线
互联网金融的大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度。互联网风控中,首先还是利用信用属性强的金融数据,判断借款人的还 款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用 风险之间的关系。
互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人实际风险。
常用的互联网金融大数据风控方式有以下几种:
验证借款人身份
验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。
如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局 API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。
其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证客户的学历证书和身份认证。
分析提交的信息来识别欺诈
大部分的贷款申请都从线下移到了线上,特别是在互联网金融领域,消费贷和学生贷都是以线上申请为主的。
线上申请时,申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址,工作单位,单位电话,单位名称等。如果是欺诈用户,其填写的信息往 往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相 同、单位名称相同、甚至居住的楼层和号码都相同。还有一些填写假的小区、地址和单位名称以及电话等。
如果企业发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。
分析客户线上申请行为来识别欺诈
欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。
企业可以借助于SDK或JS来采集申请人在各个环节的行为,计算客户阅读条款的时间,填写信息的时间,申请贷款的时间等,如果这些申请时间大大小于 正常客户申请时间,例如填写地址信息小于2秒,阅读条款少于3秒钟,申请贷款低于20秒等。用户申请的时间也很关键,一般晚上11点以后申请贷款的申请 人,欺诈比例和违约比例较高。
这些异常申请行为可能揭示申请人具有欺诈倾向,企业可以结合其他的信息来判断客户是否为欺诈用户。
利用黑名单和灰名单识别风险
互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。
市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。
黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。
灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。
黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的 黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单 是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。
利用移动设备数据识别欺诈
行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。
欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起 申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件。
欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。
利用消费记录来进行评分
大会数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。
按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。
常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。
互联网金融的主要客户是屌丝,其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析,只要客户授权其登陆电商网站,其可以借助于工具将客户历史消费数据全部抓取并进行汇总和评分。
参考社会关系来评估信用情况
物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,
参考借款人常联系的朋友信用评分可以评价借款人的信用情况,一般会采用经常打电话的朋友作为样本,评估经常联系的几个人(不超过6六个人)的信用评分,去掉一个最高分,去掉一个最低分,取其中的平均值来判断借款人的信用。这种方式挑战很大,只是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别,利用其经常通话的手机号在黑名单库里面进行匹配,如果命中,则此申请人的风险较高,需要进一步进行调查。
参考借款人社会属性和行为来评估信用
参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人,其贷款违约率较低;年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违 约率最高,30岁左右的人违约率最低。贷款用于家庭消费和教育的贷款人,其贷款违约率低;声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率 高;贷款次数多的人,其贷款违约率低于第一次贷款的人。
经常不交公共事业费和物业费的人,其贷款违约率较高。经常换工作,收入不稳定的人贷款违约率较高。经常参加社会公益活动的人,成为各种组织会员的人,其贷款违约率低。经常更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多。
午夜经常上网,很晚发微博,生活不规律,经常在各个城市跑的申请人,其带贷款违约率比其他人高30%。刻意隐瞒自己过去经历和联系方式,填写简单信 息的人,比信息填写丰富的人违约概率高20%。借款时间长的人比借款时间短短人,逾期和违约概率高20%左右。拥有汽车的贷款人比没有汽车的贷款人,贷款 违约率低10%左右。
利用司法信息评估风险
涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。
寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据,但是难度较大。也可以采用移动设备的位置信息来进行一定程度的识别。如果设备经常在半夜出现在 赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高。另外中国有些特定的地区,当地的有一部分人群从事涉赌或涉赌行业,一旦申请人填写的居住地址或者 移动设备位置信息涉及这些区域,也要引起重视。涉赌和涉毒的人员工作一般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有 收入,这种情况需要引起重视。涉赌和涉毒的人活动规律比较特殊,经常半夜在外面活动,另外也经常住本地宾馆,这些信息都可以参考移动大数据进行识别。
总之,互联网金融的大数据风控采用了用户社会行为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点,能够更加全面识别出欺诈客户,评价客户的风险水平。互联网金融企业通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人,保证资金的安全。
㈢ 大数据风控是什么
大数据风控指的就是大数据风险控制,是指通过运用大数据构建模型的方法进行风险控制和风险提示。通过采集大量企业或个人的各项指标进行数据建模的大数据风控更为科学有效。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据风控主要是通过建立数据风险模型,筛选海量数据,提取出对企业有用的数据,再进行分析判断风险性。
(3)风控数据有哪些扩展阅读:
大数据风控能解决的问题:
1、有效提高审核的效率和有效性:
引入大数据风控技术手段分析,通过多维度的信息分析、过滤、交叉验证、汇总,可以形成一张全面的申请人数据画像,辅助审核决策,可以提高审核的效率和有效性。
2、有效降低信息的不对称:
引入大数据风控技术手段分析,通过多维度的信息分析、过滤、交叉验证、汇总,可以形成一张全面的申请人数据画像,辅助审核决策,可以提高审核的效率和有效性。
3、有效进行贷后检测:
通过大数据技术手段对贷款人进行多维度动态事件(如保险出险、频繁多头借贷、同类型平台新增逾期等)分析,做到及时预警。
参考资料来源:网络-大数据风控
㈣ 风控管理模型作用有哪些
风控管理模型具有企业信息、财务数据、贸易数据三大类数据,基于统计模型和专家法,动态反映评级对象的最新现状,并定期检验模型计算结果的妥适性而对模型进行修正。
企业信息:包含行业、地域、成立年限、历史交易情况、经营者属性等。
财务数据:风控管理模型包含流动比率、负债比率、总资产周转率、应收账款周转率、库存周转率、相关同比环比等作用。
贸易数据:风控管理模型包含销售商品的名称和分类、最近周期(如日、周、月、季等)销售数量和金额明细和汇总、最近周期进货数量和金额明细和汇总、最近周期库存数量和金额明细和汇总、商品结构分析、相关同比环比等作用。
除此之外,风控管理模型能够帮助业务进行精准的数据对接及供应链事件、付款时间异常提醒,还可以进行大型交易警戒值设定等等。充分展现出融资方的还款风险系数,对企业今后更好的发展打下坚实的基础。
㈤ 大数据风控有哪些优点
风控是金融行业的核心业务,大数据风控是对多维度、大量数据的智能处理,批量标准化的执行流程,通过全方位收集用户的各项数据信息,并进行有效的建模、迭代,对用户信用状况进行评价,可以决定是否放贷以及放贷额度、贷款利率 。大数据风控更能贴合信息发展时代风控业务的发展要求;越来越激烈的行业竞争,也正是现今大数据风控如此火热的重要原因。比如浅橙科技,他们有自主研发的HAS风控体系,以风控技术、大数据应用技术为核心,搭建了大数据机器学习架构,能够用先进的人工智能和机器学习技术进行自主挖掘,迭代更新,为金融机构和用户提供更专业、更智能的服务。
大数据风控优势
01 数据量大
这也是大数据风控宣传的活字招牌。 根据公开资料,蚂蚁金服的风控核心CTU 投入了2200多台服务器,专门用于风险的检测、分析和处置。每天处理2亿条数据,数据维度有10万多个。
02 数据维度多
传统金融风控与大数据风控的显著区别在于对传统金融数据和非传统金融数据的应用。传统的金融数据包括上文中提及的个人社会特征、收入、借贷情况等等。而互金公司的大数据风控,采纳了大量的非传统金融数据。比如阿里巴巴的网购记录,京东的消费记录等等。
03 双重变量降低主观判断误差
大数据风控在运行逻辑上不强调强因果关系,而是看重统计学上的相关性。
除了传统变量(即传统网贷公司房贷审批的经验判断),还纳入了非传统变量,将风控审核的因果关系放宽到相关关系,通过互联网的方式抓取大量数据之后,进行系列数据分析和筛选,并运用到风险审核当中去。这样不仅能简化风控流程,提高审批效率,而且能有效避免因为认为主观判断的失误。
04 适用范围更广
中国的互金服务的客群可简单分为:无信贷历史记录者和差信贷历史记录者。他们没有征信报告或金融服务记录,对传统金融机构而言,他们的风控审核助力有限,同理,学历、居住地、借贷记录这些传统的强金融风控指标可能在面对无信贷记录者和差信贷记录者时都会面临同样的问题。而互金公司可可以通过其他方式补充新的风控数据来源,并且验证这些数据的有效性。