_($0PXQFQ7Y(P~4838LJ_]L.png

管理培训搜索
18318889481 17875936848

内控
| 危机管理

价值创造与危机咨询 组织变革与危机管理 冲突管理 刑事危机应对 危机管理

| 金融风险专题

金融风险管理 金融全球化 外汇风险管理 信贷风险管理 担保风险管控 金融风险 外部金融犯罪风险 合同欺诈 非法集资 非法传销 内部金融犯罪风险 财产安全性风险 期货风险 股价风险

| 风险管理中心

财务风险管理 合同风险 法律风险实务 黑客中心 人工智能风险管理 操作风险专题 发票风险管理 税务风险管理

| 网络安全与隐私保护
| 企业风险管理

企业风险管理 企业外汇风险 企业法律风险管理 企业战略与风险管理 企业经营风险管理 企业动态风险管理 企业安全风险管理 内部控制缺陷 涉税风险管理 内保外贷风险控制 专利诉讼风险

| 独立董事
| 风险控制师事务所

企业内部控制 企业风险控制 事业单位内控 海南风控技术中心 税务风险应对 风险管理服务 风险预警 审计风控 外部合规风险

| 国际风险研究

气候与环境风险管理 全球黑灰产业 国际风险管理 全球通缉 海外资产风险 大宗商品交易和风险管理 外贸风险管理

| 风险管理咨询

信用风险管理 刑事风险 股权风险管理 财务会计风险 刑事风险及规制 风险评估 内部合规风险 运营风险

| 监督中心

行政监督 监察监督 环境行政执法监督 基层监督 财政监督 内控监督 互联网+督查 党内监督 派驻监督 社会监督 质量监督 巡视监督 新闻监督 舆论监督 食品安全监管

| 管制中心

交通管制 航空管制 政府管制 运输管制 出口管制 军事管制 刑事案件管制

| 风控中心

工控安全 合规风险 风控系统 黑恶势力 安全风险 税务风险 廉政风险 私募风险 腐败风险

| 内部控制中心

上市公司内部控制 医院内部控制 企业内部控制 中小企业内部控制 会计内部控制 理财公司内部控制 采购内部控制 内部控制质量 内部控制政策 内部控制准则 内部控制制度

| 经济安全与企业内控

治安与社会稳定风险 生物安全 水安全

| 监管中心

市场监管 金融监管 药品监管 海关监管 315中心 市值监管 安全监管 基金监管

| 基于数据仓库的消费金融信用等级模型及应用研究当前您所在的位置:首页 > 内控 > 风险管理咨询 > 信用风险管理

摘 要:消费金融所面向的主要客户是低收入群体,如果采用传统的信用风险评估模型不是很适用。随着移动互联网技术的发展,以及社交网络的兴起,在消费金融机构中,数据成为核心金融资源,大量的数据信息都被集中处理,并将信用评级模型建立起来,对风险做出预测。本文着重研究基于数据仓库的消费金融信用等级模型及应用,首先分析了消费金融客户数据仓库及其私有云体系结构,然后探讨了消费金融客户信用等级模型的构建,最后对基于信用等级模型的客户群体进行了分类与预测。

  关键词:数据仓库;消费金融;信用等级模型;应用;体系构建

  本文索引:韩佩轩.基于数据仓库的消费金融信用等级模型及应用研究[J].商展经济,2021(15):055-057.

  中图分类号:F832 文献标识码:A

  DOI:10.12245/j.issn.2096-6776.2021.15.18

  1 消费金融客户数据仓库及其私有云体系结构

  1.1 消费金融大数据整体框架

  信息技术发展速度不断加快,消费金融能够获得更加精准的金融数据,同时数据量逐渐增多,在进行金融数据处理的过程中以及对有关数据分析的时候过程比较繁琐,需要耗费大量的时间。所以,在数据处理过程中如果依然运用传统的技术,是很难满足需求的[1] 。建立消费金融大数据整体框架,对数据信息进行存储、处理,并做好统计工作。

  1.2 消费金融大数据平台架构设计

  1.2.1 系统功能模块

  数据仓库架构,主要为六个模块,具体介绍如下:其一,数据采集模块主要的功能是对原始数据进行采集,并在数仓中存储。其二,消息队列模块是缓冲队列,其接收上游生产者传输的数据信息,向下游消费者传输[2] 。其三,数据预处理模块,用于预处理消费消息队列中的缓冲数据,经过流处理模块计算之后存储在实时数仓中。其四,实时数仓,可以提供实时数据查询。其五,非实时数仓,对于T+1时间的数据统计、数据分析以及数据查询服务予以提供。其六,数据接口平台,将数据查询接口提供给各业务系统。

  1.3 消费金融大数据平台数据管理

  1.3.1 数据抽取

  其一,抽取结构化数据。通过sqoop,可以将生产数据库中的所有库存数据导入HIVE,通过canal将每天增加的数据伪装成MySQL的从端,利用主数据库中的binlog进行查询,实时读取的时候,向Kafka队列中写入数据,而且还要实时更新数据传输到开源数据库中,开源数据库所发挥的作用是每天将数据定期抽取到HIVE中。其二,抽取非结构化数据。非结构化数据是与结构化数据相对应的,即为视频信息、图片信息等,都不是由数字表达数据信息。这些数据都在RDB中统一存储,将结构化数据导入数据库,媒体文件数据存储在文件系统中。利用字符识别技术将非结构化数据转换成文本,提取出来,并在数据库中存储。其三,抽取埋点日志。对客户行为日志用Kafka缓冲,Web前端和后端使生产者将数据写入到指定的Topic[3] 。

  1.3.2 数据转换及处理

  将数据维度模型建立起来,对于分析需求快速完成,且响应性能得以发挥。在维度建模的时候,对决策的需求进行分析,构建数据模型,为分析需求提供服务。通过分析模型,将维度表建立起来,通过整合数据,搜集个人基础信息,建立客户信息表。

  2 消费金融客户信用等级模型的构建

  2.1 消费金融客户信用等级细分模型

  2.1.1 k-means聚类算法

  k-Means算法,是聚类数量经过定义固定之后,将记录迭代向聚类分配,并对聚类中心进行调整,在模型没有建立之前,其是作为一种无监督的学习机制存在的。该算法的特点是输入字段需要一个或多个字段,可以输出的信息为多个,能够快速集聚大型数据。

  2.1.2 模型建立

  本文应用K均值聚类算法建立了消费金融客户信用评级细分模型。具体采用如下的设计方法:其一,在样本数据的选取上,合理选择客户数据主要用于细分消费信贷的信用等级。其二,对数据信息分类处理中,可以根据消费信贷行为划分为两个群体,即有消费行为的客户群体和无消费行为的客户群体[4] 。其三,在处理数据的过程中,基于有消费信贷行为的客户对数据进行处理。

  2.2 消费金融客户信用等级概率预测模型

  2.2.1 算法介绍

  其一,决策树算法。决策树是一种预测模型,是一种层次二叉树结构。树中的每个内部节点为单个变量指定一个替代测试。对于实值和整数值变量,使用阈值,对于属性数据,使用成员子集[5]。每个数据从树的根沿着唯一的路径向下到一个叶节点,变量在每个内部节点的选择测试结果中确定具体的路径。每个叶节点为最可能的叶分类指定类标签。其二,逻辑回归算法。在线性回归中,样本点设置在空间中的直线上或直线附近,自变量和因变量可以用线性函数表示,从而阐明它们之间所存在的对应关系。然而,在某些应用中,既可以用曲线来表示变量之间所存在的关系,也可以用非线性函数来表达这些关系。这个时候的计算依然是用最小二乘法,但参与回归的时候则是以变量函数的形式。典型的是非线性回归中,因变量是一个随机变量,只有0和1两个值。自变量通过线性组合影响因变量的期望,获得回归模型[6] 。其三,随机森林算法。由于消费者信用评级的概率模型为分类模型,所以模型比较多,可以根据需要选择。比较常用的模型是决策树、logistic回归以及随机森林等算法。

  2.2.2 模型评价指标

  回归算法的评价参数主要包括精确率、召回率和 F1分数。其一,精确率。模型预测是正,而且实际是正的样本数量/模型预测是正的样本数量,计算的时候使用TP/(TP+FP)。精确率就是通过预测所获得的结果,主要的作用是预测为正的样本中对的一共是多少。其二,召回率。模型预测为正和实际为正的样本数/模型预测为正的样本数,TP/(TP+FP)是用于计算的公式。将召回率与原始样本进行比较,表示样本中有多少正面的样本,以及有多少被预测的样本是正确的[7] 。其三,F1分数。该分数就是精确率与召回率的调和平均数,计算所采用的公式:F1分数=2×精确率×召回率/(精确率+召回率)

  2.3 基于迁移学习的小样本解决方案

  2.3.1 生成式对抗网络算法

  采用迁移学习法可以通过现象对问题的共性把握,并能熟练地处理新问题。生成式对抗网络算法即为GAN算法,这是一种新的机器学习思想。在这个模型中,参与者有两个,一个是生成模型,另一个是判别模型,其中的生成模型重在捕获样本数据的分布,生成的样本与实际训练数据相似,其中为了生成与真实训练数据相似的样本,越接近真实样本越好。所谓的“判别模型”是一个双分类器,根据训练数据的概率对样本进行估计。如果样本的数据是通过真实的训练获得的,就可以断定其为输出大概率;如果样本的数据不是通过真实的训练获得的,就可以断定其为输出小概率。生成式对抗网络算法的主要目的是对发生器的输出情况做出判断[8] 。

  2.3.2 模型建立

  其一,选择数据。如果在真实样本中发现有数据选取样本不足的问题,需要过滤掉客户数据字段,对消费者信用等级进一步细分。其二,处理数据。在处理缺失值的时候,需要按照当前类型比例对分类变量的缺失值信息进行随机化填充,如果在宽表处理之前连续性变量的缺失值已经处理了,则缺失的时候都默认赋值为0。对异常值和极值进行替换,使其成为最接近极值的值。例如,如果离群值定义为高于或低于三个标准差的任何值,则所有离群值都将替换为该范围内的最高或最低值[8] 。

  其三,迭代次数的设置。将总的迭代次数和一次训练迭代的操作是固定发生器,对鉴别器进行K次训练,使鉴别器逼近最优鉴别器,然后固定鉴别器,对发生器进行一次优化训练。执行训练循环,直到达到总迭代次数n。 3 基于信用等级模型的客户群体分类与预测

  3.1 变量分析

  对2019年5月至2020年5月的客户数据实施模型训练,以产品的所有业务数据作为样本,客户的逾期率可以达到1.1%,不良率可以达到0.6%。从客户的属性来看,主要包括个人基本信息、信用行为信息、第三方外部信息。与客户相关的变量为233个,对变量进行分析,对客户的区分度进行分析。

  3.2 消费金融客户信用等级细分模型实验结果

  基于sparkML框架,使用scalar程序将K-means模型进行设计。聚类数目由2个增加到10个,调整聚类数目后,选择最优聚类数目。如果簇的数目是第一次迭代为3,此时的模型就是最优的[9] 。比如,群体一,是2046人,在人群总数中所占有的比例是9%,平均授信是180000元,平均年龄是40岁,要比整体客户的平均年龄要高一些。群体二,是17050人,在人群总数中所占有的比例是75%,这个群体的年龄分布比较广泛,授信额度的分布也是比较大的。群体三,是3602人,在人群总数中所占有的比例是16%,这个群体的年龄是37岁。

  对第二组进一步细分。风险客户群主要包括拒绝客户。日利率为0.000666,群体一的授信额度较高,被称为“高授信客户群”。第三组群体风险较大,称为“风险客户群”,第二组称为“大众客户群”。之前有过授信额而且有过借款,但此后就调整了授信。如果按照客户的生命周期对大客户群进行分类,可以进一步细分为一个独立的群体,具有很大的战略价值。大众年轻客户年龄在19岁到30岁之间;大众不断增长的客户年龄在31至38岁之间;顾客的年龄介于39岁到46岁之间。

  3.3 消费金融客户信用等级概率预测模型实验结果

  进行训练的时候按照决策树模型、逻辑回归模型和随机森林模型,模型评价指标按照精确率、召回率、F1分数等,结果表明,随机森林模型的结果比较高,模型准确率高于90%,预测效果非常好。

  4 结语

  通过上面的研究可以明确,研究互联网消费金融等级模型,根据时间选择合适的模型分析风险控制是非常必要的。在本文的研究中,基于消费金融客户数据仓库及其私有云体系结构,构建消费金融客户信用等级模型,对客户群体进行分类并预测,提出做好风险评估的重要性,为信用风险管理研究提供依据。


转创君
企业概况
联系我们
专家顾问
企业文化
党风建设
核心团队
资质荣誉
领导资源
专家库
公司公告
资源与智库
战略合作伙伴
质量保证
咨询流程
联系我们
咨询
IPO咨询
中国企业国际化发展战略
投融资规划
企业管理咨询
人力资源管理
风险管理
竞争战略
集团管控
并购重组
家族办公室
资产管理
股权设计
企业管治与内部审计
企业估值
价值办公室
内控咨询
投资银行
管治、内控及合规服务
法律咨询
服务
管理咨询服务
投融资规划
人力资源
资产评估服务
会计服务
科技服务
资质认证
ESG服务
商务咨询
内部控制服务
转创投服
金融服务咨询
企业服务
财会服务
翻译服务
财审
金融会计专题
法证会计
国际财务管理
会计中心
财务咨询
内部审计专题
审计创新与全球化
代理记账中心
会计师事务所
审计中心
审计及鉴证
专项审计
审计工厂
审计咨询服务
税律
财税中心
转创税务
华税律所
税务师事务所
IPO财税
国际税收
涉税服务
金融
纳斯达克
并购交易服务
北交所
IPO咨询
深交所
上交所
直通新三板
董秘工作平台
独立董事事务
SPAC
资本市场服务中心
澳洲上市
加拿大上市
估值分析事务
香港联交所
新交所
金融分析师事务所
合规
合规与政府管制
企业合规
网络安全与隐私保护
法证会计与反舞弊
反洗钱与制裁合规
反垄断中心
企业合规管理咨询
合规中心
转创全球企业合规
合规律师事务所
金融安全与合规
海关及全球贸易合规
ESG合规
反欺诈中心
合规中心(产业)
知识产权合规专题
私募股权基金合规
法信
征信管理
信用中心
法信中心
信用评级
价值办公室
联合资信
国际信用
安企中心
转创法信
诚信管理
产服
产业中心
企业与产业管理
行业中心
转创产研
城市中国
转创科研
全球城市
乡村振兴战略
创新创业中心
转型升级中心
数据经济与网安
绿创中心
双碳与可持续发展
管理
并购重组
转创国际企业研究所
创新创业
转型升级
投融资与股权激励
ESG中心
管理咨询
资产评估中心
人力资源
IPO咨询
法律
刑事法律服务
资本市场法律服务
财税金融法律事务
转创国际合规律师
民商事法律服务
公司法律服务
公共法律服务中心
转创国际法律事务所
内控
危机管理
金融风险专题
风险管理中心
网络安全与隐私保护
企业风险管理
独立董事
风险控制师事务所
国际风险研究
风险管理咨询
监督中心
管制中心
风控中心
内部控制中心
经济安全与企业内控
监管中心
转创
转创深圳(深莞)
转创广佛
转创国际福建
转创梅州
客汕经济
转创珠三角
转创潮州
转创网校
转创国际汕头
转创揭阳
18318889481 17875936848
在线QQ
在线留言
返回首页
返回顶部
留言板
发送