_($0PXQFQ7Y(P~4838LJ_]L.png

管理培训搜索
18318889481 17875936848

法信
| 信用中心

银行信用 信用管理咨询 商业信用 市场研究 信用评级动态 信用分析 信用修复 信用规制 信用标准化 信用保险 信用治理 信用大数据 信用合规 外资金融机构入驻指南 企业信用管理 融资信用

| 知识产权

知识产权发展 知识产权 高新技术企业认定 海关知识产权 全球知识产权 地理标志保护 知识产权管理

| 诚信中心

诚信管理 会计诚信建设 315中心 政府诚信 社会诚信 审计诚信 诚信评级 合规与诚信

| 估值分析

基金估值核算 估值分析 会计与财务分析 并购分析 商业分析与估值 杠杆收购 股权收购资产评估

| 转创信评

信用评级 评级方法 评级报告 联合信用 债券评级

| 资产管理

REITs 资产管理 资产证券化

| 内控中心

医院内部控制 企业内部控制 事业单位内控 会计内部控制 理财公司内部控制 采购内部控制

| 征信中心

尽职调查 企业征信 征信报告

| 转创评值

项目投资决策 资信评估 价值评估 企业价值 估值工具 企业价值评估 估值风控 并购估值

| 资产评估事务

资产评估研究 土地评估 知识产权评估 资产评估咨询 特许经营权评估 古建筑评估 价格鉴证 不良资产评估 无形资产评估 房地产估价

| 金融估值

基金估值 债券估值 财务估值

| 数据资产评估

数字安全 数据资产 数字出版

| 信用研究

信用研究 债券市场研究 信用风险研究 债券信用

| 基于数据仓库的消费金融信用等级模型及应用研究当前您所在的位置:首页 > 法信 > 信用中心 > 信用管理咨询

摘 要:消费金融所面向的主要客户是低收入群体,如果采用传统的信用风险评估模型不是很适用。随着移动互联网技术的发展,以及社交网络的兴起,在消费金融机构中,数据成为核心金融资源,大量的数据信息都被集中处理,并将信用评级模型建立起来,对风险做出预测。本文着重研究基于数据仓库的消费金融信用等级模型及应用,首先分析了消费金融客户数据仓库及其私有云体系结构,然后探讨了消费金融客户信用等级模型的构建,最后对基于信用等级模型的客户群体进行了分类与预测。

  关键词:数据仓库;消费金融;信用等级模型;应用;体系构建

  本文索引:韩佩轩.基于数据仓库的消费金融信用等级模型及应用研究[J].商展经济,2021(15):055-057.

  中图分类号:F832 文献标识码:A

  DOI:10.12245/j.issn.2096-6776.2021.15.18

  1 消费金融客户数据仓库及其私有云体系结构

  1.1 消费金融大数据整体框架

  信息技术发展速度不断加快,消费金融能够获得更加精准的金融数据,同时数据量逐渐增多,在进行金融数据处理的过程中以及对有关数据分析的时候过程比较繁琐,需要耗费大量的时间。所以,在数据处理过程中如果依然运用传统的技术,是很难满足需求的[1] 。建立消费金融大数据整体框架,对数据信息进行存储、处理,并做好统计工作。

  1.2 消费金融大数据平台架构设计

  1.2.1 系统功能模块

  数据仓库架构,主要为六个模块,具体介绍如下:其一,数据采集模块主要的功能是对原始数据进行采集,并在数仓中存储。其二,消息队列模块是缓冲队列,其接收上游生产者传输的数据信息,向下游消费者传输[2] 。其三,数据预处理模块,用于预处理消费消息队列中的缓冲数据,经过流处理模块计算之后存储在实时数仓中。其四,实时数仓,可以提供实时数据查询。其五,非实时数仓,对于T+1时间的数据统计、数据分析以及数据查询服务予以提供。其六,数据接口平台,将数据查询接口提供给各业务系统。

  1.3 消费金融大数据平台数据管理

  1.3.1 数据抽取

  其一,抽取结构化数据。通过sqoop,可以将生产数据库中的所有库存数据导入HIVE,通过canal将每天增加的数据伪装成MySQL的从端,利用主数据库中的binlog进行查询,实时读取的时候,向Kafka队列中写入数据,而且还要实时更新数据传输到开源数据库中,开源数据库所发挥的作用是每天将数据定期抽取到HIVE中。其二,抽取非结构化数据。非结构化数据是与结构化数据相对应的,即为视频信息、图片信息等,都不是由数字表达数据信息。这些数据都在RDB中统一存储,将结构化数据导入数据库,媒体文件数据存储在文件系统中。利用字符识别技术将非结构化数据转换成文本,提取出来,并在数据库中存储。其三,抽取埋点日志。对客户行为日志用Kafka缓冲,Web前端和后端使生产者将数据写入到指定的Topic[3] 。

  1.3.2 数据转换及处理

  将数据维度模型建立起来,对于分析需求快速完成,且响应性能得以发挥。在维度建模的时候,对决策的需求进行分析,构建数据模型,为分析需求提供服务。通过分析模型,将维度表建立起来,通过整合数据,搜集个人基础信息,建立客户信息表。

  2 消费金融客户信用等级模型的构建

  2.1 消费金融客户信用等级细分模型

  2.1.1 k-means聚类算法

  k-Means算法,是聚类数量经过定义固定之后,将记录迭代向聚类分配,并对聚类中心进行调整,在模型没有建立之前,其是作为一种无监督的学习机制存在的。该算法的特点是输入字段需要一个或多个字段,可以输出的信息为多个,能够快速集聚大型数据。

  2.1.2 模型建立

  本文应用K均值聚类算法建立了消费金融客户信用评级细分模型。具体采用如下的设计方法:其一,在样本数据的选取上,合理选择客户数据主要用于细分消费信贷的信用等级。其二,对数据信息分类处理中,可以根据消费信贷行为划分为两个群体,即有消费行为的客户群体和无消费行为的客户群体[4] 。其三,在处理数据的过程中,基于有消费信贷行为的客户对数据进行处理。

  2.2 消费金融客户信用等级概率预测模型

  2.2.1 算法介绍

  其一,决策树算法。决策树是一种预测模型,是一种层次二叉树结构。树中的每个内部节点为单个变量指定一个替代测试。对于实值和整数值变量,使用阈值,对于属性数据,使用成员子集[5]。每个数据从树的根沿着唯一的路径向下到一个叶节点,变量在每个内部节点的选择测试结果中确定具体的路径。每个叶节点为最可能的叶分类指定类标签。其二,逻辑回归算法。在线性回归中,样本点设置在空间中的直线上或直线附近,自变量和因变量可以用线性函数表示,从而阐明它们之间所存在的对应关系。然而,在某些应用中,既可以用曲线来表示变量之间所存在的关系,也可以用非线性函数来表达这些关系。这个时候的计算依然是用最小二乘法,但参与回归的时候则是以变量函数的形式。典型的是非线性回归中,因变量是一个随机变量,只有0和1两个值。自变量通过线性组合影响因变量的期望,获得回归模型[6] 。其三,随机森林算法。由于消费者信用评级的概率模型为分类模型,所以模型比较多,可以根据需要选择。比较常用的模型是决策树、logistic回归以及随机森林等算法。

  2.2.2 模型评价指标

  回归算法的评价参数主要包括精确率、召回率和 F1分数。其一,精确率。模型预测是正,而且实际是正的样本数量/模型预测是正的样本数量,计算的时候使用TP/(TP+FP)。精确率就是通过预测所获得的结果,主要的作用是预测为正的样本中对的一共是多少。其二,召回率。模型预测为正和实际为正的样本数/模型预测为正的样本数,TP/(TP+FP)是用于计算的公式。将召回率与原始样本进行比较,表示样本中有多少正面的样本,以及有多少被预测的样本是正确的[7] 。其三,F1分数。该分数就是精确率与召回率的调和平均数,计算所采用的公式:F1分数=2×精确率×召回率/(精确率+召回率)

  2.3 基于迁移学习的小样本解决方案

  2.3.1 生成式对抗网络算法

  采用迁移学习法可以通过现象对问题的共性把握,并能熟练地处理新问题。生成式对抗网络算法即为GAN算法,这是一种新的机器学习思想。在这个模型中,参与者有两个,一个是生成模型,另一个是判别模型,其中的生成模型重在捕获样本数据的分布,生成的样本与实际训练数据相似,其中为了生成与真实训练数据相似的样本,越接近真实样本越好。所谓的“判别模型”是一个双分类器,根据训练数据的概率对样本进行估计。如果样本的数据是通过真实的训练获得的,就可以断定其为输出大概率;如果样本的数据不是通过真实的训练获得的,就可以断定其为输出小概率。生成式对抗网络算法的主要目的是对发生器的输出情况做出判断[8] 。

  2.3.2 模型建立

  其一,选择数据。如果在真实样本中发现有数据选取样本不足的问题,需要过滤掉客户数据字段,对消费者信用等级进一步细分。其二,处理数据。在处理缺失值的时候,需要按照当前类型比例对分类变量的缺失值信息进行随机化填充,如果在宽表处理之前连续性变量的缺失值已经处理了,则缺失的时候都默认赋值为0。对异常值和极值进行替换,使其成为最接近极值的值。例如,如果离群值定义为高于或低于三个标准差的任何值,则所有离群值都将替换为该范围内的最高或最低值[8] 。

  其三,迭代次数的设置。将总的迭代次数和一次训练迭代的操作是固定发生器,对鉴别器进行K次训练,使鉴别器逼近最优鉴别器,然后固定鉴别器,对发生器进行一次优化训练。执行训练循环,直到达到总迭代次数n。 3 基于信用等级模型的客户群体分类与预测

  3.1 变量分析

  对2019年5月至2020年5月的客户数据实施模型训练,以产品的所有业务数据作为样本,客户的逾期率可以达到1.1%,不良率可以达到0.6%。从客户的属性来看,主要包括个人基本信息、信用行为信息、第三方外部信息。与客户相关的变量为233个,对变量进行分析,对客户的区分度进行分析。

  3.2 消费金融客户信用等级细分模型实验结果

  基于sparkML框架,使用scalar程序将K-means模型进行设计。聚类数目由2个增加到10个,调整聚类数目后,选择最优聚类数目。如果簇的数目是第一次迭代为3,此时的模型就是最优的[9] 。比如,群体一,是2046人,在人群总数中所占有的比例是9%,平均授信是180000元,平均年龄是40岁,要比整体客户的平均年龄要高一些。群体二,是17050人,在人群总数中所占有的比例是75%,这个群体的年龄分布比较广泛,授信额度的分布也是比较大的。群体三,是3602人,在人群总数中所占有的比例是16%,这个群体的年龄是37岁。

  对第二组进一步细分。风险客户群主要包括拒绝客户。日利率为0.000666,群体一的授信额度较高,被称为“高授信客户群”。第三组群体风险较大,称为“风险客户群”,第二组称为“大众客户群”。之前有过授信额而且有过借款,但此后就调整了授信。如果按照客户的生命周期对大客户群进行分类,可以进一步细分为一个独立的群体,具有很大的战略价值。大众年轻客户年龄在19岁到30岁之间;大众不断增长的客户年龄在31至38岁之间;顾客的年龄介于39岁到46岁之间。

  3.3 消费金融客户信用等级概率预测模型实验结果

  进行训练的时候按照决策树模型、逻辑回归模型和随机森林模型,模型评价指标按照精确率、召回率、F1分数等,结果表明,随机森林模型的结果比较高,模型准确率高于90%,预测效果非常好。

  4 结语

  通过上面的研究可以明确,研究互联网消费金融等级模型,根据时间选择合适的模型分析风险控制是非常必要的。在本文的研究中,基于消费金融客户数据仓库及其私有云体系结构,构建消费金融客户信用等级模型,对客户群体进行分类并预测,提出做好风险评估的重要性,为信用风险管理研究提供依据。


转创君
企业概况
联系我们
专家顾问
企业文化
党风建设
核心团队
资质荣誉
领导智库
专家库
公司公告
加入转创
战略合作伙伴
质量保证
咨询流程
联系我们
咨询
IPO咨询
中国企业国际化发展战略
投融资规划
企业管理咨询
人力资源管理
风险管理
竞争战略
集团管控
并购重组
家族办公室
资产管理
股权设计
企业管治与内部审计
企业估值
价值办公室
内控咨询
投资银行
管治、内控及合规服务
法律咨询
服务
管理咨询服务
投融资规划
人力资源
资产评估服务
会计服务
科技服务
资质认证
ESG服务
商务咨询
转创法信
内部控制服务
转创投服
金融服务咨询
企业服务
财会服务
翻译服务
财审
金融会计专题
财税中心
国际财务管理
税务师事务所
财税法律服务
会计中心
财务咨询
内部审计专题
审计创新与全球化
代理记账中心
会计师事务所
审计智库
审计中心
审计及鉴证
专项审计
审计工厂
审计咨询服务
金融
纳斯达克
并购交易服务
北交所
IPO咨询
深交所
上交所
直通新三板
董秘工作平台
独立董事事务
SPAC
资本市场服务中心
澳洲上市
加拿大上市
香港联交所
新交所
金融分析师事务所
合规
合规与政府管制
企业合规
网络安全与隐私保护
法证会计与反舞弊
反洗钱与制裁合规
反垄断中心
企业合规管理咨询
合规中心
转创全球企业合规
合规律师事务所
金融安全与合规
海关及全球贸易合规
ESG合规
反欺诈中心
合规中心(产业)
知识产权合规专题
私募股权基金合规
ESG
绿色金融
ESG环境
监督中心
ESG社会
监管中心
全球ESG政策法规
ESG咨询
ESG治理
CRS中心
ESG中心
纪检监察
SDG中心
政府管制
法信
信用中心
知识产权
诚信中心
估值分析
转创信评
资产管理
内控中心
征信中心
转创评值
资产评估事务
金融估值
数据资产评估
信用研究
管理
并购重组
转创国际企业研究所
创新创业
转型升级
投融资规划
管理咨询
企业管理可持续
环境评价与双碳计划
人力资源
咨询与战略
转创产研
法律
刑事法律服务
资本市场法律服务
财税金融法律事务
转创国际合规律师
民商事法律服务
人力资源与劳动法律
公司法律服务
转创法信事务所
科技与知识产权专题
风险
警察中心
危机管理
金融风险专题
风险管理中心
网络安全与隐私保护
法律风险
企业风险管理
风险控制师事务所
国际风险研究
风险管理咨询
风险中心
黑客中心
风控中心
操作风险专题
安全中心
转创
转创深圳(深莞惠)
转创广佛
转创系统
转创梅州
客家经济
转创珠三角
转创潮州
转创网校
转创厦门
转创国际汕头
转创揭阳
转创国际研究院
中国转创科学院
18318889481 17875936848
在线QQ
在线留言
返回首页
返回顶部
留言板
发送