_($0PXQFQ7Y(P~4838LJ_]L.png

管理培训搜索
18318889481 17875936848

法信
| 信用中心

银行信用 信用管理咨询 商业信用 市场研究 信用评级动态 信用分析 信用修复 信用规制 信用标准化 信用保险 信用治理 信用大数据 信用合规 外资金融机构入驻指南 企业信用管理 融资信用

| 知识产权

知识产权发展 知识产权 高新技术企业认定 海关知识产权 全球知识产权 地理标志保护 知识产权管理

| 诚信中心

诚信管理 会计诚信建设 315中心 政府诚信 社会诚信 审计诚信 诚信评级 合规与诚信

| 估值分析

基金估值核算 估值分析 会计与财务分析 并购分析 商业分析与估值 杠杆收购 股权收购资产评估

| 转创信评

信用评级 评级方法 评级报告 联合信用 债券评级

| 资产管理

REITs 资产管理 资产证券化

| 内控中心

医院内部控制 企业内部控制 事业单位内控 会计内部控制 理财公司内部控制 采购内部控制

| 征信中心

尽职调查 企业征信 征信报告

| 转创评值

项目投资决策 资信评估 价值评估 企业价值 估值工具 企业价值评估 估值风控 并购估值

| 资产评估事务

资产评估研究 土地评估 知识产权评估 资产评估咨询 特许经营权评估 古建筑评估 价格鉴证 不良资产评估 无形资产评估 房地产估价

| 金融估值

基金估值 债券估值 财务估值

| 数据资产评估

数字安全 数据资产 数字出版

| 信用研究

信用研究 债券市场研究 信用风险研究 债券信用

| 基于Logistic回归的信用大数据处理算法研究当前您所在的位置:首页 > 法信 > 信用中心 > 信用大数据

摘 要:P2P是一种新型的互联网金融借贷方式,近年来P2P平台却频繁出现安全问题。造成此类现象的主要原因是借贷人的个人信用评估不准确而导致的连锁反应,因此对借贷人的信用数据进行有效评估可以直接降低P2P平台的信用风险。经典的信用数据处理方法无法对现代信贷领域的海量信贷数据进行精准分析,且传统的Logistic回归模型在变量较多的情况下会产生线性干扰。文中在对传统Logistic模型进行修正的基础上,加入了Lasso惩罚项以约束函数概率的估计值。实验测试结果表明,加入惩罚因子的Logistic回归模型预测结果最为精确,其AUC值相较于专家评估法与Logistic模型分别提高了6.4%和13.3%,证明文中所提出的改进Logistic模型可以准确地评估个人的信用能力,进而提示P2P平台有效地规避信用风险。

关键词:P2P平台;信用数据分析;Logistic回归;惩罚因子;AUC值;信用风险;预测分析

0 引 言

P2P(Online Peer to Peer Lending)指的是由平台进行担保而实现用户对用户的借贷过程,借贷交易过程由交易需求发布、真实性审核、合同确认及放款确认等步骤构成。P2P是一种新型的互联网金融借贷方式,其实现过程简便、借贷门槛较低,受到了用户的广泛认可。

但近年来,P2P平台上线的数量在不断下降,主要是因为准入门槛低而导致安全风险加剧,而造成风险的主要原因是借款人的信用问题。这类信用违约问题不仅给平台个体造成损失,还会对整个P2P借贷生态造成不良影响。因此对借贷人的信用数据进行统计与分析,可以对借贷人的信用能力进行有效评估,同时降低P2P平台的信用风险[1-3]

经典的信用数据处理方法主要是专家评测法,依靠有经验的信用数据评估专家的个人经验进行预测[4]。该方法的特点是只能对少类别的数据进行分析,在借贷市场发展的早期,这类方法被大量使用。由于当时市场信用数据较少,因此专家评测法也较为准确。但现代信贷领域最大的特点就是拥有海量信贷数据,传统的专家评测法无法满足海量的分类数据处理需要。本文通过使用改进的Logistic回归模型完成了信用数据分析,得到的结果可以准确地评估个人信用状况,进而指导P2P平台规避风险。

1 基于Logistic回归的数据处理模型

1.1 传统Logistic回归模型

Logistic回归模型是信用数据统计分析的常用模型,其本质是一种线性回归模型,核心内容是研究因变量和多个自变量的关系[5-7]

Logistic回归模型由线性回归模型发展而来,经典的线性回归模型的向量表达式如下:

式中:yi为响应变量;xi为协变量;β为回归系数;εi为随机参数误差。β最常用的估计方法为最小二乘法,估计方法如下:

则最终得到的回归估计参数为:

最小二乘法得到的回归参数通常符合正态分布。对于信用数据分析而言,其因变量为正态分布显然是不合理的,信用数据分析更符合二进制分类的特点。Logistic函数是解决二进制分类问题的常用方法,其可定义为:

式中:β为自变量因数;β0为截距。信用数据的自变量通常有多个,因此多元的Logistic函数可定义为:

假设有m个独立的信用数据,借贷人违约计为1,借贷人守约计为0,则第k个样本yi=0的概率可由式(6)表示。当概率值大于0.5时,即为违约借贷人;反之,则为守约借贷人。

1.2 Lasso-Logistic回归模型

传统Logistic模型的缺点是当自变量过多时模型本身会产生线性干扰,因此本文对传统Logistic模型进行修正,加入Lasso惩罚项来更好地约束函数概率的估计值[8-10]

Lasso惩罚项的估计值如下:

式(7)本质是动态规划问题,对式(7)的似然函数加入正惩罚因子,如下:

β值的求解可以最小化式(8)得到,如下:

式中λpβ)为惩罚因子。具体的惩罚因子大小由λ来确定,通常惩罚项定义为:

将式(10)代入式(9)中,可得惩罚系数估计值为:

由此可见,当式(11)中λ变大时,该系数值对惩罚因子的估计值就变得更重要,本文使用Cross Probe方法对λ值进行选取[11]

通过Cross Probe随机割取数据的方法,将数据分为训练样本和测试样本两部分。然后再使用统计学公式对数据进行参数估计,估计公式如下:

1.3 ROC曲线与AUC系数

ROC曲线中文名称为受试者工作特征曲线,通常作为评判二分类器的重要指标。该曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,AUC值指的是ROC曲线的面积大小,该面积可通过对ROC曲线的积分得到,AUC可以定量地衡量出模型的性能,AUC值越大说明模型性能越强[12-13]

ROC曲线以及AUC面积计算示意图如图1所示。

图1 ROC曲线以及AUC示意图

2 实证分析

2.1 数据爬取与环境配置

本文使用爬虫GooSeeker对国内某P2P平台的借贷数据进行爬取,此次共爬取了12 000条借贷数据。该数据包括借贷人个人信息、借贷人社会属性、个人资产等将近20项指标。此外,在爬取的12 000条数据中,履约借贷人与守约借贷人比例为8∶2。文中数据与环境配置如表1所示。

表1 数据与环境配置

2.2 数据预处理

本次爬取的实际样本数据共12 000条,其中履约借贷人与守约借贷人比例为4∶1。将12 000条数据按比例分为8 000条训练数据集和4 000条测试数据集,每部分数据集中的履约借贷人与守约借贷人比例也为4∶1。然后对数据的特征进行分类,共遴选出24个数据特征变量。将这些数据特征变成数据的矩阵,自变量为借贷者的特征,因变量为借贷者的信用能力。对这些属性进行有序的分类,部分数据分类特征如表2所示。

表2 部分数据分类特征

2.3 数据建模与结果分析

本文进行对比实验,分别使用传统的专家评估法、Logistic模型、加入惩罚因子的Logistic模型对个人信用数据进行处理。在验证模型精度时,使用训练数据集进行模型训练,然后采用测试数据集进行结果验证。测试数据集中履约与违约的实际人数分别为3 200人和800人,测试结果如表3所示。

表3 数据集测试结果

从数据测试结果来看,使用传统的专家评估法、Logistic模型、加入惩罚因子的Logistic模型的预测履约违约人数比分别为2.34,2.95和3.39,这说明本文模型比其他两个传统模型对借贷人的信用评估更加准确。

为了定量地评估模型的性能强度,文中分别进行了ROC曲线分析以及AUC值计算,如图2所示,图中实线为加入惩罚因子的Logistic模型,点状线为普通Logistic模型,点划线曲线为传统的专家评估法模型曲线。

图2 对比实验ROC曲线

由图2可以看出,实线更为靠近左上角,说明加入惩罚因子的Logistic模型性能更优,其次是传统Logistic模型,专家评估模型综合性能最差。然后计算3个ROC曲线的AUC值,得到相对应的AUC值分别为0.840 5,0.790 1,0.741 7,即本文模型的AUC值相较于专家评估法与Logistic模型分别提高了6.4%和13.3%。与预测数据结果一致。

3 结 论

经典的信用数据处理方法无法对现代信贷领域海量信贷数据进行分析,本文使用加入惩罚因子的Logistic回归模型分析信用数据。该模型加入了自适应惩罚因子,可以较好地改善传统Logistic模型使用变量过多而导致的线性干扰问题。实验结果表明,本文Logistic回归模型的预测精度及测试结果在对比模型中是最优的,可以准确地评估个人信用能力,指导P2P平台规避信用风险。


转创君
企业概况
联系我们
专家顾问
企业文化
党风建设
核心团队
资质荣誉
领导智库
专家库
公司公告
加入转创
战略合作伙伴
质量保证
咨询流程
联系我们
咨询
IPO咨询
中国企业国际化发展战略
投融资规划
企业管理咨询
人力资源管理
风险管理
竞争战略
集团管控
并购重组
家族办公室
资产管理
股权设计
企业管治与内部审计
企业估值
价值办公室
内控咨询
投资银行
管治、内控及合规服务
法律咨询
服务
管理咨询服务
投融资规划
人力资源
资产评估服务
会计服务
科技服务
资质认证
ESG服务
商务咨询
转创法信
内部控制服务
转创投服
金融服务咨询
企业服务
财会服务
翻译服务
财审
金融会计专题
财税中心
国际财务管理
税务师事务所
财税法律服务
会计中心
财务咨询
内部审计专题
审计创新与全球化
代理记账中心
会计师事务所
审计智库
审计中心
审计及鉴证
专项审计
审计工厂
审计咨询服务
金融
纳斯达克
并购交易服务
北交所
IPO咨询
深交所
上交所
直通新三板
董秘工作平台
独立董事事务
SPAC
资本市场服务中心
澳洲上市
加拿大上市
香港联交所
新交所
金融分析师事务所
合规
合规与政府管制
企业合规
网络安全与隐私保护
法证会计与反舞弊
反洗钱与制裁合规
反垄断中心
企业合规管理咨询
合规中心
转创全球企业合规
合规律师事务所
金融安全与合规
海关及全球贸易合规
ESG合规
反欺诈中心
合规中心(产业)
知识产权合规专题
私募股权基金合规
ESG
绿色金融
ESG环境
监督中心
ESG社会
监管中心
全球ESG政策法规
ESG咨询
ESG治理
CRS中心
ESG中心
纪检监察
SDG中心
政府管制
法信
信用中心
知识产权
诚信中心
估值分析
转创信评
资产管理
内控中心
征信中心
转创评值
资产评估事务
金融估值
数据资产评估
信用研究
管理
并购重组
转创国际企业研究所
创新创业
转型升级
投融资规划
管理咨询
企业管理可持续
环境评价与双碳计划
人力资源
咨询与战略
转创产研
法律
刑事法律服务
资本市场法律服务
财税金融法律事务
转创国际合规律师
民商事法律服务
人力资源与劳动法律
公司法律服务
转创法信事务所
科技与知识产权专题
风险
警察中心
危机管理
金融风险专题
风险管理中心
网络安全与隐私保护
法律风险
企业风险管理
风险控制师事务所
国际风险研究
风险管理咨询
风险中心
黑客中心
风控中心
操作风险专题
安全中心
转创
转创深圳(深莞惠)
转创广佛
转创系统
转创梅州
客家经济
转创珠三角
转创潮州
转创网校
转创厦门
转创国际汕头
转创揭阳
转创国际研究院
中国转创科学院
18318889481 17875936848
在线QQ
在线留言
返回首页
返回顶部
留言板
发送