基于Logistic回归的信用大数据处理算法研究

摘要：P2P是一种新型的互联网金融借贷方式，近年来P2P平台却频繁出现安全问题。造成此类现象的主要原因是借贷人的个人信用评估不准确而导致的连锁反应，因此对借贷人的信用数据进行有效评估可以直接降低P2P平台的信用风险。经典的信用数据处理方法无法对现代信贷领域的海量信贷数据进行精准分析，且传统的Logistic回归模型在变量较多的情况下会产生线性干扰。文中在对传统Logistic模型进行修正的基础上，加入了Lasso惩罚项以约束函数概率的估计值。实验测试结果表明，加入惩罚因子的Logistic回归模型预测结果最为精确，其AUC值相较于专家评估法与Logistic模型分别提高了6.4%和13.3%，证明文中所提出的改进Logistic模型可以准确地评估个人的信用能力，进而提示P2P平台有效地规避信用风险。

关键词：P2P平台；信用数据分析；Logistic回归；惩罚因子；AUC值；信用风险；预测分析

0 引言

P2P（Online Peer to Peer Lending）指的是由平台进行担保而实现用户对用户的借贷过程，借贷交易过程由交易需求发布、真实性审核、合同确认及放款确认等步骤构成。P2P是一种新型的互联网金融借贷方式，其实现过程简便、借贷门槛较低，受到了用户的广泛认可。

但近年来，P2P平台上线的数量在不断下降，主要是因为准入门槛低而导致安全风险加剧，而造成风险的主要原因是借款人的信用问题。这类信用违约问题不仅给平台个体造成损失，还会对整个P2P借贷生态造成不良影响。因此对借贷人的信用数据进行统计与分析，可以对借贷人的信用能力进行有效评估，同时降低P2P平台的信用风险[1-3]。

经典的信用数据处理方法主要是专家评测法，依靠有经验的信用数据评估专家的个人经验进行预测[4]。该方法的特点是只能对少类别的数据进行分析，在借贷市场发展的早期，这类方法被大量使用。由于当时市场信用数据较少，因此专家评测法也较为准确。但现代信贷领域最大的特点就是拥有海量信贷数据，传统的专家评测法无法满足海量的分类数据处理需要。本文通过使用改进的Logistic回归模型完成了信用数据分析，得到的结果可以准确地评估个人信用状况，进而指导P2P平台规避风险。

1 基于Logistic回归的数据处理模型

1.1 传统Logistic回归模型

Logistic回归模型是信用数据统计分析的常用模型，其本质是一种线性回归模型，核心内容是研究因变量和多个自变量的关系[5-7]。

Logistic回归模型由线性回归模型发展而来，经典的线性回归模型的向量表达式如下：

式中：yi为响应变量；xi为协变量；β为回归系数；εi为随机参数误差。β最常用的估计方法为最小二乘法，估计方法如下：

则最终得到的回归估计参数为：

最小二乘法得到的回归参数通常符合正态分布。对于信用数据分析而言，其因变量为正态分布显然是不合理的，信用数据分析更符合二进制分类的特点。Logistic函数是解决二进制分类问题的常用方法，其可定义为：

式中：β为自变量因数；β0为截距。信用数据的自变量通常有多个，因此多元的Logistic函数可定义为：

假设有m个独立的信用数据，借贷人违约计为1，借贷人守约计为0，则第k个样本yi=0的概率可由式（6）表示。当概率值大于0.5时，即为违约借贷人；反之，则为守约借贷人。

1.2 Lasso-Logistic回归模型

传统Logistic模型的缺点是当自变量过多时模型本身会产生线性干扰，因此本文对传统Logistic模型进行修正，加入Lasso惩罚项来更好地约束函数概率的估计值[8-10]。

Lasso惩罚项的估计值如下：

pagenumber_ebook=150,pagenumber_book=142

式（7）本质是动态规划问题，对式（7）的似然函数加入正惩罚因子，如下：

β值的求解可以最小化式（8）得到，如下：

式中λp（β）为惩罚因子。具体的惩罚因子大小由λ来确定，通常惩罚项定义为：

将式（10）代入式（9）中，可得惩罚系数估计值为：

由此可见，当式（11）中λ变大时，该系数值对惩罚因子的估计值就变得更重要，本文使用Cross Probe方法对λ值进行选取[11]。

通过Cross Probe随机割取数据的方法，将数据分为训练样本和测试样本两部分。然后再使用统计学公式对数据进行参数估计，估计公式如下：

1.3 ROC曲线与AUC系数

ROC曲线中文名称为受试者工作特征曲线，通常作为评判二分类器的重要指标。该曲线的横坐标为假阳性率FPR，纵坐标为真阳性率TPR，AUC值指的是ROC曲线的面积大小，该面积可通过对ROC曲线的积分得到，AUC可以定量地衡量出模型的性能，AUC值越大说明模型性能越强[12-13]。

ROC曲线以及AUC面积计算示意图如图1所示。

pagenumber_ebook=151,pagenumber_book=143

图1 ROC曲线以及AUC示意图

2 实证分析

2.1 数据爬取与环境配置

本文使用爬虫GooSeeker对国内某P2P平台的借贷数据进行爬取，此次共爬取了12 000条借贷数据。该数据包括借贷人个人信息、借贷人社会属性、个人资产等将近20项指标。此外，在爬取的12 000条数据中，履约借贷人与守约借贷人比例为8∶2。文中数据与环境配置如表1所示。

表1 数据与环境配置

2.2 数据预处理

本次爬取的实际样本数据共12 000条，其中履约借贷人与守约借贷人比例为4∶1。将12 000条数据按比例分为8 000条训练数据集和4 000条测试数据集，每部分数据集中的履约借贷人与守约借贷人比例也为4∶1。然后对数据的特征进行分类，共遴选出24个数据特征变量。将这些数据特征变成数据的矩阵，自变量为借贷者的特征，因变量为借贷者的信用能力。对这些属性进行有序的分类，部分数据分类特征如表2所示。

表2 部分数据分类特征

2.3 数据建模与结果分析

本文进行对比实验，分别使用传统的专家评估法、Logistic模型、加入惩罚因子的Logistic模型对个人信用数据进行处理。在验证模型精度时，使用训练数据集进行模型训练，然后采用测试数据集进行结果验证。测试数据集中履约与违约的实际人数分别为3 200人和800人，测试结果如表3所示。

表3 数据集测试结果

从数据测试结果来看，使用传统的专家评估法、Logistic模型、加入惩罚因子的Logistic模型的预测履约违约人数比分别为2.34，2.95和3.39，这说明本文模型比其他两个传统模型对借贷人的信用评估更加准确。

为了定量地评估模型的性能强度，文中分别进行了ROC曲线分析以及AUC值计算，如图2所示，图中实线为加入惩罚因子的Logistic模型，点状线为普通Logistic模型，点划线曲线为传统的专家评估法模型曲线。

图2 对比实验ROC曲线

由图2可以看出，实线更为靠近左上角，说明加入惩罚因子的Logistic模型性能更优，其次是传统Logistic模型，专家评估模型综合性能最差。然后计算3个ROC曲线的AUC值，得到相对应的AUC值分别为0.840 5，0.790 1，0.741 7，即本文模型的AUC值相较于专家评估法与Logistic模型分别提高了6.4%和13.3%。与预测数据结果一致。

3 结论

经典的信用数据处理方法无法对现代信贷领域海量信贷数据进行分析，本文使用加入惩罚因子的Logistic回归模型分析信用数据。该模型加入了自适应惩罚因子，可以较好地改善传统Logistic模型使用变量过多而导致的线性干扰问题。实验结果表明，本文Logistic回归模型的预测精度及测试结果在对比模型中是最优的，可以准确地评估个人信用能力，指导P2P平台规避信用风险。

0 引 言