近年来,中小微企业已经成为我国经济总量、税收、 就业乃至创新中的主力,资金需求一直比较旺盛,但由于各种因素长期存在着融资难的问题。 为此,2021 年中国人民银行印发《关于深入开展中小微企业金融服务能力提升工程的通知》,力求持续优化融资环境,改善中小微企业融资难情况;同时,学术界也对这个问题展开深入研究。学术界认为融资难的主要原因之一是中小微企业的财务数据透明度偏低,信用风险评价不准确。 随着数据量增大和信息技术快速发展,传统的指标选取法和定性分析法已无法满足中小微企业评价的准确性要求,急需改进优化。 基于此,本文整合了中小微企业信用风险评估的传统指标体系,新增了管理层方面的指标。 进一步以支持向量机(SVM)为基础模型,进行优化与改进,最终建立RF-LSMASVM 模型,进一步提升信用风险判定的精准性和实用性。
国内外学者对于中小微企业融资问题的研究,可以归结为3 个方面: (1)对中小微企业融资难原因的研究;(2)对中小微企业信用风险评价指标体系的研究;(3)对中小微企业违约风险度量的研究。 3 个方面的研究互为表里、 互相支撑,共同构成分析中小微企业信用风险问题的整体框架。
在中小微企业融资难原因的研究方面,许多学者认为企业信息不对称是主要原因[1,2];其次,不少中小微企业处于起步阶段,资金投入高、 回收慢且不确定性强,故银行贷款意愿偏低[3,4]。 此外,中小微企业信用担保机制不完善使银行贷款的风险较大,故降低了银行贷款支持意愿和力度[5,6]。
在中小微企业信用风险评价指标体系研究方面,近30 年来,学者们在指标体系构建方面做出诸多探索。 研究显示,以财务数据为基础指标可得出企业财务状况对违约的影响[7];企业实际控制人的人品素质[8]、 文化水平[9]均为影响信贷风险的主要因素;以各种收益率、 周转率指标建立风险评估模型有其可行性[10];从企业运营状况、偿债能力、 发展潜力等多角度综合构建信用风险评价体系具有现实意义[11]。
在企业违约风险度量的研究方面,一般认为可分为3 个阶段: 经验主义分析阶段、 统计分析阶段和大数据分析阶段。 经验主义分析阶段以5C评估法、 杜邦财务分析法为代表;统计分析阶段以Z-score 模型、 Logistic 模型[12]为代表。 这两个阶段存在着诸多缺点,特别是当下信息和数据迅猛增长,更多的局限性也凸显出来。 人工智能在数据分析方面的优势逐渐被学者所发现,企业违约风险度量由此进入了大数据分析阶段,SVM 算法[13]、BP 神经网络[14]和模糊神经网络[15]、 LSTM 网络[16]等得到了广泛应用。
综上所述,改进中小微企业的信用风险评价模型具有重要意义,而相应的评价指标体系急需优化,违约风险度量的精准度亟待提升。 本文创新性地将中小微企业管理层特征纳入信用风险指标体系。 并选用SVM 作为违约风险估计的基础模型,以RF 算法筛选指标体系来提升SVM 模型的分类能力。 在参数寻优上,初步考虑使用SMA 算法,并对SMA 进行改进,最终形成RF-LSMASVM 模型进行中小微企业信用风险评价,进一步提升了信用风险判定的准确性和实用性。
在已有文献中,主要的选取指标为企业基本情况(如企业规模、 内部控制、 创新能力)和各类财务指标(如偿债能力指标、 盈利能力指标、 偿债能力指标)。
故本文在构建中小微企业信用风险评价指标体系时,从中小微企业的基本情况出发,建立有针对性的信用风险评价指标体系;从财务风险的视角选取财务指标,包括偿债能力指标、 盈利能力指标、 营运能力指标和成长能力指标等;此外,本文考虑到管理层对中小微企业借贷的重要影响,创造性地引入了管理层的各具体特征指标,完善了指标评价体系。 具体而言,是将董事会、 监事会及经理层管理人员视为管理层整体[17-20],从管理层规模、 管理层性别、 管理层年龄、 管理层会议次数和管理层持股共5 个角度出发,分析了管理层特征对信用风险的不同影响机制,为管理层特征大类下的具体指标选取提供依据。
基于上述指标体系构建原则和指标选取依据,初选形成9 个一级指标及28 个二级指标,从管理层特征、 企业性质、 企业规模、 客户结构、 偿债能力、 盈利能力、 成长能力、 营运能力和创新能力角度构建中小微企业信用风险评价指标体系,如表1 所示。
表1 中小微企业信用风险评价指标体系
续 表
基础算法包括RF 算法、 SVM 算法[21]、 SMA算法[22]。
RF 算法是通过集成学习的思想,将大量决策树[23]集成。 该算法可以应用于特征筛选。
SVM[24-27]是一种基于机器学习的分类技术。目前对于SVM 核函数优化的处理,学界普遍运用爬网格的方法结合k 折交叉验证来实现。 但此类方法运算量非常大、 时间耗费长,寻优能力低,因而有必要应用更加灵活的参数优化方法。
SMA 算法通过分布式的群体算法模拟黏菌行为,通过权值模拟黏菌静脉状管的形态变化和收缩模式,对SVM 算法进行优化。
3.2.1 SMA 算法改进方案
虽然传统SMA 算法寻优能力强,但是其存在种群个体倾向于集中而造成的早熟问题;并且其对边界处理的方式过于简单,会产生边界局部最优,同时个体聚集边界将影响算法全局搜索能力。因此本文对SMA 进行混沌优化改进和边界变异改进,令改进的SMA 算法名为LSMA 算法,以对传统SMA 进行区分。
(1)混沌优化改进
混沌是一种非线性的自然现象,此类方法可避免每次随机运动的重复发生,因而更具优越性。本文基于Logistic 映射产生类随机混沌序列,如式(1)所示:
其中,t 为当前迭代次数;xi 为个体i 的坐标;μ∈[0,4],当μ=4 时,即完全混沌状态。
本文依托基于Logistic 映射的混沌序列,提出一种解决寻优结果过早熟问题的改进方法: 对符合规则设定的个体位置进行混沌更新,使其能够在可行域内继续搜索其他可能的解。 相关规则如式(2)所示:
其中,为个体i 的当前适应度值;Gbestt 为全局当前最优适应度值;condition2 表示当前个体属于适应度较高的后一半个体(适应度值越低表明该位置的参数越有效);Q 为常数,设定为0.3。当大量个体陷入了相同的局部最优位置时,使用式(1)对该个体的位置进行混沌更新,使该个体摆脱此位置,探索其他可行域。
(2)边界变异改进
在SMA 优化算法中,传统做法简单易懂,但存在问题: 用较多边界位置进行替代易引发边界局部最优;相当数量的个体超出边界会导致种群多样性减少,影响算法的搜索能力。 不同于传统处理策略,本文提出的边界变异策略为: 个体在将要越出边界时,算法将以一定的概率P 将部分个体重新捕捉回搜索区域。 该策略的具体规则如下:
若Xi>Xmax,且P≥W,则Xi =Xmax-0.01∗rand(0,1)∗(Xmax-Xmin),个体保留在边界附近但不超出边界的位置。
若Xi>Xmax,且P<W,则Xi =Xmin +rand(0,1)∗(Xmax-Xmin),个体被捕捉回搜索区域并随机分配位置。
若Xi<Xmin,且P≥W,则Xi =Xmin+0.01∗rand(0,1)∗(Xmax-Xmin),个体保留在边界附近但不超出边界的位置。
若Xi<Xmin,且P<W,则Xi =Xmin+rand(0,1)∗(Xmax-Xmin),个体被捕捉回搜索区域并随机分配位置。
其中,Xi 为种群中某个个体的第i 个维度;W 为策略类别概率门槛,本文设定该值为0.5;P和rand(0,1)均表示从0 ~1 之间随机取一个数。改进策略后,当个体即将越出边界区域时,该个体有两种变化: ①重新回到某个随机位置搜索;②在边界附近继续搜索。 这能保持边界搜索能力,也减轻了越界个体聚集于边界处从而导致的算法性能下降问题。
3.2.2 LSMA 算法运算步骤
本文在传统SMA 算法基础上,对算法进行混沌优化和边界变异改进形成LSMA 算法,LSMA算法的具体算法步骤为:
步骤1: 初始化种群,设定相关参数。
步骤2: 计算个体的适应度并排序。
步骤3: 利用位置更新方程更新种群位置。
步骤4: 计算适应度值,更新全局最优位置和个体的当前最优位置。
步骤5: 对符合条件的个体位置进行混沌更新并计算适应度值。
步骤6: 再次更新全局最优位置和个体的当前最优位置。
步骤7: 重复步骤2 到步骤6 直至满足误差条件或者达到最大迭代次数。
步骤8: 输出全局最优值和位置。
3.2.3 LSMA 算法性能测试
为研究LSMA 算法的性能,本文以Rastrigin函数、 Schwefel 函数、 Ackley 函数、 SRSDP 函数对SMA 和LSMA 进行性能测试。 通过将测试结果的数据进行对比,判断模型改进效果。
(1)4 个测试函数的基本信息(如表2 所示)
表2 4 种函数概述总结
(2)性能测试结果分析
表3 所展示的是SMA 和LSMA 在几种测试函数下的性能测试结果对比。 由于SRSDP 函数最优值为200,为更好地进行对比,对该函数的适应度结果减去200 再进行汇总。
表3 性能测试结果对比分析
从Rastrigin 函数和Ackley 函数的结果来看,算法改进前后对非线性、 多峰值问题的寻优均能查找到最小值,且未导致多峰值问题的寻优能力下降。 从Schwefel 函数的结果来看,LSMA 远优于传统SMA 算法: 传统算法存在过早熟问题,无法得出真实的全局最优结果;而LSMA 算法通过混沌改进策略优化,多次实现了最优值的捕获,寻优结果非常接近于真实最优值,改进效果显著。从SRSDP 函数的结果来看,两种算法均基本实现了最优值的捕获功能,但从精确度看,LSMA 算法加快了适应度值的下降过程,使更多迭代次数留在后期定位中,最优位置的定位能力提高。 总体而言,LSMA 算法在处理各类问题方面均不劣于传统SMA 算法,而对于局部最优值的处理,相关改进显著改善了传统算法存在的过早熟问题,有效实现算法优化。
3.2.4 LSMA-SVM 模型运算步骤
本文将LSMA 算法与SVM 模型进行结合,弥补传统SVM 模型的缺陷,改进后模型的分类能力和稳定性都得到较大提升。 LSMA-SVM 模型的具体运算步骤如下:
步骤1: 随机选取参数对,代入SVM 对目标样本进行学习并输出分类结果。
步骤2: 使用LSMA 算法,根据之前分类结果的数据信息更新参数对位置,代入SVM 进行学习并输出分类结果。
步骤3: 重复步骤2 的操作,直至达到预设迭代次数。
步骤4: 将所有迭代中的最优参数对代入SVM中,再进行学习,输出最终分类结果(如表3 所示)。
本文使用CCER 数据库中的新三板板块,获取相关企业数据作为研究数据。 将中小微企业的经营状况作为企业信用风险情况的代理变量,将财务状况或其他状况异常的ST 股企业作为违约组,将其余正常挂牌上市的中小微企业作为非违约组,形成两类类别进行研究。 本文以2021 年新三板板块中的中小微企业作为样本,以2021 年样本企业被“特别处理” 的状态作为类别划分依据,选取样本企业T-1 年,即对2020 年的相关指标数据进行实证研究。 对数据进行整理,在删除缺失值后,本文获取的样本中违约组内样本数为65,非违约组样本数为3295,共3360 个企业样本数据。
RF-LSMA-SVM 模型构建分为3 个部分: (1)使用RF 算法对各指标重要性排序,并构建新的样本数据集;(2)利用LSMA 优化的SVM 对得到的样本数据集进行学习,验证筛选方法的有效性;(3)确定最优样本特征集,形成最终模型。
(1)特征重要性排序
对原样本中违约组和非违约组样本类别不平衡问题,以SMOTE 算法进行均衡化处理,使两类样本的比例达到1 ∶1,实现无偏分类。 将新生成的均衡样本数据按照6 ∶4 的方式,使用分层抽样方法随机划分为训练集和测试集,进行后续操作。 RF 的分类器参数设定为: 森林中决策树数目为1000,样本中的纯度指标准则选用基尼指数,其余各项参数均设定为默认值。 经RF 计算后的特征重要性排序如表4 所示。
表4 RF 分类特征重要性排序表
续 表
分析贡献度较高的指标。 其中,资产负债率是判别企业信用风险的首要因素,占比24.57%。此实证结果与理论基本一致: 企业整体资产负债情况是影响信用风险的关键因素。 流动比率和现金流动负债比率的贡献度在5%以上。 销售净利率的贡献度为12.89%、 总资产净利率的贡献度为8.69%,两指标贡献度较高,表明企业盈利能力是影响信用风险的重要因素。 其余特征贡献度相对较低,不能明确对分类模型的影响作用,留待后续实证分析。
为更直观地进行分析,将以上数据按所属一级指标为依据进行整合并以总计贡献度为依据从大到小排序,结果如表5 所示。
表5 一级特征合计贡献度表
从合计贡献度来看,企业偿债能力和盈利能力贡献度较高,分别为45.49%和25.86%,两者之和超过了其他一级指标的贡献度之和。 位于第三的是企业成长能力,表明企业成长能力对判定信用风险作用较大。 从企业管理层特征的贡献度来看,其合计贡献度位于第四,指标影响作用超过了学术界普遍关注的企业规模、 创新能力等一级指标,表明企业管理层特征对企业信用风险判定可能存在重要作用。
如图1 所示,本文根据基于基尼指数计算的分类贡献度,将原始28 个特征按照从大到小的顺序依次进行排列,同时绘制出累积特征贡献度折线图。 根据上述特征贡献度的分布情况,本文在全特征样本集的基础上,分别构建包含重要性最高的前6 个、 前12 个、 前18 个和前24 个特征的样本集,分别记为6x、 12x、 18x、 24x[28],以便后续研究。
图1 特征累积贡献度折线图
(2)特征筛选有效性检验
为验证RF 算法筛选特征的有效性,分别对于上节中的5 个样本集进行研究。
首先使用NearMiss-1 算法,将远离少数类样本的多数类进行删减,将多数类与少数类样本比例调整至10 ∶1。 再进一步使用SMOTE 算法,通过抽样提升少数类样本的数量,最终使得违约组和非违约组的样本数量达到1 ∶1 的状态。
LSMA 的相关参数设定为: 黏菌种群个数为20,最大寻优迭代次数为50,对于参数C 和gam⁃ma 的寻优边界均为[0.1,200],训练集与测试集样本数量比例为6 ∶4,训练集与测试集的划分采用分层抽样方法进行。 为避免差异性和单次寻优陷入局部最优陷阱,本文对每个样本集进行重复10 次实验,基于各样本集的模型运行结果如图2~图5 所示。
图2 各级别Accuracy 折线图
图3 各级别Precision 折线图
图4 各级别Recall 值折线图
图5 各级别F1 值折线图
图2~图5 分别展示了5 个不同样本集下的模型评价指标情况。 其中,最优值为样本集下10 次实验内最优实验的指标结果;均值为样本集下10次实验内该项指标的算数平均值。
从LSMA 算法性能角度分析,各项指标在多次实验的均值与最优值基本一致,表明LSMA 寻优结果较稳定,较少陷入局部最优的情形。
Accuracy 是模型对测试集样本进行预测的总体正确率指标。 从Accuracy 指标来看,模型测试集的准确率整体保持在较高水平: 未经特征筛选时,全特征学习的模型平均准确率为96.85%,最优准确率为96.92%;经过特征筛选,模型在仅保留前18 个重要性较高的特征后平均测试集准确率升至97.92%,最优准确率升至98.46%,最优准确率相比原特征集正确率最优值提升1.54%。在逐步删除重要性较高的特征后模型分类准确率逐渐下降,在仅保留6 个贡献度最高的特征时,模型平均分类准确率下降至93.77%,最优值下降至93.85%。
Precision 指标反映了模型将非违约样本预测为违约的错误程度,Precision 值越高,误判程度就越低。 Recall 指标反映了模型的漏判程度,Re⁃call 值越高,被漏判的违约样本就越少。 相比较于全特征样本,18x 样本下的Precision 指标和Re⁃call 指标均有所提升,最优Precision 指标和Recall指标分别为98.84%和98.08%。 即特征筛选在提升模型违约样本捕获能力的同时减少了对非违约样本的误判,可有效提升模型的分类能力。
F1 值是Precision 和Recall 值的调和平均值,反映了对少数类样本漏判和误判的综合情况,是评价模型分类效果的综合指标。 模型的F1 值与Accuracy 指标表现出相近的形状特征: 随着贡献度较低的特征减少,F1 指标的均值和最优值从96.83%、 96.89%上升至18x 特征集下的97.89%、98.46%,而在筛除重要性较高的特征后F1 值逐步下降。
综上,4 个分类模型评价指标中,模型整体分类效果随着特征的减少表现出先上升再下降的趋势,证明RF 算法的特征排序效果符合预期:去除贡献度较低的特征后,数据冗余性降低、 模型分类效果提高;进一步剔除贡献度较高的特征后,数据信息的有效性降低、 模型效果降低。
(3)最优样本集实证结果
在证实RF 算法的有效性后,进一步以模型的F1 值作为择优依据,按RF 算法给出的特征重要性顺序,对全样本集采用后向剔除法进行特征筛选,观察模型分类效果。 筛选结果表明,当剩余特征个数为21 时模型分类效果达到最优,此时SVM 的参数C 和gamma 值分别为1.41246172 和6.0353862。 全特征样本集与21x 样本集下的分类效果对比如图6 所示。
图6 不同样本集下模型分类效果对比
图6 展示了全特征样本集和21x 样本集下模型的4 种评价指标情况: 4 种指标在21x 样本集下的结果均优于全特征样本集。 RF 算法降维通过剔除7 个无关指标,降低了冗余信息对分类模型的干扰,全面提升了模型的分类有效性,验证了特征筛选方法的有效性。 最终确定RF-LSMA-SVM 模型下的最优特征集为21x,具体指标如表6 所示。
表6 21x 特征集
筛选结果表明,两项客户结构二级指标、 流动资产和应收账款周转率、 是否垄断、 是否国有产权和自主知识产权拥有情况共7 项指标对中小微企业信用风险判断无益,反而降低模型效果。保留特征中,5 项管理层特征二级指标均被保留,表明所使用的管理层指标均对中小微企业信用风险具备一定的解释作用。 其中,董监高持股比例和董监高占比指标位于指标体系中的第9、 第10 位,对于信用风险解释能力较强。 董监会会议次数位于第13 位,重要性较高。 而董监高平均年龄和董监高男性比例排名较落后,相对不是重要特征。
为验证LSMA 算法的有效性,本文使用爬网格结合k 折交叉验证方法对样本集进行学习,将两类优化算法下的模型分类结果[29]进行对比。
在参数设定方面,本文使用参数C 与gamma的增长序列作为确定最优参数的实用方法,根据普遍使用的网格设定方法,设定参数C 与gamma的寻优范围均为[10-4,10-3,10-2,……,103,104],根据样本数量规模选定交叉验证折数k 为5,对最优样本集21x 样本集进行寻优。 基于两种寻优算法下的模型分类结果如图7 所示。
图7 最优样本集下两类优化算法结果对比
最优样本集下,结果如图7 所示: 在整体分类准确度方面,LSMA 算法远优于传统方法,准确率高出传统算法13.84%,实现了模型分类能力的大幅提升。 从Precision 值来看,传统方法略高出LSMA 算法1.40%,但这种仅体现在Precision 值上的数值优势是无意义的,因为传统方法下的Re⁃call 值仅为66.54%,即模型倾向于将目标判定为阴性个体,从而使阴性个体被误判为阳性个体的概率降低以带来较高的Precision 值。 从综合评价误判率和漏判率的F1 指标可以看出,LSMA 算法相比爬网格结合k 折交叉验证方法高出17.17%。
综合上述4 项指标来看,LSMA 算法的参数寻优效果远优于传统爬网格结合k 折交叉验证方法,验证了本文参数寻优方法的有效性。
本文从模型分类准确性的角度出发,验证管理层指标的有效性。 基于LSMA-SVM 算法,本文分别对最优样本集21x 及其剔除5 个二级管理层特征指标后的样本集进行对比,两种样本下的结果对比如图8 所示。
图8 管理层特征有效性验证
从图8 可看出,在含管理层特征的样本集中,4 项评价指标均明显优于不含管理层特征的样本集,若将管理层特征剔除,则模型在违约样本捕获能力方面和整体分类效果方面都将面临显著的下降。 检验结果证明,中小微企业管理层特征是影响企业信用风险的重要因素,中小微企业管理层规模、 性别、 年龄、 会议次数和持股比例是影响企业信用风险的重要因素。
本文基于中小微企业融资难问题,对中小微企业信用风险评价指标体系和算法模型进行研究。本文创造性地加入企业管理层特征指标,完善了评价指标体系;并且引入SMA 算法,依据算法缺陷改进形成LSMA 算法,构建了中小微企业信用风险的评价模型。 基于此,本文以我国新三板中小微企业为样本进行实证,得出结论: (1)企业偿债能力和盈利能力是影响其信用风险的核心指标,企业成长能力、 管理层特征、 规模、 创新能力和营运能力指标对信用风险均具有一定的解释能力。 而企业客户结构和本身性质属于干扰性信息,不利于信用风险的判定;(2)中小微企业管理层特征在信用风险评价中有着重要作用。 管理层规模、 性别、 年龄、 会议次数和持股比例均是构建中小微企业信用风险评价体系的重要指标;(3)基于RF-LSMA-SVM 模型的方法可提升信用风险判定的准确度。 其中,RF 算法可降低信息冗余和提升分类准确度,LSMA 算法能有效进行参数优化。
根据本文研究结论,提出如下建议:
(1)持续完善中小微企业信用评级制度。 不断建设完善中小微企业信用评价制度,制定科学统一的中小微企业信用评价标准,实现信用数据互联互通,为金融机构对中小微企业进行风险评估提供支持,有效应对其融资难问题;(2)提高数据采集质量,完善人工智能技术。 不断提升企业数据搜集的全面性和有效性,谨防重要指标数据的缺失和错误。 同时,不断深入研究机器学习模型方法,提升信用风险评估模型的准确度;(3)金融机构应加强对于中小微企业管理层的研究分析。 金融机构在关注企业基本经营状况和财务状况的同时,应加强对企业管理层的关注,注重对企业管理层规模、 性别、 年龄、 持股比例和会议次数数据的收集和分析;(4)中小微企业自身应加强对企业创新能力的关注,注重控制企业创新与企业信用风险之间的关系。 企业在对创新进行投入、 激发经营活力的同时要控制好投入力度,保证企业生产经营活动正常开展,谨慎投资高风险创新业务。
© 2024 All rights reserved. 北京转创国际管理咨询有限公司 备案号: 京ICP备19055770号-4
Transverture International Group Co Ltd, Guangdong Branch
地址:广州市天河区天河北路179号尚层国际1601
深圳市福田区深南中路2066号华能大厦
佛山顺德区北滘工业大道云创空间
东莞市大朗镇富丽东路226号松湖世家
梅州市丰顺县留隍镇新兴路881号
长沙市芙蓉区韶山北路139号文化大厦
欢迎来到本网站,请问有什么可以帮您?
稍后再说 现在咨询