_($0PXQFQ7Y(P~4838LJ_]L.png

管理培训搜索
18318889481 17875936848

管理
| 并购重组

破产重整 不良资产处置 并购分析 重大资产重组 破产管理人 并购重组 管理控制与企业合并 企业价值 技术投资与并购

| 转创国际企业研究所

中国企业国际化发展 董事之家 财务创新全球化研究 商务创新与全球化 教育系统 专精特新企业 企业内控与风险管理 集团管控 通商董事会馆 全球ESG政策法规 转创全球科创智库 CRS中心 雏鹰企业 高新技术企业 国际税务研究所 瞪羚企业 管理创新与全球化 企业治理

| 创新创业

电子商务师 知识产权发展 价值共创 企业科创管理 知识产权 高新技术企业认定 电子商务 全面质量管理 移动支付 私营经济 企业经营 商业模式创新 灯塔工厂 企业产品创新 客户与营销 专利 商标 著作权 商业规划 产品检测 金融科技 海关知识产权 企业创新绩效 地理标志保护 价值网络 企业创新管理 科技管理创新 集成电路布图设计 企业知识产权管理 发明专利 版权 精益创新

| 转型升级

十四五规划专题 碳达峰中和计划 科技创新 全过程工程 环保技术 数字化转型 碳排放管理 供给侧改革 转创国际技术转移 数控工厂 碳排放管理会计 全面绩效管理 应对气候变化 组织变革与管理转型 国有资产管理 进出口企业管理 盈利模式转型 绿色能源与碳核算 气候审计与鉴证 数字化监管

| 投融资与股权激励

广东股权交易中心 私募热点 私募投资 投融资简报 项目投资决策 案例研究 内保外贷 气候投融资 价值评估 企业价值评估 供应链金融 银行境外贷款 前海港企贷 投资系统 知识产权金融 股权投资 风险投资 股权质押 企业投资 股权激励

| ESG中心

ESG研究 绿色金融 ESG合规 信息披露 ESG咨询 公司治理 ESG评论 环境信息披露

| 管理咨询

工程造价 管理会计 企业内控管理 医院管理 物流与供应链 预算管理与会计 财务经理人 环境评价 家族企业管理 企业价值 精算科学 企业发展管理咨询 企业能源效率 管理培训 质量管理 流程管理 精益生产 商业策略 企业技术与绩效 中国卓越管理公司 数据分析 核心业务运营 投资管理 许可证 管理咨询 可行性研究 商业计划书 绩效评价 预算评审 绩效考核 企业运营 价值创造 商业模式评估 外贸管理

| 资产评估中心

资产评估研究 土地评估 知识产权评估 资产评估咨询 特许经营权评估 古建筑评估 价格鉴证 不良资产评估 无形资产评估 房地产估价

| 人力资源

人力资源会计 劳动关系协调 高层次人才 人才引进 薪酬管理 入户落户 培训与开发 人力资源 股权激励与绩效考核 薪酬激励 人社中心

| IPO咨询

招标投标 市场研究 项目管理 上市公司独立董事 IPO咨询 独立董事 关联交易管理 跨境资金集中运营 董事会治理 保险公司绩效评价 资产负债管理 企业管理与战略

| 统计建模:概念与陷阱当前您所在的位置:首页 > 管理 > 管理咨询 > 精算科学

统计建模应该是学术界非常流行的专业术语之一,当然也是精算学中最常用的术语之一。作为方法和工具,统计建模在很多领域被广泛使用,初看上去似乎很完美。但统计学是一个偶尔会出现惊奇与悖论的学科(例如,经验表明在一个有30个同学的班上,十有八九会有同一天过生日的同学,这是否很惊奇?另一个例子是面对同样的数据集,两人各说各话、各有各的结论的辛普森悖论,这是否很费解?)。能否准确使用统计建模,并准确理解最后得到的结论,取决于对统计建模的有关概念是否准确理解。

在统计学文献里,有两篇经典论文(Breiman 2001, Shmueli 2010),对统计建模有系统的讨论。这两篇的角度有所不同,对读者会有多方面的启发。

一、解释性建模与预测性建模

在Shmueli (2010)中,作者表明:统计建模是通过因果解释和预测方式来发展和检验理论的有力工具。在许多领域,如经济学、心理学、教育学、环境科学,统计模型几乎完全用于因果解释,而且具有较高解释功效的模型通常也被认为具有较好的预测功效。

在图像识别、自然语言处理、生物信息学等领域,关注的焦点是经验预测,而因果解释之间的关系很小也很间接。然而,在其它研究领域,如流行病学,对因果解释和经验预测的强调更为混杂。

消除因果解释和预测两者之间的模糊性,不仅对适当的统计建模至关重要,更重要的是,对适当的科学使用至关重要。解释和预测都是产生和检验理论的必要条件,但它们在这方面的作用各不相同。在统计学中需明确区分,这样才不会导致对构建合理的解释模型与创建强大的预测模型之间的区别缺乏理解,从而不会导致解释功效与预测功效之间的混淆。

解释性建模和预测性建模分别反映了使用数据和统计模型(或数据算法)方法进行解释或预测的过程。建模(modeling)与模型(models)不同,前者突出所涉及的整个过程,从目标设定、研究设计、数据收集、到科学使用。

(1)解释性建模

在社会科学领域,统计方法几乎完全用于检验因果理论。给定一个因果理论模型,把统计模型应用于数据,以检验因果假设。在这样的模型中,假设由自变量导致因变量的结果。社会科学中用于检验因果假设的统计模型的类型,几乎都是应用于观测数据的关联模型,回归模型是最常见的例子。这种做法的理由在于,理论本身提供了因果关系。此时,解释性建模定义为应用统计模型检验因果解释。

理论与数据之间的关系在不同领域当然有差异。虽然在社会科学领域,比较关注因果关系,但在自然语言处理和生物信息学等领域,对因果关系理论的重视却要弱得多。

(2)预测性建模

预测性建模可定义为:将统计模型或数据算法应用于数据,以预测新的或未来的可能结果的过程。这个定义还包括时间序列预测,时刻t之前的观测值用于预测时刻t+k,k>0的可能值。预测问题可分为回归、分类、聚类等几大类。预测性模型可以是产生预测的任何方法,无论是贝叶斯学派或频率学派、参数或非参数方法、统计模型或数据算法等。

认识到解释性建模和预测性建模之间的区别,以及每种建模所起的不同科学作用,并体现到统计教育中,对于科学知识的进步至关重要。

在Shmueli (2010)的附录中,给出了一个比较简单的线性回归的例子,说明预测功效较好的模型不必是“真实的”模型,其准确含义是指在期望预测误差(expected prediction error)指标下,在某些情形下,对“真实的”包含两个自变量的线性回归模型(可看成数据产生机制)产生的数据,再来构造线性回归模型,预测功效更好的模型可能只包含一个自变量。这可以看成是预测性建模的一个陷阱。

与上述结论类比,在数理统计学中的例子就是,对有些分布参数(或其函数),在均方误差(mean square error)指标下,无偏估计不必是最好的。

(3)关于因果解释和预测的进一步讨论

造成对因果解释和预测产生误解的一个原因,也许是对数据产生(或收集)机制没有准确理解。从19世纪后期到20世纪初,统计学开始对实验科学的发展产生重要影响。实验科学经常使用设计化的研究,数据由研究人员控制。设计化的研究在实验室环境下进行,研究人员对于那些被认为可能重要的变量,都有严格的物理限制。设计化的研究也出现在更大的现场实验中,其中的控制机制不同于实验室控制。来自设计化的研究的数据被称为实验数据。比较典型的开展设计化的研究的两个领域就是农业和药学。

例如,在农业中,为研究农作物的产量与肥料的关系,对每块土地(观测数据)都分配了各自水平的肥料。研究人员使用随机化技术为多块土地分配不同水平的肥料后,就可以用肥料水平的变化来解释产量的变化。通过使用随机化技术,通过设计化的研究,研究人员可以推断肥料对产量的因果影响。

而对精算学和有些科学领域,设计化的研究是非常少见的。例如,如果研究吸烟对死亡率的影响,研究人员是不能控制参与者是否吸烟的,换言之,研究人员不能在试验开始就选出一些不吸烟的参与者,把他们随机分配到吸烟组和不吸烟组,再观察好些年,来发现各自的死亡率模式。精算学通常使用的是观测数据。观测数据不受研究人员的控制。在观测性研究中,采用统计控制而不是采用实验控制。

以一个简单的线性回归模型为例,可帮助理解因果解释和预测的区别。在统计学里,回归概念来源于高尔顿(英国探险家、人类学家、生物统计学家、心理学家),他在1885年任英国科学进步协会人类学分会主席的就职演讲提出了回归概念。通过观察上千个成年子女及其父母的身高,发现上代的身高和下代的身高有正相关性。如以父亲的身高作为自变量,以儿子的身高作为因变量,就可用最小二乘法构建线性回归模型。该回归模型可用于预测,但不能认为回归模型必然存在因果关系。有可能其它变量(如营养)与两代人的身高都是关联的。全面的营养会使两代人的身高都增加。“营养”就是混淆变量。在这个例子中,为了说明统计控制的含义,设想把所有的样本分成两类,分别对应于营养好的和差的。对每一类再考察两代人的身高的关系。

回归模型显示出来的统计相关不能等同于因果关系。另一个类似的例子就是:设想有一个数据集,其中包含两个变量,分别是个人的饮食消费和服装消费开支。即使二者有较强的正相关(吃的好的人,穿的也好),但很难说二者有何因果关系。出现正相关的原因在于,除了彼此可能有的影响外,还受到其它变量的影响。例如,如考虑到收入,那么一般来说,收入高的个人,各方面消费都倾向于高些,它带动了吃和穿的消费增长,致使两者显示出较高的正相关。

回归建模可以说是统计建模中最重要最广泛的一类,它在许多科学领域有着广泛的应用。由于不同领域的习惯,在回归应用中出现的术语非常多样,如下表所示。

y-变量

x-变量

结果变量

解释变量

因变量

自变量

内生变量

外生变量

响应变量

处理变量

回归值

回归元、回归量

被解释变量

预测变量

输出变量

输入变量

二、数据建模与算法建模

统计学从数据开始。早在近20年前,Breiman (2001)提出:数据分析有两个目标:

 针对输入变量,预测输出变量的取值。

 了解输出变量与输入变量是如何相关联的。

为实现这两个目标,从建模文化上看,有两类不同的文化。一类是从统计学习的角度,对给定的数据,选择统计模型,应用最大似然估计方法估计参数、拟合模型,后续的工作包括应用统计理论,进行模型验证、假设检验、统计推断等。Breiman称之为数据建模文化。

另一类是从实际应用的角度,在实际应用中更感兴趣的是模型的预测准确性,即得到的模型在应用到未知数据的泛化能力,建模的焦点在于预测准确性,而不是可解释性。Breiman称之为算法建模文化。按照算法建模文化的逻辑,各种机器学习方法的广泛使用,目的就是增加预测精度。

(1)数据建模的一个陷阱

统计学里有名言:所有的模型都是错误的,有些是有用的。引用Breiman (1996)的一个例子,设想有30个自变量,从中选择5个自变量,构建线性回归模型,那么就共有142506个模型。以残差平方和(RSS)为指标,考察那些RSS低于1%的模型,至少发现3个模型:

模型1:


模型2:

模型3:


现在的问题是:一方面,以上3个模型的预测精度都很高,似乎任选一个都可。另一方面,如果关注哪些自变量是更重要的,那么每个模型都给出了不同的答案。这些模型“各说各话,真相不明”,有日语词汇“罗生门”的含义。

如果好的模型较多,在提高预测精度的同时,为避免模型的不唯一性,通常把这些模型的预测结果汇集在一起考虑。这样做的代价就是模型的解释性就消失了。

(2)奥卡姆(Occam)困境

较高的预测精度通常需要复杂的预测方法。简单的而且易于解释的模型,往往不能得到较高的预测精度。例如,假设数据产生机制(或“真实的”模型)是y=sin(x)+ε,那么简单的线性回归模型与样条回归模型相比,预测精度就较低。类似地,对含有多个自变量的数据集,多元线性回归模型和随机森林相比,一般来说随机森林的预测精度更高。

(3)贝尔曼(Bellman)维数诅咒

几十年来,在统计学里数据建模中形成的惯例是尽量要避免维数诅咒。如果有太多的预测变量,通常是首先寻找较少的特征(预测变量的一些函数),而且这些特征“包含尽可能多的信息”,用这些特征代替原来的预测变量。但是在算法建模中,与降低维数相反,往往需要通过增加预测变量的很多函数,来增加维数,例如在支持向量机和模式识别中。

最后指出,统计学的目标是使用数据来预测和获取有关内在的数据机制的信息。模型的要点在于提供关于因变量和自变量之间关系的有用的信息。可解释性是获得信息的一种方式。但是一个模型不必一定是简单的,也不必一定是数据模型。简言之,目标不是解释性,而是准确的信息。

三、多重共线性

在数据建模中,有些解释变量可能与其它解释变量线性相关,称之为多重共线性。在实际应用数据建模时,仔细考虑问题的背景,对数据进行仔细的初步考察,并删除那些已经被其它变量解释过的变量,通常会避免下面将要说明的多重共线性的极端影响。

下面的一个例子令人惊奇。现有来自R软件包compositions的数据集Coxite,其中包含焦土类型25个岩石样本的矿物成分。


以最后一列作为因变量,前面6列作为自变量,首先注意到前5列都是百分比,相加都是100%,因此线性相关。在应用线性回归模型时,可删去E列。

通过检验最后1列和前面各列的相关系数,发现只与前3列的相关系数(绝对值)较大,为此构造的模型,自变量只选前3列。检查方差通胀因子(variance inflation factor),最后得到的模型只包含B和C两个自变量。使用AIC统计量,把最后的模型与包含所有自变量(删去E列)的模型比较,发现简化的模型更好。

现在对自变量稍加调整:把前5列的百分比先取整数,再构建包含6个自变量的模型,此时自变量发生了微小的变化,但模型结论看上去出乎意料地变化很大。当模型包含所有的自变量时,C非常显著,尤其是D的p值0.033,也就是说D变得很显著了。

上例就是数据建模的一个陷阱。虽然上例是人为设计的,但我们时不时就会遇到研究人员得到的需要仔细推敲的结论。

四、蘑菇是否可食用的判断

美国加州大学欧文分校(University of California, Irvine简称UCI)有一个机器学习数据集存储库的网页,其中就有蘑菇数据集,网址如下

http://archive.ics.uci.edu/ml/datasets/Mushroom

蘑菇数据集包括对蘑菇和麻风菌科(Family)23种(Species)带菌蘑菇的假设样本(8124个)的描述。(生物学中的分类级别顺序为界>门>纲>目>科>属>种)。每种都被确定为可食用的、绝对有毒的、毒性未知的三类,其中后两类合并为一类。每个样本有22个特征,涉及菌盖颜色、菌盖形状、气味、菌褶等,以下是来自网上的示意图。



采蘑菇时,为避免食物中毒,只采集那些有较大的置信度是可食用的蘑菇,即使有可能会遗漏掉一些可食用的蘑菇。进一步观察该数据集,就发现每个特征都是分类型变量,而因变量是一个二分类变量。从预测建模的角度,这是一个分类问题。

设想你是一个植物学家,偶然发现一枚蘑菇。由蘑菇集的数据信息,如何判断蘑菇是否可食用?很难想象如何用传统的数据建模方法。实际上,这似乎只能借助于算法建模。关于该数据集,目前已有比较成熟的机器学习办法,如随机森林,为此首先将22个原始特征加工后,变成了126维特征。这里就不再展开讨论。

参考文献

Breiman, L. (1996). The heuristics of instability in model selection. Annals of Statistics 24, 2350-2381.

Breiman, L. (2001). Statistical Modeling: The Two Cultures. Statistical Science Vol. 16, No. 3, 199-231.

Shmueli, G. (2010). To Explain or to Predict? Statistical Science Vol. 25, No. 3, 289-310.


转创君
企业概况
联系我们
专家顾问
企业文化
党风建设
核心团队
资质荣誉
领导资源
专家库
公司公告
资源与智库
战略合作伙伴
质量保证
咨询流程
联系我们
咨询
IPO咨询
中国企业国际化发展战略
投融资规划
企业管理咨询
人力资源管理
风险管理
竞争战略
集团管控
并购重组
家族办公室
资产管理
股权设计
企业管治与内部审计
企业估值
价值办公室
内控咨询
投资银行
管治、内控及合规服务
法律咨询
服务
管理咨询服务
投融资规划
人力资源
资产评估服务
会计服务
科技服务
资质认证
ESG服务
商务咨询
内部控制服务
转创投服
金融服务咨询
企业服务
财会服务
翻译服务
财审
金融会计专题
法证会计
国际财务管理
会计中心
财务咨询
内部审计专题
审计创新与全球化
代理记账中心
会计师事务所
审计中心
审计及鉴证
专项审计
审计工厂
审计咨询服务
税律
财税中心
转创税务
华税律所
税务师事务所
IPO财税
国际税收
涉税服务
金融
纳斯达克
并购交易服务
北交所
IPO咨询
深交所
上交所
直通新三板
董秘工作平台
独立董事事务
SPAC
资本市场服务中心
澳洲上市
加拿大上市
估值分析事务
香港联交所
新交所
金融分析师事务所
合规
合规与政府管制
企业合规
网络安全与隐私保护
法证会计与反舞弊
反洗钱与制裁合规
反垄断中心
企业合规管理咨询
合规中心
转创全球企业合规
合规律师事务所
金融安全与合规
海关及全球贸易合规
ESG合规
反欺诈中心
合规中心(产业)
知识产权合规专题
私募股权基金合规
法信
征信管理
信用中心
法信中心
信用评级
价值办公室
联合资信
国际信用
安企中心
转创法信
诚信管理
产服
产业中心
企业与产业管理
行业中心
转创产研
城市中国
转创科研
全球城市
乡村振兴战略
创新创业中心
转型升级中心
数据经济与网安
绿创中心
双碳与可持续发展
管理
并购重组
转创国际企业研究所
创新创业
转型升级
投融资与股权激励
ESG中心
管理咨询
资产评估中心
人力资源
IPO咨询
法律
刑事法律服务
资本市场法律服务
财税金融法律事务
转创国际合规律师
民商事法律服务
公司法律服务
公共法律服务中心
转创国际法律事务所
内控
危机管理
金融风险专题
风险管理中心
网络安全与隐私保护
企业风险管理
独立董事
风险控制师事务所
国际风险研究
风险管理咨询
监督中心
管制中心
风控中心
内部控制中心
经济安全与企业内控
监管中心
转创
转创深圳(深莞)
转创广佛
转创国际福建
转创梅州
客汕经济
转创珠三角
转创潮州
转创网校
转创国际汕头
转创揭阳
18318889481 17875936848
在线QQ
在线留言
返回首页
返回顶部
留言板
发送