范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

风控模型应聘,80会被问到的面试题

  模型过拟合,对经常建模的小伙伴来说是非常熟悉的,稍不留神,模型就出现过拟合了,这让我们在解决模型过拟合问题上花费了不少功夫。同样这个也是在面试中最高频会被Q到的问题。因此,在平日里建立模型的过程中,虽然模型过拟合问题很难避免,但在处理时为了避免少走弯路,我们有必要熟悉下模型过拟合的原因,以及常见的处理方法,这对我们提高建模的工作效率是非常有帮助的。
  1、模型拟合介绍
  在了解模型过拟合问题之前,我们先整体熟悉下机器学习模型训练的本质,以及模型拟合结果的表现形式。机器学习的核心思路是采用相关模型算法(常见如线性回归、逻辑回归、决策树、K近邻、朴素贝叶斯等)对建模样本数据进行拟合训练,从而实现对未知新样本数据的有效预测。在这个过程中,我们可以把模型的预测数据结果与样本真实数据结果之间的差异程度称为"误差"。其中,算法模型在训练数据集上的误差称为"训练误差",而在新的测试样本数据上的误差称为"泛化误差"。
  机器学习算法模型对训练样本数据集以外样本数据(包括验证数据集、测试数据集)的预测能力,也可以称为"泛化能力",是机器学习提高模型性能的量化目标。在模型泛化能力表现不佳的原因中,过拟合与欠拟合问题是最常见的两种现象,下面简单介绍下二者的原理与区别。
  (1)模型过拟合
  模型过拟合,指算法模型的学习能力太强,使模型在训练拟合过程中,将样本数据中的"个别特征"当成了"一般规律",更形象地说,就是把训练数据特征分布的"个性"作为所有潜在样本的"共性"来处理,从而导致模型的泛化能力很弱。过拟合问题通过模型指标可以直接反映,即模型在训练数据集上表现优异,但在测试数据集上表现较差。
  (2)模型欠拟合
  模型欠拟合,指算法模型的学习能力较弱,使模型在训练拟合过程中,难以学习到样本数据中的"一般规律"信息,直接导致模型的泛化能力较弱。从模型指标上体现,欠拟合问题在训练数据集和测试数据集的性能表现都比较差。
  从过拟合与欠拟合的原理可以了解到,二者都会导致模型的泛化能力较弱,只是在训练拟合阶段的学习能力差异较大,可理解为正好相反。无论怎样,这两类问题都是我们在实际建模过程中不愿意看到的,都需要做出相关处理,以保证模型的学习能力与泛化能力都表现较好。
  对于欠拟合问题来说,是相对容易解决的,情况本身在模型训练环节表现较差,也没有必要去进行建模样本外的性能测试,只需要对模型算法提高学习器的能力就可以解决,常见的方式是直接调整模型训练参数,比如增加模型迭代的次数等。
  对于过拟合问题,是我们建模过程中需要重点关注和解决的,因为这种情况需要将训练数据和测试数据的模型表现进行对比才能发现。而且,从机器学习角度来讲,模型过拟合问题是难以避免的,测试数据的模型表现总会与训练数据的模型表现存在一定差异。我们需要尽可能做到的是,在模型指标可以满足业务需求的情况下,将模型在训练数据的"学习能力"与测试数据的"泛化能力"之间的差异缩放到一定合理的范围内,这是我们最终实现模型上线使用前的目标。
  通过前边内容熟悉了模型过拟合与欠拟合的原理逻辑与业务背景之后,接下来我们结合实际场景情况,重点来分析下造成模型过拟合情况的相关原因。我们先从常用模型类型的角度,来看下回归模型与分类模型的拟合情况,具体示意图分别如图1、图2所示。
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  图1 回归模型的拟合情况
  ​
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  图2 分类模型的拟合情况
  由以上示意图可知,可以很形象地理解模型拟合的不同情况及其特点:
  (1)对于回归模型,通过可视化结果来反映(图1)。正常拟合的模型结果是一条坡度较缓的抛物线(optimum),样本点与拟合曲线存在的训练误差也是在合理范围内。过拟合的模型结果是存在很多拐点的抛物线(overfitting),虽然对样本数据特征学习很精准,但显然是对特征分布过于敏感,包括局部样本特征的个性化规律,并没有正确表达出数据分布的大众化规律。欠拟合的模型结果则是只拟合出一条直线(underfitting),显然没有真正学习到样本特征数据的真实规律。
  (2)对于分类模型,通过可视化结果来反映(图2)。正常拟合的模型结果是一条半圆形曲线(normal),存在轻微的训练误差也是完全合理的。过拟合的模型结果曲线是一条非常扭曲的形状(overfit),虽然对样本点做出了较准确的分类,但其中样本点必然会存在个别特征,不能代表整体样本的普遍规律,难以表达出样本主要且真实的分布规律。欠拟合的模型结果是类似直线作为分类边界(underfit),很显然存在误差较大,没有将样本特征进行合理区分。
  2、模型过拟合原因
  通过前边内容熟悉了模型过拟合与欠拟合的原理特点与业务背景之后,接下来我们结合实际业务场景,来重点分析下造成模型过拟合情况的原因,主要有以下几种可能情况:
  (1)模型训练数据的样本量不足
  在建模前的样本准备环节,样本量是明显的特征表现,理论上讲,建模数据的样本量越多越好,有利于模型的训练学习,但是也需要适当,如果样本量超过一定范围,一方面由于样本特征类似没有过多训练的必要,另一方面也会加大服务器的承载能力也会降低建模效率。但是,模型训练数据的样本量过少,比如只有几百条样本,难以代表实际业务数据的客观规律,这样使模型训练时仅能学习到当前样本可能存在较大区分度的数据规律,而反映在测试数据上的模型性能表现会直接变差。一般情况下,建模样本的训练数据量至少可以达到几千,比如逻辑回归等算法,但最合理的情况是能满足几万条,这对常用的决策数集成学习算法(如随机森林、XGBoost、LightGBM等)也是非常合适的。
  (2)建模样本的噪音数据干扰过大
  在训练样本数据中,如果存在的噪音数据(异常值)数量过多或者特征明显,会直接影响模型训练的效果,因为模型在训练拟合时,会较大程度学习到噪音数据的特征分布特点,忽略样本客观数据的整体规律,也就是实际业务数据输入与输出的真实关系。
  (3)模型训练拟合的迭代次数过多
  在常见算法模型中,我们都可以指定模型训练的迭代次数,一般情况下可以选择默认参数,但是为了提升模型效果,我们往往会重新定义迭代次数。在这种情况下,如果模型的迭代次数太少,模型并没有得到较好的学习,会直接产生模型欠拟合的情况。如果模型的迭代次数过多,模型会将学习到很多噪音数据的分布规律,以及少量没有较好区分能力特征属性,这样虽然可以保证模型训练后的性能指标较好,但很容易造成模型过拟合现象。
  (4)算法模型的参数复杂度过高
  在采用某模型算法进行训练时,我们会经常通过定义多个参数来调整模型性能,比如常见的随机森林、XGBoost、LightGBM等算法,算法内置的超参数较多,例如决策树数量、树的深度、树叶子节点数、学习率等。虽然这些参数对模型性能影响较大,有助于我们优化模型效果,但是如果对模型参数组合设置的太多,会导致模型的复杂度增加,例如决策树的数量太多、树的深度太大、树叶子节点过多等。在这种情况下,最终得到决策树集成学习模型,由于在训练过程按照入参超量要求进行过度学习,使得模型出现过拟合的问题。
  (5)测试样本与训练样本的特征分布差异较大
  为了保证模型的效果,我们在建模过程中,必然会采用测试数据来检验模型训练的效果。对于常提到的验证数据集与测试数据集,可以理解为样本内测试与样本外测试。其中,样本内测试数据和训练样本数据来源于同一个建模宽表,数据拆分过程经常采用的是随机抽样。对于样本外测试数据,是从时间窗口角度,在训练数据时窗后的样本。但是,我们在提取测试样本时,比如针对样本内的验证数据集,如果没有采用随机抽样方法,或者在随机抽样的基础上又限定了某个前提条件,很可能导致验证样本数据集与训练样本数据集的特征分布存在较大差异。同理,针对样本外的测试数据集,如果选取的时间窗口不合理,也很可能导致测试样本数据集与训练样本数据集的特征差异较大。在这种情况下,虽然模型在训练样本数据上得到了合理的训练学习,但是反映在测试数据集上模型性能会下降很多。当然,这种过拟合现象本质上可以称为"伪过拟合",但同样是我们建模过程中需要避免的。
  3、过拟合解决方法
  根据以上介绍的模型过拟合现象常见的几种原因,我们在实际的建模过程中,只要重点关注以上情况,可以很大程度的避免模型过拟合问题。在具体实施解决方面,我们针对以上场景,来简要描述下具体的解决思路与方法。
  (1)增加训练数据集的样本量
  训练数据样本量的选取,具体需要结合模型采用的算法,例如逻辑回归算法对样本量相对较少,随机森林、XGBoost、LightGBM等决策树集成学习相对较多,而神经网络算法需要样本量更多。
  (2)减少模型拟合的特征数量
  通过特征相关指标进行变量筛选,常见特征分析指标有信息值IV、相关性pearson、共线性vif、贡献度importance等,同时可以采用特征聚类、特征降维等方法缩小变量池范围。
  (3)建模样本的数据清洗
  在模型训练前,要对建模样本的噪音数据进行处理,包括异常值处理、缺失值处理、重复值处理等,这样可以有效避免噪音数据在模型拟合阶段的干扰。
  (4)减少模型的迭代次数
  在合理的范围内,适当减少模型的迭代次数,可以有效保证模型较低程度地学习区分能力弱或分布异常的特征规律。
  (5)调低模型参数的复杂度
  模型算法默认参数情况下,适当降低某些重要参数的取值,以决策树学习算法为例,可以降低树的深度、树的叶子节点数等。
  (6)增加正则化约束条件
  对于逻辑回归、线性回归等传统机器学习算法,常见的有L1正则化与L2正则化,也就是在模型训练的损失函数中加入⼀个正则化项;对于神经网络深度学习算法,增加Dropout 层约束条件,本质也是正则化约束。
  以上内容便是根据建模过程中常出现的过拟合与欠拟合现象,分别描述了各种拟合情况的概念原理和分布特点。同时,围绕实际场景中需重点关注的模型过拟合问题,详细介绍了模型过拟合问题的主要原因,并具体分析了解决模型过拟合问题的思路与方法。在数据建模工作中,可以结合样本数据的实际情况,以及建模过程的分析步骤,合理选用数据处理方法,有效避免模型过拟合现象的出现,从而获得一个训练样本学习能力与测试样本泛化能力都表现较优的模型。
  另外在模型调参上,之前陈老师在星球上也发过一个详细的帖子,提到过如何增加模型的鲁棒性,避免过拟合的情况,具体请参考星球上的帖子:
  ​
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  关于代码调参的内容,有兴趣的童鞋可继续关注
  《第94期会员课程:风控炼丹炉—模型调参课》:
  ​
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  ...
  ~原创文章

斯诺登,前(美国中央情报局)人员,为什么要出卖美国?2013年6月,斯诺登将美国国家安全局关于PRISM监听项目的秘密文档披露给了卫报和华盛顿邮报,随即遭美国政府通缉,事发时人在香港,随后飞往俄罗斯。6月21日,斯诺登通过卫报再次曝TI11战队巡礼历经千辛的东南亚鹰爪Talon全球DOTA2玩家期待已久的TI11即将到来,20支战队将为奖金和不朽神盾展开角逐。给大家带来各队伍巡礼,本文的主角是东南亚战队TalonEsports。战队名称TalonEspo折合人民币28万起,新款三菱欧蓝德PHEV上市2023款三菱欧蓝德PHEV版在海外上市,新车在海外售价大约28万元起,顶配版本折合人民币35万元左右,欧蓝德PHEV将会在今年12月开始在美国销售。新车在外观设计部分与燃油版欧蓝求精争当先锋创新攻克难题原标题河钢集团邯钢公司邯宝炼钢厂特档技术主管唐笑宇(引题)求精争当先锋创新攻克难题(二十大代表风采)(主题)人民日报记者史自强再有4分37秒就到出钢时间了,大家密切注意操作规程!9DJI大疆发布Mavic3行业系列无人机,售价19999元起IT之家9月27日消息,DJI大疆今日正式发布Mavic3行业系列无人机Mavic3E和Mavic3T。官方表示,Mavic3行业系列是目前大疆发布的体积最小的行业级无人机,它们延三部门发布公告!延续新能源汽车免征车辆购置税政策为支持新能源汽车产业发展,促进汽车消费,财政部税务总局工业和信息化部日前发布公告延续新能源汽车免征车辆购置税政策,对购置日期在2023年1月1日至2023年12月31日期间内的新能你是在从事淘汰产能行业还是产能过剩行业很多所谓的经济学家就照抄西方主流经济学教科书,假设市场应该均衡,现在产品多了,卖不出去,那不就产能过剩了,然后就要去产能。而我认为这个概念本身就是错误的,为什么?如果开旅馆餐馆,服步入中年,我对过生日不那么在意了文雪樱步入中年,我对过生日反而不那么在意了。以前叫嚷着要买大蛋糕,要这样那样的礼物,现在则安于一碗长寿面的喜乐,母亲亲手做的,面条上卧着鼓鼓的荷包蛋,最后淋上几滴香油。坐在窗前,阳双领跑标杆是怎样炼成的山东海化纯碱厂绿色低碳高质量发展探秘8月25日,中国石油和化学工业联合会在京发布2022年全国石油和化工行业能效领跑者水效领跑者榜单,交流推广节能降碳新技术。山东海化股份有限公司纯碱厂再度蝉联2021年度全国纯碱行业游戏王MR哥布林暴发户魔尺中出现的普通魔法。自己从卡组抽1张。那之后,对方回复1000基本分。它确实给对面带来了一点生命优势,但与八汰乌之骸的或强欲之瓶不同,它可以立即抽卡,因此一回合杀套牌和岩石套牌中最新消息!2022重庆马拉松拟定档11月27日,撞期厦门上海马拉松大家好,我是跑团邦小团,一个集专业运动智慧于一身的美少女。近日,据世界田联官网日历更新显示,2022重庆马拉松拟于2022年11月27日(周日)举办来源世界田联日历同时,根据最新消
鼻窦炎的危害与预防随着社会的不断发展,人们生活水平的提高,各种疾病的发病率也居高不下,鼻窦炎就是常见的一种。因为很多人不知道它的危害,没有意识到问题的严重性。专家指出,其实鼻窦炎是有危害的,人们不要篮网闹剧20192022也许一开始,就是个错误202223赛季才开打两周多,NBA的闹剧就开始频繁上演,几乎所有网红球队都莫名其妙地乱了起来,甚至尼克斯和国王都能指着他们咯咯笑我们没加入他们你们难道不高兴吗?卫冕冠军遭遇了5连朝鲜水果卖得很贵,为什么朝鲜农民很少种水果?曾去韩国旅游,韩国给我的印象是水果贵。夏天,在国内买一个西瓜可能十几块人民币。在韩国买一个西瓜,可能需要上百人民币。韩国水果贵我能理解。但朝鲜旅游,朝鲜水果的价格,让我觉得不可思议麦荣恩将公司出售给复星国际的决定是正确的,来自死海的AHAVA品牌从此站上了更大舞台继去年百年大党老外讲故事百集融媒体产品,境内外播放量突破16亿之后,老外讲故事迎来第二季海外员工看中国。100位不同国度的海外员工,用最接地气的方式,讲述自己在中国央企和上海企业海关注贾跃亭起诉乐视消息不实,山西法院修正公告错误内容文懂车帝原创刘艺伟懂车帝原创行业日前,贾跃亭债务处理小组微博账号就媒体报道老板与自家公司对簿公堂?贾跃亭起诉乐视一事回应,表示此事系部分网站公告内容刊登有误。贾跃亭债务处理小组在声感染性角膜炎风险增80倍隐形眼镜竟是眼睛的最佳损友相信不少近视的朋友会因为戴框架眼镜而烦恼起雾的镜片总是不合时宜地遮挡视野,从鼻梁滑下的镜架宣告着皮肤又出油了,而运动时摇曳的镜腿也像是在昭示眼镜渴望自由的心于是,饱受框架眼镜困扰的险些被40横扫,国米4连胜终结跌出前六,尤文4连胜反超罗马赛前排名第8的老妇人尤文图斯队迎来了意甲第13轮的较量,尤文此役坐镇自己的主场PK赛前排名第6的国际米兰队。赛前尤文在联赛取得了一波3连胜,而国米则在联赛赛场取得了一波4连胜,不过恭喜林书豪!合同转正,留在广州队林书豪发视频回应被裁传闻第一阶段打完了,我们正要回广州,我们这9场比赛学了很多,队友表现都很好,很多球迷一直在鼓励我,我非常感谢,我会一直做好自己,认真训练准备自己,我非常珍惜每一CBA状元王翊雄成水货?留洋镀金,场均42露出老底各家俱乐部越来越重视CBA选秀大会CBA在2015年举办了第一届选秀大会,当时非常尴尬,拥有状元签的重庆翱龙俱乐部选择了来自西北工业大学的方君磊,而其他球队均放弃了选秀权,方君磊早天气预报今日立冬天气偏暖,2023年春节冷不冷?农谚是咋说11月7日,今日立冬,不少地方天气偏暖,在南方,很多人都喜欢体验大雪的感觉,因为在南方的不少地区,由于地理位置以及纬度高低等其他因素的不同,有些地方的朋友在冬天甚至没有看到过降雪的立冬后要多吃莲藕,粉藕和脆藕该如何区分?教你2招,简单又实用立冬过后便正式进入冬天了,而每年的秋冬两季既是各种莲藕大量上市的季节,也是吃莲藕的最好时节。莲藕是属于秋冬两季的时令蔬菜,营养价值高,吃起来口感鲜美,享有水中人参的美誉,所以冬天的