范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

通俗易懂05梯度提升决策树GBDT

  视频详解:通俗易懂-三哥讲机器学习-05-机器学习-梯度提升决策树-GBDT1.GBDT算法
  GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。
  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
  1.1 应用场景1、用于自动挖掘有效特征、特征组合 2、作为LR模型中的特征,提高CTR预估 3、GBDT应用于淘宝的搜索及预测业务 1.2 Boosting核心思想
  Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
  Bagging 与 Boosting 的串行训练方式不同,Bagging 方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。
  2、GBDT详解GBDT的原理所有弱分类器的结果相加等于预测值。 每次都以当前预测为基准,下一个弱分类器去拟合误差函数对预测值的残差(预测值与真实值之间的误差)。 GBDT的弱分类器使用的是树模型(cart)。
  如图是一个非常简单的帮助理解的示例,我们用 GBDT 去预测年龄: 第一个弱分类器(第一棵树)预测一个年龄(如20岁),计算发现误差有10岁; 第二棵树预测拟合残差,预测值 6,计算发现差距还有 4 岁; 第三棵树继续预测拟合残差,预测值 3,发现差距只有 1 岁了; 第四课树用 1 岁拟合剩下的残差,完成。
  最终,四棵树的结论加起来,得到30岁这个标注答案(实际工程实现里,GBDT 是计算负梯度,用负梯度近似残差) GBDT计算流程
  1、GBDT与负梯度近似残差
  回归任务下,GBDT在每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
  损失函数的负梯度计算如下:
  可以看出,当损失函数选用「均方误差损失」时,每一次拟合的值就是(真实值-预测值),即残差。 2、GBDT训练过程
  我们来借助1个简单的例子理解一下 GBDT 的训练过程。假定训练集只有4个人(A、B、C、D),他们的年龄分别是(14,16,24,26)。其中,A、B分别是高一和高三学生;C、D分别是应届毕业生和工作两年的员工。
  我们先看看用回归树来训练,得到的结果如下图所示:
  接下来改用 GBDT 来训练。由于样本数据少,我们限定叶子节点最多为2(即每棵树都只有一个分枝),并且限定树的棵树为2。 最终训练得到的结果如下图所示:
  上图中的树很好理解:A、B年龄较为相近,C、D年龄较为相近,被分为左右两支,每支用平均年龄作为预测值。 我们计算残差(即「实际值」-「预测值」),所以 A 的残差 14-15=-1 。 这里 A的「预测值」是指前面所有树预测结果累加的和,在当前情形下前序只有一棵树,所以直接是15 ,其他多树的复杂场景下需要累加计算作为 A 的预测值。
  上图中的树就是残差学习的过程了: 把 A、B、C、D 的值换作残差 -1、1、-1、1,再构建一棵树学习,这棵树只有两个值 1 和 -1,直接分成两个节点:A、C 在左边,B、D在右边。 这棵树学习残差,在我们当前这个简单的场景下,已经能保证预测值和实际值(上一轮残差)相等了。 我们把这棵树的预测值累加到第一棵树上的预测结果上,就能得到真实年龄,这个简单例子中每个人都完美匹配,得到了真实的预测值。
  最终的预测过程是这样的: A:高一学生,购物较少,经常问学长问题,真实年龄 14 岁,预测年龄A=15-1=14 B:高三学生,购物较少,经常被学弟提问,真实年龄 16 岁,预测年龄B=15+1=16 C:应届毕业生,购物较多,经常问学长问题,真实年龄 24 岁,预测年龄C=25-1=24 D:工作两年员工,购物较多,经常被学弟提问,真实年龄 26 岁,预测年龄D=25+1=26
  综上,GBDT 需要将多棵树的得分累加得到最终的预测得分,且每轮迭代,都是在现有树的基础上,增加一棵新的树去拟合前面树的预测值与真实值之间的残差。 3.梯度提升 vs 梯度下降
  下面我们来对比一下「梯度提升」与「梯度下降」。这两种迭代优化算法,都是在每1轮迭代中,利用损失函数负梯度方向的信息,更新当前模型,只不过: 梯度下降 中,模型是以参数化形式表示,从而模型的更新等价于参数的更新。
  梯度提升 中,模型并不需要进行参数化表示,而是直接定义在函数空间中,从而大大扩展了可以使用的模型种类。
  3.GBDT优缺点1)优点预测阶段,因为每棵树的结构都已确定,计算速度快。 适用稠密数据,泛化能力和表达能力都不错,数据科学竞赛榜首常见模型。 可解释性不错,鲁棒性亦可,能够自动发现特征间的高阶关系。 2)缺点GBDT 在高维稀疏的数据集上,效率较差,且效果表现不如 SVM 或神经网络。 适合数值型特征,在 NLP 或文本特征上表现弱。 训练过程无法并行,工程加速只能体现在单颗树构建过程中。 4.随机森林 vs GBDT1)相同点都是集成模型,由多棵树组构成,最终的结果都是由多棵树一起决定。 RF  和  GBDT  在使用  CART  树时,可以是分类树或者回归树。 2)不同点训练过程中,随机森林的树可以并行生成,而  GBDT  只能串行生成。 随机森林的结果是多数表决表决的,而  GBDT  则是多棵树累加之。 随机森林对异常值不敏感,而  GBDT  对异常值比较敏感。 随机森林降低模型的方差,而  GBDT  是降低模型的偏差。 代码演示-GBDT数据集 随机生成 sklearn 可视化决策树插件 Download:https://graphviz.org/download/ 决策树插件安装文档:https://blog.csdn.net/u012744245/article/details/103360769

公司领导开会,让每个人讲几句,应该讲几句?这个问题是个好问题,领导让讲几句,什么情况下让讲话,怎么讲,讲什么才能给领导留下好的印象呢?这个其实更重要。什么情况下让讲话?如果领导就是意思或者客套下,那么你在这种情况下大谈公司领导最讨厌什么样的员工?领导之所以能成为领导,必定有着其过人之处,领导有不同的性格,但是领导的共性就是能把事情做好,做漂亮。而一个人能把事情做好做漂亮,是需要思考,需要有高效执行力等。一个人只有对自己有严护士好换工作吗?个人认为,护士这个职业还是很好换工作的。身边有很多护士朋友,她们的工作虽然很辛苦,要面对各种各样的病人,还要倒夜班,时间长了皮肤脸色都不是很好。干得时间长了,她们的心愿就是想找一份我是个专科生,对未来很迷茫,能给个建议吗?你好,你的这个问题是大部分专科生都面临的一个问题。我的一些考上大学读专科的学生也常常会问我这个问题。在学历泛滥的今天,专科生就业确实没有什么优势。那么专科生是不是就没有机会了呢?肯广东省中医院千元挂号费,是要距工薪阶层于门外吗?广东省中医院千元挂号费,是要拒工薪阶层于门外吗?说到这,我们先来了解下广东中医院广东省中医院位于广州市越秀区,是一所三级甲等医院,始建于1933年,是我国近代史上最早的中医医院之一广西右江民族医学院是一所什么层次的医科大学?广西右江民族医学院,是一间专业性质很强的医科大学,设在很有革命传统的百色市,也即是当年邓小平,张云逸等老前辈在百色举行起义,成立红七红八军的那个地方。因流过百色市的那条河叫右江,故职称和中人的工资调整有关系吗?本来职称是在岗的职称,那退休了还会用到职称吗?职称和中人的退休工资调整是有关系的,在职时的职称退休后照样会用到。现在的退休政策是从2014年10月开始施行的,2014年9月之前退休的按照旧政策计发退休金。2014年10月至20从什么时候开始培养孩子的性格比较好?这个问题要拆分成几个部分来回答首先,性格是什么?其次,性格可以培养吗?最后,如果性格可以培养,家长应该从什么时候开始培养,以及怎么培养孩子的性格?性格是什么?在心理学上,性格一般指在湖北随州市,老人退休工资平均水平是多少?谢谢你能邀请我发言。我是随州市一名退休人员。40年以上工龄地方企业人员30003500元,30年以上地方企退人员20003000元,30年以下企退人员更少。驻随央企省企退休人员和当退役军人和退伍军人有什么区别?我曾搞过民政工作,民政工作中有一项重要工作就是优抚对象的优抚政策落实,而优抚对象的情况又必须摸清楚。你提到的退役军人和退伍军人是一个概念两种称呼,其实质是一样的,也就是在一九五四年因为前夫被告了,现在法院限制了我高消费。高铁都坐不了,怎么办?这个问题,我不想支持你去钻牛角逃避,而是服从法院对你高消费的限制,从自身作些检查反省。前夫被告了,法院限制你高消费,看来你前夫定是因经济问题欠钱已无钱偿还或业不抵债而被告,而与你与
20!世界杯第1支8强队诞生,42射创纪录,中国女足或创历史U17女足世界杯赛场,德国女足再度赢球,以60的比分战胜了智利女子,这样的话,继首战21赢球后,德国队取得了一波2连胜,豪取了6个积分,率先晋级8强。值得一提的是,对阵智利队,德国糖友们可以放心吃的蔬菜,营养师给大家讲明白蔬菜吃不对,会导致血糖偏高。很多糖友说蔬菜升糖指数低,可以多吃点。蔬菜的升糖指数确实偏低,如果你烹调方式不对照样会让你的血糖偏高。蔬菜的营养成分中碳水化合物含量确实很低,膳食纤维,腿脚抽筋头昏眼花,高血脂有哪些表现?如何控制血脂?现在患三高的人越来越多,尤其是患高血脂的人每年都在增加,更多的年轻人患上了高血脂。高血脂给身体带来很多伤害,随着血脂的升高,血液粘度会逐渐升高,也会造成血管的堵塞,血栓基本上已经成快看看你做到这八要了吗说道肛肠疾病,大家想的比较多的就是痔疮,十人九痔,随着现代人久坐,饮食辛辣刺激各种生活习惯不当,这已经是十分普遍的了,痔疮初期一般表现症状为便血瘙痒有小肉球等症状,如果不及时治疗,奥巴梅扬我在阿森纳遇到困难时,拉卡泽特给了我很多帮助直播吧10月15日讯切尔西前锋奥巴梅扬本周接受采访时谈到了昔日在阿森纳的队友拉卡泽特。奥巴梅扬透露,他在阿森纳遇到困难时,拉卡泽特给了他很多帮助拉卡泽特对我的职业生涯产生了影响,因CBA第一阶段辽宁本钢胜北京首钢10月14日,辽宁本钢队球员郭艾伦(右)和李晓旭在比赛中沟通。当日,在浙江杭州进行的20222023赛季中国男子篮球职业联赛(CBA)第一阶段第二轮比赛中,辽宁本钢队以83比81战穆里尼奥被迫启用新配方,25岁几内亚中场,顺利激活红贝贝与贝蒂斯的赛后,老头儿的脸上并没有什么不满,和老熟人佩工一阵寒暄之后,又再次找到华金,互相拥抱,两人一起怀念起昔日旧时光。其实,穆帅的这支罗马能够客场战平皇家贝蒂斯足够算得上意外之高血压高到多少会发生脑出血?2种食物尽量少碰,再馋也要忍住导语随着时代的进步与发展,我们的生活水平和医疗水平都在逐步提高,而日常生活当中各种美式层出不穷,我们大家能够享受到的美食种类也是越来越多了,但是人们常说病从口入,其实这句话是非常正探秘河南省儿童遗传代谢性疾病重点实验室大河健康报记者王丽娜安伟王珂实习生张馨月文图不谋万世者,不足谋一时,不谋全局者,不足谋一域。创新发展已成为河南全省上下的广泛共识实际行动,成为现代化河南建设的主旋律最强音,围绕国家食物都是越新鲜就越好吗?这三种食物可未必食物都是越新鲜就越好吗?今天,我们从蔬菜来说起。我们去超市买蔬菜的时候,都会去选择新鲜油绿的蔬菜,回家后趁着蔬菜的新鲜劲儿立即烹饪食用,在大多数人的认知中,新鲜的食物意味着更多的营抄书的第一天,史记文言文的阅读量不高,我认为是古今阅读习惯和语法不同,使其文章变的晦涩难懂,每天抄写一小段,原文对应译文,尽可能增加阅读兴趣。皇帝叫公孙轩辕,处在神农氏末期多个诸侯势力互相斗争的时代