范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

通俗易懂05梯度提升决策树GBDT

  视频详解:通俗易懂-三哥讲机器学习-05-机器学习-梯度提升决策树-GBDT1.GBDT算法
  GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。
  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
  1.1 应用场景1、用于自动挖掘有效特征、特征组合 2、作为LR模型中的特征,提高CTR预估 3、GBDT应用于淘宝的搜索及预测业务 1.2 Boosting核心思想
  Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
  Bagging 与 Boosting 的串行训练方式不同,Bagging 方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。
  2、GBDT详解GBDT的原理所有弱分类器的结果相加等于预测值。 每次都以当前预测为基准,下一个弱分类器去拟合误差函数对预测值的残差(预测值与真实值之间的误差)。 GBDT的弱分类器使用的是树模型(cart)。
  如图是一个非常简单的帮助理解的示例,我们用 GBDT 去预测年龄: 第一个弱分类器(第一棵树)预测一个年龄(如20岁),计算发现误差有10岁; 第二棵树预测拟合残差,预测值 6,计算发现差距还有 4 岁; 第三棵树继续预测拟合残差,预测值 3,发现差距只有 1 岁了; 第四课树用 1 岁拟合剩下的残差,完成。
  最终,四棵树的结论加起来,得到30岁这个标注答案(实际工程实现里,GBDT 是计算负梯度,用负梯度近似残差) GBDT计算流程
  1、GBDT与负梯度近似残差
  回归任务下,GBDT在每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
  损失函数的负梯度计算如下:
  可以看出,当损失函数选用「均方误差损失」时,每一次拟合的值就是(真实值-预测值),即残差。 2、GBDT训练过程
  我们来借助1个简单的例子理解一下 GBDT 的训练过程。假定训练集只有4个人(A、B、C、D),他们的年龄分别是(14,16,24,26)。其中,A、B分别是高一和高三学生;C、D分别是应届毕业生和工作两年的员工。
  我们先看看用回归树来训练,得到的结果如下图所示:
  接下来改用 GBDT 来训练。由于样本数据少,我们限定叶子节点最多为2(即每棵树都只有一个分枝),并且限定树的棵树为2。 最终训练得到的结果如下图所示:
  上图中的树很好理解:A、B年龄较为相近,C、D年龄较为相近,被分为左右两支,每支用平均年龄作为预测值。 我们计算残差(即「实际值」-「预测值」),所以 A 的残差 14-15=-1 。 这里 A的「预测值」是指前面所有树预测结果累加的和,在当前情形下前序只有一棵树,所以直接是15 ,其他多树的复杂场景下需要累加计算作为 A 的预测值。
  上图中的树就是残差学习的过程了: 把 A、B、C、D 的值换作残差 -1、1、-1、1,再构建一棵树学习,这棵树只有两个值 1 和 -1,直接分成两个节点:A、C 在左边,B、D在右边。 这棵树学习残差,在我们当前这个简单的场景下,已经能保证预测值和实际值(上一轮残差)相等了。 我们把这棵树的预测值累加到第一棵树上的预测结果上,就能得到真实年龄,这个简单例子中每个人都完美匹配,得到了真实的预测值。
  最终的预测过程是这样的: A:高一学生,购物较少,经常问学长问题,真实年龄 14 岁,预测年龄A=15-1=14 B:高三学生,购物较少,经常被学弟提问,真实年龄 16 岁,预测年龄B=15+1=16 C:应届毕业生,购物较多,经常问学长问题,真实年龄 24 岁,预测年龄C=25-1=24 D:工作两年员工,购物较多,经常被学弟提问,真实年龄 26 岁,预测年龄D=25+1=26
  综上,GBDT 需要将多棵树的得分累加得到最终的预测得分,且每轮迭代,都是在现有树的基础上,增加一棵新的树去拟合前面树的预测值与真实值之间的残差。 3.梯度提升 vs 梯度下降
  下面我们来对比一下「梯度提升」与「梯度下降」。这两种迭代优化算法,都是在每1轮迭代中,利用损失函数负梯度方向的信息,更新当前模型,只不过: 梯度下降 中,模型是以参数化形式表示,从而模型的更新等价于参数的更新。
  梯度提升 中,模型并不需要进行参数化表示,而是直接定义在函数空间中,从而大大扩展了可以使用的模型种类。
  3.GBDT优缺点1)优点预测阶段,因为每棵树的结构都已确定,计算速度快。 适用稠密数据,泛化能力和表达能力都不错,数据科学竞赛榜首常见模型。 可解释性不错,鲁棒性亦可,能够自动发现特征间的高阶关系。 2)缺点GBDT 在高维稀疏的数据集上,效率较差,且效果表现不如 SVM 或神经网络。 适合数值型特征,在 NLP 或文本特征上表现弱。 训练过程无法并行,工程加速只能体现在单颗树构建过程中。 4.随机森林 vs GBDT1)相同点都是集成模型,由多棵树组构成,最终的结果都是由多棵树一起决定。 RF  和  GBDT  在使用  CART  树时,可以是分类树或者回归树。 2)不同点训练过程中,随机森林的树可以并行生成,而  GBDT  只能串行生成。 随机森林的结果是多数表决表决的,而  GBDT  则是多棵树累加之。 随机森林对异常值不敏感,而  GBDT  对异常值比较敏感。 随机森林降低模型的方差,而  GBDT  是降低模型的偏差。 代码演示-GBDT数据集 随机生成 sklearn 可视化决策树插件 Download:https://graphviz.org/download/ 决策树插件安装文档:https://blog.csdn.net/u012744245/article/details/103360769

开播收获多个全网第一,这节目暴露了容祖儿太老实,王子文真精明大家都有过出远门的经历,如果现在需要你离家21天,让你收拾行李,你会带上什么?换洗衣物是必须的,个人清洁用品也是必要的,男人带刮胡刀女人带化妆品都是最基本的,手机平板也是旅途必备,古建之美l华夏古文明,山西好风光山西建筑带你看古建渠家大院之牌楼院(主院)山西地上物质文化遗存十分丰富,不但数量大,而且品类多。古代城池寺观宫殿坛庙石窟寺古塔陵墓民居衙署古桥军事设施以及依附于这些古代建筑历史纪念建筑中的石刻雕塑壁画琉璃几乎遍布全省各地。孩子太老实怎么办?学会拒绝自己不想做的事情。父母要告诉孩子拒绝别人是一种权力,每个人都有权选择帮助别人,也有权拒绝别人。自己不愿意做的事情要学会拒绝,每个人都有选择的权力,所以没必要太过于善解人意,今日甜妹女人一旦太老实,就什么都不敢要这代真的想吐槽一下,地图小剧情平淡流程拖沓全跑酷,唯独部分支线任务还有点意思。一周目玩的时候脑子里始终再想一个问题这地方特么怎么上去?基本上游戏流程就是在跑图找未满,去除这个过程游夏雨罗晋的庭外,老实人未必真老实最近一部短小精悍的系列短剧庭外出现在了大吟吟的首页大吟吟一看又是悬疑剧那必须马上安排可是没想到第一个故事盲区就把我惊住了这是可以播出来的吗短短六集讲述了一个男人对另一个男人至死不渝无悔华夏来自穿越员工的非正经科普三皇五帝时代特色背景介绍首先是关于三皇五帝这个时代距离现今有千年的历史,更多被提到的,是关于女娲造人和盘古开天等中国古代神话传说的故事。在无悔华夏这个主系统中,成就中有很多随机的事件可供每一位穿越员工免费董明珠带货格力手机,很骄傲很自豪!网友还是老实卖电器吧格力在很多人的眼里只是一家电器公司,生产的空调风扇等产品,都深受消费者认可,但事实上格力不只是一家电器公司,这家企业近几年也变得越来越多元化了。格力有自己的新能源汽车公司集成电路公开播收获多个全网第一,这节目暴露了容祖儿太老实,王子文真精明大家都有过出远门的经历,如果现在需要你离家21天,让你收拾行李,你会带上什么?换洗衣物是必须的,个人清洁用品也是必要的,男人带刮胡刀女人带化妆品都是最基本的,手机平板也是旅途必备,古建之美l华夏古文明,山西好风光山西建筑带你看古建渠家大院之牌楼院(主院)山西地上物质文化遗存十分丰富,不但数量大,而且品类多。古代城池寺观宫殿坛庙石窟寺古塔陵墓民居衙署古桥军事设施以及依附于这些古代建筑历史纪念建筑中的石刻雕塑壁画琉璃几乎遍布全省各地。孩子太老实怎么办?学会拒绝自己不想做的事情。父母要告诉孩子拒绝别人是一种权力,每个人都有权选择帮助别人,也有权拒绝别人。自己不愿意做的事情要学会拒绝,每个人都有选择的权力,所以没必要太过于善解人意,今日甜妹女人一旦太老实,就什么都不敢要这代真的想吐槽一下,地图小剧情平淡流程拖沓全跑酷,唯独部分支线任务还有点意思。一周目玩的时候脑子里始终再想一个问题这地方特么怎么上去?基本上游戏流程就是在跑图找未满,去除这个过程游
三笘薰想打破日本球员英超进球纪录,首发或替补都能接受在上周末结束的英超联赛中,布莱顿四球大胜西汉姆,本场比赛,日本前锋三笘薰发挥出色,他贡献了进球造点的表现。值得一提的是,他个人本赛季英超进球数来到6个,追平了香川真司冈崎慎司创下的美国失算了,中芯国际换道反击,现在阻止已经晚了文文评科技随着老美在半导体领域对我国的全面限制与打压,目前国际主流的光刻机供应商ASML已经对我国大陆断供,晶圆代工巨头台积电也不再承接国内芯片的代工业务,这确实严重阻碍了我国高端中国球员五大联赛进球排名TOP5郑智进球数1球国足老队长郑智,在20062007赛季英超联赛第30轮,代表查尔顿对阵纽卡的比赛中,通过头球攻入自己五大联赛的第一个进球,也是其在五大联赛的唯一进球。TOP4投诉大王,难伺候的上海大爷,美国旅行见闻(十)头条创作挑战赛我是美国旅游专职领队,作为领队,最怕客人投诉。被扣工资是小事儿,赔付客人旅游费,事情就大了。2010年,就遇到一位让我害怕的上海客人,投诉大王,很难伺候。一,美国签证这就是个笑话!切尔西主帅挥拳怒吼多特球员围攻主裁3月8日,欧冠18决赛次回合打响,近来无比低迷的切尔西在主场迎战2023年保持全胜的多特蒙德。最终,被外界看衰的切尔西强势雄起,20击败多特,以21的总比分进入欧冠八强。赛后,处于谍战剧定档!靳东王志文坐镇,戏骨云集,狂飙剧王位置不稳了是不是以为狂飙能坐稳年度剧王的宝座了。无论是口碑热度还是收视席卷整个电视剧市场,震撼程度不用多说,几乎人尽皆知。不过这回是真遇到对手了。众望所归的谍战待播剧无间终于来信了。12日将高开低走!情满九道弯大结局烂尾网友剧情狗血强行点题!韩东君热依扎新剧情满九道弯可谓是高开低走,前期开播口碑收视双丰收,但随着剧情的发展,剧情逐渐离谱,男女关系混乱,各种狗血剧情扎堆出现,小编都怀疑这到底是不是一部年代剧?男主的糟糕的大S庆祝结婚纪念日,透露着对具俊晔满满的爱,却内涵汪小菲今天女神节,也是非大S和具俊晔结婚一周年的日子。大S深情发文人生无常,我珍惜当下的幸福。感谢一切让我一步一步走到现在的所有。虽然文字简短,一步一步走到现在的所有,透露着汪小菲不珍惜迪丽热巴,红毯之路,一骑绝尘在去年举办的GQ盛典的,占据了各大平台的热搜,俊男美女云集的红毯很难让人对它忽视,就算不关心娱乐圈明星的人,也很难做到不点进去看一眼的程度,而我之所以对它那么关注,是在各大营销号在劣迹艺人倒下慈善圈崩盘,为何每次慈善地震,背后都由韩红收尾?见过明星成名,见过明星做慈善,见过明星被封杀。见过被封杀的明星粉丝为了偶像复出,前脚做公益,后脚为难贫困学校校长和孩子们的吗?诶,那你赶上好时候了。这次让大家伙儿开开眼。这两天,某王晶指刘亦菲因新剧拒接成龙电影传说,对,你们的时代过去了已经很久没有关注过香港导演王晶了,小时候看他的电影觉得那些恶搞很有趣,长大后看王式电影却有些水土不服了,再加上近些年来王晶的新作水准确实越来越低,于是不经意间就在心中把他从牛人导演