大数据分类与回归树（ClassificationandRegressionTree）

　　决策树不仅可以进行分类，也可以进行回归。与线性回归不同，回归树是将＂空间＂进行划分，每个空间对应一个统一的预测值。回归树的建立
　　当面对一个回归问题时，如特征向量为:  , 对应数据的多个维度，回归问题就是求出来这个特征向量的预测结果。
　　回归树所做的事情是：将空间X划分为多个不重叠的领域 ，其中，每一个划分出来的空间对应一个预测结果，即标签值y，标签值是根据该区域内的总样本数平均化得出的，即：
　　与线性回归类似，需要一个损失函数对回归的效果进行评估，采用平方残差和RSS进行评估：
　　内层 就是将该区域内所有样本的预测值和真实值之差值的平方进行求和；
　　外层 就是遍历所有划分出来的区域。
　　但是如果真的按照上述计算公式来进行空间划分的话，计算量将会非常惊人。为了对空间划分进行简化，通常使用递归二分法来对空间进行划分。递归二分法
　　什么是递归二分法？顾名思义，树的每次分裂都以二叉树的形式分裂。当我们初步根据特征及其最佳划分点分裂出了2个空间后，不断从当前位置，继续将该空间的样本再次划分成2份。
　　不同划分空间，生成回归树
　　划分方案自顶向下：从所有样本开始，不断从当前位置，把样本切分到2个分支里；贪婪：每一次的划分，只考虑当下划分的最优，不会回头考虑先前的划分。
　　假如回归树的特征向量是2个维度 ，若第一次分裂时，通过计算得知，当选取属性X1 最佳切分点为 t1 时，得到的损失函数RSS最小，那么本次分裂则可划分出两片区域R1和R2。
　　划分出R1和R2两个区域后，继续进行树的第二次分裂，若本次分裂根据特征 X2 找到最佳切分点 t2，则可将上图中原R1中的区域再次进行二分。类似的，原样本空间则可根据每一次属性及切分点的选择，以二分裂的形式每次更新两片空间，直到符合某个停止准则，如我们在前文《大数据：如何用决策树解决分类问题》中提到过的预剪枝中的停止准则。
　　前文《大数据：如何用决策树解决分类问题》介绍了几种可以用于分类问题的决策树，比如ID3和C4.5等。本文要介绍的CART（Classification and Regression Tree）树，既可以用于分类，也可以用于回归。CART分类树
　　首先我们先说一下CART分类树，ID3和C4.5都是多叉树，而CART是二叉树，内部节点的取值为＂是＂或＂否＂。除此之外，CART分类树和C4.5的最大区别在于选择分裂点时的计算逻辑，C4.5选择分裂点基于信息增益率，而CART分类树基于基尼指数的增益率。
　　基尼指数反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。 基尼指数越小，则数据集纯度越高。
　　基尼系数
　　其中Ck代表在数据集D中属于标签值为K的数据样本个数。
　　总体来说，CART分类树是以基尼系数作为选择的标准，但CART每次分类都以2叉树的形式进行分类，需要进行多次的基尼系数差值的运算才能找到最好的分类结果。
　　对比C4.5，CART的提升主要包括以下方面：C4.5 只能分类，CART 既可以分类也可以回归；CART 使用 Gini 系数作为度量，减少了大量的对数运算，运算速度较快；C4.5使用信息增益率作为度量，信息增益率的计算需要使用大量对数运算，计算复杂度较高。CART回归树
　　CART回归树与分类树的建立很相似，不同的地方在于连续值的处理方法及最终预测的方式不同。CART回归树使用平方误差最小化准则构建二叉回归树。一棵回归树对应输入空间X的一个划分以及在划分的单元上的输出值。
　　对于训练集，和CART分类树唯一不同的在于CART回归树面向的是回归问题，即样本的输出为连续型变量。
　　单一决策树的学习能力是有限的，所以后来人们开始通过集成学习的方法，将多个弱学习器联合在一起，提升为强学习器。
　　著名的梯度提升机（GBM：Gradient Boosting Machine ）中最常见的算法叫做GBDT（Gradient Boosting Decision Tree ）。GBDT中的弱学习器就是CART回归树，GBDT就是CART回归树的加性模型，因此也被称为GBRT（Gradient Boosting Regression Tree）。在之后的文章中，我们再来介绍集成学习的方法。

探寻神秘古国！找到藏地神书！开创香格里拉热的传奇探险家一个美国穷小子来中国，本来只想坑点钱一不小心，被中国文化的魅力迷住了。转而探寻已消失的神秘古国，还找到了传说中的藏地神书。闻名世界的香格里拉，就是他开发的概念。他更是凭一己之力，把距春节不到两周飞猪相关商品预订量增长超6成平均客单价提升超7成距2023年春节不到两周，全国各地迎来疫情放开后的首个长假，年味儿十足。近日，飞猪发布的2023年春节出游风向标显示，截至目前2023年春节出游预订量同比去年增长超6成。中长线游需书店里搭起了帐篷？不是露营风，带你倾听远方的声音新民晚报讯（通讯员张文菁施昱辰记者袁玮）露营风围炉风不管是咖啡还是煮茶，热爱生活的人们一向善于用平常器物点亮美好生活。在徐汇区文定路218号乐开书店里，最近也支起了一顶帐篷，不过，傻子瓜子去世，另2位改革先锋后来咋样了？石家庄马胜利让人唏嘘文龙溪来源商业传奇年广久的离去，让人感慨一个时代过去了！那是一个人被压抑已久的年代，各种来自民间的力量，四处撞击，以图找到一个出口，一些力量率先冲破桎梏。年广久只是其中之一，也是最青岛烟台济南徐州多所院校与莱阳的渊源莱阳是红色革命老区，3060年代是胶东政治经济军事教育中心。莱阳人民为胶东地区乃至国家做出过重大贡献，付出了大量心血。依靠丰厚的文化底蕴，莱阳衍生出很多中高等院校，现在青岛烟台济南论五代宋初的凉州六谷蕃部联盟公元842年，吐蕃国瓦解，吐蕃人占据凉州，逐渐形成自立政权。公元861年，唐朝将领张议潮收复凉州，但吐蕃人仍享有较大的自治权。五代十国时期，天下分裂，各种大小政权层出不穷。占据凉州袁崇焕被百姓食尽皮肉，他到底是功臣还是罪人？公元1630年8月，大明王朝兵部尚书袁崇焕以通虏谋叛的罪名被判凌迟处死。袁崇焕被绑赴京城西市，刽子手用了三天时间，在他身上剐了3543刀，直到皮肉俱尽，袁崇焕仍然心肺之间叫声不绝，一朝误入君王怀，终生受困景阳宫王恭妃悲惨命运的始作俑者是谁？母以子为贵的历史典故出自公羊传。隐公元年里记载的立嫡以长不以贤，立子以贵不以长。桓何以贵？母贵也。母贵则子何以贵？子以母贵，母以子贵。旧时谓子贵则母亦随之而贵，多指帝王后妃因生子得陕西渭南李红久原创驻村见闻之六一一深切缅怀革命烈士刘生俊驻村见闻之六一一深切缅怀革命烈士刘生俊九月底的南塬，秋高气爽。明天就是9月30日了，是一个特殊的日子烈士纪念日。一大早，我来到张胡村村西口，在一片松柏环绕黄花掩映处，矗立着刘生俊烈老山主攻营长臧雷，曾在烈士陵园洒泪这里的烈士99都没有后代中国的战争史上，有一场意义特殊的战役。它是新中国成立以来，我国最后一次较大规模的对外战争。同时，它也是我国繁荣发展的前奏曲。这场战争，就是对越自卫反击战。对越自卫反击战始于1979孙中山像202309孙中山像开国小头银元真实价格表20230109日期品类卡泉价格评级公司评级分数2023年01月09日孙中山像，开国小头1870hrPCGSAU582023年01月09日孙中山像，开

<<<<<<－>>>>>>

颐和园200艘小游船装上5G盒子本报讯（记者王斌）昨日，颐和园昆明湖的大小游船启航进入游船季。今年，200艘小游船装上了5G北斗游船系统，小小的5G盒子让颐和园游船进入5G时代，让游客们的乘船体验更具科技感。游客优待证越来越优待，军人的荣耀将伴随一生3月18日开始，苏州对全国退役军人施行免费乘坐公交地铁免费游览景区，免费景区包含了虎丘，拙政园寒山寺很多热门景点。全国的网友一致评论苏大强确实大气。不过在免费游园方面是免第一道门票澳洲篇。黄金海岸的各种街头偶遇黄金海岸是澳洲最富盛名的旅游胜地之一，一年上千万的游客也引得各路神仙络绎不绝。据不完全统计，章子怡，成龙，妮可基德曼，周杰伦，其他一些小国家的公主王子，都有在这里安家乐业。走在街头叮咚！这是一份三月南京游玩指南，请您查收作为四大古都之一，南京的历史文化底蕴让它成为了一个值得一去的旅游城市，今天和大家推荐一下南京的景点你一句春不晚，我就堵死在了南京南南京南站下车之后地铁和公交都很多，可以坐3号线去大农村自酿酒不能喝了？为啥以前大家都爱喝，如今却避之不及？农村大集上，10块钱一斤的散酒能喝吗？能是能，但你得记住这3点还记得，小时候，每逢三六九，爷爷就会带我到村里的大集上逛逛，衣食住行，吃喝用度，在这里全能找到，临近晌午回家，给我拿上乡村好时节2023泗水ampampquot赏花汇ampampquot启动仪式暨杏花节开幕式隆重举行！3月18日，乡村好时节2023泗水赏花汇启动仪式暨杏花节开幕式在泗水县圣水峪镇珍珠油杏基地隆重举行！济宁市文旅局副局长陈鹏，泗水县人大常委会主任梁基武，泗水县副县长张全庆，泗水县政绝美！松滋楚南仙境名副其实洈水汽车露营基地云蒸霞蔚，烟似薄纱楚南仙境，天赐洈水洈水碧岛山庄远山如黛，近水含烟水墨丹青，绝妙淡雅百岛画廊横卧鄂湘两省交界处的洈水正在走出山闺笑迎天下宾客洈水水库溢洪道洈水水库码东北三省曾经的经济带头人，现在怎么了？东北曾经也是经济带头人新中国之初，百废待兴。而东北被称为新中国工业摇篮，那时候的东北地区一方面拥有比如煤炭钢铁等矿产资源以及三大河流（松花江嫩江辽河）丰富的水资源和渤海的海运优势等南粤古驿道定向赛乐昌鸣锣致敬华南教育历史图为赛事鸣锣。赛事组委会供图中新网韶关3月19日电（记者唐贵江）3月19日，南粤古驿道定向大赛第73站在韶关市乐昌市坪石镇华南教育历史研学基地（以下简称华南研学基地）举行。这是继222岁董祀娶35岁蔡文姬，新婚夜不入洞房，蔡不入洞房会对你不利历史开讲公元208年的一天，陈留一个不大的院落里，张灯结彩，鼓乐齐鸣，宾客来往，非常热闹，一场婚礼正在这里举办。新郎名叫董祀，是丞相曹操手下的一名屯田都尉，相当于六品的一个小官。董大唐后唐南唐，国君都姓李，他们有血缘关系吗？历史上曾经有大唐王朝五代时期的后唐，以及十国中的南唐，带一个唐字，国君也都姓李，他们之间有血缘关系吗？先讲一个小故事话说唐太宗受好奇心驱使，就找袁天罡算大唐的国运，袁天罡掐指一算，