范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

机器学习基础之数字上的距离(一)点在空间中的距离

  在机器学习中,一个基础的概念就是如何判断两个样本之间的差异,从而能够评价两个样本之间的相似性和类别等信息。而判断这种相似性的度量就是两个样本在特征空间内的距离。
  根据数据特征的不同,度量方法有很多种。一般而言,对两个数据样本x,y,定义一个函数d(x,y),如果定义其为两个样本之间的距离,那么d(x,y)则需要满足以下几条基本性质:
  1、非负性:d(x,y)>=0
  2、同一性:d(x,y)=0 ⇔ x=y
  3、对称性:d(x,y)= d(y,x)
  4、三角不等式:d(x,y)<= d(x,z)+d(z,y)
  通常来讲,常见的距离度量包括:点在空间中的距离、字符串间的距离、集合的相似度、变量/概念分布间的距离四种。
  今天我们首先来介绍一下最为常用的点在空间中的距离。
  点在空间中的距离包括以下几种:
  1、欧几里得距离(Ecllidean Distance)
  毫无疑问,欧氏距离是人们最熟悉的距离,它即是两点之间的直线距离。学过初中数学的同学都知道在笛卡尔坐标系中如何计算二维空间两个点之间的距离
  其计算公式为:
  推广到N维空间的欧氏距离即为:
  2、曼哈顿距离(Manhattan Distance)
  曼哈顿距离又称为出租车距离,其概念来源于纽约曼哈顿区这样有很多横平竖直的街区,在这种街区中,出租车司机如果想从一个点走到另一个点的话,计算直线距离是没有用的,因为出租车不可能从建筑物上飞过去。因此,这种距离通常是将两个点的东西向、南北向距离分别相减再相加,这也就是出租车实际要经过的距离。
  如图所示,红线和黄线就是两种不同路径的曼哈顿距离。数学上,二维空间的曼哈顿距离计算方法如下:
  3、切比雪夫距离(Chebyshev Distance)
  切比雪夫距离定义为两个点之间各坐标数值差的最大值。
  其最直观的例子即是国际象棋中的国王,因为它可以横走直走斜走,但是每次都只能走一格,所以切比雪夫距离就是他要走到另一个格子所需要的最小距离。
  4、闵可夫斯基距离(Minkowski Distance)
  闵氏距离本身不是一个特别的距离,而是将多个距离(曼哈顿距离、欧氏距离、切比雪夫距离)合并成为的一个公式。
  其定义为,对于两个n维变量,闵氏距离为:
  当p=1时,可以看到
  此时为曼哈顿距离。
  当p=2时,可以看到
  此时即为欧氏距离。
  当p=∞时,可以看到
  此时即为切比雪夫距离。
  5、标准化的欧几里得距离(Standardized Euclidean Distance)
  欧氏距离可以测量两个点之间的直线距离,但是在某些情况下,可能会受到单位不同的影响。例如同时是差5,差5毫米的身高和差5公斤的体重,观感可能是完全不同的。如果我们想对三个模特进行聚类,她们各自的属性如下:
  A:65000000毫克(即65公斤),1.74米
  B:60000000毫克(即60公斤),1.70米
  C:65000000毫克(即65公斤),1.40米
  按我们正常的理解,A和B是身材比较好的模特,应该归到一类。但是以上述单位实际计算的时候,却发现A和B的差异大于A和C之间的差异。原因在于属性计量单位的不同导致数值差异过大。同样的数据如果换个单位。
  A:65千克,174厘米
  B:60千克,170厘米
  C:65千克,140厘米
  那么就会得到我们想到的结果,将A和B归为一类了。因此,为避免出现这种由于计量单位的不同而出现的差异,我们就需要引入标准化欧氏距离。在这种距离计算中,会将各个分量都标准化到均值、方差相等的区间。
  假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的"标准化变量"表示为:
  其中,标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差。经过简单的推导就可以得到两个n维向量间的标准化欧氏距离公式为:
  如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。通过这种操作,我们就有效的消除了不同计重单位之间的差异。
  6、兰氏距离(Lance and Willianms Distance)
  兰氏距离又称为堪培拉距离,
  它是一个无量纲的指标,克服了闵氏距离与各指标的量纲有关的缺点,并且对于较大的奇异值不敏感,特别适合调度偏倚的数据。但是这种距离也没有考虑到变量间的相关性。所以如果需要考虑变量之间的相关性的话,还是需要马氏距离。
  7、马氏距离(Mahalanobis Distance)
  对数值进行标准化之后,就一定不会出问题吗?也不一定。例如在一个一维的例子中,如果有两个类,一个类均值为0,方差为0.1,而另一个类均值为5,方差为5。那么如果一个值为2的点应该属于哪一类呢?我们直觉上认为它肯定是第二类,因为第一类显然不太可能在数值上达到2。但是实际上从距离上计算的话2这个数就得属于第一类。
  所以,在一个方差较小的维度下,很小的差别就可能成为离群点。例如说下图,A与B相对于原点的距离是相同的,但是由于样本整体沿着横轴分布,所以B点更有可能是样本中的点,而A点则更有可能是离群点。
  而在维度间不独立同分布的情况下,也会出现问题,例如说下图中的A点与B点到原点的距离相等,但是主要分布类似于f(x)=x,所以A更像是一个离群点。
  因此,我们可以看到,在这种情况下,标准化的欧氏距离也会有问题,所以我们需要引入马氏距离。
  马氏距离将变量按照主成分进行旋转,让维度间相互独立,然后再进行标准化,让维度同分布。而主成分即为特征向量方向,所以只需要按照特征向量的方向进行旋转,然后缩放特征值倍就可以了。例如上图变换之后会得到下面的结果:
  可以看出离群点被成功分离了。
  马氏距离是由印度数学家马哈拉诺比斯提出的,表示数据的协方差距离。它是一种有效地计算两个未知样本集的相似度的方法。
  对于一个均值为
  ,协方差矩阵为Σ的多变量矢量
  ,其马氏距离(单个数据点的马氏距离)为:
  对于两个服从同一分布并且其协方差矩阵为Σ的随机变量X与Y的差异程度,数据点x, y之间的马氏距离为:
  如果协方差矩阵为单位矩阵,那么马氏距离就简化成了欧氏距离。如果协方差矩阵为对角阵,那么马氏距离就变成了标准化的欧氏距离。
  8、余弦距离(Cosine Distance)
  顾名思义,余弦距离来源于几何中的夹角余弦,它可用来衡量两个向量方向的差异,而非距离或长度上。当余弦值为0时,两向量正交,夹角为90度。夹角越小,余弦值越接近于1,方向更趋同。
  在N维空间中,余弦距离为:
  值得指出的是,余弦距离不满足三角不等式。
  9、测地距离(Geodesic Distance)
  测地距离最初是指球体表面之间的最短距离。当特征空间为平面时,测地距离即为欧氏距离。在非欧几何中,球面上两点间距离最短的线是连接这两点的大圆弧,在球面上的三角形、多边形的边也是由这些大圆弧组成的。
  10、布雷柯蒂斯距离(Bray Curtis Distance)
  布雷柯蒂斯距离主要用于植物学、生态学和环境科学,它可以用来计算样本之间的差异。其公式为:
  其取值在[0, 1]之间,如果两个向量坐标都为0的话,那么值就无意义。
  喜欢本文的话,欢迎关注活在信息时代 哦:)

寒潮来袭,菜篮子稳得很这两天,湖北各地气温明显下降。寒潮之下,湖北的农产品供应得如何?市民菜篮子稳不稳?记者就此进行了探访。记者一早来到武汉白沙洲农副产品大市场内看到,车水马龙,一片繁忙景象。一车车蔬菜精益数字化产业人才岗位能力要求标准发布在近日举办的2022年世界智能制造大会制造智能决策控制(工业软件)平行论坛上,由工业和信息化部人才交流中心与爱波瑞共同发起20余家国央企高校等参与编写的精益数字化产业人才岗位能力要苹果iPhone14Pro价格也绷不住了,这款手机性能如何?iPhone14ProiPhone14是2022年9月8日发布的一款智能手机,两个月的时间,价格将至7999元起,这款手机可以说是今年排行榜第一的手机,那这款手机性能又如何呢?手机杜国楹的产品和营销法则在过去的二十几年畅行不衰,也永远不变消费领域瞬息万变,在互联网和资本的开道下,新的玩家和打法不断涌现,一切都跟过去有了很大不同。但杜国楹的产品和营销法则在过去的二十几年畅行不衰,靠的就是产品是1,营销是0的认知和实践Q8etron家族重磅亮相!正式确定奥迪新能源产品线命名规则日前,奥迪Q8etron家族惊艳亮相,分别是普通版Q8etronquattroQ8Sportbacketronquattro和进阶运动版SQ8etronquattroSQ8Spor特斯拉产品规划提前曝光!Model3将改款,代号为汉兰达日前智电出行从相关渠道处获悉,特斯拉将在2023年第三季度针对品牌旗下Model3车型进行大改款工作,预计最快将于明年第四季度正式推出,代号为highland(中文译为汉兰达)。同这份成绩单很亮眼!数说2022年海南道路交通安全管理工作成效新海南客户端南海网南国都市报12月2日消息(记者潘頔王燕珍)12月2日,2022年海南省道路交通管理工作成就展在海南省图书馆展出,从严控严查路面交通违法等八个方面,重点介绍了202在国内3元一斤的岩盐,在国外摇变高端产品卖出万元?这些随着社会经济的的不断发展,旅游业也日益蓬勃,如今,在闲暇之际,越来越多的人喜欢外出旅游。无论是国内和国外,中国旅客的身影遍布全球,他们也成为了消费的主力军,成为了各旅游景的主要电影贺岁档启动!阿凡达水之道续写神话?今年的贺岁档刚刚启动,相比往年不少观众提前订票相约扎堆影院,今年的电影宣发有点静悄悄。有业内人士表示,国庆档可以说是贺岁档的一个方向标,今年的国庆档总票房虽然不算高,但是上映寥寥数那些适合发朋友圈的美文头条创作挑战赛1人们会忘记你说过的话,忘记你做过的事,但永远不会忘记你带给他们的感受马娅安杰卢2总有一条路你必须走,总有一条路你必须放弃,选择根本就是放弃的同义词伊塔洛卡尔维诺3如悼念逝者的句子悼念逝者的文案人有悲欢离合,月有阴晴圆缺。每个人都会有离开的一天,对于离开的人我们一般会哀痛和怀念。接下来,小编就给大家整理了一些关于悼念逝者的文案。悼念逝者的句子悼念逝者的文案1。岂曰无碑,山
国产最大集装箱船靠泊广州港南沙码头来源人民网3月24日,国产全球最大载箱量集装箱船靠泊广州港南沙二期集装箱码头。该轮于3月15日交付,船长399。99米,型宽61。3米,型深33。2米,载重量达22。8万吨,甲板面大批创新型企业签约落户雄安新区做好服务保障吸引高层次人才央视网消息雄安新区启动市场化住房保障项目的背后,是这里日渐旺盛的人气。这两年,雄安新区不仅陆续承接了大量非首都功能疏解企业和高等院校等机构,也正在开展产业引进和人才吸纳的相关工作。金融开放稳步推进百余家外资资管机构齐聚上海陆家嘴记者从3月27日于上海举行的第三届陆家嘴全球资产管理高峰论坛上获悉,目前,已有逾百家外资资产管理机构落户上海陆家嘴金融城,释放出中国不断扩大金融开放的信号。截至目前,累计来自13个200元,酱香酒有什么好的推荐吗?酱酒普涨,200块钱的酱酒可供选择的并不多。而且现在酱酒性价比不高,以前百元以内的茅台嫡系产品都卖到了200,所以相当于花着200块钱的价格喝着以前百十块钱的酒。给楼主推荐几款吧。明天想请朋友来家里吃饭,有没什么好的家常菜推荐一下?葱花红油拌腊牛肉红油猪耳五香烧鸡红烧肉芹菜拌腐竹黄花木耳炒鸡蛋肠子炒辣椒香干瘦肉炒蒜苔粉蒸肉素菜拼盘白菜豆腐海带粉条肉丸子肉片大烩菜蜜汁油炸红薯片羊杂汤主食臊子面米饭荷叶饼水果等。微信小程序制作平台有哪些推荐?小程序大体分两种,一种是自费买的,另一种是通用免费版的。分别说说两种的优劣势。自费版优势可以自己搭建架构,拥有自己的域名。后期缺功能了掏钱就可以加。缺点购买成本高,大约800几万都南阳电动车开始挂牌了,如何在网上预约?1。首先打开微信。2。在搜索框里搜索小程序南阳电动车管理服务平台。3。进入小程序内,点击业务办理。4。点击业务办理,弹出实名认证对话框,点击确定。5。填入个人信息,开始实名认证。6符合新国标的电动自行车,有哪些推荐吗?首先,电动自行车不要买杂牌,不信看各种新闻都提到杂牌或者是改装过的起火,最好选择正规知名大厂的比较有保障。其次,选择电动车很简单,楼下电动车店哪个便宜选哪个,非要认牌子,雅迪绿源爱降准后即调整,是利多出尽吗?降准公告落地后债市不涨反跌,市场对于宽货币利多出尽存在一定担忧。复盘历史上5轮降准周期下长债利率的走势,降准落地后利率回调相当常见,但在宽货币周期中不存在中长期抬升的驱动因素。料信3。5增额终身寿险危矣?又双叒叕炒停,焦虑营销要警惕一波疯狂的炒停售正在保险销售人员的朋友圈刷屏。就像4。025的年金险一样,有效保额递增利率为3。5的增额终身寿险也将成为历史绝唱复利3。5的增额终身寿险很快下架,赶紧上车!3月26违规!这家公司被发函警示3月27日消息,北京证监局日前对中国泛海控股集团有限公司卢志强刘晓勇赵英伟采取出具警示函措施的决定。经查,泛海控股存在相关事项未履行或未及时履行信息披露义务,及所披露信息不准确不完