范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

数学工具系列之内核与内核函数是美丽的数学概念,解决复杂问题

  内核或内核函数是美丽的数学概念,以不同的形式用于机器学习和统计。如果您是初学者,您可能很想知道内核的确切定义,但您可能会对 Internet 上博客/网站上解释的内核的多种定义感到困惑。
  核函数是一个令人困惑的概念,只是因为围绕它的知识分散在其应用程序中,并且缺少将它们联系起来的共同直觉。这个(庞大的)博客旨在统一不同 ML 应用程序中使用的内核的所有知识。和大多数初学者一样,核函数让我很长一段时间都处于迷茫状态,直到我形成了一种可以连接所有环节的直觉。
  我们从非参数模型开始我们的旅程,然后我们开始讨论不同类型的内核及其在统计和 ML 中的典型应用。与核函数类似,我试图从数学上解释 PCA,同时考虑所有观点。 非参数模型
  非参数模型是那些没有随输入大小而增长的参数的统计模型。请注意,非参数模型并不意味着" 零参数模型 ",而是它们使用一组固定的参数,也称为超参数,这些参数不会随着输入维数的增加而增加。香草线性回归模型,具有参数 θ 确定超平面的 斜率 ,其大小取决于输入 x 的维数,
  等式 1. 具有可调参数的简单线性回归模型,其大小取决于特征数N。函数f表示给定
  等式 1. 具有可调参数的简单线性回归模型,其大小取决于特征数 N 。函数 f 表示给定输入 x的因变量y 的期望值,即 E[y|x]
  接下来,考虑 KNN 模型,我们通过分析测试样本的K 个 最近邻居的类别来确定测试样本的类别。如果 K = 1 ,我们假设测试样本与最近邻样本属于同一类。该模型没有任何会随着输入维度的增加而增长的参数。对于 vanilla 实现,我们只需要一个参数 K ,即使我们使用大输入(在维度方面)也是如此。
  KNN 是一个非参数模型,它有一个由用户提供的超参数 K。 乍一看,非参数似乎是一个 显而易见的选择,因为,
  他们没有对数据的分布做出任何先验假设。例如,在香草线性回归的情况下,它是一个参数模型,我们假设给定X (特征)的Y (因变量)的条件分布是高斯分布,其平均值是特征的线性组合(其中权重是θ)和方差等于σ²
  2.给定 X 和参数 θ 的Y 的条件分布 是正态分布,我们希望从中获取 X 的 均值。 常数方差是同方差 假设的结果
  这可能并不总是成立,因为,
  对于每个测试样本,他们需要将整个训练数据保存在内存中,这对于 KNN 模型也是如此。对于每个样本,我们需要计算它与每个训练样本的距离,因此我们需要在内存中检索/存储每个样本,这对于大型数据集甚至具有大量特征的更小数据集可能不可行。
  非参数模型的基本思想是从数据中收集一些有用的见解并用于解决给定的问题,而不用在可调参数中编码有关数据的信息。
  接下来,我们继续讨论内核,它们在 ML 中具有不同的用例,并且它们在每种情况下的含义略有不同。到目前为止,在为这个博客进行研究之后,以及我之前尝试将内核作为一个整体来理解之后,我觉得内核是提供关于给定数据点的邻居信息的 机器 (作为机器的 输入)。 然后将此本地信息(即位于所考虑数据点附近 的 数据点的信息)用于给定问题。一旦我们在每个数据点上使用核函数,我们就可以清楚地了解 数据的局部性 。
  我们将探讨内核的这三个方面,这是三个不同的概念及其在 ML 中的主要应用, 密度内核 美世内核 图像处理中的内核 密度内核:使用内核进行密度估计
  密度核、核密度估计、核回归
  我们可以使用核来估计给定测试 样本的概率密度,方法是使用 训练 样本对基础概率分布进行建模。考虑到 ML 术语,术语"测试"样本和"训练"样本分别仅指未观察到的样本和观察到的样本。
  对于连续随机变量 X ,我们可以在一个合适的范围内对X 的概率密度函数进行积分,比如从 x_1 到 x_2 ,我们就可以得到X在[ x_1 , x_2 ] 范围内取值的概率。 密度核和核密度估计 (KDE)
  让我们从一个问题开始我们的讨论。Panchal博士住在一个拥挤的街区,四面都是房屋。当地警方聘请了一名侦探,其工作是确定住在医生家中的人数或他的家庭成员,以确保事情进展顺利。侦探不能按医生的铃,问有多少家庭成员住在那里,因为如果有可疑的东西,它会警告医生。
  侦探首先会审问与 Panchal 博士家相邻的房屋,因为他们可以清楚地看到里面的东西。期望侦探对从这些直接邻居获得的信息给予更高的权重/重要性。接下来,为了获得更多见解,侦探审问了稍微远一些的房子,这些房子不能直接看到 Panchal 博士的房子,但可能有他们邻居的良好信息。侦探不太重视从这些邻居那里收到的信息,因为他们的观察可能不如直接邻居(他们的房子与 Panchal 的房子相邻)那么正确。侦探进行了几次这样的回合以降低重要性,离开了 Panchal 博士的房子。
  密度核的作用类似于捕获给定点周围的 相邻信息。 如果我们给定一个包含 N个样本的数据集D ,其中每个样本都是实数,
  上面代码片段中的内核是 Epanechnikov(抛物线)内核。核函数在这里有一些特殊的性质
  属性 1 :核函数或侦探与 x 或某个邻居的房子位于哪个方向无关。从右边的两所房子或左边的两所房子获得的信息是相同的。 属性 2 :核函数代表一个有效的 PDF,它在整个实域上积分为 1。 属性 3 :核的支持度是所有值 u 的集合,使得 K(u) 不等于 0。它表示侦探的覆盖区域,从那里收集的信息将被赋予一些非零重要性。如果侦探决定在 5 公里半径内的所有房屋中进行审讯,则支持将是该 5 公里圈内的所有房屋。
  每种类型的内核都将执行类似的编码相邻信息的任务,每个内核都有不同的策略来执行此操作。与我们的侦探不同,当他离开 Panchal 博士的房子时,他会慢慢降低审讯的重要性(高斯内核会做到这一点),另一名侦探可能会继续对所有审讯给予同等重视,在一定程度上忽略距离(a统一内核)。想象一下,从我们的数据集 D中,所有x_i 的分布是,
  我们的目标是创建X 的概率分布估计。 我们将通过估计每个样本x_i 的 密度并使用核来收集邻近信息来做到这一点,
  如果 x_i 远离 x , | x — x_i |  将具有较大的值,从而为 K( x — x_i ) 产生一个非常小的值,并减少 x_i 在确定 x 处的概率密度时的 发言权 。参数 h 是称为内核 带宽的平滑参数。 h 的值越大,预测的概率密度就越平滑。
  内核回归
  核回归是线性回归模型的非参数版本,我们在其中对结果变量的条件期望进行建模。在简单线性回归的情况下,我们对条件期望 E[ Y | X ] 直接表示为自变量的线性组合。这产生了一个判别模型,而核回归是一个生成模型,因为我们通过核密度估计对联合概率分布 P( X , Y ) 和 P( X )进行建模。
  推导E[ Y | 的估计量  X ] 没有任何附加参数。在简单线性回归的情况下, E[ Y | X ] 将被建模为所有 X_i 的加权线性组合,其中权重是参数。
  观察结果表达式,您会发现预测结果 y_hat是所有y_i 的加权组合,其中权重由所有 x_i 的核函数值确定。 Mercer Kernels:更高维度的点积
  Mercer 内核和正定性,在 SVM 中使用 Mercer 内核
  Mercer Kernels 或 Positive definite kernels 是接受两个输入并产生一个实数的函数,该实数表征两个输入(或其高维表示)在其他空间中的接近度。事实证明,从计算的角度来看,这些内核很有用,因为它们可以帮助我们计算高维向量的点积,而无需明确执行任何转换以将我们自己的向量带入该高维空间。 美世内核
  让我们从定义内核函数及其一些属性开始我们的讨论,
  Mercer 内核是一个函数,它从我们的数据集D 中获取两个数据点,并输出一个实数,表示这两个数据点在特征空间中的接近度。 如果我们的数据集 D中有n 个 数据点,并且我们在每对数据点上运行 Mercer 内核并将结果输出排列在一个矩阵中,我们将获得一个正定矩阵。这个描述数据点之间相似性的矩阵称为 Gram 矩阵。
  考虑到它们的谱特性,正定矩阵是特殊的。它们具有正特征值,相应的特征向量构成正交基。对于 mercer 内核,我们有一个特殊的属性,使用该属性可以将核函数的值表示为两个变换向量的点积,
  人们可能有一种冲动,想感受一下这句话背后的直觉,但它存在于希尔伯特空间的圣殿中,值得单独写一篇博客。目前,最好理解具有两个输入向量的核函数的值被描述为其他两个更高维向量的点积。
  Mercer 内核为计算这两个高维向量之间的点积提供了一种捷径,而无需显式计算这些向量。因此,我们可以利用高维空间的优势有时在机器学习中很有用,尤其是当样本不是线性可分的时候。
  对于一些优化问题,比如优化 SVM 时遇到的问题,我们需要计算两个变换后的样本(两个高维向量)之间的点积。核函数的使用将帮助我们轻松计算此点积,而无需对样本执行任何显式转换。 在 SVM 中使用 Mercer Kernel
  SVM 是适合超平面的线性分类器,因此在两类样本之间形成决策边界。为了确定最佳超平面,即将样本分为两类并最大化"边距"的超平面,我们需要解决包含给定参数约束的目标函数(最大化或最小化的函数)的优化问题的目标。
  向量 w 和 b 表征形成决策边界的超平面。支持向量之间的边距/宽度在下面的第一个表达式中给出。此外,我们将匹配 SVM 所做的预测和目标标签,或者更准确地说,匹配 w.xi + b 和 yi 的符号,
  我们用拉格朗日乘数解决这个优化问题,所以第一步是建立一个拉格朗日并将其参数的偏导数等同于零。 这将产生一个w 的表达式,它使拉格朗日量最小化。
  将这些结果代入拉格朗日量后,我们得到一个表达式,它清楚地描述了核函数的作用,
  为了获得最佳超平面,我们需要计算数据集中样本对之间的点积。在某些情况下,不可能找到最佳超平面,因为样本可能不是线性可分的,即不能仅通过画一条线/平面将样本分为两类。我们可以增加样本的维数,通过它我们可以很容易地发现一个分离超平面。
  这种技术通常被称为 内核技巧 ,是 Mercer 定理的直接结果。我们能够计算两个高维特征的点积,而无需将数据样本显式转换到该高维空间。有了更多的维度,我们就有更大的自由度来确定最佳超平面。通过选择不同的内核,可以控制特征所在空间的维数。
  内核函数有一个更简单的表达式来计算,就像下面列出的那样,
  卷积核:图像处理
  卷积和图像处理中使用的内核
  内核是固定大小的矩阵,它们在图像或特征图上进行卷积以从中提取有用的信息。在图像处理术语中,核矩阵也称为卷积矩阵,用于对图像进行运算。每个内核都有自己的专门操作,可在卷积后转换图像。 卷积和内核
  卷积是一种数学运算符,它接受两个函数并产生另一个函数。如果我们对两个函数或信号进行卷积,则卷积的结果是一个表示两个函数之间重叠区域的函数。在数学上,卷积运算定义为,
  描述卷积运算及其数学定义的动画图。这类似于密度估计中执行的"内核滑动"。我们将内核滑动到数据分布上,收集"邻域信息",然后估计特定点的密度。
  在离散意义上,卷积运算是通过在信号上滑动核函数,将信号与核的相应值相乘,并将所有这些乘积的和放入结果信号中来执行的。在数学意义上,最好考虑用离散信号 求和 ,而不是 用 连续信号求和。
  对一维离散信号进行卷积运算。上面的表达式显示了相同的数学公式。
  对于图像,我们将在给定图像上滑动 2D 内核并执行相同的操作。内核的运动在这里是二维的,与内核在一维信号上的一维(单向)运动相反。输出将是一个矩阵,因为卷积运算也在 2D 输入上执行。
  与内核矩阵的卷积。
  我们可以使用不同的内核从输入中提取各种特征,或者增强图像以进行进一步的操作。例如, sharpen kernel 会锐化图像中存在的边缘。许多其他内核在卷积时从图像中提取有趣的特征,
  CNN 中的内核
  我们刚刚看到的内核是不变的,但如果我们可以参数化内核并控制提取哪些特征呢?这将有助于卷积神经网络,我们可以在其中微调内核以最大程度地减少 NN 造成的总体损失。用内核构建的非参数模型的概念在这里会消失,因为 CNN 可以有大量的参数,但 邻域信息提取 的基本概念仍然有效。
  这里内核的功能类似于 锐化 或 Sobel X 内核,但它将矩阵中的值视为参数而不是固定数字。这些可训练内核通过反向传播进行优化,以减少 CNN 中损失值的值。卷积层可以有许多这样的内核,统称为过滤器。
  第一个卷积层产生的输出被传递到下一层。这创建了一个分层特征提取过程,其中图像的低级特征由初始卷积层提取,高级特征由最终/最后一个卷积层跟踪。这样的一堆卷积与可训练的内核相结合,使 CNN 能够非常精确地识别图像中的对象,从而打开了现代计算机视觉的大门。 结束
  我希望这次穿越内核世界的旅程让您对这个概念着迷。内核在各种主题中很容易混淆,但它们的核心思想保持不变,我们在博客中多次重复了这一点作为 邻域特征提取 。核函数不是使用参数来捕获数据中的模式,而是可以对样本的相对接近度进行编码以捕获数据中的趋势。但是,必须了解参数模型有其自身的优势,并且它们的使用并没有过时。大多数神经网络模型都是拥有数百万个参数的巨大参数模型,它们可以解决诸如目标检测、图像分类、语音合成等复杂问题。

台方突然叫嚣击落大陆巡台飞机,并邀美存储弹药,这是逼大陆出手台湾方面负责防务的官员是真敢叫嚣,居然要击落大陆巡航的飞机,这不就是逼中国大陆出手解决台海问题吗?这是台湾负责所谓防务的官员邱国正周一(3月6日)在接受岛内人士质询时表示,解放军对与四十多位官员有染,在睡莲姜保红面前,张琳都自叹不如都说搞事业的女人最美,但接下来这位美人也是一心搞事业,长得也很美,但绝对配不上这句美誉。白山黑水出美人,黑龙江南部城市呼兰,一个素有江省邹鲁满洲谷仓之美誉的城市,1974年,姜保红如何预防早产儿的发生如何预防早产儿的发生蓓蓓今年32岁了,在经历了时长近8个月的漫长备孕过程后,她终于怀上了宝宝,现在已经有7个多月了,眼看着离宝宝出生的日子也不远了,蓓蓓时常会有不安的感觉,总担心宝孕期要不要补充DHA,DHA是智商税吗?孕期要不要补充DHA,DHA是智商税吗?孕期要不补充DHA,DHA能使宝宝变聪明吗?听听专家怎么说?DHA俗称脑黄金。是一种对人体非常重要的不饱和脂肪酸。是大脑和视网膜所必需的微量这两种药最伤肝伤胃千万别乱服我们常讲是药三分毒,其实很多药物都是对肝脏有损伤的,今天给大家整理两种,最容易伤肝伤胃的药物。第一个,解热镇痛药,新冠病毒感染高发期的时候,很多患者都会服用一些解热镇痛药,比如说阿换季气温反复无常,孩子感冒要谨慎应对冬去春来,气温变化反复无常,伴随着大量学生的返校,近期不少孩子出现了咳嗽流涕感冒发烧等情况。近日,由中西融合与医师报共同策划的中西融合大讲堂特别邀请到长春中医药大学附属第三临床医院年轻人身体过度疲劳的六个标志,看看你中了几条都说春困夏倦秋乏冬眠,这可不是为了想睡觉而找的借口。春天前后回温,人会感到疲倦昏昏欲睡夏季温度高,高温负荷下身体各项器官疲劳,总是让人提不起精神,这就是夏倦秋乏指的是天气逐渐降温,一万人中,能有多少人活到80岁?活到多少岁算长寿?越长寿越好?长寿是自古以来一个永恒不变的话题,早在秦始皇时期,秦始皇为了能够长寿,于是听信江湖术士的谗言,吃了很多据说是仙丹的丹药,但最终这些丹药并没有给他带来长寿,反而让他提早去了地下。但是阳台种植香菜,可以吃半年多,春天吃竟然有这么多好处呢!这是我家阳台上种植的香菜,是我去年冬天种植的,一直吃到现在,已经吃好几个月了。网上查查吃香菜的好处还不少呢,尤其是春季吃。喜欢吃香菜的朋友可以种起来哟。香菜又名芫荽胡荽。本草纲目中老年人在惊蛰节气要以养肝护肝为主今天是惊蛰节气,惊蛰是春季的第三个节气,我们沈阳的气温回升很快,最高可达到20左右。老年人在惊蛰节气要根据气候变化,自身体质等方面进行精神饮食起居等方面的调养。那么惊蛰时节老年人应看到这些时髦老年人的穿搭,我更期待春天了,时髦优雅又气质时髦老年人的存在不仅向大众展现了老年人优雅美好的晚年生活,证明时尚无关年龄,还向很多同龄人传递了一种观念爱美什么时候都不晚。看到这些到老都爱打扮的同龄人,我们也会获得鼓舞,变得期待
谷爱凌再创一世界纪录,挑战1260板尾抓板成功,明年1月重返赛场北京时间12月21日消息,自由式滑雪奥运冠军谷爱凌再创一个世界纪录,她在训练中完成了(反脚)1260度板尾抓板,成为当今世界上第一个完成该动作的女子选手。明年1月,谷爱凌将重返赛场华为与苹果的本质区别是什么,你们知道吗?文丨侠说科技记得之前我看过一段关于华为BOSS任正非的采访,在采访中任正非说了这样一段话,他说,你们不要老关注我,你们关注我这个老头干什么?我都70多岁了,对吧?我脸上都一股皱纹了iPhone15系列爆料!机型配置将有大调整!手感会更好?随着USBC端子的引入,延续自iPhone12的设计或将焕然一新。iPhone14系列中有两款进行了较小的更新,但我们可以期待iPhone15的更新相当大。与2022年相同的四款车破产20年的明星酒,价格从3到5000,真是好酒?还是智商税?好酒,想必大家都见过不少,但价格能从3飙涨至5000的,那是什么样的酒?毕竟就算是飞天茅台,当下白酒界名副其实的天花板,官方售价也才1499元,若加上黄牛的暗箱操作,3000出头点新车奇瑞全新纯电中型SUV设计图曝光内部代号eQ7,明年亮相文懂车帝原创周桐懂车帝原创产品日前,我们从奇瑞汽车官方处获取到一组奇瑞新能源全新纯电SUV的车型设计图。据了解,该车内部代号为eQ7,定位中型SUV,预计将在2023年下半年发布,阿根廷正版三星球衣或下周在当地少量销售,其他地区得等明年4月直播吧12月21日讯阿根廷击败法国夺得卡塔尔世界杯冠军。知名装备网站footyheadlines透露阿根廷队正版三星球衣的发售时间。该网站称,阿根廷队新的三星球衣将在12月26日于一加11有多猛?搭载骁龙8Gen2跑分超134W,网友钱包准备好了随着骁龙新一代骁龙8Gen2的正式亮相,首批搭载的旗舰也在陆续上线,比如抢下首发的vivoX90系列和小米13系列,目前已经发布,并得到了不少用户的好评和认可。近日,一加手机也开启一文读懂内存数据库Tair实战本文由得物技术分享1Tair的发展历程接下来,我们正式进入Tair相关的交流。整体包括Tair的发展历程重大节点技术难点以及相关实践展开。我们先来看看Tair的历史和发展,可以看下天津银行副行长郑可破解贷款难贷款贵贷款慢问题助力小微企业稳健发展21世纪经济报道记者陈植上海报道由南方财经全媒体集团指导,数字化智库型财经媒体领跑者21世纪经济报道21财经APP主办的第十七届21世纪亚洲金融年会,于2022年12月19日21日不可思议啊!徐州二手房涨了0。2!连续两个月上涨各位朋友们,目前身体状况如何?万万没想到,2022年最后一个月,迎来了对我们最近三年来身体健康的最大挑战!有好多小伙伴,已经抵挡不住,居家休养了!虽然目前有些小伙伴正在经历病痛,但4件事关系养老医保失业补助享受,还没办的别拖延,马上截止众说康养团圆季2022年还有十几天就要结束了,在这辞旧迎新的日子里,大家千万别忽略这4件事,如果不能按时办好,将直接影响养老金医保失业补助金等的享受,吃亏的是自己。第一,社保卡领取