导言:我一直受惠于很多网络上图文并茂的优秀英文技术文,这些文章不仅便于理解也便于回顾,因为很多时候再次见到图就能回想起当时学会的复杂概念,所谓千言万语不及一张图。MyEncyclopedia公众号会每次一个概念逐渐建立起主流 AI 领域(CV,NLP,RL,GNN)最直观最形象的概念和技术,并整理成知识网。 文章首发于 https://mp.weixin.qq.com/s/u39urFx_q0Z9Yb4BNv-ZUQ 我们将讨论Fast R-CNN论文(上图中的浅蓝色矩形)中描述的原始 RoI 池化。该过程有第二个和第三个版本,称为RoIAlign和RoIWarp。RoI(感兴趣区域)是什么? RoI (感兴趣区域)是来自原始图像的建议区域。我们不打算描述如何提取这些区域,因为有多种方法可以做到这一点。我们现在唯一应该知道的是有多个这样的区域,最后目标检测算法对所有区域进行分类。 Fast R-CNN 的工作原理是什么? Fast R-CNN 不同于基本的 R-CNN 网络。它只有一个卷积特征提取(在我们的示例中,我们将使用 VGG16)。 我们的模型采用大小为 512x512x3 (宽 x 高 x RGB)的图像输入,VGG16 将其映射到 16x16x512 特征图。您可以使用不同的输入大小(通常较小,Keras 中 VGG16 的默认输入大小为 224x224)。 如果您查看输出矩阵,您应该注意到它的 宽度 和 高度 正好比输入图像小 32 倍 (512/32 = 16)。这很重要,因为所有 RoI 都必须按此比例缩小。 RoI 举例 这里我们有 4 个不同的 RoI。在实际的 Fast R-CNN 中,您可能有数千个,但显示所有数千个将无法显示。 重要的是要记住 RoI 不是物体边界框 。它可能看起来像,但它只是进一步处理的提案框。许多人认为这是因为大多数论文和博客文章都在实际对象上创建提案框。这样更方便,我在我的图像上也这样做了。下图中绿色框是一个不在实际对象上的提案示例,它也将由 Fast R-CNN 检查。 有一些方法可以限制 RoI 的数量,也许我以后会写到。 如何从feature map中得到RoI? 现在,当我们知道 RoI 是什么时,我们必须能够将它们映射到 VGG16 的输出特征图上。 每个 RoI 都有它的原始坐标和大小。从现在开始,我们将只关注其中一个: 它的原始尺寸为 145x200 ,左上角设置为 (192x296) 。您可能会说,我们无法将这些数字中的大部分除以 32 。 宽度:200/32 = 6.25 身高:145/32 = ~4.53 x: 296/32 = 9.25 和:192/32 = 6 只有最后一个数字(左上角的 Y 坐标)才有意义。那是因为我们现在正在处理 16x16 网格,我们只关心整数(更准确地说:自然数)。 特征图上坐标的量化 量化 是将输入从大量值( 如实数 )限制为离散型(如 整数 )的过程 如果我们将原始的 RoI 放在特征图上,它看起来像这样: 我们不能真正在这之上应用池化层,因为一些"单元格"被分割了。量化所做的是在将每个结果放入矩阵之前对其进行四舍五入。 9.25 变成 9 , 4.53 变成 4 ,等等。 您会注意到我们刚刚丢失了一些图像数据(深蓝色)并获得了新数据(绿色): 因为它仍然可以工作,我们不必处理它,但有一个称为 RoIAlign 的版本可以解决这个问题。 RoI池化 现在,当我们将 RoI 映射到特征图上时,我们可以应用池化。为了方便起见,我们将再次选择 RoI Pooling 层的大小,但请记住大小可能会有所不同。你可能会问"为什么我们还要应用 RoI Pooling?" 这是个好问题。如果你看一下 Fast R-CNN 的原始设计: 原始的 Fast R-CNN 架构。资料来源:https://arxiv.org/pdf/1504.08083.pdf 在 RoI Pooling Layer 之后是一个固定大小的 全连接层 。因为我们的 RoI 具有不同的大小,所以我们必须将它们合并为相同的大小(在我们的示例中为 3x3x512 )。此时此刻,我们映射的 RoI 大小为 4x6x512 ,正如您想象的那样,我们 不能将 4 除以 3 。这就是量化再次出现的地方。 这次我们不必处理坐标,只需要处理大小。我们很幸运(或者只是池化层的方便大小)6 可以除以 3 得到 2,但是当你将 4 除以 3 时我们剩下 1.33。在应用相同的方法(向下舍入)后,我们得到一个 1x2 向量 。我们的映射看起来像这样: 由于量化,我们再次失去了整个底行: 现在我们可以将 数据汇集到 3x3x512 矩阵中 在这种情况下,我们使用了 最大池 化,但它在您的模型中可能有所不同。这个过程是在整个 RoI 矩阵上完成的,而不仅仅是在最顶层。所以最终结果是这样的: 相同的过程应用于原始图像中的每个 RoI,因此最终,我们可能有数百甚至数千个 3x3x512 矩阵。这些矩阵中的每一个都必须通过神经网络的剩下部分(从 FC 层开始)。对于它们中的每一个,模型分别生成 bbox 和类别分别。 接下来是什么? 池化完成后,我们限定了输入的大小为 3x3x512 ,因此我们可以将其送入 FC 层进行进一步处理。还有一件事要讨论。由于量化过程,我们丢失了大量数据。准确地说,这么多: 这可能是个问题,因为每个"单元格"都包含大量数据(特征图上的 1x1x512 在原始图像上松散地转换为 32x32x3,但请不要使用该参考,因为这不是卷积层的工作方式)。有一种方法可以解决这个问题 (RoIAlign),我很快就会写第二篇关于它的文章。 本文原作者 Kemal Erdem,由 MyEncyclopedia公众号翻译,原文链接https://erdem.pl/2020/02/understanding-region-of-interest-ro-i-pooling