Semantic Correlation Promoted Shape

时间: 2024-05-20 admin IT培训

Semantic Correlation Promoted Shape

Semantic Correlation Promoted Shape

Semantic Correlation Promoted Shape-Variant Context for Segmentation

2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

摘要

​ 上下文是语义分割的基础。由于物体在各种场景中的形状多样、布局复杂,不同物体的上下文空间尺度和形状都有很大的差异。因此,从预定义的固定区域聚集各种上下文信息是无效或低效的。在本文中,我们提出了为每个像素生成一个尺度和形状可变的语义掩码,以限定其上下文的区域。为此,我们首先提出了一种新的成对卷积来推断这对之间的语义相关性,并在此基础上生成形状掩模。利用推断出的上下文区域的空间范围,我们提出了一种形状可变的卷积,其感受野由形状掩模控制,形状掩模随输入的外观而变化。通过这种方式,所提出的网络就可以从像素的语义相关区域而不是预定义的固定区域聚合像素的上下文信息。此外,本文还提出了一种标记去噪模型,以减少噪声低层特征带来的误预测。不夸张地说,我们所提出的网络在六个公共数据集上一致地实现了新的性能。

论文试图解决什么问题?
  1. 由于场景中对象的形状的多样性和布局的复杂性,预定义的固定区域聚集的公共上下文信息是无效或低效的。
  2. 在预定义的周围区域中并不是所有信息都有利于最终的解析,在不相关区域收集的信息虽然空间上接近,但可能会导致错误解析,应该被抑制或忽略。
  3. 高层特征本身比低层特征具有更强的抗噪声能力,但代价是空间位置敏感度低,许多分割网络会聚合低层特征到高层特征来提高分割的位置精度,但低层特征也会携带更多噪声,从而会导致对某些像素的错误分类。
这是否是一个新的问题?

不是新问题,和Pixel-Adaptive Convolutional Neural Networks高度相似。

这篇文章要验证一个什么科学假设?
  1. 通过形状自适应的卷积层来学习不同形状的上下文(这些上下文的形状是由输入图像的对象形状、尺度及其周围支持度决定的),能否保留位置标识和布局信息以及建立在训练图像中显示的有效语义相关性。
  2. 通过一种可学习标签去噪模型来解决混乱标签的问题,利用稳健的高层特征对低层特征进行去噪。
有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
  1. 上下文特征建模
    1. DeepLab:提出了Atrus空间金字塔池(ASPP)来聚合具有不同扩张率的平行分支的多尺度图像表示。
    2. DilatedNet:在分数映射之后附加了几个扩展的卷积层,以执行多尺度上下文聚合。
    3. DAG-RNN和Byeon:提出通过递归神经网络对长范围上下文进行建模。
    4. Zoom-out:提出了一种前进式结构来提取分层缩小特征。
    5. CRF-RNN:使用递归层对密集的CRF及其分段网络进行端到端的联合训练。
    6. Piecewise:构造了基于CNN的成对势函数来捕获patch-patch上下文,并设计了用于patch-背景上下文的图像金字塔输入。
    7. PSPNet:引入了金字塔空间池(PSP)进行基于不同区域的全局信息聚合。
    8. CCL:提出了一种上下文对比局部模型来并行收集局部及其周围信息。
    9. EncNet:将语义上下文编码到网络,并强调依赖于类别的特征映射。
  2. 标签多样性
    1. PSPNet:观察到了混淆的类别,并证明PSPNet能比FCN等更好地处理混淆标签,提出从先验混淆矩阵中推断出具有区别性的混淆群体。
    2. DFN:为冲突易混淆类引入了一个平滑的边界网络,提出了利用混淆概率和标签先验的贝叶斯策略对句法分析结果进行精化。
论文中提到的解决方案之关键是什么?
  1. 成对卷积

    为了获取每个像素的上下文语义掩码

    1. 黑色方块为当前像素点,使用成对卷积,计算该像素与其他像素之间,值越小越相关;由于差值有正负,作者最后引入了高斯函数来控制范围。

    2. Shape Mask ,相应像素与目标像素的空间相关性,对于属于同一对象及其上下文的两个像素,可以通过训练最小化两个卷积的输出差异。

  2. 形状可变的上下文

    针对每个像素获取的形状编码,作者提出形状变化卷积来获取基于相关性上下文的特征表示

    1. 旁路提供相关性掩码,使用成对卷积+高斯公式得到HxSxW的张量,其中S=KxK,然后将其reshape为(HxW)xKxK,每个像素就对应一个相关性掩码。

    2. 主分支中的灰色矩阵表示的是CNN提取到的图像的高级语义,文章中采用的是ResNet101作为特征提取模型。

    3. SV Conv具体实现:

      1. 首先将每个像素对应的相关性掩码输入到卷积层:

      2. 然后将与该像素相关的信息融合到一块作为该像素的特征表示:

      3. 最终得到一个HxWxF的特征表示

  3. 标记去噪

    为了消除Decoder在解码过程中低级特征引入的噪声,作者提出了标记去噪方法,使用高级特征指导低级特征。

    1. 是明显的Encoder-Decoder模型,其中每个Block表示的都是主干网络对原始图像的特征提取模块,最后的Block5经过SVC模块获取到相关性特征表示S5。

    2. 对于每一个block,都会生成一个得分图S

    3. 再对每个类别计算惩罚分数

    4. 在Denoising模块中,处理过的高级特征指导低级特征进行去噪,成为下一级的特征输出

    5. 绿色S和红色S区别在于,红色S是经过去噪的、干净的特征

    6. 最终实现公式为:

论文中的实验是如何设计的?
  1. 评估了六种公共基准,COCO-Stuff,SIFT-Flow,CamVid,PASCAL-PersonPart,PASCAL-Context和Cityscapes。

  2. 使用在ImageNet [58]上预训练的ResNet101 [26]作为微调和FCN-4作为骨干框架的基本模型。

  3. 使用标准SGD进行端到端训练;在训练中使用数据增强,如随机翻转,0.8到1.2之间的随机大小调整和平均减法。

  4. 性能通过标准像素精度(pixel acc. ),平均类精度(mean acc. )和平均交叉联合(mIoU)来评估。

  5. 对提出的形状可变卷积和标记去噪模型进行消融实验(Table 1);比较研究形状固定上下文(SFC)在不同核大小下和形状可变上下文(SVC)的消融实验(Table 2);

用于定量评估的数据集是什么?代码有没有开源?

评估了六种公共基准,COCO-Stuff,SIFT-Flow,CamVid,PASCAL-PersonPart,PASCAL-Context和Cityscapes。

论文中的实验及结果有没有很好地支持需要验证的科学假设?
这篇论文到底有什么贡献?
  1. 提出了基于语义相关性的上下文信息聚合,而不是预定义的空间相关窗口,以收集更有效和更具区分性的周围信息进行语义分割。即使在较远的空间位置上的语义相关信息也将被增强,而即使在较近的空间位置上的语义不相关的信息在收集上下文时也将被抑制。
  2. 提出了一种标注去噪模型,该模型利用较健壮的高层特征来减弱噪声较大的低层特征带来的预测误差。
下一步呢?有什么工作可以继续深入?

。即使在较远的空间位置上的语义相关信息也将被增强,而即使在较近的空间位置上的语义不相关的信息在收集上下文时也将被抑制。
2. 提出了一种标注去噪模型,该模型利用较健壮的高层特征来减弱噪声较大的低层特征带来的预测误差。