显著性检测2018（ECCV, CVPR）【part-USB迷|专注于互联网分享

显著性检测2018（ECCV, CVPR）【part

1.《Salient Objects in Clutter: Bringing Salient Object Detection to the Foreground》

提出新的显著性检测数据集SOC

特点：
1.数据集有6000张图片（覆盖超过80个类别），其中3000张Salient images, 3000张Non-Salient images. 融入大量Non-Salient图片，更贴近真实场景。
2.显著图片含有类别标签，可应用于弱监督显著性检测学习。而且3000张显著图片的标注是高质量的instance-level的标注，可应用于instance-level的显著性检测等。
3.图片有属性，属性反应真实场景下的实际问题。比如遮挡，运动模糊等等。可更好评测SOD模型的性能。具体如图所示：

2.《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》

本文为显著性目标检测提出了新的任务：即同时实现显著性物体的检测，排序，和计数三大任务。

网络结构如下：

（1）前向传播得到粗略图（Feedforward Network for Coarse Prediction）

具体过程包括：
a. 对encode（based ResNet101）编码的特征，使用一个额外的卷积层（ 3 × 3 kernel and 12 channels）来获得嵌套的相对显著栈 Nested Relative Salience Stack（NRSS）该模块给出每个像素的显著性等级（这个等级是参与评判显著性的人将该像素划为显著性的所占比例）实际上是辅助rank任务而设计的（channels=12 是因为参与评判显著的人的个数为12人）
b. 得到NRSS后，再采用SCM模块为每个像素计算显著得分（显著得分用来完成Detect和Rank任务） SCM模块包括3个卷积层（3×3，C=6；3×3，C=3；1×1，C=1）
c. 使用atrous pyramid pooling（from Deeplab）融合更多全局文本信息

（2）阶段修正网络（Stagewise Refinement Network）
修正模块由一系列rank-aware refinement units 组成，尝试恢复丢失的空间细节信息同时保留显著性的相对排序。用于迭代提升显著性的排序和生成的显著图。
rank-aware refinement unit 如下：

f^t+1_v 和 f^t_v均来自Encoder, 二者结合获得门控特征g^t_v,上采样S^t_v(double),与g^t_v结合变换后获得新阶段的NRSS. S^t+1_v. 利用SCM模块产生新阶段的显著图S^t+1_m。完成修正过程。
注意：每一阶段的NPSS和Salient Map都受Ground Truth的监督。

（3）Ground Truth变换
原本的二值的Ground Truth继续监管显著图。
同时，对Ground Truth进行变换，转为等级图，用于监管NRSS（显著性等级）。G_i代表该显著图中的显著像素是由至少i个人认可标注的。即G_i是至少i个人认为显著的像素点集合，G_i+1是由至少i+1个人认为显著的像素点集合……，由此可知，G_i+1是G_i的子集，范围越小，显著等级也越高。

（4）多阶段的显著图融合模块（MultiStage Saliency Map Fusion）
通过cross channel concatenation 级联各个阶段的显著图，然后再通过1个1×1的卷积层得到最终的显著图。

（5）监管方案（loss设计）
loss由每一阶段Salient Map 和 NRSS的监管 auxiliary loss 和最终显著图的监管（overall master loss组成）
每一阶段NRSS和Salient Map的监管auxiliary loss定义如下：

最终显著图损失overall master loss 为预测图和ground truth的欧式损失。

整体loss如下: T代表阶段总数。超参数lamda t 设为1用于平衡各阶段损失。

（6）Ranking by detection
rank order of salient instance 的由下式实现:即根据每个instance的所包含所有像素在最终预测的显著图上的显著得分score的平均值排序。

（7）显著计数（salient objecgt subitizing network）
同样基于ResNet101,移除了最后的模块，换上2个全连接层，用于生成5个类别的得分。5个类别对应为图片中有0，1，2，3，4+个显著物体。即计数任务实际上为分类任务。该网络实际上是个分类器，用cross entropy loss优化学习。

总结：该网络虽然看似复杂，其实还是类似于之前的FCN based网络模型或编码解码网络模型。采用top-down形式融合低层特征不断优化输出。只不过该网络任务有detect, rank 等多项任务，所以不是每层直接给出显著预测图，而是先给出NRSS，再级联其他模块给出预测图而已。