显著性检测2018(ECCV, CVPR)【part
1.《Salient Objects in Clutter: Bringing Salient Object Detection to the Foreground》
提出新的显著性检测数据集SOC
特点:
1.数据集有6000张图片(覆盖超过80个类别),其中3000张Salient images, 3000张Non-Salient images. 融入大量Non-Salient图片,更贴近真实场景。
2.显著图片含有类别标签,可应用于弱监督显著性检测学习。而且3000张显著图片的标注是高质量的instance-level的标注,可应用于instance-level的显著性检测等。
3.图片有属性,属性反应真实场景下的实际问题。比如遮挡,运动模糊等等。可更好评测SOD模型的性能。具体如图所示:
2.《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》
本文为显著性目标检测提出了新的任务:即同时实现显著性物体的检测,排序,和计数三大任务。
网络结构如下:
(1)前向传播得到粗略图(Feedforward Network for Coarse Prediction)
具体过程包括:
a. 对encode(based ResNet101)编码的特征,使用一个额外的卷积层( 3 × 3 kernel and 12 channels)来获得 嵌套的相对显著栈 Nested Relative Salience Stack(NRSS)该模块给出每个像素的显著性等级(这个等级是参与评判显著性的人将该像素划为显著性的所占比例)实际上是辅助rank任务而设计的(channels=12 是因为参与评判显著的人的个数为12人)
b. 得到NRSS后,再采用SCM模块为每个像素计算显著得分(显著得分用来完成Detect和Rank任务) SCM模块包括3个卷积层(3×3,C=6;3×3,C=3;1×1,C=1)
c. 使用atrous pyramid pooling(from Deeplab)融合更多全局文本信息
(2)阶段修正网络(Stagewise Refinement Network)
修正模块由一系列rank-aware refinement units 组成, 尝试恢复丢失的空间细节信息同时保留显著性的相对排序。用于迭代提升显著性的排序和生成的显著图。
rank-aware refinement unit 如下:
ft+1v 和 ftv均来自Encoder, 二者结合获得门控特征gtv,上采样Stv(double),与gtv结合变换后获得新阶段的NRSS. St+1v. 利用SCM模块产生新阶段的显著图St+1m。 完成修正过程。
注意:每一阶段的NPSS和Salient Map都受Ground Truth的监督。
(3)Ground Truth变换
原本的二值的Ground Truth继续监管显著图。
同时,对Ground Truth进行变换,转为等级图,用于监管NRSS(显著性等级)。Gi代表该显著图中的显著像素是由至少i个人认可标注的。即Gi是至少i个人认为显著的像素点集合,Gi+1是由至少i+1个人认为显著的像素点集合……,由此可知,Gi+1是Gi的子集,范围越小,显著等级也越高。
(4)多阶段的显著图融合模块(MultiStage Saliency Map Fusion)
通过cross channel concatenation 级联各个阶段的显著图,然后再通过1个1×1的卷积层得到最终的显著图。
(5)监管方案(loss设计)
loss由每一阶段Salient Map 和 NRSS的监管 auxiliary loss 和最终显著图的监管(overall master loss组成)
每一阶段NRSS和Salient Map的监管auxiliary loss定义如下:
最终显著图损失overall master loss 为预测图和ground truth的欧式损失。
整体loss如下: T代表阶段总数。 超参数lamda t 设为1用于平衡各阶段损失。
(6)Ranking by detection
rank order of salient instance 的由下式实现:即根据每个instance的所包含所有像素在最终预测的显著图上的显著得分score的平均值排序。
(7)显著计数(salient objecgt subitizing network)
同样基于ResNet101,移除了最后的模块,换上2个全连接层,用于生成5个类别的得分。5个类别对应为图片中有0,1,2,3,4+个显著物体。即计数任务实际上为分类任务。 该网络实际上是个分类器,用cross entropy loss优化学习。
总结:该网络虽然看似复杂,其实还是类似于之前的FCN based网络模型或编码解码网络模型。采用top-down形式融合低层特征不断优化输出。只不过该网络任务有detect, rank 等多项任务,所以不是每层直接给出显著预测图,而是先给出NRSS,再级联其他模块给出预测图而已。
显著性检测2018(ECCV, CVPR)【part
1.《Salient Objects in Clutter: Bringing Salient Object Detection to the Foreground》
提出新的显著性检测数据集SOC
特点:
1.数据集有6000张图片(覆盖超过80个类别),其中3000张Salient images, 3000张Non-Salient images. 融入大量Non-Salient图片,更贴近真实场景。
2.显著图片含有类别标签,可应用于弱监督显著性检测学习。而且3000张显著图片的标注是高质量的instance-level的标注,可应用于instance-level的显著性检测等。
3.图片有属性,属性反应真实场景下的实际问题。比如遮挡,运动模糊等等。可更好评测SOD模型的性能。具体如图所示:
2.《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》
本文为显著性目标检测提出了新的任务:即同时实现显著性物体的检测,排序,和计数三大任务。
网络结构如下:
(1)前向传播得到粗略图(Feedforward Network for Coarse Prediction)
具体过程包括:
a. 对encode(based ResNet101)编码的特征,使用一个额外的卷积层( 3 × 3 kernel and 12 channels)来获得 嵌套的相对显著栈 Nested Relative Salience Stack(NRSS)该模块给出每个像素的显著性等级(这个等级是参与评判显著性的人将该像素划为显著性的所占比例)实际上是辅助rank任务而设计的(channels=12 是因为参与评判显著的人的个数为12人)
b. 得到NRSS后,再采用SCM模块为每个像素计算显著得分(显著得分用来完成Detect和Rank任务) SCM模块包括3个卷积层(3×3,C=6;3×3,C=3;1×1,C=1)
c. 使用atrous pyramid pooling(from Deeplab)融合更多全局文本信息
(2)阶段修正网络(Stagewise Refinement Network)
修正模块由一系列rank-aware refinement units 组成, 尝试恢复丢失的空间细节信息同时保留显著性的相对排序。用于迭代提升显著性的排序和生成的显著图。
rank-aware refinement unit 如下:
ft+1v 和 ftv均来自Encoder, 二者结合获得门控特征gtv,上采样Stv(double),与gtv结合变换后获得新阶段的NRSS. St+1v. 利用SCM模块产生新阶段的显著图St+1m。 完成修正过程。
注意:每一阶段的NPSS和Salient Map都受Ground Truth的监督。
(3)Ground Truth变换
原本的二值的Ground Truth继续监管显著图。
同时,对Ground Truth进行变换,转为等级图,用于监管NRSS(显著性等级)。Gi代表该显著图中的显著像素是由至少i个人认可标注的。即Gi是至少i个人认为显著的像素点集合,Gi+1是由至少i+1个人认为显著的像素点集合……,由此可知,Gi+1是Gi的子集,范围越小,显著等级也越高。
(4)多阶段的显著图融合模块(MultiStage Saliency Map Fusion)
通过cross channel concatenation 级联各个阶段的显著图,然后再通过1个1×1的卷积层得到最终的显著图。
(5)监管方案(loss设计)
loss由每一阶段Salient Map 和 NRSS的监管 auxiliary loss 和最终显著图的监管(overall master loss组成)
每一阶段NRSS和Salient Map的监管auxiliary loss定义如下:
最终显著图损失overall master loss 为预测图和ground truth的欧式损失。
整体loss如下: T代表阶段总数。 超参数lamda t 设为1用于平衡各阶段损失。
(6)Ranking by detection
rank order of salient instance 的由下式实现:即根据每个instance的所包含所有像素在最终预测的显著图上的显著得分score的平均值排序。
(7)显著计数(salient objecgt subitizing network)
同样基于ResNet101,移除了最后的模块,换上2个全连接层,用于生成5个类别的得分。5个类别对应为图片中有0,1,2,3,4+个显著物体。即计数任务实际上为分类任务。 该网络实际上是个分类器,用cross entropy loss优化学习。