Cascade R-CNN论文阅读笔记

Cascade R-CNN

Cascade R-CNN[1]是R-CNN系列的最新进展,发表于CVPR 2018。

Cascade R-CNN关注于IoU的阈值设定问题。模型训练时,区域提议出的边界框若与真实值(ground-truth)的IoU达到阈值,则为正例,否则为负例。然后再对边界框坐标及长宽进行回归调整修正。若IoU阈值过高,则正例过少、负例过多,训练会出现过拟合问题;反之,若IoU阈值过低,对低IoU的目标边界框有改善,但也会导致正例过多。

为了解决训练时IoU阈值设定的问题,Cascade R-CNN提出了一款级联R-CNN头(head)的结构,即每个R-CNN头设定一个IoU阈值,每一级使用上一级回归修正过的候选框作为输入。这种结构使得每一个头都可以得到充足的正样本,且正样本的质量因级联输入而逐渐提高。在测试时,通过各级联头输出的均值作为测试预测结果。

最新的Cascade R-CNN通过对IoU阈值问题的进一步探索和结构改进,在MS COCO数据集上创造了R-CNN系列图像目标检测mAP水平的新高。相同ResNet-101的backbone,在IoU阈值0.5:0.95、0.5、0.75下,mAP(%):Faster R-CNN为34.9、55.7、37.4,Mask R-CNN为38.2、60.3、41.7,Cascade R-CNN为42.8、62.1、46.3。

backbone AP AP_50 AP_75
Faster R-CNN+++ ResNet-101 34.9 55.7 37.4
Mask R-CNN ResNet-101 38.2 60.3 41.7
Cascade R-CNN ResNet-101 42.8 62.1 46.3

:IoU阈值0.5:0.95表示阈值从0.5到0.95,步长0.05测定的mAP均值

参考文献

[1] Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6154-6162.