Cascade R-CNN论文阅读笔记
Cascade R-CNN[1]是R-CNN系列的最新进展,发表于CVPR 2018。
Cascade R-CNN关注于IoU的阈值设定问题。模型训练时,区域提议出的边界框若与真实值(ground-truth)的IoU达到阈值,则为正例,否则为负例。然后再对边界框坐标及长宽进行回归调整修正。若IoU阈值过高,则正例过少、负例过多,训练会出现过拟合问题;反之,若IoU阈值过低,对低IoU的目标边界框有改善,但也会导致正例过多。
为了解决训练时IoU阈值设定的问题,Cascade R-CNN提出了一款级联R-CNN头(head)的结构,即每个R-CNN头设定一个IoU阈值,每一级使用上一级回归修正过的候选框作为输入。这种结构使得每一个头都可以得到充足的正样本,且正样本的质量因级联输入而逐渐提高。在测试时,通过各级联头输出的均值作为测试预测结果。
最新的Cascade R-CNN通过对IoU阈值问题的进一步探索和结构改进,在MS COCO数据集上创造了R-CNN系列图像目标检测mAP水平的新高。相同ResNet-101的backbone,在IoU阈值0.5:0.95、0.5、0.75下,mAP(%):Faster R-CNN为34.9、55.7、37.4,Mask R-CNN为38.2、60.3、41.7,Cascade R-CNN为42.8、62.1、46.3。
backbone | AP | AP_50 | AP_75 | |
---|---|---|---|---|
Faster R-CNN+++ | ResNet-101 | 34.9 | 55.7 | 37.4 |
Mask R-CNN | ResNet-101 | 38.2 | 60.3 | 41.7 |
Cascade R-CNN | ResNet-101 | 42.8 | 62.1 | 46.3 |
注:IoU阈值0.5:0.95表示阈值从0.5到0.95,步长0.05测定的mAP均值
参考文献
[1] Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6154-6162.