Cascade R-CNN论文阅读笔记

发表于 2019-02-26 更新于 2022-08-07 本文字数： 452 阅读时长 ≈ 2 分钟

Cascade R-CNN

Cascade R-CNN[1]是R-CNN系列的最新进展，发表于CVPR 2018。

Cascade R-CNN关注于IoU的阈值设定问题。模型训练时，区域提议出的边界框若与真实值（ground-truth）的IoU达到阈值，则为正例，否则为负例。然后再对边界框坐标及长宽进行回归调整修正。若IoU阈值过高，则正例过少、负例过多，训练会出现过拟合问题；反之，若IoU阈值过低，对低IoU的目标边界框有改善，但也会导致正例过多。

为了解决训练时IoU阈值设定的问题，Cascade R-CNN提出了一款级联R-CNN头（head）的结构，即每个R-CNN头设定一个IoU阈值，每一级使用上一级回归修正过的候选框作为输入。这种结构使得每一个头都可以得到充足的正样本，且正样本的质量因级联输入而逐渐提高。在测试时，通过各级联头输出的均值作为测试预测结果。

最新的Cascade R-CNN通过对IoU阈值问题的进一步探索和结构改进，在MS COCO数据集上创造了R-CNN系列图像目标检测mAP水平的新高。相同ResNet-101的backbone，在IoU阈值0.5:0.95、0.5、0.75下，mAP(%)：Faster R-CNN为34.9、55.7、37.4，Mask R-CNN为38.2、60.3、41.7，Cascade R-CNN为42.8、62.1、46.3。

	backbone	AP	AP_50	AP_75
Faster R-CNN+++	ResNet-101	34.9	55.7	37.4
Mask R-CNN	ResNet-101	38.2	60.3	41.7
Cascade R-CNN	ResNet-101	42.8	62.1	46.3

注：IoU阈值0.5:0.95表示阈值从0.5到0.95，步长0.05测定的mAP均值

参考文献

[1] Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6154-6162.