35 KiB

Raw Permalink Blame History

模型库和基线

测试环境

Python 2.7.1
PaddlePaddle >=1.5
CUDA 9.0
cuDNN >=7.4
NCCL 2.1.2

通用设置

所有模型均在COCO17数据集中训练和测试。
除非特殊说明，所有ResNet骨干网络采用ResNet-B结构。
对于RCNN和RetinaNet系列模型，训练阶段仅使用水平翻转作为数据增强，测试阶段不使用数据增强。
推理时间(fps): 推理时间是在一张Tesla V100的GPU上通过'tools/eval.py'测试所有验证集得到，单位是fps(图片数/秒), cuDNN版本是7.5，包括数据加载、网络前向执行和后处理, batch size是1。

训练策略

我们采用和Detectron相同的训练策略。
1x 策略表示：在总batch size为16时，初始学习率为0.02，在6万轮和8万轮后学习率分别下降10倍，最终训练9万轮。在总batch size为8时，初始学习率为0.01，在12万轮和16万轮后学习率分别下降10倍，最终训练18万轮。
2x 策略为1x策略的两倍，同时学习率调整位置也为1x的两倍。

ImageNet预训练模型

Paddle提供基于ImageNet的骨架网络预训练模型。所有预训练模型均通过标准的Imagenet-1k数据集训练得到。下载链接

注：ResNet50模型通过余弦学习率调整策略训练得到。下载链接

基线

Faster & Mask R-CNN

骨架网络	网络类型	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	Mask AP	下载	配置文件
ResNet50	Faster	1	1x	12.747	35.2	-	下载链接	配置文件
ResNet50	Faster	1	2x	12.686	37.1	-	下载链接	配置文件
ResNet50	Mask	1	1x	11.615	36.5	32.2	下载链接	配置文件
ResNet50	Mask	1	2x	11.494	38.2	33.4	下载链接	配置文件
ResNet50-vd	Faster	1	1x	12.575	36.4	-	下载链接	配置文件
ResNet34-FPN	Faster	2	1x	-	36.7	-	下载链接	配置文件
ResNet34-vd-FPN	Faster	2	1x	-	37.4	-	下载链接	配置文件
ResNet50-FPN	Faster	2	1x	22.273	37.2	-	下载链接	配置文件
ResNet50-FPN	Faster	2	2x	22.297	37.7	-	下载链接	配置文件
ResNet50-FPN	Mask	1	1x	15.184	37.9	34.2	下载链接	配置文件
ResNet50-FPN	Mask	1	2x	15.881	38.7	34.7	下载链接	配置文件
ResNet50-FPN	Cascade Faster	2	1x	17.507	40.9	-	下载链接	配置文件
ResNet50-FPN	Cascade Mask	1	1x	12.43	41.3	35.5	下载链接	配置文件
ResNet50-vd-FPN	Faster	2	2x	21.847	38.9	-	下载链接	配置文件
ResNet50-vd-FPN	Mask	1	2x	15.825	39.8	35.4	下载链接	配置文件
CBResNet50-vd-FPN	Faster	2	1x	-	39.7	-	下载链接	配置文件
ResNet101	Faster	1	1x	9.316	38.3	-	下载链接	配置文件
ResNet101-FPN	Faster	1	1x	17.297	38.7	-	下载链接	配置文件
ResNet101-FPN	Faster	1	2x	17.246	39.1	-	下载链接	配置文件
ResNet101-FPN	Mask	1	1x	12.983	39.5	35.2	下载链接	配置文件
ResNet101-vd-FPN	Faster	1	1x	17.011	40.5	-	下载链接	配置文件
ResNet101-vd-FPN	Faster	1	2x	16.934	40.8	-	下载链接	配置文件
ResNet101-vd-FPN	Mask	1	1x	13.105	41.4	36.8	下载链接	配置文件
CBResNet101-vd-FPN	Faster	2	1x	-	42.7	-	下载链接	配置文件
ResNeXt101-vd-FPN	Faster	1	1x	8.815	42.2	-	下载链接	配置文件
ResNeXt101-vd-FPN	Faster	1	2x	8.809	41.7	-	下载链接	配置文件
ResNeXt101-vd-FPN	Mask	1	1x	7.689	42.9	37.9	下载链接	配置文件
ResNeXt101-vd-FPN	Mask	1	2x	7.859	42.6	37.6	下载链接	配置文件
SENet154-vd-FPN	Faster	1	1.44x	3.408	42.9	-	下载链接	配置文件
SENet154-vd-FPN	Mask	1	1.44x	3.233	44.0	38.7	下载链接	配置文件
ResNet101-vd-FPN	CascadeClsAware Faster	2	1x	-	44.7(softnms)	-	下载链接	配置文件
ResNet101-vd-FPN	CascadeClsAware Faster	2	1x	-	46.5(multi-scale test)	-	下载链接	配置文件

Deformable 卷积网络v2

骨架网络	网络类型	卷积	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	Mask AP	下载	配置文件
ResNet50-FPN	Faster	c3-c5	2	1x	19.978	41.0	-	下载链接	配置文件
ResNet50-vd-FPN	Faster	c3-c5	2	2x	19.222	42.4	-	下载链接	配置文件
ResNet101-vd-FPN	Faster	c3-c5	2	1x	14.477	44.1	-	下载链接	配置文件
ResNeXt101-vd-FPN	Faster	c3-c5	1	1x	7.209	45.2	-	下载链接	配置文件
ResNet50-FPN	Mask	c3-c5	1	1x	14.53	41.9	37.3	下载链接	配置文件
ResNet50-vd-FPN	Mask	c3-c5	1	2x	14.832	42.9	38.0	下载链接	配置文件
ResNet101-vd-FPN	Mask	c3-c5	1	1x	11.546	44.6	39.2	下载链接	配置文件
ResNeXt101-vd-FPN	Mask	c3-c5	1	1x	6.45	46.2	40.4	下载链接	配置文件
ResNet50-FPN	Cascade Faster	c3-c5	2	1x	-	44.2	-	下载链接	配置文件
ResNet101-vd-FPN	Cascade Faster	c3-c5	2	1x	-	46.4	-	下载链接	配置文件
ResNeXt101-vd-FPN	Cascade Faster	c3-c5	2	1x	-	47.3	-	下载链接	配置文件
SENet154-vd-FPN	Cascade Mask	c3-c5	1	1.44x	-	51.9	43.9	下载链接	配置文件
ResNet200-vd-FPN-Nonlocal	CascadeClsAware Faster	c3-c5	1	2.5x	3.103	51.7%(softnms)	-	下载链接	配置文件
CBResNet200-vd-FPN-Nonlocal	Cascade Faster	c3-c5	1	2.5x	1.68	53.3%(softnms)	-	下载链接	配置文件

注意事项:

Deformable卷积网络v2(dcn_v2)参考自论文Deformable ConvNets v2.
c3-c5意思是在resnet模块的3到5阶段增加dcn.
详细的配置文件在configs/dcn

HRNet

详情见HRNet模型库。

Res2Net

详情见Res2Net模型库。

IOU loss

目前模型库中包括GIOU loss和DIOU loss，详情见IOU loss模型库.

Group Normalization

骨架网络	网络类型	每张GPU图片个数	学习率策略	Box AP	Mask AP	下载	配置文件
ResNet50-FPN	Faster	2	2x	39.7	-	下载链接	配置文件
ResNet50-FPN	Mask	1	2x	40.1	35.8	下载链接	配置文件

注意事项:

Group Normalization参考论文Group Normalization.
详细的配置文件在configs/gn

YOLO v3

骨架网络	预训练数据集	输入尺寸	加入deformable卷积	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
DarkNet53 (paper)	ImageNet	608	否	8	270e	-	33.0	-	-
DarkNet53 (paper)	ImageNet	416	否	8	270e	-	31.0	-	-
DarkNet53 (paper)	ImageNet	320	否	8	270e	-	28.2	-	-
DarkNet53	ImageNet	608	否	8	270e	45.571	38.9	下载链接	配置文件
DarkNet53	ImageNet	416	否	8	270e	-	37.5	下载链接	配置文件
DarkNet53	ImageNet	320	否	8	270e	-	34.8	下载链接	配置文件
MobileNet-V1	ImageNet	608	否	8	270e	78.302	29.3	下载链接	配置文件
MobileNet-V1	ImageNet	416	否	8	270e	-	29.3	下载链接	配置文件
MobileNet-V1	ImageNet	320	否	8	270e	-	27.1	下载链接	配置文件
MobileNet-V3	ImageNet	608	否	8	270e	-	31.6	下载链接	配置文件
MobileNet-V3	ImageNet	416	否	8	270e	-	29.9	下载链接	配置文件
MobileNet-V3	ImageNet	320	否	8	270e	-	27.1	下载链接	配置文件
ResNet34	ImageNet	608	否	8	270e	63.356	36.2	下载链接	配置文件
ResNet34	ImageNet	416	否	8	270e	-	34.3	下载链接	配置文件
ResNet34	ImageNet	320	否	8	270e	-	31.4	下载链接	配置文件
ResNet50_vd	ImageNet	608	是	8	270e	-	39.1	下载链接	配置文件
ResNet50_vd	Object365	608	是	8	270e	-	41.4	下载链接	配置文件

YOLO v3 基于Pasacl VOC数据集

骨架网络	输入尺寸	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
DarkNet53	608	8	270e	54.977	83.5	下载链接	配置文件
DarkNet53	416	8	270e	-	83.6	下载链接	配置文件
DarkNet53	320	8	270e	-	82.2	下载链接	配置文件
DarkNet53 Diou-Loss	608	8	270e	-	83.5	下载链接	配置文件
MobileNet-V1	608	8	270e	104.291	76.2	下载链接	配置文件
MobileNet-V1	416	8	270e	-	76.7	下载链接	配置文件
MobileNet-V1	320	8	270e	-	75.3	下载链接	配置文件
ResNet34	608	8	270e	82.247	82.6	下载链接	配置文件
ResNet34	416	8	270e	-	81.9	下载链接	配置文件
ResNet34	320	8	270e	-	80.1	下载链接	配置文件

注意事项:

上表中也提供了原论文YOLOv3中YOLOv3-DarkNet53的精度，我们的实现版本主要从在bounding box的宽度和高度回归上使用了L1损失，图像mixup和label smooth等方法优化了其精度。
YOLO v3在8卡，总batch size为64下训练270轮。数据增强包括：mixup, 随机颜色失真，随机剪裁，随机扩张，随机插值法，随机翻转。YOLO v3在训练阶段对minibatch采用随机reshape，可以采用相同的模型测试不同尺寸图片，我们分别提供了尺寸为608/416/320大小的测试结果。deformable卷积作用在骨架网络5阶段。
在YOLOv3-DarkNet53模型基础上使用Diou-Loss后，在VOC数据集上该模型平均mAP比原模型高大约2%。
YOLO v3增强版模型通过引入可变形卷积，dropblock，IoU loss和Iou aware，将精度进一步提升至43.6，详情见YOLOv3增强模型

RetinaNet

骨架网络	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
ResNet50-FPN	2	1x	-	36.0	下载链接	配置文件
ResNet101-FPN	2	1x	-	37.3	下载链接	配置文件
ResNeXt101-vd-FPN	1	1x	-	40.5	下载链接	配置文件

注意事项: RetinaNet系列模型中，在总batch size为16下情况下，初始学习率改为0.01。

EfficientDet

尺度	每张GPU图片个数	学习率策略	Box AP	下载	配置文件
EfficientDet-D0	16	300 epochs	33.8	下载链接	配置文件

注意事项: 在总batch size为128(8x16)时，基础学习率改为0.16。

SSDLite

骨架网络	输入尺寸	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
MobileNet_v1	300	64	Cosine decay(40w)	-	23.6	下载链接	配置文件
MobileNet_v3 small	320	64	Cosine decay(40w)	-	16.2	下载链接	配置文件
MobileNet_v3 large	320	64	Cosine decay(40w)	-	23.3	下载链接	配置文件
MobileNet_v3 small w/ FPN	320	64	Cosine decay(40w)	-	18.9	下载链接	配置文件
MobileNet_v3 large w/ FPN	320	64	Cosine decay(40w)	-	24.3	下载链接	配置文件
GhostNet	320	64	Cosine decay(40w)	-	23.3	下载链接	配置文件

注意事项: SSDLite模型使用学习率余弦衰减策略在8卡GPU下总batch size为512。

SSD

骨架网络	输入尺寸	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
VGG16	300	8	40万	81.613	25.1	下载链接	配置文件
VGG16	512	8	40万	46.007	29.1	下载链接	配置文件

注意事项: VGG-SSD在总batch size为32下训练40万轮。

SSD 基于Pascal VOC数据集

骨架网络	输入尺寸	每张GPU图片个数	学习率策略	推理时间(fps)	Box AP	下载	配置文件
MobileNet v1	300	32	120e	159.543	73.2	下载链接	配置文件
VGG16	300	8	240e	117.279	77.5	下载链接	配置文件
VGG16	512	8	240e	65.975	80.2	下载链接	配置文件

注意事项: MobileNet-SSD在2卡，总batch size为64下训练120周期。VGG-SSD在总batch size为32下训练240周期。数据增强包括：随机颜色失真，随机剪裁，随机扩张，随机翻转。

人脸检测

详细请参考人脸检测模型。

基于Open Images V5数据集的物体检测

详细请参考Open Images V5数据集基线模型。

Anchor Free系列模型

详细请参考Anchor Free系列模型。

35 KiB Raw Permalink Blame History Unescape Escape

模型库和基线

测试环境

通用设置

训练策略

ImageNet预训练模型

基线

Faster & Mask R-CNN

Deformable 卷积网络v2

HRNet

Res2Net

IOU loss

GCNet

Libra R-CNN

Auto Augmentation

Group Normalization

YOLO v3

YOLO v3 基于Pasacl VOC数据集

RetinaNet

EfficientDet

SSDLite

SSD

SSD 基于Pascal VOC数据集

人脸检测

基于Open Images V5数据集的物体检测

Anchor Free系列模型

35 KiB

Raw Permalink Blame History