

DenseNet¶

DenseNet通过密集连接设计，将每一层输出作为后续所有层的输入，通过加强特征传播，能够减轻梯度消失的问题；同时通过鼓励特征重用，大大减少了参数数量

DenseNet主要由两个模块组成：

其中Dense Block中使用 $3\times 3$ 卷积进行特征提取，同时利用 $1\times 1$ 卷积来控制输入特征图个数，所以组成一个Dense Layer模块（Conv(1x1) + Conv(3x3)）进行实现

Dense Layer¶

其实现流程如下：

BN -> ReLU -> Conv(1x1) -> BN -> ReLU -> Conv(3x3)

在每个Dense Block中，由多个Dense Layer组成，同时其每个Dense Layer的输出都作为后续Dense Layer的输入。不同的输入数据通过连接（concatenating）方式合并

通过Trantition Layer模块进行特征图减半操作，每个Tranisition由一个Conv(1x1)和一个 $2\times 2$ 大小的平均池化组成，其实现流程如下：

BN -> ReLU -> Conv(1x1) -> AvgPool(2x2)

比较DenseNet-121和ResNet-34_v2

完整训练日志参考训练日志

densenet_121: 5.731 GFlops - 30.437 MB
resnet-34: 7.349 GFlops - 83.177 MB

CNN Architecture	Data Type (bit)	Model Size (MB)	GFlops （1080Ti）	Top-1 Acc(VOC 07+12)	Top-5 Acc(VOC 07+12)
ResNet-34_v2	32	83.177	7.349	90.50%	99.29%
DenseNet-121	32	30.437	5.731	89.86%	99.20%

从训练轨迹上看，DenseNet-121在前期能够得到更快的收敛速度，在后期两者逐渐趋同。DenseNet-121比ResNet-34_v2拥有更小的模型和Flops，两者也能够训练得到相近的准确度

进一步训练方向：