ConvNeXt (2022) - 现代化卷积神经网络
Stem
Conv 4×4×96
stride=4
快速下采样
→
LayerNorm
稳定训练
→
Stage 1: 96 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
→
LayerNorm
归一化
→
PW Conv
1×1×384
升维4倍
→
GELU
平滑激活
→
PW Conv
1×1×96
降维还原
Downsample
LayerNorm
Conv 2×2×192
分离式下采样
→
Stage 2: 192 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
→
LayerNorm
归一化
→
PW Conv
1×1×768
升维4倍
→
GELU
平滑激活
→
PW Conv
1×1×192
降维还原
Downsample
LayerNorm
Conv 2×2×384
分离式下采样
→
Stage 3: 384 channels
+
ConvNeXt Block (×9)
DW Conv
7×7
深度可分离
→
LayerNorm
归一化
→
PW Conv
1×1×1536
升维4倍
→
GELU
平滑激活
→
PW Conv
1×1×384
降维还原
Downsample
LayerNorm
Conv 2×2×768
分离式下采样
→
Stage 4: 768 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
→
LayerNorm
归一化
→
PW Conv
1×1×3072
升维4倍
→
GELU
平滑激活
→
PW Conv
1×1×768
降维还原
Global
LayerNorm
最终归一化
→
Global
AvgPool
特征聚合
→
Classification
Head
1000 classes
最终分类
ConvNeXt核心创新:
1.
大尺寸卷积核:使用7×7深度卷积替代3×3,增大感受野
2.
倒置瓶颈结构:先升维再降维,类似Transformer的MLP
3.
LayerNorm归一化:替代BatchNorm,提升训练稳定性
4.
GELU激活函数:更平滑的激活函数替代ReLU
5.
分离式下采样:将下采样和特征提取分离,提高特征质量
模型规模对比:
| 模型 |
参数量 |
ImageNet Top-1 |
特点 |
| ConvNeXt-T |
28M |
82.1% |
轻量版本 |
| ConvNeXt-S |
50M |
83.1% |
小型版本 |
| ConvNeXt-B |
89M |
83.8% |
基础版本 |
| ConvNeXt-L |
198M |
84.3% |
大型版本 |