ConvNeXt模型架构图

ConvNeXt (2022) - 现代化卷积神经网络
Stem
Conv 4×4×96
stride=4
快速下采样
LayerNorm
稳定训练
Stage 1: 96 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
LayerNorm
归一化
PW Conv
1×1×384
升维4倍
GELU
平滑激活
PW Conv
1×1×96
降维还原
Downsample
LayerNorm
Conv 2×2×192
分离式下采样
Stage 2: 192 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
LayerNorm
归一化
PW Conv
1×1×768
升维4倍
GELU
平滑激活
PW Conv
1×1×192
降维还原
Downsample
LayerNorm
Conv 2×2×384
分离式下采样
Stage 3: 384 channels
+
ConvNeXt Block (×9)
DW Conv
7×7
深度可分离
LayerNorm
归一化
PW Conv
1×1×1536
升维4倍
GELU
平滑激活
PW Conv
1×1×384
降维还原
Downsample
LayerNorm
Conv 2×2×768
分离式下采样
Stage 4: 768 channels
+
ConvNeXt Block (×3)
DW Conv
7×7
深度可分离
LayerNorm
归一化
PW Conv
1×1×3072
升维4倍
GELU
平滑激活
PW Conv
1×1×768
降维还原
Global
LayerNorm
最终归一化
Global
AvgPool
特征聚合
Classification
Head
1000 classes
最终分类
ConvNeXt核心创新:
1. 大尺寸卷积核:使用7×7深度卷积替代3×3,增大感受野
2. 倒置瓶颈结构:先升维再降维,类似Transformer的MLP
3. LayerNorm归一化:替代BatchNorm,提升训练稳定性
4. GELU激活函数:更平滑的激活函数替代ReLU
5. 分离式下采样:将下采样和特征提取分离,提高特征质量

模型规模对比:
模型 参数量 ImageNet Top-1 特点
ConvNeXt-T 28M 82.1% 轻量版本
ConvNeXt-S 50M 83.1% 小型版本
ConvNeXt-B 89M 83.8% 基础版本
ConvNeXt-L 198M 84.3% 大型版本

ConvNeXt设计理念

"现代化ResNet" → 证明纯卷积网络仍有强大潜力

通过借鉴Transformer设计,让传统CNN重获新生