ConvNeXt模型架构图

ConvNeXt (2022) - 现代化卷积神经网络

Stem
Conv 4×4×96
stride=4
快速下采样

→

LayerNorm
稳定训练

→

Stage 1: 96 channels

ConvNeXt Block (×3)

DW Conv
7×7
深度可分离

→

LayerNorm
归一化

→

PW Conv
1×1×384
升维4倍

→

GELU
平滑激活

→

PW Conv
1×1×96
降维还原

Downsample
LayerNorm
Conv 2×2×192
分离式下采样

→

Stage 2: 192 channels

ConvNeXt Block (×3)

DW Conv
7×7
深度可分离

→

LayerNorm
归一化

→

PW Conv
1×1×768
升维4倍

→

GELU
平滑激活

→

PW Conv
1×1×192
降维还原

Downsample
LayerNorm
Conv 2×2×384
分离式下采样

→

Stage 3: 384 channels

ConvNeXt Block (×9)

DW Conv
7×7
深度可分离

→

LayerNorm
归一化

→

PW Conv
1×1×1536
升维4倍

→

GELU
平滑激活

→

PW Conv
1×1×384
降维还原

Downsample
LayerNorm
Conv 2×2×768
分离式下采样

→

Stage 4: 768 channels

ConvNeXt Block (×3)

DW Conv
7×7
深度可分离

→

LayerNorm
归一化

→

PW Conv
1×1×3072
升维4倍

→

GELU
平滑激活

→

PW Conv
1×1×768
降维还原

Global
LayerNorm
最终归一化

→

Global
AvgPool
特征聚合

→

Classification
Head
1000 classes
最终分类

ConvNeXt核心创新：
1. 大尺寸卷积核：使用7×7深度卷积替代3×3，增大感受野
2. 倒置瓶颈结构：先升维再降维，类似Transformer的MLP
3. LayerNorm归一化：替代BatchNorm，提升训练稳定性
4. GELU激活函数：更平滑的激活函数替代ReLU
5. 分离式下采样：将下采样和特征提取分离，提高特征质量

模型规模对比：

模型	参数量	ImageNet Top-1	特点
ConvNeXt-T	28M	82.1%	轻量版本
ConvNeXt-S	50M	83.1%	小型版本
ConvNeXt-B	89M	83.8%	基础版本
ConvNeXt-L	198M	84.3%	大型版本

ConvNeXt模型架构图

ConvNeXt设计理念