注意力遇上卷积:CBAM 与 SE 模块如何重塑 CNN 特征表达
卷积神经网络(CNN)通过层级卷积提取图像特征,但传统结构对所有特征同等对待,常因冗余信息干扰导致表达效率低下。注意力机制的引入,让 CNN 学会 “聚焦关键特征、抑制无用信息”,而 SE 模块与 CBAM 模块作为其中的典型代表,通过精准的特征加权,彻底重塑了 CNN 的特征表达能力。
从通道注意力到 SE 模块:让特征 “各尽其责”
SE 模块(Squeeze-and-Excitation)聚焦于通道维度的注意力调控,核心是通过学习为不同通道特征分配权重,让模型重视关键通道(如目标的颜色、纹理通道),弱化无关通道(如背景噪声通道)。其操作分为三步:
挤压(Squeeze):通过全局平均池化将每个通道的空间信息压缩为单个数值,捕捉通道特征的全局响应(例如,猫的图像中 “毛发纹理” 通道的响应会高于 “天空背景” 通道);
激励(Excitation):用轻量全连接层学习通道间的依赖关系,输出与通道数相等的权重值,实现 “重要通道权重高、冗余通道权重低” 的动态调整;
加权(Scale):将权重与原通道特征相乘,强化有用信息。
这种设计仅增加约 1% 的参数量,却能让 CNN 在 ImageNet 分类任务中提升 1-2% 的准确率,尤其在目标特征与背景混杂的场景中(如街景中的行人检测),能有效突出目标相关通道特征。
CBAM 模块:通道与空间的 “双重聚焦”
CBAM(Convolutional Block Attention Module)在 SE 模块基础上进一步扩展,同时关注通道与空间两个维度的注意力,实现 “哪部分通道重要、该通道中哪个位置更重要” 的双重精准调控。其创新在于增加了空间注意力分支,与通道注意力形成互补:
通道注意力:沿用 SE 的挤压 – 激励逻辑,先通过全局池化压缩空间信息,再学习通道权重;
空间注意力:聚焦于 “特征在哪个空间位置更重要”,通过通道维度的平均池化与最大池化融合特征,再用 1×1 卷积生成空间权重图(例如,在汽车图像中,空间权重会向 “车窗”“车轮” 等关键区域倾斜,而非车身周围的空白区域);
串行作用:先通过通道注意力筛选重要通道,再对筛选后的特征施加空间注意力,形成 “通道选优→空间聚焦” 的递进式优化。
这种双重注意力机制,让特征加权更贴合任务需求:在语义分割中,既强调 “道路” 通道特征,又聚焦道路的空间连续区域;在目标检测中,既突出 “物体轮廓” 通道,又锁定轮廓的具体空间位置。
重塑 CNN 特征表达的核心价值
SE 与 CBAM 模块的本质,是让 CNN 从 “被动接收所有特征” 转向 “主动选择关键信息”。它们的引入带来三个显著改变:
特征判别性增强:通过动态加权,有用特征的响应被放大,冗余信息被抑制,使后续层能基于更 “纯净” 的特征学习;
泛化能力提升:在复杂场景(如光照变化、遮挡)中,注意力机制能稳定捕捉核心特征(如人脸遮挡时仍聚焦可见的眼睛、鼻子通道);
轻量化与高效性平衡:仅通过池化、全连接层等简单操作实现注意力调控,避免了计算量的大幅增加,可无缝嵌入 ResNet、VGG 等主流架构。
从 SE 的 “单维度聚焦” 到 CBAM 的 “双维度协同”,注意力与卷积的结合,让 CNN 的特征表达从 “粗放提取” 走向 “精准筛选”。这种思路不仅提升了图像分类、目标检测等任务的精度(在 COCO 数据集上,嵌入 CBAM 的模型 mAP 可提升 2-3%),更推动 CNN 从 “机械的特征堆砌” 进化为 “智能的特征取舍”,为后续更复杂的视觉任务(如视频理解、小样本学习)奠定了高效特征表达的基础。
原创文章,作者:网站编辑,如若转载,请注明出处:https://www.devcn.xin/1608.html