【论文阅读 CVPR 2024 RSDet_去除再选择:一种用于 RGB - 红外目标检测的由粗到精融合视角】

[TOC]

image-20251206180132784

题目:Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection

会议:Computer Vision and Pattern Recognition(CVPR)

论文链接:Link

代码(假开源):Zhao-Tian-yi/RSDet

年份:2024

1. 研究背景与动机

1.1 RGB–IR 目标检测的需求

传统目标检测大多依赖可见光(RGB)图像,在弱光、逆光、夜间、遮挡等复杂场景下容易失败。而红外(IR)图像通过热辐射信息可以在低照度环境下保持较好的目标轮廓,天然与 RGB 形成互补。因此,RGB–IR 联合检测被广泛用于:

  • 智能监控、安全巡检
  • 自动驾驶与无人系统
  • 远程遥感、边防安防等

如何有效融合 RGB 与 IR 的互补特性,是多模态目标检测的核心问题之一。

1.2 现有融合策略及局限

现有 RGB–IR 检测方法主要采用以下两类融合策略(对应图 1 中 (a)(b)):

image-20251206182012755

图 1. 现有 RGB–IR 特征融合结构与本文提出框架的对比。

  1. Late Fusion(晚期融合)

    • 独立提取 RGB、IR 特征
    • 在检测头前对特征做简单相加或拼接
    • 缺乏显式的跨模态交互,难以充分挖掘互补信息,性能较差
  2. Halfway Fusion(中途融合)

    • 在 backbone 中部或多尺度层面插入模态交互模块
    • 如 MBNet、动态跨模态模块等,通过注意力或交互模块增强两模态的互补性
    • 这类方法显式建模互补信息,但基本忽略了各模态内部大量冗余特征的负面影响

关键问题

大多数方法只关注“如何更好地融合”,而没有首先解决“要融合的内容本身是否已经被净化”。冗余信息在传播过程中会不断放大,导致跨模态互补学习受到干扰,融合结果难以充分发挥两模态优势。

1.3 认知启发:由粗到细的信息处理

人类大脑在处理多模态信息时,往往遵循“先粗后细”的选择性注意过程:

  • :对输入信息做初步筛选,抑制明显无关或噪声信息
  • :在剩余信息上进行精细分析与选择,提取当前任务所需的关键信息

Treisman 的衰减模型(Attenuation Theory)认为,信息在进入工作记忆之前,会先经过一层“衰减滤波”,无关信息被强烈抑制,有关信息则以较高强度保留下来,用于进一步精细加工。

image-20251207100633887

图 4. Treisman 衰减模型示意图。

作者借鉴这一认知过程,将其映射到 RGB–IR 特征融合上,提出**“由粗到细”(Coarse-to-Fine)特征净化与融合视角**:

  • Coarse(粗):在频域粗粒度去除模态内部冗余光谱信息
  • Fine(细):在特征域通过专家混合机制精细选择不同尺度的有用模态特征

1.4 论文主要贡献

结合引言与方法部分,论文的主要贡献可概括为:

  1. 提出由粗到细的 RGB–IR 特征融合视角

    先在频域对各模态进行冗余光谱去除,再在特征层面进行动态特征选择,从认知角度解释多模态融合的流程。

  2. 冗余光谱去除模块(RSR)

    在频域对图像幅度谱进行动态滤波,抑制模态内的冗余、高频噪声成分,保留与检测任务相关的有效频段。

  3. 动态特征选择模块(DFS)

    引入**尺度感知专家混合(mixture of scale-aware experts)**结构,通过门控网络与路由器在多尺度 RGB–IR 特征之间进行动态路由,实现跨模态、跨尺度的精细特征选择。

  4. 构建 先去除后选择检测器 Removal then Selection Detector(RSDet)

    将“去除–选择”的由粗到细融合策略嵌入 Faster R-CNN,形成完整检测框架,并在 KAIST、FLIR-aligned、LLVIP 三个公开数据集上取得新的 SOTA 性能,特别是在小目标、严重遮挡与极低照度场景下优势明显。


2. 方法概览:由粗到细融合策略

image-20251206182114478

图 3. 由粗到细融合策略的整体框架。上半部分为整体流程,下半部分分别展示 RSR 与 DFS 两个核心模块。

2.1 整体流程

给定一对配准好的 RGB 图像 VV 和红外图像 II,RSDet 的整体流程如下:

  1. 频域冗余去除(RSR,粗)

    • V,IV, I 经离散傅里叶变换(DFT)映射到频域:FV(u,v),FI(u,v)F_V(u,v), F_I(u,v)
    • 基于幅度谱预测模态自适应的动态滤波器 HV(u,v),HI(u,v)H_V(u,v), H_I(u,v)
    • 在频域进行逐点相乘抑制冗余光谱,逆变换回空间域,得到“净化后”图像 V,IV', I'
  2. 共享–特定表示学习

    • 以 ResNet 为 backbone,引入共享–特定(Shared–Specific)结构
      • 共享分支:提取模态无关的共享特征 CshaC_{\text{sha}}
      • RGB 特定分支:从 VV' 提取模态特定特征 CV-speiC^{i}_{V\text{-spe}}(多尺度)
      • IR 特定分支:从 II' 提取模态特定特征 CI-speiC^{i}_{I\text{-spe}}(多尺度)
  3. 动态特征选择(DFS,细)

    • 将多尺度模态特定特征 {CV-spei,CI-spei}\{C^{i}_{V\text{-spe}}, C^{i}_{I\text{-spe}}\} 送入 DFS 模块
    • DFS 通过尺度感知专家混合(MoE)和路由器,在不同尺度上选择更可靠的模态特征,得到融合后的模态特定特征 CspeC_{\text{spe}}
  4. 最终融合特征

    • 将 DFS 输出的特定特征 CspeC_{\text{spe}} 与共享特征 CshaC_{\text{sha}} 相加,得到最终融合特征:
C=Csha+Cspe(1)C = C_{\text{sha}} + C_{\text{spe}} \tag{1}

该融合特征 CC 随后被送入标准的目标检测头(RPN + R-CNN)进行检测。

2.2 Coarse vs. Fine 的直观对比

image-20251206182032966

图 2. 由粗到细融合方法的有效性示例。
(a) 传统 Halfway Fusion:RGB 背景噪声抑制了最终融合特征;
(b) 本文方法:先去除冗余光谱,再在特征层面选择有用模态信息。

  • 在 Halfway Fusion 方案中,网络直接对原始 RGB–IR 特征做交互,RGB 中大量背景干扰信息会被传播到最终的融合特征中。
  • 在 RSDet 中,RSR 模块在频域优先抑制掉部分背景与高频噪声,再由 DFS 从“已经净化的模态特征”中选择任务相关的尺度与模态,从而显著提升检测质量。

3. 冗余光谱去除模块(RSR)

3.1 设计动机

  • 图像中的冗余信息不仅存在于空间域,也体现在频域谱分布上。
  • 频域具有天然的全局建模能力:通过逐点乘法即可在整幅图上统一抑制某一频段特征。
  • 直接在空间域做粗粒度过滤较难解耦目标与背景的紧耦合特征,而在频域中通过滤波器可以更直接地削弱某些频率构成的干扰。

因此,作者提出在频域设计一个动态光谱滤波器,自适应去除 RGB 与 IR 模态内部的冗余成分。

3.2 频域变换与幅度编码

给定 RGB 图像 VRH×W×3V \in \mathbb{R}^{H\times W\times 3} 与 IR 图像 IRH×W×1I \in \mathbb{R}^{H\times W\times 1},首先对其进行离散傅里叶变换(DFT):

FI(u,v)=DFT(I),FV(u,v)=DFT(V)(2)F_I(u, v) = \mathrm{DFT}(I), \quad F_V(u, v) = \mathrm{DFT}(V) \tag{2}

其中 F()F(\cdot) 可分解为幅度谱与相位谱。RSR 模块只利用幅度信息预测滤波器,而保留相位信息,以尽量不破坏图像结构。

对于两种模态,分别设计轻量编码器 EncoderI,EncoderV\mathrm{Encoder}_I, \mathrm{Encoder}_V 对幅度谱进行编码,得到嵌入向量:

MlI=EncoderI(FI(u,v)),MlV=EncoderV(FV(u,v))(3)M_{l_I} = \mathrm{Encoder}_I\bigl(|F_I(u, v)|\bigr), \quad M_{l_V} = \mathrm{Encoder}_V\bigl(|F_V(u, v)|\bigr) \tag{3}
  • MlI,MlVRmM_{l_I}, M_{l_V} \in \mathbb{R}^m 中的每个元素可视为某块区域频谱的重要性评分。
  • 这一步将二维频域图划分为若干 patch,并映射到一维评分空间。

3.3 Top-K 与软 / 硬滤波器

为了在保留有效谱成分的同时抑制冗余信息,引入 Top-K 操作选出最重要的频谱区域:

MmI=top-K(MlI),MmV=top-K(MlV)(4)M_{m_I} = \text{top-}K(M_{l_I}), \quad M_{m_V} = \text{top-}K(M_{l_V}) \tag{4}

根据 Top-K 之外元素的处理方式,滤波器分为两类:

  • 软滤波器(Soft Filter)

    • 非 Top-K 元素被压缩到 [0,1][0,1] 范围内,而非直接置零
    • 能在抑制冗余的同时避免信息完全丢失,表现更稳定
  • 硬滤波器(Hard Filter)

    • 非 Top-K 元素直接置为 0
    • 更激进,可能带来更强的噪声抑制,也更容易损失细节

在实验中,作者在 FLIR 数据集上比较了不同 K 与滤波器类型的组合,发现当 软滤波器 + K=320K=320 时获得最优性能(见表 III)。

将一维嵌入通过最近邻插值重塑回频域尺寸,得到滤波器:

HI(u,v)=Reshape(MmI),HV(u,v)=Reshape(MmV)(5)H_I(u,v) = \mathrm{Reshape}(M_{m_I}), \quad H_V(u,v) = \mathrm{Reshape}(M_{m_V}) \tag{5}

图 5 给出了学习到的滤波器与滤波后幅度谱的可视化示例:

image-20251206182211879

图 5. 学习到的滤波器 HI(u,v)H_I(u, v)HV(u,v)H_V(u, v) 以及滤波前后幅度谱与图像的可视化。

可以观察到滤波器主要抑制了部分高频噪声区域,而目标区域幅度变化较小。

3.4 频域滤波与逆变换

得到滤波器后,在频域进行逐元素相乘:

FI(u,v)=FI(u,v)HI(u,v),FV(u,v)=FV(u,v)HV(u,v)(6)F'_I(u,v) = F_I(u,v) \otimes H_I(u,v), \quad F'_V(u,v) = F_V(u,v) \otimes H_V(u,v) \tag{6}

随后通过逆离散傅里叶变换(IDFT)返回空间域,得到经过冗余光谱去除的图像:

I=IDFT(FI(u,v)),V=IDFT(FV(u,v))(7)I' = \mathrm{IDFT}\bigl(F'_I(u,v)\bigr), \quad V' = \mathrm{IDFT}\bigl(F'_V(u,v)\bigr) \tag{7}

中间结果的可视化表明:

  • 目标区域在 RSR 处理前后变化极小
  • 被抑制的信息主要集中在背景区域
  • 图像整体信噪比(SNR)有所提升

image-20251206182231773

图 7. RSR 模块在 FLIR(左)与 LLVIP(右)数据集上的中间输出可视化。绿色框为目标,红色框为背景,可见背景区域被显著模糊化而目标保持清晰。


4. 动态特征选择模块(DFS)

4.1 设计思路:尺度感知专家混合

在完成频域粗过滤后,RGB 与 IR 特征仍然存在以下难点:

  • 不同尺度目标在两模态中的显著性差异较大
  • 某些尺度上 RGB 更可靠,另一些尺度上 IR 更可靠
  • 简单相加或注意力往往难以同时处理多尺度 + 多模态 + 动态路由

DFS 的核心思想是:
在每一个尺度上,构建一组针对该尺度的RGB 专家IR 专家,通过门控网络 + Router 实现对不同模态特征的动态选择,形成尺度感知的 MoE 结构

image-20251206182249229

图 6. 各尺度专家输出特征与融合特征的可视化。不同专家关注不同尺度的目标,融合后的 CspeC_{\text{spe}} 对目标区域具有更强响应。

4.2 门控网络:从全局统计到权重分配

对经过 backbone 提取的多尺度模态特定特征 CI-spei,CV-speiC^{i}_{I\text{-spe}}, C^{i}_{V\text{-spe}}(尺度索引为 ii),首先做全局平均池化并展平:

XIi,XViRMX^{i}_I, X^{i}_V \in \mathbb{R}^{M}

门控网络 GG 将两个模态的统计特征拼接后映射到权重空间,并通过 Softmax 得到规范化权重:

wIi,wVi=G(XIi,XVi)=Softmax([XIi,XVi]W)(8)w^{i}_I, w^{i}_V = G(X^{i}_I, X^{i}_V) = \mathrm{Softmax}\bigl([X^{i}_I, X^{i}_V] \cdot W\bigr) \tag{8}
  • WRM×NW \in \mathbb{R}^{M \times N} 为可学习参数,NN 为专家数量(按尺度划分)。
  • wIi,wViw^{i}_I, w^{i}_V 反映该尺度下 IR / RGB 特征的重要性。

4.3 路由器:门控到二值路由

为了在保持可训练性的同时提高决策清晰度,引入阈值路由器 RR 将连续权重转化为“使用 / 不使用”二值门控:

(rIi,rVi)=R(wIi,wVi)={(1,1),wIit, wVit(1,0),wIit, wVi<t(0,1),wIi<t, wVit(9)(r^{i}_I, r^{i}_V) = R(w^{i}_I, w^{i}_V) = \begin{cases} (1, 1), & w^{i}_I \ge t, ~ w^{i}_V \ge t \\ (1, 0), & w^{i}_I \ge t, ~ w^{i}_V < t \\ (0, 1), & w^{i}_I < t, ~ w^{i}_V \ge t \end{cases} \tag{9}
  • 若两模态权重均高于阈值 tt,则同时保留
  • 若一方低于阈值,则仅保留权重较高的一方
  • 这样既可以突出主导模态,又避免完全忽略另一模态的有用信息

4.4 尺度感知专家网络与融合

对每个尺度与每个模态,构建小型专家网络 EIi,EVi\mathcal{E}^{i}_I, \mathcal{E}^{i}_V(由两个卷积块组成),对门控后的特征进行进一步变换:

CIi=EIi(xIirIi),CVi=EVi(xVirVi)(10)C^{i}_I = \mathcal{E}^{i}_I(x^{i}_I \cdot r^{i}_I), \quad C^{i}_V = \mathcal{E}^{i}_V(x^{i}_V \cdot r^{i}_V) \tag{10}

最终,将所有尺度的专家输出按权重进行加权求和并级联,得到多模态特定融合特征 CspeC_{\text{spe}}

Cspe=i=1n(wIiCIi+wViCVi)(11)C_{\text{spe}} = \bigcup_{i=1}^{n} \bigl( w^{i}_I C^{i}_I + w^{i}_V C^{i}_V \bigr) \tag{11}

从图 6 的可视化可见:

  • 不同专家聚焦不同尺度目标(从小物体到大物体)
  • 每个专家依据当前场景在 RGB / IR 中选择更可靠的模态特征
  • 最终融合特征在目标区域呈现更清晰、更集中的响应,背景抑制更好

5. 去除与选择检测器(RSDet)

5.1 与 Faster R-CNN 的集成

RSDet 在检测框架上采用标准的两阶段检测器 Faster R-CNN,主要改动在 backbone 特征提取部分:

  • 用“RSR + Shared–Specific + DFS” 替代原有单模态 ResNet backbone
  • RPN、RoI Pooling / RoIAlign、R-CNN 头部结构均保持不变

因此,RSDet 可看作在特征层面进行多模态由粗到细融合的通用模块,与主流两阶段检测框架兼容性较好。

5.2 共享–特定表示与互信息损失

为显式区分模态共享信息模态特定信息,作者引入共享–特定表示学习,并通过互信息(Mutual Information, MI)损失进行监督:

  • 共享特征:CshaC_{\text{sha}}
  • IR 特定特征:CI-speC_{I\text{-spe}}
  • RGB 特定特征:CV-speC_{V\text{-spe}}

通过最大化共享特征与各模态特定特征之间的互信息,鼓励:

  • 共享分支捕获两模态共同信息
  • 特定分支在保留共享部分的基础上学习模态专有差异

互信息损失定义为:

LI-spe=MI(Csha,CI-spe),LV-spe=MI(Csha,CV-spe)(12–13)\mathcal{L}_{I\text{-spe}} = \mathrm{MI}(C_{\text{sha}}, C_{I\text{-spe}}), \quad \mathcal{L}_{V\text{-spe}} = \mathrm{MI}(C_{\text{sha}}, C_{V\text{-spe}}) \tag{12–13}

在具体实现中,作者利用交叉熵(CE)与 KL 散度(KL)对互信息进行近似最大化:

maxMI(x,y)max{CE(x,y)KL(xy)+CE(y,x)KL(yx)}(14)\max \mathrm{MI}(x,y) \Rightarrow \max \bigl\{ \mathrm{CE}(x,y) - \mathrm{KL}(x\|y) + \mathrm{CE}(y,x) - \mathrm{KL}(y\|x) \bigr\} \tag{14}

5.3 总体损失函数

检测部分采用与 Faster R-CNN 相同的损失:

  • RPN 损失:Lrpn\mathcal{L}_{\text{rpn}}
  • 边界框回归损失:Lreg\mathcal{L}_{\text{reg}}
  • 分类损失:Lcls\mathcal{L}_{\text{cls}}

最终总损失为:

L=γ(LI-spe+LV-spe)+Lrpn+Lreg+Lcls(15)\mathcal{L} = \gamma\bigl(\mathcal{L}_{I\text{-spe}} + \mathcal{L}_{V\text{-spe}}\bigr) + \mathcal{L}_{\text{rpn}} + \mathcal{L}_{\text{reg}} + \mathcal{L}_{\text{cls}} \tag{15}

其中 γ=0.001\gamma=0.001 为互信息项与检测项之间的平衡系数。


6. 实验设置

6.1 数据集

  1. KAIST 多光谱行人检测数据集

    • 原始数据集标注存在问题,后续工作对训练集与测试集标注进行了修正
    • 训练集:8,963 对 RGB–IR 图像对
    • 测试集:2,252 对图像对(使用改进标注)
    • 划分设置:
      • 尺度:near / medium / far(按行人高度分段)
      • 遮挡:none / partial / heavy
      • 光照:day / night
      • 评估设置:All / Reasonable(本文采用更具挑战性的 All 设置)
  2. FLIR-aligned 数据集

    • 含昼夜场景的 RGB–IR 配对图像,原始 FLIR 数据存在配准误差,故使用对齐版本
    • 图像对总数:5,142
      • 训练:4,129
      • 测试:1,013
    • 类别:person / car / bicycle(原始“dog”类实例过少,已在清理过程中移除)
  3. LLVIP 低光多模态检测数据集

    • 严格配准的 RGB–IR 配对数据,场景多为极暗、低照度环境
    • 图像对总数:15,488
      • 训练:12,025
      • 测试:3,463

6.2 评估指标

  1. 对数平均漏检率 (MR2)(\mathrm{MR}^{-2})

    • 用于 KAIST 数据集
    • 在 9 个对数均匀采样的 FPPI(每图像假阳性数)点上计算平均漏检率
    • 数值越低表示性能越优
  2. 平均精度均值(mAP)

    • 用于 FLIR-aligned 与 LLVIP 数据集
    • mAP50\mathrm{mAP}_{50}:IoU=0.5 时三类的平均 AP
    • mAP\mathrm{mAP}:IoU 从 0.5 到 0.95(步长 0.05)上的平均 AP

6.3 实现细节

  • 实现平台:mmdetection 工具箱,GPU 为 NVIDIA GeForce RTX 3090
  • 检测框架:Faster R-CNN,backbone 为 ResNet-50
  • 优化器:SGD,动量 0.9,权重衰减 1×1041\times10^{-4}
  • 训练策略:
    • FLIR-aligned & KAIST:训练 12 epoch,初始学习率 1×1021\times10^{-2}
    • LLVIP:初始学习率 1×1031\times10^{-3}
  • 输入分辨率:为了方便 DFS 模块设计,将各数据集图像分辨率统一为 LLVIP 的分辨率
  • 数据增强:仅使用概率 0.5 的随机水平翻转,未使用复杂增强策略

7. 消融实验与可视化分析

7.1 模块级消融:RSR 与 DFS 的贡献

image-20251206182311779

表 I. 在 FLIR、LLVIP(mAP,%)及 KAIST(MR2\mathrm{MR}^{-2},%)上的模块消融实验结果(IoU=0.7)。

  • 单独引入 RSR
    • 在三数据集上均取得稳定提升,证明频域去冗余的有效性
  • 单独引入 DFS
    • 在多尺度、多模态融合方面带来更明显的增益
  • 同时使用 RSR + DFS(完整 RSDet):
    • 在所有指标上表现最佳
    • 说明“先去除再选择”的级联是相互增益的,而非简单叠加

7.2 DFS 与其他融合模块的比较

image-20251206182325987

表 II. 在 FLIR 数据集上的融合模块对比(统一 Faster R-CNN + ResNet-50,公平设置)。

  • 基线:Two-Stream Faster R-CNN(简单特征相加)
  • 对比方法:CMX、CFT 等代表性 RGB–X / RGB–IR 融合模块
  • 结果表明:
    • DFS 相比 Two-Stream 仅增加约 3.91M 参数,却带来 mAP50+7.8%mAP_{50}+7.8\% 的显著提升
    • 与第二优融合方法相比,参数减少约 2.37 亿,FLOPs 降低 93G,但在 mAP50\mathrm{mAP}_{50}mAP75\mathrm{mAP}_{75}、mAP 上仍保持优势
    • 说明 DFS 在性能–复杂度折中上具有良好优势

7.3 RSR 滤波器设计:硬 / 软滤波与 K 值

image-20251206182337562

表 III. RSR 中不同滤波器类型与 Top-K 值在 FLIR 数据集上的对比。

  • K=400K=400 时等价于“不过滤”(图像被划分为 400 个 patch)
  • 在不同 K 下,软滤波器的整体 mAP 均略优于硬滤波器
  • 最优配置为:软滤波器 + K=320K=320
  • 平均性能(Avg. mAP)也表明软滤波器在稳定性方面更具优势

7.4 中间结果可视化

7.4.1 RSR 模块:目标与背景的差异

如图 7 所示(见第 3 节),RSR 模块主要作用于背景区域,使背景变得更加模糊或均匀,而目标区域基本保持不变。SNR 的定量分析进一步证明 RSR 能提高信噪比,对检测任务有积极作用。

7.4.2 共享、特定与融合特征

image-20251206182354043

图 8. DFS 模块在 FLIR 数据集上的特征融合可视化结果。特征被叠加在原始图像上。

  • CshaC_{\text{sha}}:共享特征
  • CI-speC_{I\text{-spe}}:IR 特定特征
  • CV-speC_{V\text{-spe}}:RGB 特定特征
  • DFS 输出的融合特征在目标区域显著增强,且部分原本在共享特征中不显著的目标被凸显出来。

7.4.3 t-SNE:RSR 对特征解耦的影响

image-20251206182407018

图 9. t-SNE 可视化:有 / 无 RSR 时共享与特定特征的分布差异。

  • 无 RSR:共享特征与模态特定特征在嵌入空间中混合程度较高,DFS 难以从中筛选特定模态所需信息
  • 加入 RSR 后:混合区域数量明显减少,特征簇之间的可分性增强,有利于 DFS 进行更精确的动态特征选择

8. 与最先进方法的比较

8.1 KAIST 数据集(行人检测)

image-20251206182430640

表 IV. KAIST 数据集 “All” 设置下不同尺度、遮挡程度与光照条件的 MR2\mathrm{MR}^{-2}(%,IoU=0.5 与 0.7)。

  • IoU=0.5 下:

    • RSDet 在 All / Day / Night 三个总体设置上均取得最优漏检率
    • 在 near / medium / far、none / heavy 等绝大多数子集上表现最好
    • 尤其在 far 子集上,相比第二优方法约提升 11.72%,说明其对远距小目标具有显著优势
  • IoU=0.7 下:

    • 所有方法在 near 子集下原本 MR2=0\mathrm{MR}^{-2}=0,随着 IoU 提升,漏检率均有上升
    • 其他方法漏检率上升区间约为 16.98%–25.19%,而 RSDet 仅上升 11.81%,显示更高定位精度与鲁棒性

MR–FPPI 曲线(图 10)进一步表明:

image-20251206182452629

图 10. KAIST “All” 设置下 RSDet 与其他方法的 MR–FPPI 曲线对比。

  1. RSDet 在全范围内拥有最低的漏检率曲线
  2. 在低 FPPI 区域仍能保持显著优势,兼顾高精度与低误检
  3. 曲线较为平滑,说明模型在不同阈值下表现稳定

8.2 FLIR 数据集

image-20251206182506212

表 V. FLIR 数据集上不同方法的 mAP50\mathrm{mAP}_{50} 与 mAP 对比。

  • 单模态 RGB / IR 方法整体性能低于多模态融合方法
  • RSDet 在 RGB–IR 方法中取得 83.9% mAP50\mathrm{mAP}_{50}43.8% mAP
    • 比第二优 RGB–IR 方法分别高出约 4.7%mAP50\mathrm{mAP}_{50})与 2.5%(mAP)
    • 说明由粗到细融合策略在城市交通等复杂场景中具有明显优势

8.3 LLVIP 数据集(低光条件)

image-20251206182519445

表 VI. LLVIP 数据集上不同方法的性能对比(mAP,%)。

在 LLVIP 极低照度场景中,通常出现以下现象:

  • RGB 模态质量显著下降,RGB–IR 融合方法反而受到 RGB 噪声干扰
  • 许多现有 RGB–IR 方法性能甚至不如单 IR 模态检测器

RSDet 在 LLVIP 上实现:

  • mAP50=95.8%\mathrm{mAP}_{50} = 95.8\%,mAP = 61.3%
  • 相比第二优 RGB–IR 方法,分别提升 1.2%2.1%

这说明:

  • RSR 有效抑制了低质量 RGB 特征对 IR 的干扰
  • DFS 能够在低照度条件下更倾向于选择 IR 特征,从而稳定提升多模态检测性能

9. 总结与思考

9.1 方法优点

  1. 认知理论支撑的由粗到细融合视角

    • 将 Treisman 衰减模型中的“先衰减后精细加工”映射到多模态特征融合流程,提供了较为明确的理论动机。
  2. 频域冗余光谱去除(RSR)的可解释性与通用性

    • 操作于输入图像层面,与下游检测器结构解耦,具有较好的可插拔性。
    • 滤波器可视化与 SNR 指标均表明其主要抑制背景与噪声,而尽量保留目标区域。
  3. 动态特征选择(DFS)的尺度感知能力

    • 通过门控网络 + Router + 专家混合,在多尺度、多模态上实现动态路由,能够显式选择更可靠的模态与尺度。
    • 相比复杂的跨模态注意力模块,DFS 在参数量与 FLOPs 上更为经济,性能–效率折中良好。
  4. 共享–特定表示与互信息约束

    • 引入显式的共享–特定分解,有助于避免模态特定信息被过度“平均化”,保留 RGB 与 IR 的互补优势。
  5. 实验验证充分

    • 在三大主流 RGB–IR 检测数据集(KAIST、FLIR-aligned、LLVIP)上均取得 SOTA 性能。
    • 消融实验、滤波器设计比较、可视化分析较为完整,支持提出方法各组件的有效性。

9.2 可能的局限与改进方向

  1. 频域操作的计算与实现复杂度

    • RSR 需要对整幅图像进行 DFT/IDFT 操作,虽然在当前分辨率下仍可接受,但在更高分辨率或实时系统中可能成为瓶颈。
    • 后续可探索局部频域变换或可学习的小波/变换替代,降低计算开销。
  2. 滤波器粒度与自适应性

    • 当前滤波器以固定 patch 划分与 Top-K 选择为主,仍然较为粗糙。
    • 可尝试引入任务自适应的频率划分或更细粒度的频域注意机制,以捕获更复杂的细节差异。
  3. 与 Transformer / 单阶段检测器的兼容性

    • 论文主要在 Faster R-CNN + ResNet-50 框架下验证。
    • 在通用性方面,可进一步探索与 Transformer-based 检测器(如 DETR 系列)或单阶段检测器的结合效果。
  4. 路由机制与阈值超参数

    • DFS 中的阈值 tt 需人工设定,不同数据集可能需要调节。
    • 后续可考虑引入可学习阈值或连续门控(如 Gumbel-Softmax)以减轻手工超参数依赖。
  5. 扩展到更多模态与任务

    • 当前工作聚焦于 RGB–IR 双模态目标检测。
    • 从方法本身看,RSR 与 DFS 的设计具有一定通用性,潜在可扩展到 RGB–Depth、SAR–Optical 甚至多模态语义分割、跟踪等任务,值得进一步研究。

10. 小结

本文提出的 RSDet 从“先在频域去除冗余信息,再在特征域进行动态选择”这一由粗到细的视角重新审视 RGB–IR 特征融合,分别在输入层与特征层引入 RSR 与 DFS 两个关键模块,并结合共享–特定表示学习与互信息损失,构建了一套完整且具有解释性的多模态检测框架。大规模实验结果表明,该方案能够有效抑制模态冗余、增强互补融合,在高难度场景下显著优于现有方法,为后续多模态检测与多模态频域建模提供了有价值的思路。